阅读视图

发现新文章,点击刷新页面。

MiniMax 推出了 Mavis,活脱脱的 Agent「三省六部」

我下了一个任务,agent 开启了 plan 模式,规划了 7 个步骤。

我批准了,它开始跑,跑了三个步骤,然后停下来汇报:「我已经完成了 1、2、3,结果有这些和哪些……请问是否继续 4、5、6、7?」

我说继续。它又跑了两步,然后又停了下来:「我已经完成了 4、5,结果有这些和哪些……请问是否继续 6、7?」

一个晚上下来,让 agent 干点长程的任务,并没有长程的效果,对话框来回来去的全都是「继续」。

很长时间以来,我在使用各种 Agent 完成工作,就是这样的体验。

这种体验很不合逻辑。虽然「停下来确认」是个与 AI 共事时的好工作习惯,但在很多任务当中我从来没主动要求它停,但它就是会停下来。

MiniMax 在最新的技术博客文章中,将 agent 产品的这种行为归因于「上下文焦虑」。核心在于,模型本身对于「超长任务啥时候才算做完」的判断是模糊的。说白了,不是不会做,而是不敢做,每完成一步都怕做错,所以才会干一半就停下来问。

今天,MiniMax Agent 桌面端完成了一次重大更新。新加入了一个名为 Mavis 的模式(其实它是「MiniMax as a Jarvis」的缩写)。

要知道让一个 agent 当老板,一组 agent 当员工——这种传统的多 agent 框架已经不是什么新鲜事了。但 MiniMax 指出,此前的主流多 agent 框架,其实本质上就是靠提示词编排来让模型玩「角色扮演」role play。但这种做法撑不了多久,就会遇到包括前面提到的上下文焦虑、长程任务退化、自检等难题。

多 Agent 系统,需要一套持续运行、持续维护,并且多个 agent 之间不会「媾和」的可靠基础设施。这就是 MiniMax 在做的事。

实测体验:让 agent 给对方「挑刺」

MiniMax 给它的 Agent Team 基础设施起的名字叫做 Team Engine,引擎下面挂着三类核心角色:Leader、Worker、Verifier。顾名思义,一类做管理,一类干活,一类验收。

最关键的差异在于,Worker 和 Verifier 之间是「对抗」的关系,谁也没法蒙混过关。

前段时间,APPSO 正好在研究一个课题:「所有对 Coding/Agent 有所抱负的模型厂商,都要做自己的独立 Coding/Agent 产品」。

(没错,MiniMax 在此之前是个反面案例,但没想到文章还没发出来,就已经证明自己了!)

于是我们又用这个课题再在 MiniMax 的 Agent Team 上跑了一次。

这个任务拆分出了 5 个 worker,每个 worker 完成任务后,都会整理结果交给 leader(显示状态「Mavis 发给 General」或者「General 发给 Mavis」等等。)

有一个 worker,运行了 12 分钟还没有返回结果。APPSO 注意到,这个 leader等不及了,于是发了一条 bash 命令检查其工作状态:

在 5 个 worker 都完成后,leader 又生成了 5 个 verifier——在任务列表中显示为带着「小黄帽」的 agent:

Verifier 很快就找到了错误!其中一个 verifier 发现了对应的 worker 交付成果中存在明确的数据错误,给出了「失败」的判罚。紧接着,与之对应的 worker 重新启动(显示为运行中,会有一个蓝色小圈的标识)。

点进对应的 worker 工作区观察一下它的思考过程:「verifier 拒绝了我之前的交付成果,基于以下三个错误……我需要返回去重新核查关键事实,并检查修正具体的数字问题……」

还别说,agent 跟 agent 之间「铁面无私」,工作起来真的可靠。

这样的来来回回,在五组 1v1 的 agent 对抗当中,总共发生了数十次。过程中,Mavis 还表示这次「学到了新东西」,并顺手更新了一下记忆。

上一个任务先跑着,我们再开启一个新的深度研究,基于权威口径数据分析五一假期的旅游市场,并交付一份多维度分析报告。

这个研究比刚才的任务更加复杂。而且因为要持续对抗,Agent Team 在深度研究上所花的时间,也远比一般的单 Agent 要长。

但最终呈现的报告,和其它 AI 深度研究交付的内容相比起来,确实干净不少,也更加可信。

最近 APPSO 筹备了很多场线下活动,做策划想方案一直是个难题。我们也把这个任务交给 Mavis 看看效果怎么样。

我需要策划一场在广州举办的 AI 开发者线下沙龙,请你尽可能全面的给我提供多个适合百人千人科技活动的场地及大概报价,以及抓取同类活动的信息,然后帮我策划这张 AI 活动的主题,宣传,运营整个全部的工作,帮我把这些都整理成一份严格的商业计划书格式,以及一个符合主题特色,设计精美的网页。

光是制定计划的时间,就比之前的深度研究任务要长。Mavis 回复「这个任务规模很大,需要多个 Agent 并行工作——场地调研、竞品抓取、主题策划、商业计划书、网页开发。」

Mavis 的过人之处,就在于我们还可以持续追加新的需求:

给我长报告的同时,最好还能给我起草一份初步的正式合同,和场地的合作、以及和邀请嘉宾的合作、等等可能涉及的合同,还有前期的财务表格,再给我一份用来汇报这套方案的 PPT,越详细越好。

Agent Team 收到新需求后,会进一步完善计划并启动更多的工作流,最后,我们启动了多达 9 个并行任务。

我们点开 Mavis 的思考过程,能看到里面有大量的 agent 之间互相发送的消息,这些 Agents 会在专门的 Team Engine 下工作,传递彼此的状态,有的在等待、有的在执行、有的在验证。

你看这个 Verifier,像不像吹毛求疵的「甲方」?

最终整个任务交付的文件数量达到了惊人的 10 多个,包括 xls、ppt、html 网页,以及对应的 .md 版本。

▲ Agent Team 生成的财务预算表格,包括项目预算总表、现金流预测、票价和赞助定价模型,以及成本明细台账。

接下来再说一下这次 Mavis 的另一大特性:能连接到聊天平台,还支持多任务。

和 MiniMax 此前已经支持的 OpenClaw、Hermes Agent 类似,Mavis 本身也可以通过微信、飞书这两个 IM 管道来实现任务分配。接入流程也极度简化,只要点击设置按钮、扫码、命名,我们就能在微信/飞书里面使用 Mavis 了。

一般的 Agent 产品连接到 IM 当中里,我们给他安排一项需要长时间完成的任务,往往是消息发送之后,就不能再和他咨询别的问题。

一部分原因,在于这些 agent 时无法同时打开多个对话窗口;另一个原因则是 agent 工作模式的限制,在一个会话里运行多个任务,极易出现语境错乱的情况,导致上下文污染。

MiniMax 的解决方案,是把「秒回」和「执行」的逻辑解耦。

APPSO在飞书里让它研究一下最近石油涨价;任务开始之后,我又让它研究最近一个月硅谷 AI 巨头发布的重要产品。

Mavis 没有停止之前的任务,直接告诉我新任务已经完成了,而石油涨价的任务还在处理。

这正是 Mavis 的另一大设计理念:上下文隔离的好处。

每个 Agent Team,以及 team 里的每个 agent,都只看到跟自己任务相关的信息摘要,只有需要细节的时候才会去读全文。

这么做一来 token 成本受控,团队规模再大,上下文也不容易撑爆;二来防上下文污染,agent 在搜索中接触到的错误信息不会让全队阵亡。

在最极限的场景下,我们试过通过飞书在极短时间内给他分配 8 个任务,都没有发生语境错乱的情况。

整个体验,很像跟一个认知带宽极高的同事共事:不仅能秒回信息、同时后台干活也不会被打断。想了解一下进度,大可直接问,不用担心干扰它的「心流」。

处理不同会话的 Agent,只看到和自己任务相关的信息,不会共享一个不断膨胀的对话历史。

可以说,Mavis 实现了一个从 IM 渠道,到任务中枢,再到分子任务里的每个分子 agent——端到端的上下文隔离。

最后,它在解答 AI 大厂本月新发布和具身智能重要产品的同时,也顺利完成了石油任务这条主线程,给了我们一版详细的报告,里面甚至提到最近日本薯片包装要变成黑白的消息。

经过实测之后,你有没有发现,Mavis 这套编排策略,其实有点像此前火过一阵的「三省六部」skill?

每个角色做什么,何时启动、何时交接,将会由引擎层面的状态机来决定,而非模型的黑箱自己「拍脑门」说了算。

说白了,这就是在多 agent 工作编排当中,用工程层面的可控性、严密性、确定性,来根治模型的不可控、随机性。

这种思路,彻底解决了过去的 agent/模型「既当裁判又当选手」的经典问题。

额度统一,Agent 管够

实测 Mavis 之后,再说说 MiniMax 做的另一件同样重要的事情,影响所有的付费用户:这次,Token Plan 和 Agent Plan 合并了。

合并了之后,无论是普通用户的「日常使用」,比如官网上和 App 里对话和使用 Agent,还是接入官方 API 来调用其他工具(例如 coding 产品或 OpenClaw/Hermes Agent)——现在都可以使用统一的套餐额度了。并且,无论是 M2.7 以及后续的旗舰模型,还是音乐、视频、语音的多模态模型,全部包含在这一个套餐之下。

所有额度共享,怎么花用户可以自己说了算。MiniMax 还给出福利:此前同时订阅两个方案的用户,将会额外送一个月的会员。

为什么要做这件事?站在用户视角其实还是很合理的。

说白了,Agent 时代,用户付费动机来自于对「模型算力」的需求,而这些需求的场景随着模型在 coding、agent、多模态能力上的提升,只会变得愈发多元,会自然而然地发生在模型厂商的产品里(官网、独立产品、CLI)以及产品之外(接入外部 API 的独立部署的 agent)。

这其实也是各大 AI 巨头都在面对的问题:OpenAI 目前用户订阅和 API 计费还是分开的,Anthropic 同样;至于更小的 agent 创业公司,则是用自己的订阅费用去代替用户支付支付底层的 api 费用。

这一次,MiniMax 先一步把自己产品矩阵内部的墙拆掉了。而 APPSO 认为,在模型极度商品化、用户总是一窝蜂涌向最新、最便宜模型 API 的今天,这种统一套餐的策略,反而有助于为模型厂商维护用户忠诚度。

再回到产品本身。

如前所述,APPSO 正在写一篇关于「对 coding/agent 认真的模型厂商,必须要做自己的 coding/agent 产品」的文章。MiniMax 可以说是虽迟但到。

在今天,Mavis 也不是第一个押注多 agent 架构的产品。在过去半年里,ChatGPT、Manus、Genspark 等公司都参与到这场「多 agent」的战争当中。

而在实测跑完之后,APPSO 的感受是,Mavis 在「产品自己跑完一个极复杂/极长程任务」这件事上,做的比同行效果更好、架构也更稳定。当其它产品的多 agent 停留在提示词编排、拆任务上的时候,Mavis 做出了工程层面的对抗式硬约束——这带来的体感差异,足够明显。

不过,这套架构看起来美好,也有绕不开的现实:贵。

MiniMax 在技术博客中提出了多 agent 的「共识成本」(Cost of Consensus) 。用人话来说,几个 agent 彼此「制衡」,的确让工作过程和结果更靠谱,但取得共识的过程是有成本的,token 消耗数倍于单一 agent;而且就像吵架一样,吵急眼了也有可能偏离主题,准确率不升反降。

根据 MiniMax 梳理,其 Agent Team 架构具体来说有三类成本:

一是交接成本。信息在 agent 之间传递时需要重新组织,每次交接都要把信息「翻译」为下一个 agent 能用的形态,耗费 token;

二是共享(上下文信息的)成本。上下文隔离设计,一定程度上就是为了控制这一成本。但即便每个 agent 只看其他 agent 传递过来的「摘要」,随着 Agent Team 的量级扩大,存储和分发摘要都会带来成本。

三是聚合成本。其实这个道理,APPSO 一直很想跟大家讲:别以为那种成百上千个 skill、设计了极其复杂的「三省六部」制度的工作流就是卍解——很多时候并非如此,反而可能中了 token 厂商的计……你的确让工作变得更细致了,但你同时也需要花更多的 token去聚合和整理最终结果。

这些成本加起来,意味着多 agent 这件事从来不是「越多 agent 越好」的简单逻辑。

但换个角度看:信息交互越复杂的工作,往往本身价值就越高。一份需要多方核查、反复校验的深度研究报告,和一个随手问的问题,或许就不应该用同一套逻辑去衡量成本。Mavis 贵,贵在它认真,而认真处理的那些任务,本就值得这个价。

宁愿花更多成本去确保万无一失,也不愿意糊弄了事,这才是复杂任务背后的高价值用户所看重的。

当然,MiniMax 团队也做了一些工程设计去避免程序冗余带来的 token 浪费。

MiniMax 对用户的建议是:Agent Team 是为「贵且复杂」的任务准备的,是一个策略选项,而非默认选项。用户自行判断任务的复杂程度、链路长短、风险、经验复用的价值——这些越高,越值得用 Agent Team。反之,完全可以用单 agent,甚至普通的 chat。

多 Agent 一定多聪明吗?非也。但 Mavis 的意义,是让那些真正复杂、知识密集型的任务,不给模型自己拍脑门,而是交给一套经过验证的,有对抗、有核查、有权责划分和奖惩制度的工程系统。

它不一定让 AI 变得更聪明,但绝对会让 AI 更难偷懒——这也是大模型本身长期存在的老大难。

毕竟在真正的人际工作中,我们其实真的不需要同事多聪明……只是别偷懒,别耍小聪明,往往就够了,不是吗?

文|杜晨、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一个月烧掉 930 万元 Token 的人,也没烧出个答案

龙虾之父一个月消耗 6030 亿 Token,总花费金额高达九百万人民币。

移动联通电信,三大运营商都在推 Token 套餐,199 送千兆宽带还有 1 亿 Token,了解一下?

从硅谷到国内大厂,Tokenmaxxing 成为公司的主流,谁消耗 Token 多,谁就是 AI 时代的好员工。

00 后校友向母校捐赠 20 亿 Token,被网友调侃按 DeepSeek 5 元/亿 Token 计算,只要 100 元。

▲图片来自新浪财经

Token 在半年内完成了一次身份跃迁:从技术术语,到 KPI,到话费套餐,到捐赠货币。它成了 AI 时代的「度量衡」,唯一的问题是,没人说得清它到底在度量什么。

我们自己买 Token,用公司的 Token,部署了一堆 Agent,代码、论文、周报都是 Token 烧出来的。

而另一边是,大厂的员工由于 Token 消耗排行榜的原因,开始拿着公司的 Token 处理私事、玩游戏、开发数十个没什么用的子 Agent 来提升自己的排名。

「回报」这件事很难量化,但「使用量」可以量化。

于是所有人都选择了那个容易量化的东西。这不是 AI 时代的新问题,这是管理学的老病。

用 AI 消灭狗屁工作的公司,正在制造新型狗屁工作

亚马逊,那个裁员裁到大动脉,把自己的网站都变成 404 的小狗,最近又被爆出了新的「笑料」。

原本被寄予厚望、用来消灭「狗屁工作」的 AI,最终却沦为制造新型「狗屁工作」的源泉。

据《金融时报》报道,为了逼迫员工拥抱 AI,亚马逊搞出了一个极其复古的管理手段:「Token 消耗排行榜」,追踪每个员工的用量。

公司强制要求超过 80% 的开发者每周必须完成 AI 使用指标,甚至将消耗 Token 的数量作为考核标准。

▲图片来源:The Information

打工人的反应也很直接,既然公司用这种指标来考核,大家干脆用魔法打败魔法,开启了「Tokenmaxxing(最大化消耗 Token)」战术。

刚好亚马逊内部上线了一个叫 MeshClaw 的 AI Agent,它能发起代码部署、整理邮件、操控 Slack。公司内部备忘录里描述它是:「它在夜间做梦来整合白天所学,在你开会时监控你的部署,在你醒来前替你分类邮件。」

于是 MeshClaw 就成了一个刷排行榜的工具。开发者开始用它来规划旅行、处理私人邮件、让 AI 分析产品经理在 Slack 上说的蠢话。

在职场匿名社区 Team Blind(一个面向 Google 和苹果等公司认证员工的留言板)上,一位亚马逊员工的发言被疯狂点赞。

我疯狂燃烧 Token,就是为了骂我的产品经理。每当他在 Slack 里说屁话,我就把聊天记录扔给 AI,启动 10 个子智能体去全方位深度分析并吐槽他。这绝对是 GPU 算力的完美用途。

亚马逊在回复《金融时报》时提到,MeshClaw「每天帮助数千名员工自动化重复性工作」,公司「致力于负责任地部署生成式 AI」。同时,公司表示 Token 统计数据不会用于绩效评估。

但员工的说法是:「经理在看这个数据。当他们追踪用量时,就会制造扭曲的激励,有些人在这上面很有竞争心。」

公司说不算 KPI,但经理偷偷在看。这和大厂说「年终奖与 996 无关」是同一个套路。

不只是亚马逊,Meta 员工也在做同样的事。

早在四月份,The Information 就曾报道,Meta 公司的一名员工利用内部数据,在公司内网创建了一个仪表盘,让同事们可以竞争成为公司排名第一的 AI Token 用户。

这份排行榜汇总了超过 85000 名 Meta 员工的人工智能使用情况,并列出了排名前 250 位的超级用户,其中扎克伯格没能进入前 250 名。

而这份排行榜在两天后就下架了,Meta 在回应媒体查询时发声明,「该员工自行决定撤下仪表盘;Meta 并未要求采取此行动。」

当你笑完这份排行榜的不合理之处,转念一想就会发现,这其实是大多数公司的现状。还没想好 AI 怎么发挥作用,但是就先裁员了;还没想好 Token 怎么用,就匆忙把它作为生产力的衡量工具。

一个月 6000 亿 Token 烧出了什么

Token 消耗排行榜的荒诞还没消化完,更魔幻的事又来了。

三位 00 后校友向母校郑州西亚斯学院捐赠 20 亿 Token,网友按 DeepSeek 的价格算了算,说这就值 100 块。

后来有媒体澄清,这 20 亿 Token 不只是 API 调用量,还包括生成工具使用权和平台积分。但「捐 Token」这件事本身已经够魔幻了。

三位校友说自己实力还不够捐教学楼,所以捐 Token。这个时代的慈善逻辑也在刷新:捐不起楼,捐算力。

Token 存在的价值在刷新,Token 的使用边界也在刷新。

GitHub 前 CEO、现任 Meta 超级智能实验室 CEO Nat Friedman,在一场公开活动上讲了个故事。某天,他的 OpenClaw 判断他喝水不够,他随手给了指令:「不惜一切代价确保我补充足够的水分。」

▲ 网友的评论是:他是不是喝多了

OpenClaw 很快行动了。它指示他去厨房喝一瓶水,顺带告诉他,正在通过家里的摄像头监控他是否真的去喝了。他照做之后,OpenClaw 发来一张他喝水的截图,附言:「干得好。」

原本只是手机设置一个提醒每日喝水,但现在是 Token 疯狂地燃烧,调用摄像头来为「提醒你喝一杯水」服务。

而当 Token 的消耗不再重要,不需要考虑 Token 的价值和使用边界,我们又会拿他来做点什么。

OpenClaw 最近有意思的事,还得是龙虾之父 Peter Steinberger 周六在 X 的分享,他发了一张 CodexBar 的截图,配文「CodexBar 最新更新让 API 费用显示得更加友好。」

但很快有网友发现这张截图了不起,三十天用了 6030 亿 Token,累计消耗的金额更是达到了 130万美元,约合人民币 930 万。

评论下面都是各种质疑,交付了多少代码,消耗的 Token 和最终能用的代码之间比例是多少?到目前为止,你做出了什么有用的东西吗?要不是入职 OpenAI,Codex 这 Token 能让你这么消耗吗?

兄弟,你最好拿出点儿价值百万美元的工程师都做不到的东西,不然这可能就是前沿实验室泡沫破裂的开端了。而且这还是补贴价格,我的天。如果是实际成本,价格肯定更高。

龙虾之父在评论区回复了这些声音,他提到如果关掉 Fast Mode,成本就能降 70%。而且,自从 OpenClaw 被 OpenAI 买走之后,负责该项目就只剩下三个成员,他们在 Codex 上运行了 100 个实例。

这些实例会自动处理软件开发流程中的各种问题,像是代码的提交、Bug 修复、功能的更新等。

但是光看 OpenClaw 的更新,真的需要 130 万美元来支撑吗?他又提到自己在做一些除了 OpenClaw 之外的创业项目,以及他是在探索一个问题:如果 Token 成本不重要,软件会怎样被构建。

这个好问题。但 130 万美元花下去之后,他也还没有得到答案。

这可能是 2026 年最贵的一个问号。

即便是有无比丰沛算力的人,现在似乎也不知道这些 Token 可以用来做什么。

大厂高管们看着财报上巨额的 GPU 采购费,迫切需要向董事会证明这笔钱没白花。既然「重构真实业务流」太难、太慢、太需要魄力,那就退而求其次,去考核「Token 的消耗量」。

员工们甚至一开始就没被问过「你觉得 Token 该怎么用」,他们被问的是「你这周用了多少」。

当一个工具的考核标准是「消耗量」而不是「产出」,它就不再是工具了。它是燃料,唯一的使命就是被烧掉。至于烧完之后驱动了什么,没人真的在意。

因为一旦认真追问,很多人会发现,自己烧掉的那些 Token,和年初裁掉的那些人一样,都没换回任何东西。

我们正在经历的,是一场所有人都假装看懂了规则的游戏。公司假装知道怎么用,员工假装在认真用,投资人假装看到了回报。

唯一真实的,只有不断超支的账单。

Token 终究会找到它真正的用途,成为真的「新质生产力」。但那一天到来之前,我们在烧掉动辄上亿的 Token 之前,可以问问自己真的有必要吗

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

谷歌用 AI 「杀死」谷歌,这场发布会看得人缺氧

Gemini App 月活超 9 亿,月 Token 处理量每月 3200 万亿,Nano Banana 生成超过 500 亿张图片……

在今天凌晨刚刚结束的 Google I/O 大会上,Google CEO  Pichai Sundar上来就抛出了这些数字。

过去一年,AI 成了所有行业的主旋律,Gemini 在 Google 的定位,也开始从一个独一的 App,成了所有 Google 产品里的最重要的 AI 底层能力。

这次发布会也先从模型开始,进一步带到 Coding 和 Agent 产品。

Gemini Omni 把 Google 的视频生成推向「世界模型」方向,Gemini 3.5 Flash 则是和 AI 编程工具一起推向 Agent 开发平台。

这两个能力随后进入 Google 的完整生态,搜索、Gemini App、Flow、Spark、Chrome、XR 眼镜和电商场景。

Gemini Omni 登场,视频界的「Nano Banana」时刻来了

发布会最先被重点展开的是 Gemini Omni。

DeepMind CEO 将 Gemini Omni 描述为一个能够「从任何输入创造任何内容」的新模型。它把 Gemini 的推理能力与 Google 既有的生成式媒体模型结合起来,目标是提升模型对世界的理解、多模态生成能力和编辑能力。

Google 强调,Veo、Nano Banana、Genie 等模型已经能生成视频、图片和交互式模拟,但 Gemini Omni 更进一步,开始处理动能、重力等更接近物理世界的问题。

发布会现场展示的案例包括蛋白质折叠解释视频。用户只需要输入类似「生成一个关于蛋白质折叠的黏土动画解释」的提示,Omni 就能把抽象科学概念转化成视频内容。

它还支持更自然的视频编辑。用户可以上传自己的视频,再用对话方式修改风格、加入元素、调整细节,甚至把一个普通圆形转成黑洞,把夜晚散步场景变成更具戏剧感的画面。

Google 的说法是,Gemini Omni 先从视频开始,之后会逐步走向「任意输入到任意输出」。这也是 Google 一直把 Gemini 设计成多模态模型的原因。

首个 Omni 家族模型 Gemini Omni Flash 已在上线到 Google 产品中,Omni Pro 会在之后公布更多信息。Gemini App 中的 Omni 功能也面向 Google AI Plus、Pro 和 Ultra 订阅用户开放。

这意味着,Gemini Omni 不只是一个视频生成模型。Google 想把它放进「世界模型」的叙事里:模型不仅生成画面,还要理解画面中的物理关系、运动关系和场景逻辑。

在进入 Gemini App、Google Flow 和 YouTube Shorts 这些应用之后, Omni 也会让 Google 的生成式创作工具从图片编辑扩展到视频编辑。

Gemini 3.5 Flash 上线,AI 写代码进入极速模式

如果 Gemini Omni 对应的是生成和编辑,Gemini 3.5 Flash 对应的就是速度、成本和执行能力。

Google 在发布会上推出 Gemini 3.5 Flash,称它是 Gemini 3.5 系列第一批模型之一,重点面向 agentic coding、长周期任务和真实工作流。

相比 3.1 Pro,3.5 Flash 在几乎所有基准测试中提升明显,尤其是代码能力,以及 GDPVal 这类更接近真实经济任务的评测。

Google 还强调,3.5 Flash 在输出 tokens 速度上比其他前沿模型快 4 倍,在 Antigravity 中经过专门优化后,速度可达到 12 倍。

值得一提的是,今年 3 月,Google 内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已经超过每天 3 万亿 tokens。Google 把这称为一个反馈循环,用大规模真实使用继续改进 3.5 Flash。

与模型同步推出的是 Antigravity 2.0。

它从原来的 agent powered IDE,升级为一个独立桌面应用,重点转向 agent first。用户不再只是让 AI 在编辑器里辅助写代码,而是通过 Agent 对话、Agent 产物和多 Agent 协同来完成开发任务。

Antigravity 2.0 加入完整 CLI、Antigravity SDK、Gemini 音频模型原生语音支持,并集成 Android、Firebase、Google AI Studio 等服务。Antigravity 2.0 作为独立桌面应用,也已经面向全球用户开放。

Google 在现场用一个高强度演示解释 Antigravity 2.0 的方向:让 Agent 从零构建一个可运行操作系统。这个任务由 93 个子 Agent 并行执行,持续 12 小时,发起超过 1.5 万次模型请求,处理 26 亿 tokens,从空项目生成调度器、内存管理、文件系统等核心模块。

Google 称,这件事在 Gemini 3.1 Pro 上无法完成,而使用 Gemini 3.5 Flash 消耗不到 1000 美元 API credits。

现场还演示了这个系统运行 SL 小火车程序和 Doom。由于系统最初缺少视频和键盘驱动,Antigravity 又继续生成相关代码并修复,让 Doom 能够运行。Google 还称,类似方式已经测试过照片编辑套件、实时消息应用、多用户协作平台等项目,原本需要多天的工程工作被压缩到数小时甚至更短。

Gemini 3.5 Flash 已面向所有用户开放,覆盖 Google 产品和 API。Gemini 3.5 Pro 仍在内部使用和改进中,预计下个月开放。

从搜索框到信息 Agent,Google 重做 AI 搜索

模型和开发工具之后,Google 把重点转向搜索。Google 搜索也就是 AI 搜索。

Google 表示,AI Mode 已经超过 10 亿月活,查询量自推出以来每季度翻倍。

今天起,AI Mode 升级到 Gemini 3.5。新的智能搜索框也从当天开始推送。它支持文本、图片、文件和视频输入,并在用户输入问题时给出 AI 建议。

AI Overviews 和 AI Mode 也被合并成更连续的 AI 搜索体验。用户可以先在主搜索结果页看到 AI 回答,再进入 AI Mode 继续追问,上下文会被保留。这个新搜索体验已在发布会当天面向全球桌面端和移动端上线。

更大的变化是搜索 Agent。

Google 表示,用户今年夏天可以在 Search 中创建信息 Agent,让它持续跟踪某类信息。例如,用户可以让它监控市盈率低于 15、现金流为正、负债较低的大型生物科技股票;也可以让它长期跟踪租房信息、球鞋联名和商品上新。当条件变化时,Agent 会给用户发送综合更新。

Google 还把 Antigravity 的 agentic coding 能力带入搜索。

之后搜索不只返回网页、摘要或卡片,也能为具体问题生成交互界面。比如用户问「黑洞如何影响时空」,Search 可以生成一个交互式视觉组件;继续追问「双黑洞如何产生引力波」,Search 会重新生成一个可调参数的动态界面。Generative UI with Antigravity 将在今年夏天面向所有用户免费推出。

更复杂的自定义体验也在路上。

Google 现场展示了一个周末计划器,Search 会结合天气、地图、用户偏好、Gmail、Calendar 等信息,生成一个可以继续修改、分享和同步日历的小型工具。这类自定义体验将在未来几个月先面向订阅用户开放。

关机也能跑,Gemini Spark 把 Agent 能力搬进个人生活

消费端最重要的新产品是 Gemini Spark。

Gemini Spark 是一个个人 AI Agent,运行在 Google Cloud 的专用虚拟机上,可以全天候执行任务。它由 Gemini 3.5 和 Antigravity harness 驱动,支持长时间后台任务。

用户关掉电脑后,Spark 仍能继续工作。它先接入 Google 自家工具,未来几周会通过 MCP 接入第三方工具。

发布会展示了 Spark 的几个典型场景。

用户可以让它汇总过去一周 Gemini Live 的发布和进展,从 Docs、Gmail 和聊天记录里提取信息,再用个人写作风格生成团队邮件。也可以让它管理街区派对,维护 Google Sheets RSVP 表格,跟踪谁带了什么东西,给没报名的邻居生成提醒邮件草稿,并自动生成 Google Slides 宣传页。

Spark 还支持手机端语音输入。

用户可以一次说出多项任务,比如把所有与 Sundar 的会标成亮粉色,给新邻居写邀请信,创建孩子学年结束前待办文档。Spark 会把这些内容分成多个独立任务,并在后台执行,结果可以在手机和电脑之间同步。

Gemini Spark 本周面向可信测试者开放,下周以 beta 形式面向美国 Google AI Ultra 订阅用户推出。

Google 同时推出每月 100 美元的新 Ultra 计划,并把最高档 Ultra 计划从每月 250 美元降至 200 美元。今年夏天晚些时候,Spark 将进入 Chrome,成为能在网页中执行任务的智能体浏览器。

Gemini App 大改版,还有 Google 版「AI 晨报」

Gemini App 本身也迎来了一次脱胎换骨的大改版。

Google 引入了全新的设计语言 Neural Expressive,加入流体动画、鲜艳色彩、新字体和触觉反馈。

新版 Gemini App 不再把回答呈现为大段文字,而是会根据内容实时生成更适合阅读和操作的布局,包括交互图片、时间线、嵌入式视频等。Neural Expressive 现在已经在 Android、iOS 和网页端全球推送。

Gemini Live 也被重做,打开后可以直接进入实时对话。区域口音选择将在未来几周推出。

Gemini App 还加入 Daily Brief。这是一个面向早晨使用的个性化摘要 Agent,会综合 Gmail、Calendar、Tasks 等信息,整理用户当天需要关注的事项,并给出下一步行动入口。

Daily Brief 今天起面向美国 Google AI Plus、Pro 和 Ultra 订阅用户推出。

在更大的 Gemini 叙事之外,Google 也更新了几个日常产品。

Google Maps 最近完成十年来最大升级,并加入 Ask Maps。它允许用户提出更长、更复杂的问题。例如,发布会举了一个场景:孩子掉进鸭塘,婚礼 30 分钟后开始,用户想知道哪里可以步行买到新裙子。

Docs 也获得新的语音创建能力。用户不需要输入精确提示词,可以直接用语音把想法说出来,让 Gemini 从 Drive 调取简历,从 Gmail 找到活动信息,再生成 Google Docs 草稿。这个能力将在今年夏天面向 Pro 和 Ultra 订阅用户推出,同类语音能力也会进入 Gmail。

生成能力升级后,内容来源识别也变得愈发重要。

Google 称,SynthID 推出三年来,已为超过 1000 亿张图片和视频,以及相当于 6 万年时长的音频加上不可见水印。接下来,SynthID 和内容凭证验证会扩展到 Search 和 Chrome。

用户可以通过圈选搜索,或者在 Chrome 中右键询问内容是否由 AI 生成,系统会显示内容来自 AI、相机,还是曾被生成式 AI 工具编辑。

Google 还宣布,OpenAI、Kakao 和 ElevenLabs 将采用 SynthID 2。此前英伟达已经加入 SynthID 体系。对 Google 来说,SynthID 不只是安全功能,也是争取 AI 内容透明标准的一部分。

Google 创作全家桶,开始围攻图片、设计和视频

在创意工具领域,Google 密集发布了多款重磅产品。

Google Pics 是 Google Workspace 中的新图片创建和编辑产品,面向派对海报、信息图、宣传图等场景。用户可以从一张基础图开始,删除元素、调整对象大小、编辑文字和翻译文字。Pics 生成内容会带有 SynthID 水印。Google Pics 将在今年夏天推出。

设计产品 Stitch 也迎来更新。用户可以通过一句 prompt 生成网站或应用界面,再通过文字或语音继续修改,比如放大标题、调整菜单、突出更多披萨选项。Stitch 支持把设计导出为代码,或直接发布网站,相关更新现已发布。

Google Flow 的更新尤为关注。Gemini Omni 进入 Flow 后,用户可以基于原始视频改变环境、添加视觉效果、加入新角色,同时尽量保留原有表演。

Flow 还加入新 Agent,支持一次执行多个动作。比如从单张图片生成 16 个不同机位的视频,或把一组清晨场景批量改成深夜场景。

Flow Tools 则允许用户在 Flow 中创建自己的创意工具,比如视频特效、手绘动画和文字分层工具,并支持分享和 remix。

Google Flow Music 可以把一段钢琴 riff 扩展成带风格方向的音乐 demo。Google Flow 和 Google Flow Music 的这些新功能已上线。

押注智能眼镜,Google 再闯下一代入口

硬件部分,Google 也把 Android XR 这个操作系统级平台,从头显、XR 设备,进一步扩展到智能眼镜形态。

Android XR 是 Google 与三星合作,并针对 Qualcomm Snapdragon 优化的平台。

Google 表示,AI 眼镜会分成两类:一类是带小型镜片的显示眼镜,另一类是音频眼镜。显示眼镜去年已在 I/O 展示,今年首批开发者已经开始创建显示体验,可信测试者计划将在今年晚些时候扩大。

更早上市的是音频眼镜。

Google 宣布,首批音频眼镜将在今年秋季推出,由三星参与硬件和体验构建,Warby Parker 与 Gentle Monster 负责眼镜设计。这些眼镜连接手机,支持 Android 和 iOS。Gemini 的回答通过耳机私密播放,而不是显示在镜片上。

发布会上,演示者可以通过眼镜让 Gemini 导航到上周和朋友见面的地方,中途加入咖啡店;也可以让 Gemini 打开 DoorDash 自动下单咖啡,等待用户确认;

还可以让它总结静音消息,并把家庭晚餐写入日历。眼镜还可以与手表配合,让用户拍摄现场照片,并用 Nano Banana 生成卡通图像,再在手表上预览。

发布会最后,Gemini 的使用场景也延伸到了网络安全场景。

Google 介绍了 CodeMender。它是一个代码安全 Agent,能够自动寻找和修复关键软件漏洞。Google 将邀请一批专家测试 CodeMender API,之后会更广泛推出。

整场发布会看下来,信息量大到让人有些缺氧。只是当这些 AI 功能真正开放给几千万、几亿人使用时,一个最现实的算账问题就直接摆在了面前:这笔庞大的算力开销,Google 要怎么挣回来?

过去二十多年,Google 代表的是一种典型的免费互联网模式。用户用注意力和数据换服务,Google 用广告和分发赚钱。这套模式让 Google 成为互联网时代最强的基础设施公司。

但大模型推理的成本,和查询一次搜索结果完全不在一个量级。

长上下文记忆、多模态生成、跨应用 Agent、企业级自动化,这些能力背后都是持续运行的算力消耗。AI 越深入,Google 越难继续用「免费功能升级」的方式来消化成本。

这就是为什么整场发布会下来, Google I/O 看似讲的是体验升级,背后指向的却是订阅、企业合同、算力账单和长期服务费。

免费入口当然不会消失,因为那仍然是 Google 获取用户、数据和生态位置的基础。但在这些入口之上,Google 正在叠加一个新的智能服务层:更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行,以及更稳定的企业级服务。

换言之,Google 正在从免费互联网服务公司,进一步变成 AI 订阅基础设施公司。

只是,问题也随之而来,用户愿意为搜索付费吗?通常情况下,不会。

可是,如果这是一个能替你全天候处理邮件、统筹任务、分析报表、接管智能家居,甚至还能帮你写代码开发 App 的「超级全能助理」呢?你愿意为它每月掏出几十上百美元吗?

这,正是今年 Google I/O 迫切想要验证的核心商业命题。而环顾如今狂热的市场,答案似乎早已不言而喻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

大模型狂飙的尽头,这家国产 GPU 厂商要把算力放在客厅

AI 算力的故事,正在走向两个相反的方向。

云端这边,万卡、十万卡集群是行业标配,算力越堆越高,皆因头部应用日均消耗的 Token 已经突破百万亿。

落到普通人这边,云端训练出的聪明模型,往往变成手机里一个要联网等几秒钟才回话的对话框。

算力走进生活的最后一公里,应该是什么样的?

一个做国产 GPU 的公司,在前几天的发布会上,一口气更新了好几款端侧产品,有家庭智能中枢、AI PC、Agent,还有具身智能相关的工作。

本周一,摩尔线程 2026 年发布会上,除了常规的 GPU 显卡更新、夸娥万卡级智算集群的迭代,一台只有手掌大、整块镁铝合金一体 CNC 雕出来的小盒子被搬上了台。

它叫 MTT AICUBE,按官方说法是「一台面向家庭的 AI 智算中枢」。更直观的解释,AICUBE 就是一个能够本地运行模型并管理家庭数据的「AI 电脑」,它能听懂我们的各种需求、能跑本地模型、甚至能存全家照片和视频。

这场发布会上至少有三件硬件冲着端侧去:面向客厅的 AICUBE、面向开发者的 AIBOOK、面向工业的 E300 模组。

摩尔线程创始人、董事长兼 CEO 张建中在台上讲,「过去我们谈论很多 IoT 是 Internet of Things,那今天的 IoT 应该叫 Intelligence of Things。

那么一家做万卡集群的 GPU 公司,为什么要把战线拉到客厅?

做 GPU 的公司很多,但选择哪条路

做 GPU 的玩家不少,但路线分化其实很清楚。

一类像壁仞、天数智芯,走的是纯 AI 训练和推理路线,把算力拉到极致,图形渲染能力几乎为零;另一类像景嘉微和砺算,图形能力扎实,但 AI 推理的短板明显。沐曦走的是接近 AMD 的路子,数据中心训推为核心,图形是后来才补的产品线,且还在研发中。

这些路线都有各自清晰的商业逻辑,但每一条都有一道隐形的边界。路线决定了一张芯片能去哪里、不能去哪里。

摩尔线程从成立起选的就是另一套逻辑:全功能 GPU。它采用的 MUSA 架构不会在「图形」和「计算」之间做分割或取舍,同一套芯片可以同时承载 AI 计算、图形渲染、科学计算、物理仿真与超高清视频处理五种能力。

这种多能力的整合,正是真实端侧场景里的刚需。

一颗只懂得矩阵运算的芯片,很难要它同时做到驱动客厅里的 4K 云游戏、实时数字人;抑或现在爆火的具身智能机器人,AI 决策和物理世界理解也在并行发生;纯 AI 加速路线的厂商,可以把算力做到顶,但很难进入千家万户、千行百业,进入到同时发生多种计算需求的显示场景。

换句话说,「全功能」是一个只有在端侧才能被真正检验的说法。

摩尔线程的架构,注定它要走出数据中心,往边缘和终端走。这次的三款端侧硬件,是这场延伸的起点。

把数据中心放进你的客厅

AICUBE 放在桌上,比一台 Mac mini 高了一头。整块镁铝合金一体 CNC 雕刻出来,外接 HDMI 或者 Type-C 接口即可连接电视和显示屏。并且,AICUBE 还配备了 4 个麦克风阵列和立体声扬声器,完美适配了语音交互的需求。

这个产品的定位是「家庭 AI 中枢」,规格层面是 32GB 或 64GB 统一内存,1TB 全闪 SSD 起步,支持最高 12TB 扩展。算力来自摩尔线程自研的「长江」SoC——CPU、GPU、NPU、VPU 异构集成,AI 算力 50TOPS。

它是当今 AI 需求的「三位一体」:AI Agent 的执行能力、AI PC 的算力、AI NAS 的私有存储。

在现场的演示过程中,产品经理使用 AICUBE 完成了语音播放电影、旅行规划、自动保存文件、AI 生成朋友圈文案等功能。从这个角度看,AICUBE 很像一台 Mac mini,但是内置了一个 AI Siri 语音交互系统,再加一个 NAS。

但它真正有意思的地方,是把「数据中心」整合进了一个家庭可接受的形态。

在家庭中我们可能遇到各种场景,无论是当做智能音箱,或者就是一个 NAS 来使用——AICUBE 存在的意义,更在于它是全功能 GPU 架构在最难场景下的一场压力测试。

算力足够跑本地大模型,体积轻松塞得进电视柜,功耗低到能 7×24 小时静音运行,数据要锁在本地不上云,操作要老人和小孩都能用语音直接调用。

以上这五大约束,任何一个单拿出来都不难。但它们要同时成立,而且要成立在一个售价面向普通家庭的消费级产品上,这才是端侧全功能 GPU 的设计目标。

数据中心不需要面对这些约束。它可以用水冷、高压供电、专业运维来回避物理限制;数据隐私可以靠网络隔离和权限管理来处理;至于「谁来用」这个问题更是不存在,毕竟如今的数据中心 AI 算力供不应求。

现在大部分家庭 AI 服务还在依赖云端。语音指令、照片、视频全要上传服务器。本地化、能同时管存储、跑模型、联动多个 APP 的设备,消费市场上几乎空白。

AICUBE 不仅解决了那些限制,内置的「小麦」智能体还预装了 60 多项技能,可以跨 36 款以上 App 做控制。摩尔线程的官方数据显示,「小麦」对高频工具调用成功率超过 95%,任务执行速度比通用智能体快 7 倍。

MTT AICUBE 在 6 月 18 号京东预售,这些数字很快就会在真实场景中得到验证,走进我们的客厅。

但从架构角度看,AICUBE 是全功能 GPU 在最难一类场景下的压力测试。毕竟数据中心的资源可以轻松调度,而端侧只有一颗芯片。

摩尔线程这颗「长江」SoC 在一颗芯片里同时跑 AI 推理、3D 图形渲染、4K 视频编解码、NAS 存储调度,是真实地做到了在紧凑的物理空间里,协调多种计算单元的实时调度。

张建中在台上还说了一句话:「推理不是某一颗芯片的事情,推理更像是一个解决方案。」AICUBE 大概就是这套解决方案在家庭场景的第一个样本。

「长江」流向何方?

作为自研的智能 SoC,「长江」和摩尔线程包括云端 GPU 在内的全系列产品共享一套 MUSA 架构,只是被压缩到了端侧的物理形态。

「长江」有 8 个主频 2.65GHz 的全大核 CPU、全功能 GPU、高能效 NPU 异构集成,最高支持 64GB LPDDR5X 统一内存。

围绕这颗 SoC,摩尔线程在端侧的另外几款产品也在加速落地。

AIBOOK 面向开发者,被定义为「为智能体而生」的笔记本电脑。

底层跑的是基于 Ubuntu 改造的原生 Linux 系统 MTT AIOS,预装「龙虾」(OpenClaw) 智能体,本地能同时稳定跑十几个 AI Agent,对接 90 多个 CLI 工具接口,支持虚拟化 Windows 和容器化 Android 多系统。

AIBOOK 的预期使命,是在英伟达控制的 CUDA 之外,给国产 GPU 构建一套从开发、调试到部署的闭环工具链,让 MUSA 生态从「能用」走到「有人用」——从最基础的笔记本形态开始。

MUSA 则是摩尔线程的 GPU 架构,包含从芯片、硬件、软件栈到生态的统一架构体系,全栈对标 CUDA。

过去几年,摩尔线程也一直在对 MUSA 软件栈进行优化:DeepSeek、Qwen、Kimi、MiniMax 这些国内头部模型现在都能顺利支持,vLLM 的官方后端也已接入,SGLang 主线代码更是提供了原生适配,PyTorch 的算子覆盖率到了 100%。

MUSA 的适配性已经做的相当扎实,也显著追上了与 CUDA 之间的差距。

但生态这件事,光有适配还不够。MUSA 社区的生长需要优秀的地推和开发者深度参与。摩尔线程希望 AIBOOK 能够在工具链普及和 MUSA 的推广上起到关键作用。完整的 MUSA 软件栈,让大模型开发者可以顺利地在这台笔记本上直接完成模型训练的诸多核心阶段步骤。

本质上,AIBOOK 是摩尔线程与英伟达 DGX 桌面系列产品对标的开始。

押注端侧,降低迁移成本

尽管路途遥远,MUSA 生态正在证明自己有持续迭代的潜力。

从 AIBOOK 到 AICUBE,从云端显卡到仿真平台,这些产品共同构成了摩尔线程的完整拼图:当云端训练、边缘推理与终端交互共享同一套 MUSA 架构时,国产算力的迁移成本、适配门槛与生态碎片化问题,才有可能被系统性解决。

回望摩尔线程的迭代史,早期的游戏显卡 MTT S80 自 2022 年推出,从只能跑 DX9 到能跑《黑神话:悟空》,实现中国 Top 50 热门游戏 100% 兼容,并针对其中 44 款已完成专门优化,靠的是底层重构和持续的驱动迭代。这套工程能力,也套用到这次的端侧产品上。

更长一点看,摩尔线程押的是另一件事:当算力同时出现在数据中心、开发者桌面、工业现场和家庭客厅,谁能在每个场景都有入口,谁手里的牌就比只守住数据中心的玩家更好打。

迁移成本、适配门槛与生态建设,这些目前都是摩尔线程端侧战略中的关键考量。

而从硬件显卡的持续迭代,MUSA 生态的逐步完善,从底层 100% 兼容主流 CUDA 生态,到全面适配国内 Top 5 开源大模型,这种速度与系统级优化能力,很明显是摩尔线程重要的护城河,也让他们在端侧的发力有了明显优势。

张建中在台上说,「对于用户,如果买不到国外的计算芯片,用摩尔线程的 GPU,你不会有任何后顾之忧」。

这份自信的背后,正是国产算力迈向成熟,在每一种形态、每一个场景中站稳脚跟的必经之路。

过去的物联网(IoT)是 Internet of Things,在摩尔线程的叙事里,未来的万物互联将全面演进为 Intelligence of Things(智能物联网)。

至少端侧这条路,摩尔线程是认真要走的。

文|杜晨、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Codex 这波大更新后,Mac 的含金量再次提升

「如果这条推文获得了一个赞,Codex 重置额度限制。」

已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。

网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。

OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。

▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。

我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。

不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。

这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。

不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。

今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。

以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。

此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。

/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。

/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。

不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。

有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。

省去很多麻烦的应用快照

这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。

不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。

在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。

但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。

▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。

例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。

这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。

▲ Codex 识别到了开头之后的文章内容

例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。

▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。

官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。

像是直接要求它修改我们的备忘录内容。

▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改

还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。

▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本

就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。

/goal 的保姆级使用指南

在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」

目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。

这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。

Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。

官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。

把这个项目从 JavaScript 迁移到 TypeScript。

 

要求:以 strict 模式编译通过,不允许出现显式的 any 类型。

还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」

这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。

 

▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex

如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。

还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。

以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。

锁屏了,Codex 还能操作你的电脑

除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。

Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。

网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。

如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。

若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。

正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。

Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。

OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:

  • 解锁窗口极短,仅限当前 Computer Use 操作期间有效
  • 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
  • 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
  • 这个路径只对 Codex 开放,其他应用或本地进程无法借道

另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。

除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。

Codex 越来越好用的同时,钱包燃烧的速度也在加快。

我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。

如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制🐶

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

用 Codex 优化网速狂飙 900Mbps?实测之后我发现了新的隐藏玩法

昨天,Codex 再一次重置了额度,我们的账号从剩余 10% 又回到了剩余 87%。

Codex 负责人 Tibo 在 X 发文,

有些用户注意到 Codex 中的缓存限制消耗得更快,我们发现根本原因是之前的一个优化措施,该措施在长时间运行的会话中进行压缩时会影响缓存命中率,我们已将其回滚。

 

 

我们已修复此问题,并已重置所有账户的使用限制。祝您周末愉快。

于是又想着还可以用 Codex 来做点什么,刚好就在 X 上刷到了「我用 Codex 提升了我的电脑网速,从 400Mbps 到 900Mbps。」

内容真的很有噱头,用 Codex 竟然能优化本地的网络?网速不应该是受限于路由器,或者网络服务提供商 ISP 这些上层设备吗?

这则推文的评论区也有不少网友提出了质疑,「所以 Codex 最终改变了电脑上的什么配置?」、「鉴于如今 AI 的强大技术,我真的无法判断这是否是诱饵。」

博主做出解释,Codex 帮助他把电脑上的 auto tuning level 从关闭调回了 normal 正常。auto tuning level 是说系统会根据网络延迟、带宽和拥塞情况,动态决定一次能接收多少数据,从而提高网络的速度。

他还给出了自己用的提示词。

嘿,我朋友说他的网速提高了,情况是这样的。你能帮我看看我们家的网络有什么可以改进的地方吗?我的网络供应商说他们提供的带宽是 1.2k Gbps,而我实际的网速是硬件问题。我现在只有 55Mbps,请帮我解决这个问题,别出错了。

 

我的目标很简单,就是让我的互联网速度更快。
问题已诊断:首先运行了 speedtest-cli。
检查了 DNS 解析时间,
检查了 MTU、丢包率、Wi-Fi 信号/干扰情况。
发现 3 个问题。
已删除过时的网络位置/配置文件。
终止或限制占用大量带宽的后台进程。
优化 mDNS。
进行了测试前后的速度测试和延迟检查。

这套提示词来自另一个 X 博主@cjzafir,他分享了自己使用 Codex + GPT 5.5 的实际案例,里面提到了 Codex 5.5 让他的网速变快了,本地运行的 6B 小语言模型速度更快了,以及 Macbook Pro 运行速度也像新的一样快等等。

我们也拿着这套提示词发给 Codex,在要求 Codex 处理网速问题前,先用中国科学技术大学测速网站 https://test.ustc.edu.cn/ 看了一下大概的速度,基本上下载速度在 100Mbps 左右,上传是在 200 Mbps 左右。

Codex 确实按照这些诊断,从 DNS 解析时间,数据包、网络配置等方面,检测并修复了对应的问题,累计处理时间超过五分钟。

最后 Codex 得出的结论是「我检查并做了能安全完成的修复。」它找到了 3 个存在的问题,分别是 DNS/缓存异常、负载延迟很高,以及有线千兆网卡没有在用,Wi-Fi 不能作为 1Gbps 的验收依据。

再次测试,发现似乎并没有很明显的网速提升。

有人问那位博主,是不是使用的 Mac 电脑,他回复说是 Windows,底下还有网友科普,Mac 的网络配置都是固定了,Codex 一般是无能为力。

所以这次轮到 Windows 用户来享受 Codex 网速提升服务了?还有 Linux。

有评论说,「以为是用 Codex 入侵了网络服务提供商,然后提高了流量限制」,结果只是 Codex 帮忙清理了一下 DNS 缓存。

但也有网友分享照着这个方法,成功复现了,Codex 确实让它的网速变快。

大家要是感兴趣也可以试试,不过 Codex 修改这些网络配置还是有一定的风险,评论区还有人提到 Codex 把他原有电脑的网络配置都删掉了,然后 Codex 跟他说,删掉它们是为了让网速更快。

这些涉及到 Computer Use 的使用案例,大概都会有类似的问题,除了每一次更细心的看懂允许 Codex 执行的是什么命令,还可以在提出任务时,就要求它解释清楚它要做的每一步。

如果不做修改,只是让 Codex 去诊断一些可能存在的网络配置问题,我想也比那个一直停留在进度条的自带 Windows 诊断要强。

开始了,Codexmaxxing

当大家都在讨论 Codex 是否能真的提升网速时,也有网友提到这种用法其实是一种启发。

他说这种做法的核心价值在于靠案例驱动,让 AI 直接参考成功的经验,再针对自己的具体情况进行精准诊断和优化,而类似的提示词技巧在 Agent 产品上将非常有效。

这很像 Codex 里面的 /goal 命令,给他一个目标,这个目标可以是我们自己设置的,也可以是其他用户已经有的成功案例,Codex 照着这个目标,自己去摸索可以实现的路径。

在社交媒体上,也有很多人开始分享这些写目标的模板,以及 OpenAI 的工程师也专门写了一篇文章来讲清楚什么是目标,如何用好目标来发挥 Codex 的最大价值。

/goal <期望的最终状态>,通过 <具体证据> 验证,同时保留 <约束条件>。使用 <允许的输入、工具或边界>。在各次迭代之间,如果受阻或没有剩余有效路径。

也有人认为这只是 Codex 的早期阶段,所以我们才需要学习这么多的提示词技巧,无论是使用案例驱动还是使用 /goal 命令,本质上都是为了让 AI 能更好的理解人类的需求。

就像 Midjourney 、Nano Banana 刚推出时,我们都热衷于找各种公开的提示词;而现在使用 GPT Image 2 在大多数的生图场景下,基本上都不需要专门的提示词格式,就能得到不错的效果。

等到 Codex 越来越好用,我们或许也不再需要这些官方使用模板。但从另一个角度来看,或许就是在这种模仿使用的过程中,我们才会更知道 AI 是如何提升我们的生活和工作效率。

因此,除了提升网速,我们还看到了一些 Codex 的其他玩法。像是使用 Codex 的定时任务,让它每天早上自动产出一份对应行业的日报;还有让 Codex 也能获得自我进化,从过去的对话里面提取出有用的技能;以及直接构建一个 macOS 应用;把 DeepSeek 接入 Codex 客户端等。

▲ 图片来源:X@hqmank

我们也继续尝试了一下那套让 Codex 自进化的提示词,它花了 7 分钟,帮我们创建了 3 个 Skills。

▲ 提示词来源:https://x.com/reach_vb/status/2058538305872949490

感觉这套提示词不仅仅可以用在 Codex 里面,几乎所有的 Agent 产品,都可以用它总结出一些可复用的流程,以子 Agent、Skill,或者自动化的形式重新编排。

回顾我最近 30 天的工作,若历史记录不足则查看所有可用历史,并识别值得打包的重复性手动工作流。

按以下顺序使用可用证据:
– 最近的 Codex 会话和任务摘要。
– Codex Memories 和 rollout 摘要,用于寻找跨会话重复出现的模式。
– 如果启用了 Chronicle,用它发现 Codex 之外的重复工作。Chronicle 仅用于发现;重要细节尽量回到相关源系统确认。
– 现有技能、自定义智能体和自动化,优先复用或扩展已有内容,避免重复建设。

广泛寻找那些重复、耗时、容易出错、依赖上下文,或适合标准化流程的工作。范围包括编码、研究、写作、规划、沟通、运营、分析,以及个人事务管理。

只有满足以下条件时,才把候选项纳入:
– 至少出现过两次,或明显会重复出现且重复成本高;
– 输入稳定、步骤可重复,并且输出或结束条件明确;
– 能明显提升速度、质量、一致性或可靠性;
– 当前还没有被充分覆盖。

选择最小且合适的形式:
– Skill:可复用的工作流或操作手册。
– 自定义子智能体:适合委派的、有边界的专项角色或调查任务。
– 自动化:定时或周期性的检查、报告、提醒或监控。
– Skip:过于一次性、模糊、敏感,或证据不足,不适合打包。

先输出一个简洁候选清单,包含:
– 重复工作流
– 支持证据与日期
– 频率 / 置信度
– 推荐形式:skill、subagent、automation、扩展已有内容,或 skip
– 为什么值得或不值得创建

然后只创建高置信度且当前缺失的项目。保持范围狭窄、实用、了解数据来源,并且容易验证。不要创建猜测性的、重叠的,或过于宽泛的资产。

最后总结:
– 你创建或扩展了什么
– 你刻意跳过了什么
– 哪些内容还需要更多证据后才能打包」

我们还依照 Tibo 分享的使用 Codex 来取消我们不需要的付费订阅服务,由于订阅项目较少,但是有很多无意中订阅的 newsletter,所以我们输入「请查看我的电子邮件,列出我付费订阅的所有服务,以及订阅了哪些邮件通知,并和我确认哪些需要取消订阅。」

Codex 很快就调用了浏览器使用的工具,打开 Gmail,检查我的电子邮箱,发现付费订阅的项目较少,着重为我列举了一些「可退订的邮件通知」。


Codex 会自动搜索相关的邮件

新加入 OpenAI 的员工 Jason Liu 也分享了如何榨干 Codex 的用法,他提到自己喜欢使用 Codex 的语音输入功能,所有的对话线程不再一次性重置,而是跨对话保留上下文,以及使用 Obsidian 库来作为 Codex 的持久记忆层。

前段时间,我们分享了一篇文章,是说几乎所有模型公司,都要做自己的 Agent 产品,模型公司和产品公司之间的界线会越来越模糊。

OpenAI CEO Greg 在 X 发文也提到他认为仅凭模型本身已经不再是产品;Google AI Studio 负责人 Logan 在跟帖中回复,模型、工具和产品之间的共生关系如今已成为一种趋势。

从目前来看,Codex 大概会是体现 OpenAI 模型能力最有力的一个产品。

▲ Codex 重新设计了网站主页,让它更像是一个能为所有人提供帮助的 AI 工作助手,而不是仅限于帮助开发者做代码补全

Codex 负责人 Tibo 提到「总体规划是发布更好、更高效的模型,并且每周都发布更好的产品。还要增加计算能力。」

能从龙虾、Claude Code 这些先占领市场的 Agent 产品里脱颖而出,Codex 的进展确实让人值得期待。不过, Tibo 还贴心地提醒我们,好用,也记得多出去走走,Codex 没法替我们体验真实的生活。

▲ 龙虾之父已经对 Codex 上瘾了,留言说起来容易做起来难

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

国产AI编程冲上全球第二!实测五大模型,谁才是Vibe Coding神器

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。

▲5.26 榜单截图

除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

虽然现在大模型四年,我们已经对这些排行榜的刷新屡见不鲜,但还是忍不住想要体验一下,能够超越 GPT 5.5 的 Qwen 模型,实际能力到底如何。

要知道,现在最火的 Coding Agent 组合,大概就是搭配了 GPT 5.5 的 Codex。

如果我们把 Codex 里面的默认模型修改成 Qwen3.7 Max,再用 Codex 来完成一些日常的任务,会不会比 GPT 5.5 还好用呢。

获取 Qwen3.7 Max

趁着现在各家都在推出一些 Token 优惠活动,阿里云也提供了 100 万 Token 的免费使用,可在阿里云百炼平台使用。

Qwen3.7 Max 的定价,在阿里云官网,目前是限时五折,输入 6 元/每百万 tokens,输出 18 元/每百万 tokens。新用户还可以 5 折充值节省计划,以 10 元每月的价格获得 20 元的 Token 额度,而 Token Plan 标准档目前是 198 元/月。

总体来说,根据大模型聚合平台 OpenRouter 显示的数据,Qwen3.7 Max 的价格属于中规中矩的一档,对比 DeepSeek 的骨折价肯定比不上,但和 Opus 4.7、GPT 5.5 相比还是优惠不少。

我们直接充值了「入门首选」这档全模型通用抵扣 20 元。但这里需要注意的是,五折优惠仅支持一个套餐,即购买了 10 元的,就不能再购买 50、250 的半价优惠计划了。

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

拿到了 API Key 和百万免费使用 Token,我们先是在阿里云百炼平台、以及千问官网,使用 Qwen3.7 Max 做了一些常见的前端网页设计来测试它的开发能力。

像是比较能直观的看到差别的物理模拟测试,我们就用一段简单的提示词「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画,拖动容器可以改变倾斜角度。」

▲ Qwen3.7-Max,千问官网生成

Qwen3.7 Max 的表现可以说是顺利完成了这个模拟挑战,同时还增加了颜色的自定义、摇晃、液体量调节等功能。

DeepSeek 就比较简单,但是也没出错。

▲ DeepSeek V4,官网生成

GPT-5.5 生成的液体有点奇怪,虽然做到了会随着角度的切换,流向对应的方向,但是整个波浪很出戏。

▲ GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 生成网页似乎是有点 Bug,那个瓶子一直会被隐藏到控制面板背后,必须得自己拖出来。但是同样一句提示词,它给的自定义东西是真的多,不仅提供了瓶子的类型,还有液体的颜色,各种设置都能自定义。

▲Gemini 3.5 Flash,官网生成,选择 Canvas 选项

Claude Opus 4.7 这个瓶子过于简陋了,而且模拟的液体晃动效果在剧烈状态下,很像是音波的跳动。

▲ Claude Opus 4.7,使用 Claude Code 应用生成

接着我们尝试让它生成一个小游戏试试,虽然游戏的测试已经是去年 Vibe Coding 的常见测试项目了。但这次我们要 AI 做一个六宫格的 2048 游戏,输入提示词「做一个可以玩的 2048,但格子是六边形的。」

Qwen3.7 Max 生成的页面还是很好看的,能看到它的参考来源 10 条信息里面,大部分都是来自 CSDN 的 2048 游戏生成教程。

最终的游戏也能玩,但还是偶尔有不按常理出牌的时刻,例如同一方向上,相同数字叠加,没有叠加在该有的位置。

▲ Qwen3.7 Max,官网生成

DeepSeek V4 的表现和上一轮差不多,但是明明是六边形,给出的键盘控制却只有 WASD 来滑动。

▲DeepSeek V4,官网生成

这一轮表现最好的大概就是 Claude 的 Opus 4.7,它真的理解了这个游戏应该怎么设置,格子的移动是符合这个蜂巢的规则,不会让人感觉找不着北。

▲ Claude Opus 4.7,使用 Claude Code 应用生成

GPT 5.5 依托 Codex 的能力,在生成了游戏之后还能自己打开浏览器预览是否有问题,抓取控制台的信息来修复项目代码。最后生成的网页也很优秀,不过对于监控鼠标在屏幕上的移动方向,还是没有 Opus 4.7 的表现出色。

▲GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 则是一如既往地给我加了很多东西。游戏的主题风格它就写了赛博、暗金和马卡三种背景,甚至还加上了「内置高品质合音器」。

游玩过程配有原生 Web Audio 生成的复古 8-bit 太空音效(合并、滑动、过关、死亡),体验感瞬间拉满。

▲Gemini 3.5 Flash,官网生成,选择 Canvas 选项

再回到一些普通网页的设计上,我们要求它做一个地铁博物馆的网站,输入的提示词也只有一句话「设计一个名为地铁博物馆的主题网站,要求沉浸感强。」

本意上我们希望这些大模型可以尽可能多地罗列不同城市的地铁信息,世界地铁的 Logo,以及整个网站的风格应该是艺术性的,有专门的风格和充分的特效来呈现。

先看Qwen3.7 Max,说实话有点难评,把文字竖排放着是很像地铁列车,但是整个网站给人的感觉是很乱。

▲ Qwen3.7-Max,千问官网生成

而 Gemini 继续做了很多,声效再次用上,比较有意思的是,它还做了一个地铁文创,定制纪念票根生成器。我们可以输入名字、选择车站,实时生成一张高颜值、复古风的地铁纪念乘车票。

▲ Gemini 3.5 Flash,官网生成,选择 Canvas 选项

DeepSeek 选择的项目和 Gemini 类似,一样有票务纪念和驾驶体验,但是它在最后交付的成果中,似乎并没有呈现这些功能。

▲ DeepSeek V4,官网生成

GPT 5.5 现在生成的网页风格很不错,虽然也有明显的套用模板,但是整体的设计是在线的,遗憾就是信息量太少了。它似乎没有理解地铁博物馆应该是一个介绍地铁信息的网站。

▲GPT-5.5 超高,使用 Codex 生成

继续用之前的提示词像是让它做一个 macOS/Windows 的操作系统,这次我们输入「用 HTML 构建一个完整的浏览器操作系统。」

DeepSeek V4 的表现很简单,同样简单的是 Qwen3.7 Max,不过这次 Qwen3.7 Max 额外给了一张不错的桌面风景图片。

▲ DeepSeek V4,官网生成

▲ Qwen3.7-Max,千问官网生成

但在这个测试中真正让我觉得表现不错的,还是 Gemini 3.5 Flash 和 GPT 5.5。

▲ Gemini 3.5 Flash,官网生成,选择 Canvas 选项

和 Gemini 3.5 Flash 一样,GPT 5.5 也对整个 OS 进行了详细的设计,有专门的风格。

▲ GPT-5.5 超高,使用 Codex 生成

在 Codex 里使用 Qwen3.7 Max

一轮测试下来,好像 Qwen3.7 Max 在通过对话生成小网页项目的测试表现上,很难说每一次都超越 Gemini、GPT 5.5,但对比前代,我相信是已经有了很大的提升。

我们在千问官网看到有一些给出的代码案例,像是 3D 地球,食物链排序,可视化,个人博客等内容,但是这些网页项目的提示词都比较长,而不是像我们所测试的简单一句话。

▲在输入提示词之后,千问也提供了「优化指令」的选项

我们把 3D 地球这个项目的提示词也扔给了 DeepSeek V4、Gemini 3.5 Flash,得到的效果几乎和 Qwen3.7 Max 是一样的。

这意味着提示词在当前阶段,对能否发挥 Qwen3.7 Max 的能力,还是起着相当重要的作用。

而减少用户优化提示词压力的方式,大概就是接入 Agent 产品,利用他们的 Skills 以及 Agents 协作等能力,来发挥模型的真正实力。

按照阿里云官方的教程,我们把 Qwen3.7 Max 成功接入到了 Codex 终端助手里。

不过这里容易出现 BUG,即 Codex 会不断提醒你「CODEX Missing environment variable」。

按照官方的教程,我们修改完 ~/.codex/config.toml 配置文件之后,还需要修改电脑的环境变量。

即模型的 API KEY 信息是保存在电脑的环境变量(需要查看自己电脑的 Shell 类型,修改对应的环境变量文件,如 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 配置文件里。

修改完成之后,在终端输入 Codex,我们就能看到 Qwen3.7 Max,重新打开 Codex App,主界面的模型也会从之前的 GPT-5.5 切换为自定义的 Custom。

用同样的方法,我们可以把 DeepSeek、MiniMax、Kimi、智谱等模型,都接入到 Codex 中。

前段时间在 GitHub 上有一个前端的 Skill 收获了两万多个 Star,它主打让 AI 生成的前端界面更好看,这和 Qwen3.7 Max 拿下第二名的榜单任务类似。

我们先安装这个 Skill 到 Codex 中,然后尝试结合 Skill 看看是否能有更好的效果。

▲ 地址:https://github.com/Leonxlnx/taste-skill

输入同样的提示词,Codex 会自动调用前端设计、头脑风暴等 Skill 来完成设计的定位和构思,并且严格按照 Codex 的流程控制来监控项目生成。

最后,同样一个模型,在 Codex 里面的表现要比直接在千问官网好上不少。

但是这里还是会容易遇到一个问题「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The “function.arguments” parameter of the code model must be in JSON format.」

当模型需要调用专门的工具时,就无法再和模型取得连接。我们在互联网上找到了相关的问题案例,原因可归结为「模型部署厂商针对流式输出格式有问题,不是标准 OpenAI 协议,所以不支持 API 调用,出现 400 报错。」

要求 Codex 解释这个问题时,Codex 也是说模型的问题。

不是你配置错了,而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex,长任务、改代码、频繁读文件时,切回 OpenAI 官方模型会稳定很多。

所以如果你也遇到了这个问题,大概只有等 Qwen 团队自己去修复,或者重新开一个会话试试。

▲ 阿里云官方有出现不同错误码的解决方案指南

去年我们还在说模型即产品,一个足够好的模型就是一个好产品,现在看来,单靠模型是远远不够的。

记忆、Harness、Agents 编排、验证、推理的可持续性等等,随着模型能力的增加,这套架构也在持续扩充,但只有都做好了,我们或许才愿意说「这是一个好模型」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

英伟达掀桌,Windows 终于迎来真 AI PC

Windows PC 阵营,已经很久没有遇到真正有分量的闯入者了。

▲Windows 用户 belike

过去四十年,这个市场的基本分工相对稳定:微软定义操作系统和软件入口,Intel 与 AMD 长期把守 x86 处理器平台,英伟达则从图形计算出发,后来又把 AI 加速推到更高的位置。

而就在黄仁勋刚刚结束的 2026 年 COMPUTEX 主题演讲上,英伟达沿着 AI 基础设施这条主线,进入更多产业的核心环节。

除了 GPU 、AI 工厂、物理 AI 等老生常态的话题,还有被微软和 ARM 提前预热、打着「A new era of PC」旗号的 RTX Spark。所有产品背后,都围绕同一个关键词展开:

Agent、Agent,还是 Agent。

联手微软,英伟达要重新定义个人 PC

在 Agent(智能体)叙事里,PC 被放到了一个新位置。

四十年来,Windows、开放 BIOS、芯片组、驱动、多媒体 API 一起塑造了个人计算。Windows 95 让 PC 从企业设备变成消费电子产品,几乎每个人都需要一台电脑。

现在,微软和英伟达将重新定义 AI PC ,目标是要让 PC 原生运行智能体,让个人电脑从传统应用入口变成个人 AI 平台。

今天推出的英伟达 RTX Spark 处理器是这套新 PC 体系的核心。

它搭载 Blackwell RTX GPU,FP4 AI 性能达到 1 petaflop;CPU 部分是与联发科合作定制的 20 核 Grace CPU;内存为 128 GB 统一内存,并通过 NVLink C2C 提供 600 GB/s 带宽。软件层面,完整栈包括 CUDA、TensorRT、NVFP4、RTX Ray Tracing、DLSS、Reflex 和 G-SYNC。

在产品形态上,英伟达把 RTX Spark 放进了更接近主流 Windows PC 的尺寸里:

笔记本厚度可做到 14 毫米,重量约 3 磅,覆盖 14 英寸到 16 英寸机型;机身采用精密加工铝合金,屏幕部分则配备色彩准确的 tandem OLED,并支持 NVIDIA G-SYNC,既服务创意工作,也兼顾游戏和高帧率视觉体验。

换言之,RTX Spark 面向的场景不只是端侧语音助手或轻量办公场景,它试图把部分数据中心 AI 能力、游戏图形能力和专业创作能力,放进个人电脑形态里。

黄仁勋说,这台电脑要运行「所有东西」。传统 Windows 应用要能跑,CUDA 软件栈要能跑,图形工作流、数字生物、地震处理、天体物理、基因组学和 AI 应用也要继续运行,它既可以连接本地模型,也可以连接云端模型。

在现场演示视频中,用户给出场地、草图、风格参考和需求后,运行在 RTX Spark 上的智能体会调用 Rhino 完成建筑与室内方案设计,并导入 Blender 结合 Flux 2 生成多角度渲染图,过程中用户可随时修改。

演示传递的信号不言而喻,PC 将从人手动操作软件转向智能体围绕目标调度工具,而典型案例是,Adobe Photoshop、Premiere 等应用也正为 RTX Spark 优化,并通过 MCP 接入本地智能体,成为自动化工作流的一部分。

RTX Spark 只是新 PC 产品线的起点。黄仁勋还展示了三种形态:笔记本、台式机和工作站。它们共同兼容 Windows、CUDA 和 AI 软件栈,面向的使用场景各不相同。

笔记本对应移动办公、游戏和创作。

它可以本地运行 Nemotron 3 Ultra,也可以连接 Claude、Codex 或其他云端模型。台式机更像家庭里的个人 AI 主机,可以 24 小时运行智能体,连接笔记本、显示器、摄像头、安防系统、家电和其他设备。

工作站面向模型开发者和智能体开发者。

DGX Station for Windows 配备 748 GB 内存、20 petaflops 算力和 8 TB 每秒内存带宽,可以在桌面环境中运行万亿参数模型。开发者可以在本地完成模型开发、调试和测试,再部署到云端。

黄仁勋把这一变化类比为手机变成智能手机,打电话已经不再是今天智能手机最重要的功能。他认为,10 年后的 PC 也会经历类似变化。它会从打开应用、点击和输入的工具,变成家庭和个人工作流里的 AI 超级计算机。

而我们能感受到最直接的变化,大概就是未来的 Windows 电脑,或许会是一台真正的 AI Agent 电脑。

对于想在本地跑 LLM、又需要大内存和较强 AI 算力的人来说,RTX Spark 的出现,可能会成为除 Mac 之外的另一个选项。

有用 AI 时代到来,一切为 Agent 而生

如果把过去两年的行业变化归纳为一句话,那就是有用的 AI (useful AI)已经到来。而 Agentic AI 的第一批应用场景,正是软件开发。

全球有 3000 万到 4000 万职业开发者,GitHub commit 数量也在持续增长:2023 年约 3 亿,2024 年约 4 亿,2025 年前几个月达到 5 亿,2026 年前几个月接近翻了三倍。

黄仁勋借此反驳了「AI 会减少就业岗位」的说法。在他看来,AI 提高了工程师的产出,企业反而更愿意招聘更多工程师。究其原因,同样的人力成本可以创造更高生产力,软件开发的价值也会继续扩大。

更深层的变化发生在应用形态上。

过去的软件由应用、代码和操作系统组成,但智能体时代的计算方式则换了一套流程:用户给出目标,模型理解意图,运行环境调度流程,工具执行任务,记忆系统保存上下文,最后产出结果。

整个过程包含观察、理解、推理、规划、行动和工具调用。

在这个框架下,LLM 只是 Agentic 系统中的「思考模块」。完整的智能体还需要 harness,也就是调度和编排层;需要浏览器、电子表格、数据库、编译器、CAD 软件和数据处理引擎等工具;也需要短期记忆、长期记忆和运行环境。而这种 LLM+harness=Agent,再加工具、记忆和运行环境的模式将会是未来十年的应用基础。

智能体成为新的应用形态后,支撑智能体运行的计算底座也要重新设计。

发布会上,黄仁勋宣布,英伟达下一代 AI 超级芯片平台 Vera Rubin 已进入全面投产阶段。它是英伟达迄今规模最大的 POD 级平台之一,也是面向 Agentic AI 设计的新一代 AI 工厂核心系统。

Vera Rubin 由 Rubin GPU、Vera CPU、NVLink 72、BlueField、ConnectX 9、Spectrum X 以太网、存储处理系统、安全处理系统和完整软件栈共同组成,目标是支撑 AI 工厂级别的系统运行。

它面向的是智能体从输入到执行的完整流程。

智能体处理提示词、理解上下文、推理规划、调用工具、访问数据库、运行代码和检索长期记忆时,会同时牵动 GPU、CPU、网络、内存、存储和安全系统,因此 Rubin GPU 负责主要计算,Vera CPU 负责调度和数据管线,BlueField 4 处理安全隔离与存储,Spectrum X 负责大规模联网。

Vera Rubin 之后,黄仁勋还单独讲了 Vera CPU。

在他看来,过去的 CPU 主要服务于人类用户和传统云计算租赁,计算资源按核心、按时间出租,响应速度以秒为单位衡量。但智能体的运行节奏完全不同:

它们会频繁调用工具、访问数据库、运行代码、检索记忆,每一步都要求更低延迟。

这也让 CPU 在 AI 工厂里的角色变得更关键。智能体数量越多,工具调用和数据流转越频繁,CPU 越容易成为瓶颈。尤其是 GPU 已经成为 AI 工厂最昂贵的资产,CPU 的延迟和吞吐会直接影响 GPU 利用率,最终影响 Token 产出。

Vera CPU 的设计逻辑正在于此。

过去 CPU 为人服务,Vera CPU 则面向数量远多于人类的智能体。它采用自研 Olympus Core,重点放在单线程性能、核心间带宽、总带宽和能效。它有神经分支预测器、10 路解码引擎、大型乱序执行引擎和先进预取机制。内存部分采用 LPDDR5X,并支持多错误校正。

这颗 CPU 包含 88 个 Olympus 核心,使用单片网格结构连接,没有把核心分散到多个 chiplet 上。这样的设计减少了跨芯片通信带来的延迟。它支持 PCI Express Gen 6,内部通信能力达到 3.6 TB 每秒,内存带宽达到 1.2 TB 每秒。

相比 x86 CPU,Vera 在部分场景中峰值内存延迟降低 40%,智能体 sandbox 性能达到 1.8 倍,SQL 性能达到 3 倍,实时流处理性能达到 6 倍。

Agent 是新的工作负载,CPU 的角色也随之变化。它不再只是云计算里可出租的通用核心,而是 AI 工厂里调度模型、工具、内存、数据库和安全系统的关键部件。

现在买电脑,是用来打造 AI 工厂

黄仁勋反复强调,AI 的商业逻辑已经改变。过去算力常被视为成本,现在 token 是可以带来收入的单位。只要 token 能产生收入,算力就成了生产能力。

想用 Token 赚钱,就来看看英伟达的 AI 工厂。NVIDIA DSX 是构建并运营 AI 工厂的蓝图与参考设计,基于 Omniverse,用数字孪生提前模拟 AI 工厂的布局、电力、冷却、网络和系统集成。

黄仁勋提到,未来 1 GW 级 AI 工厂的投资可能达到 500 亿、600 亿美元,甚至进一步上升到 800 亿至 1000 亿美元。资本成本越高,系统上线速度、吞吐效率、可靠性和生命周期越关键。

RTX 面向我们的 GPU,DGX 面向我们的系统,而如今,DSX 则构成了整个基础设施的核心。

而 NVIDIA DSX 这套生态系统囊括了一大批的云服务公司和 AI 基础设施企业,包括 CoreWeave、Nebius、Nscale、Naver Cloud 等,以及服务的客户包括 Cursor、World Labs、Revolut、Shopify、Google 等等,帮助所有的企业用户用 Token 来获得收入。

硬件之外,企业如何真正用上智能体,是另一条线。

黄仁勋把企业构建智能体所需能力分为四类:模型、调度系统、工具与技能、运行环境。对应到产品上,就是 Nemotron、OpenShelf、CUDA X libraries 和 AI 平台。

Nemotron 3 Ultra 是此次发布的新开放模型。它采用 SSM 状态空间模型与 MoE 混合专家架构,目标是让模型跑得更快、推理成本更低。

按照现场说法,相比其他开放模型如 Kimi K2.6、Qwen 3.5 和智谱 GLM 5.1,它速度提升 5 倍,整体运行成本降低约 30%。

黄仁勋还提到,Nemotron 3 Ultra 模型、训练脚本和训练数据都会开放,企业可以在此基础上加入自己的行业数据和专有知识。

演讲尾声,黄仁勋把全场内容重新收回到一个核心模式:模型、harness、工具、技能和运行环境。

这套模式可以运行在云端,也可以运行在企业本地;可以运行在 PC 上,也可以运行在汽车、机器人、卫星、通信基站、工厂和边缘设备上。不同场景会使用不同模型、不同 harness、不同工具和不同 runtime,但计算模式是相同的。

云端需要 Vera Rubin 和 AI 工厂。PC 需要 RTX Spark 和 Windows 智能体平台。企业需要 Nemotron、OpenShelf 和 CUDA X 工具链。汽车需要 Alpamayo、Hyperion 和自动驾驶 runtime。人形机器人需要 Isaac Groot、Thor、仿真和数据生成系统。

当我们把整场演讲连起来看,将近两个小时的超长发布,黄仁勋讲的主题已经超出常规新品发布。

AI PC 和 RTX Spark 面向个人设备,把智能体带到用户桌面和家庭。Vera Rubin 面向数据中心,承接大规模智能体负载。Vera CPU 解决智能体调用工具和访问数据时的延迟问题。

DSX 面向 AI 工厂建设,把电力、冷却、网络和运维也纳入系统设计。Nemotron、OpenShelf 和 CUDA X libraries 面向企业智能体开发。Cosmos 3 把智能体推进物理世界。Alpamayo 2 和 Hyperion 面向自动驾驶,Isaac Groot 则把人形机器人也放进同一套平台逻辑。

NVIDIA 过去最核心的身份是 GPU 供应商,后来变成系统公司,现在又试图成为 AI 基础设施公司。

黄仁勋在这场大会想讲清楚的,也正是这件事:AI 竞争已经从模型扩展到一整套计算体系,覆盖个人电脑、企业软件、数据中心和物理设备。

文|莫崇宇、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

世界模型赛道,VAST 选了一条还没有人走过的路

今年除了 Agent 赛道,世界模型也成为 AI 行业新的必争之地,前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资,世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派,它们有着不同的技术路线,如杨立昆的 JEPA 派,是做抽象表征预测;李飞飞的空间智能派,用 World Labs 的 Marble 在做显式 3D 重建;DeepMind 的学习型仿真派,推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者,甚至是 AI 教父/教母,都在说大语言模型的文本训练范式已到瓶颈,AI 要理解物理世界必须靠世界模型,但到底要做什么样的「世界模型」,没有一个达成共识的定义

这几天,AI 公司 VAST 完成了 A+ 及 A++ 轮的融资,合计金额近 2 亿美元。而在今年三月初,VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST,可能会有点陌生,但是 Tripo 3D 生成是不是很耳熟?我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法,就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片,转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示,从第一天开始,VAST 真正在做的,就是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。

这件事被拆成了两步,第一步完成 「造万物」;第二步实现动态 「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用 AI 3D 生成那些符合管线标准的资产;造世界,才是世界模型要干的事,理解空间尺度、状态演化,从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界,曹炎培认为,资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于,过去的世界模型把状态和画面压在一个模型里一起预测,VAST 把这两件事拆开,底层单独维护一个世界状态,上层按需渲染画面

这样做的好处是,状态独立存在,物体离开镜头不会消失;一个状态可以同时给多个人渲染不同视角,多人交互并发自然成立;用户对世界的改变会真实留在状态里,下一个进来的人看到同样的结果。

VAST 推出的 Project Eden,正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是 VAST 先采取这样的方式?

画面流畅不等于世界在运转

视频生成做得更流畅,可以叫世界模型。静态 3D 场景能走动,叫世界模型。能控制视角,也能叫世界模型。

世界模型这个词,似乎什么都能往里装了。

Google Genie 的演示视频里,玩家在里面操控一个角色,往前走,画面跟着生成。但可能一转身,背后的场景就改变了,或者出现从没存在过的东西,因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派,在他们的技术实现里,世界模型就是预测下一帧,给模型喂动作输入,让它生成接下来的画面,反复接龙,就能模拟一个世界。

曹炎培管这种叫「一镜到底」,空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开,那个位置的状态没人保管,等你回头,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了,它记住的不是世界,是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World,可以被称为空间智能派,能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来,让 AI 真正理解几何和物理关系,再谈其他。

例如,World Labs 的 Marble 能生成一段有限范围的世界,我们可以在里面自由游览。在这个生成的固定世界里,视角一致性解决了,因为 3D 资产是静态的。但同时,这个世界也丢失了时间维度,场景永远停在生成那一刻,没有物理变化,没有事件发生,没有因果关系。

▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮

我们能走进去,但什么都改变不了,也没有什么会因为我们的行为而变化。

对 VAST 来说,世界模型不能只是去生成像素,也不能只是一个静态空间。

一个可交互的世界模型,必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态,而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里,那就彻底把它们拆开。

就像我们玩的大世界游戏一样,游戏的服务器会维护着一套世界状态,谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态,结合本地文件夹里上百 G 的游戏文件,做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统,有人进入我们的大世界,大家还是共享同一个静态文件的底层世界,各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的,就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑,设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作,系统首先更新的就是这套底层状态。

中间是转换层,它会根据「当前是谁在观察、从哪个视角观察」,把世界状态转换成一组局部条件信息。像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染,基于这些条件,把画面真正「画」出来,补足光照、材质、动态细节。

这么一分拆,视频模型的职责就只剩一件事:当一个高质量的渲染器。它不用记住整个世界,也不用猜某个物体还在不在,那些都交给底层状态。它擅长的本来就是画得好看,现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后,训练数据也跟着变了。

在 Project Eden 的定义里,真正适合训练世界模型的数据,得同时包含两层信息:底层的推演状态,和高质量的视觉画面。两层对不齐,就不算「原生数据」。

数据从哪来?

VAST 利用 Tripo 长期积累的 3D 基础模型能力,对海量的互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,重新还原背后的空间状态。

曹炎培直言,如果没有这套 3D 理解和生成能力,「我们可能都没法开始做世界模型」。

另一方面,从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据,形成「状态-结果」的完全对应数据,模型便能学到,一个动作发生之后,世界状态会如何演化。

互联网视频负责泛化和广度,引擎数据负责精准和控制,缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后,这种架构层面的差异,在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景,往前走或是做出其他动作,都是在原有的场景上进行活动。底层状态一直在那里,从没消失过,不需要从历史帧重建。

这件事听起来平淡,对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界,也是同样的道理。两个玩家进入同一个底层状态,玩家 A 推动箱子到达了点位,玩家 B 看到的也是同步的箱子位置。在这套解耦架构里,多个玩家共享的是同一个世界底座,状态只有一份,渲染各算各的。

根据一些 Demo 的表现,VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速(不同屏幕)的场景。在纯视频框架下,几乎没有办法做这件事,它必须依靠一个唯一的全局状态。

打靶的例子更能说明问题。当玩家用水枪发射,系统可以确定性地判断当前朝向和靶子的相对位置,精确计算是否击中,记录得分,这个结果永久留在状态里。

同样一件事丢给视频生成,它能生成一段「水柱击中靶子」的画面,却无法把这个结果可靠地存下来。

视频生成模型擅长的是像不像,不是对不对。世界模型要的恰恰是后者,曹炎培说,一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。

还有动作类型的泛化。以往大多数世界模型能支持的动作,说白了就是上下左右加跳跃,方向键能做的那几种。

在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势,状态推演只需要学「给定这个动作,下一个状态是什么」,不用同时学「这个过程看起来怎样」,比搅在一起学省力得多。

这些能力拼在一起,才像一个真正在运转的世界,而不是一段画质很高的动态视频。

Eden 的架构,为世界模型提供了新可能

虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览,但其背后的架构选择,为行业提供了一条值得长期关注的探索方向。

世界模型这个词现在人人都在说,但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展,除了有算力和融资量的因素,路线本身也在筛选玩家。

纯视频路线的世界模型,消耗的算力可能是生成一段 Sora 视频的成百倍,结局可能会像 Sora 一样在商业上此路不通。

但如果状态维护放云端,画面渲染做到端侧,像本地图形渲染一样,用户不必为每一帧付费,事情就不一样了。

VAST 提到他们现有的 3D 生成技术积累,恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构,提取深度和几何轨迹,把普通视频转化成带状态标注的训练数据。

而随着 Project Eden 的推进,在未来,随着多人并发问题在工程层面进一步解决,它或许还将颠覆现有的传统 DCC 工具,如 Blender,与类似 UE、Unity 等游戏引擎。

世界模型将不再按单次生成收费,是作为基础设施在内容分发、运行时进行,类似游戏引擎或云服务商的座席模式。

一方面,它是一个 AI 原生的沙盒平台,用户只需要通过自然语言或简易动作,就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界,极大地降低了内容创作的门槛。

VAST 想做的,是把造世界这件事的门槛,压到拍照那么低。类似于 UGC 互动内容平台,生成的世界也可能像短视频一样进入我们的生活,成为新的互动娱乐生态。

另一方面针对科研和产业,它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境,能成为适配具身智能训练与性能评测的高质量仿真基座。

世界模型,就这样越来越接近一个真正持续运转的世界底座。

曹炎培在内部把路线划成三个里程碑:

第一步,验证状态推演和画面呈现真能完美解耦,Project Eden 放出的 Demo 就是在交这份答卷;

第二步,攻克状态预测的泛化,让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果;

第三步,才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化,他预计是一件非常中长期的事。

与最早人们还会争论 AI 生成的图片/视频像不像,到现在 AI 可以一次性直出,海报、宣传视频,AI 都能搞定这件事一样,世界模型大概也在这条路上,从谁的画面更真实,变成谁的世界能够持续运转、更稳定承载多人交互,以及沉淀越来越多用户创造的内容。

从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

300 个 AI 和我的八块腹肌

要说这段时间的热门 AI 产品,Codex 必然是绕不过去的话题。

这个一开始只是给开发者用来做代码补全、项目管理、功能开发的编程平台,到现在已成长为一款适用于任何角色、工具和工作流程,且人人都能使用的生产力工具。

▲ OpenAI 在《知识工作的下一个时代》报告里提到,Codex 目前周活用户超过 500 万,自从今年 2 月上线桌面版 APP 后增长了 6 倍多。用户画像方面,虽然开发者仍然是 Codex 最大的用户群体,但知识工作者目前约占用户总数的 20%,并且增长速度是开发者的三倍多。

越来越多人发现,虽然 Claude Code、Codex,都是叫 Code(代码),但这些 Agent 不只是会写代码;它们还能整理文件、分析数据、搜索资料、自动跑工作流,甚至替我们完成一整个项目里的重复劳动。

早在 OpenClaw 火爆的时期,其实就有类似的趋势,但是龙虾的安装和部署劝退了很多人。叫好的多,真用起来的没几个。这类工具一直卡在同一道坎上,只有会折腾的人玩得转,普通人连门都进不去。

对大多数国内用户来说,Codex 算是第一个真正迈过这道坎的,虽然 Claude Code 在它之前,但 Claude 难用上,Codex 一键安装,加上接连的体验优化,把 Coding Agent 从程序员的玩具变成了普通人也能上手的东西。

究其本质,都是将从前单一的 Agent 演变成 Agent Team,甚至是一整套高达上百个 Agents 的动态工作流。

Kimi 最近推出了 Kimi Work,也是建立在这个趋势之上的一次尝试;其核心逻辑,就是把底层的 Agent Swarm 模型能力,用可视化界面进行封装,放到了本地电脑上。

大到工作中需要 300 个 Agents 并行处理的复杂任务,小到平时繁琐的文件整理、操作浏览器等等,都能通过这支 Agent 队伍在后台挂机完成。

开启 300 个 AI 分身

Kimi Work 最大的优点是 Agent 集群的能力放到了本地 Agent 上;而为了让 Agent Swarm 真正工作起来,Kimi Work 提供了多项实用能力。

  • 本地文件深度连接,可直接读取和管理本地文件夹,安全护栏机制要求在修改文件前需用户授权。
  • 7×24 小时定时任务(Cron 引擎),支持按设定时间自动执行 LLM 对话请求、Python/Shell 脚本等,如清晨生成简报或夜间清洗数据,可保持电脑唤醒以确保任务运行。
  • WebBridge 浏览器自动化,通过自然语言指令让 AI 自主操作浏览器,实现跨网页信息检索、深层数据抓取、自动填写表单等。
  • 原生接入全球金融市场数据,直接打通 A 股、港股、美股等核心数据源,可在对话中调取财报、分析盘面、进行跨表对账,辅助投资决策。

我们先是使用现有的本地文件夹创建项目,在该项目内新建任务,要求 Kimi Work 帮我们整理 20 家值得关注的 AI 公司,分析它们的产品定位、融资动态、核心竞争力等信息,并给出网页报告、PPT 等内容。

选择 K2.6 Agent 集群开始任务,Kimi 会自动给任务设置对应的进度,并且使用 Subagent 工具调用多个 Agents 来处理。

展开任务过程,可以看到有研究组 1-大厂 AI、研究组 2-新锐大模型、研究组 3-基础设施,以及研究组 4-AI 应用 4 个研究 Agent 去搜集和分析对应公司的资料。

而调用 Skill 这些都是基本操作,从右侧的上下文部分,我们能看到 Kimi 调用了报告撰写、可视化、集群深度研究、前端主题等来帮助它完成任务。

最后我们得到的分析报告也非常全面,数据表、可视化分析和具体的公司介绍都囊括在里面。更有意思的是,每家公司的详情部分都写着一句「风险」,Kimi 给自己的定位是「估值上涨过快,盈利拐点不明」,而核心竞争力是「长文本、编程能力、智能体、开源领先。」

除了这种常见的深度研究任务,有了 Kimi Work,我们现在可以直接让它处理本地的文件。最简单的先让它帮我整理一下最近 30 天内的文件,使用对应的工具查看文件内容,汇总这些文件的信息。

从右侧的进度可以看到它会读取文本文件内容,也能提取 PDF 文件、查看图片文件以及处理 Office 文件等,最后生成的表格也成功列举了所有的文件内容和对应的信息。

我们找了一份会议记录,并搜集了一些论文资料和图片数据,累计本地的文件数量达到了十余个。过去使用云端的 Kimi,我们要一个个上传这些文件到网页,现在 Kimi Work 可以直接选择该文件夹作为一个项目,开始 Agent Swarm 进行处理。

我们要求它使用 K2.6 Agent 集群来启动并行协作,根据文件夹内的资料,完成行业研究、论文综述、产品策略、技术架构、合规治理、财务测算、PPT 设计、Word 报告、PDF 研究报告、Excel 模型和质量审查等多份文档。

由于涉及的文件过多,Kimi K2.6 Agent 集群这次启动了多个阶段来完成,像是在研究分析的第一阶段,它就找来了行业研究员、论文综述员、产品策略师、技术架构师、合规治理专家以及财务测算师 6 个 Agent。

在第二步,Kimi 又找来了 PPT 设计师、Word 报告员、PDF 研究员和 Excel 建模师 4 个 Agent 来完成整合交付。整合交付之后,还会自动开启质量审查,利用质量审查员和网页开发师两个子 Agent 对之前的内容进行最终确认。

最后,Kimi Work 产出了六份文字报告、一份测算模型,以及用于汇报的 HTML 和 PPT 文档。

随便点开其中一份文档,Kimi Work 都不是随便应付,从内容到格式都符合直接交付的标准。

在 Kimi Work 的回复里,Kimi 提到基于本地文件夹的内容,它启动了 11 个专业 Agent 分 3 个阶段并行协作,模拟完整的企业咨询项目组,最终交付 12 份专业文档,覆盖 6 种格式。

针对每份文件,它还贴心地给出了使用场景快速导航,例如向 CEO/高管汇报用 07_管理层汇报.pptx + 12_数字化汇报.html,提交正式咨询报告使用 08_综合咨询报告.docx,投行/研究机构参考是 09_深度研究报告.pdf 等。

这件事放到我们打工人身上,只能是先看 A 公司,再看 B 公司;先开网页,再记笔记;先跑表格,再写结论。但 Kimi Work 这类本地 Agent 的加入,让知识工作正在从「一个人依次处理任务」变成「一个人调度一群 AI 处理任务」。

放心 Vibe Working

除了直接使用 300 个 Agent 的能力,配合 Agents 集群,我们还能利用之前 Kimi 内置专业金融数据源的独家亮点。不需要专门去找各种金融 Skill 或者配置数据 API,Kimi 会直接抓取到包括同花顺、天眼查以及世界银行经济数据库的金融数据。

这套数据配合 Agent 集群更能发挥它真正的实力。苹果 WWDC 马上要来了,我们要求 Kimi 帮我整理一下苹果这三年来的股价信息,以及每年的财报,分析其中值得的关注信息。

Kimi 一点都不含糊,同样是启用了 Subagent 工具,调用多个 Agents,完成了一份内容丰富的调研报告。

除了网页,还有基于金融数据整理的 PPT、表格等内容,详细地概括了苹果的股价、主要收入、不同地区的收入情况等。

对大多数的知识工作者来说,这套内置的专业金融数据源能帮助我们减少很多上手 Agent 的负担。

Kimi Work 另一项降低「交给 AI」门槛的功能是 WebBridge。根据官方的指引,我们也先让它使用浏览器搜索了 Kimi K2.6 的信息。

Kimi 会自动启用一个标签组,所有自动化的操作都在该标签组内的网页上进行,调试过程中,Kimi 会自动输入对应的信息,自动截图查看当前页面状态,也会通过获取页面结构来定位搜索框、帖子内容等信息。

对于 Google 这种无法搜索到小红书信息的搜索引擎,用 Kimi 来自动化整个搜索过程,并给出对应的总结,也是一种不错的用例。

使用 WebBridge 的方式也非常简单,按照官方的指引,我们在浏览器上安装好 Kimi WebBridge 的扩展程序,或是直接新建任务,要求 Kimi 帮我们完成安装,它会自动执行对应的安装脚本,在本地处理好 WebBridge 相关的服务。

本地 Agent+Agent Swarm+WebBridge,这几项能力的综合,让 Kimi 能胜任的场景比单纯的聊天要广泛得多。

例如我们可以要它「检查我的 Gmail 邮箱,看看有没有过去 24 小时内未读的邮件。把重要的邮件总结一下。」然后,总结的内容全部保存到本地,甚至是把重要的邮件都保存下来。

Kimi 在浏览器中自动化操作了一会儿,就自动为我们生成了这份 Gmail 邮件总结报告。


此外,结合我们之前要求它完成行业咨询任务,现在可以让它总结信息,自动撰写文件,选择合适的附件并发送邮件。

或者针对那些从搜索引擎或者内置数据库中找不到的信息,先用 WebBridge 获取相关信息,再通过 Agent 集群来处理,形成各种报告文档。

AI 正在组队上工,学会做个甲方

这些检索内容、生成报告相关的能力,其实也正是前段时间 OpenAI 「知识工作者的下一个时代」报告里提到的,Codex 增长最快的知识型任务。统计的数据显示,数据分析任务,周环比增长 110%,而研究和知识产物也排名前三,有将近 37% 左右增长。

Kimi Work 的出现很大程度上帮助知识工作者更好地处理这些任务,另一方面,知识工作者的核心竞争力开始与长时间内的信息处理速度高度绑定,Agent 集群的能力迎合了这一需求

过去几年,大模型产品一直在寻找进入工作的方式。

聊天机器人负责回答问题,Copilot 开始参与工作,Coding Agent 学会执行任务。如今,随着文件访问、浏览器操作和工具调用能力逐渐成熟,Agent 开始承担越来越完整的工作流程。

更重要的变化在于,完成一项任务的主体,正在从单个 Agent 变成多个 Agent 的协作。

在 Kimi Work 的案例里,无论是研究 20 家 AI 公司,还是围绕本地文件生成一整套咨询报告,背后是一组 Agent 自动拆解任务、分工协作、交叉审核,再完成最终交付。

Anthropic 前几天在 AI 自我进化的报告中,就曾提到,现在的 Agent 已经从 Coding agents 的时代来到了 Autonomous agents 的阶段,核心的变化就是多 Agent 成为了一种新的工作组织方式。

过去,知识工作的瓶颈往往来自人的时间和精力;未来,越来越多工作或许会变成另一种形式,人负责提出目标、判断方向和做最终决策,而资料搜集、信息整理、分析研究和文档交付,则由一支随时待命的 AI 团队协同完成。

打开电脑,面对的可能不再只是一个 AI 助手,而是一整个 Agent 团队。

One More Thing

当所有 AI 公司都在押注多 Agent 的产品形态时,四年一度的押注开始了。

美加墨世界杯即将在本周打响,48 支球队、104 场比赛。今年的竞猜选手,也有 AI 一席地。

Kimi 用 Agent Swarm 功能调动 300 个 Agent,对全部 104 场比赛进行赛前公开预测和赛后复盘,认为德国队被严重低估了,模型测算显示,德国队基准夺冠概率约11.0%,校准后约11.3%。

今天 Kimi 发布的这份世界杯预测报告里面提到,连续两届世界杯小组出局的阴影,在公众和市场心理上留下了顽固的「近因偏差」,持续压低了德国的定价;但 Elo 排名、阵容估值和人才储备厚度的硬指标上,日耳曼战车依旧稳居世界第一梯队。

当然,德国队最后能不能夺冠,目前还不得而知。有意思的是,在这件事里,Kimi 想证明的可能从来不是自己会不会猜球。

为了分析预测,它调用 300 个 Agent 去搜集信息、拆解数据、评估概率,再持续复盘整个赛事过程。这套流程和前面那些行业研究、财报分析、咨询报告一样,世界杯预测只是另一种形式的复杂任务。

而当生活和工作中,越来越多的事情,我们都能安心交给这 300 个 AI 去完成时,那我的八块腹肌,或许真的还有点希望。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

iPhone 一夜变成 AiPhone,但 AI 手机的未来不在手机里

国行用户还是没有 Apple 智能。

更新到 iOS 27 的开发者测试版本后,对国行 iPhone 来说,最大的变化是可以设置调休闹钟,外版用户则迎来了一个独立的 Siri App。

这两年,我们一直在吐槽国行 iPhone 没有 AI。

但如果今天真的要买一台手机,AI 恐怕还不是大多数人的首要考虑因素。

▲虽然都在说 AI 手机,但大多数手机的卖点还是在相机和电池等方面,包括苹果在 17 Pro 上的主要亮点也是后置三摄

大家会比较影像、续航、性能、外观,甚至颜色,却很少有人因为「这个 AI 特别强」而下单。

一个有点矛盾的现实是,AI 手机已经喊了两年,但什么是 AI 手机,行业和用户都还没有形成共识。

就在这个背景下,苹果这次把新版 Siri 推到了系统层。

它有了独立入口,也支持连续对话、文件上传和上下文理解。

从功能看,这些能力并不新鲜,很多用户会觉得它只是补上了 ChatGPT 两三年前就已经实现的部分。

真正值得关注的是,苹果终于给出了自己对于 AI 手机的答案。

目前,对 AI 手机而言,行业里目前存在两种理解。

一方面是手机变聪明了,从智能到人工智能。相机能够识别物体,照片能自动扩图、修改视角,搜索框里换了大模型驱动的 AI 引擎,快捷指令用简单的自然语言就能搭出来。

这些改进确实让体验变得更好,可是我们跟手机的关系似乎并没改变。这一路线增强的是功能,而第二种路线改变的是交互。

我们不用自己的操作,对着手机把想做的事情说出来,系统级的助手,会像 Codex 一样,自动启用 Computer(Phone) Use、Chrome(App) Use 的能力, 调度不同的应用,把事情做好。

过去两年我们一直在讨论,也是所有厂商都难做好的,全在第二件事上。

四种 AI 手机

问题在于,当 AI 真正开始替用户操作手机,它立刻会碰到权限、应用生态和责任归属的问题。

谁有资格代替用户执行操作?App 愿不愿意开放能力?出了问题谁负责?

于是,不同厂商开始走向完全不同的路线。

「被限制」的豆包手机

豆包手机刚出来那会儿,确实收获了很多关注。它通过系统权限拿到的能力,可以直接模拟用户点击。一个需要 50 步点击的任务,大概能跑出八成的成功率,能力边界是当时市面上,所有打着 AI 手机旗号的产品中最宽的一个。

但它也最容易踩雷,纯粹的依靠模拟点击,一边是效率的问题,更严重的是合规的问题。

效率上,通过识屏的方式找到应用的不同按钮,然后再操作系统进行点击,这种流程被拉得极长。即便可以预先录入一套常见应用的交互方式,但 App 一旦更新,界面重新排布,就又需要再来一次,还可能失效,需要重新学习训练。

合规上,豆包手机在去年年底被微信、支付宝集体风控。豆包手机也发布声明回复,所有的权限都在系统允许的范围内操作,后续也主动收缩了操作范围。

应用需要确保自己的用户信息安全,无可厚非。现在就连 Codex 上的 Computer Use,都无法正常操作电脑版微信,一旦检测到非人类的点击操作,微信就会自动退出。

豆包手机的正式版还在打磨,路线也正在从纯视觉操作向接口协同演进。

国民级的超级应用选择 AI,会成为手机的重要部分

微信,就在 WWDC 前,联合五大手机厂商推出了 A2A(Agent-to-Agent)助手能力。

手机系统 AI 助手解析出用户意图后,通过加密、受控的协议向微信发起「呼叫」,微信在自己的沙盒里原生执行「发消息、打电话」这两个基础动作,系统 AI 碰不到任何聊天记录。

这更像是一种停火协议,手机厂商承认,不能绕过超级 App 的边界;微信也承认,系统级 AI 助手正在成为新的用户入口,完全堵住并不现实。

更有意思的是,微信同一天还面向小程序开发者开放了微信 AI 生态接入指引。

开发者可以授权微信 AI 接入自己的小程序,其中有两种模式,「自动模式」让平台读取源码、分析页面、直接操作;「开发模式」让开发者自主声明能力,经审核后被微信 AI 调用。

两种模式可以同时开启。微信现有超过 400 万个小程序,如果大量接入,微信 AI 调度的能力范围将远超「发消息打电话」,点外卖、打车、订票、买东西,一整个小程序生态都有机会实现。

把这两件事放在一起看,微信的策略就很清楚了,手机厂商想把微信变成自己助手能调度的一个 App,微信想把自己变成一个更大的 Agent 平台。

双方都在开放能力,但都希望把入口掌握在自己手里。

XX Intelligence 和 XX 助手

再看 Android 和 iPhone,方向其实一致:AI 不再是一个 App,而是在系统里流动。

Google 在 I/O 之前的 Android Show 上直接说,Android 正在从 operating system 变成 intelligence system。

Google 的优势很明显:它既有 Android,也有 Gemini,还有搜索、Gmail、Calendar、Chrome、Google Play 和车机、手表、眼镜。它完全可以做一个跨屏的 Gemini 操作层。

从这个角度看,Google 争夺的已经不仅是一部手机上的 AI 入口,Gemini 承担的是整个 Google 生态的交互层。

当用户发出一个需求,调用的可能是搜索、地图、邮箱、浏览器,也可能是电脑、手机、车机和眼镜上的能力。

AI 手机只是这张网络里的一个节点。

Siri AI 不会是一个「ChatGPT 式」的 App

苹果选了一条更慢的路。

Siri AI 的新能力强烈依靠 App Intents。开发者要把自己的内容和动作用结构化方式交给系统,比如「我能创建一笔费用」、「我能预约会议」、「我能编辑这张图」。Siri 再用自然语言理解用户意图,调用这些动作。

苹果还把 App 内容接进 Spotlight 的语义索引,让 Siri 能理解手机里的个人上下文。这套逻辑和微信小程序的「开发模式」很像,开发者声明能力,平台负责调度。

区别是,微信只在小程序生态里做,苹果要把它放到整个 iOS App 生态里。

▲ Craig 在 WWDC 主题演讲结束后的媒体交流会上谈到 Siri AI 时说,「我们认为 Siri 不是一个独立的聊天机器人,一个你去那里闲聊的,不整合的地方,Siri 是一个集成的、对话式的工具。」

苹果的底层模型也补了一大块。第三代 Apple Foundation Models 包括端侧模型、私有云模型和图像模型,其中端侧 AFM 3 Core 是 30 亿参数,AFM 3 Core Advanced 是 200 亿参数的稀疏模型,按任务激活 10 亿到 40 亿参数。

更复杂的任务交给 Private Cloud Compute。苹果也提到新一代 AFM 是和 Google Gemini 合作定制的,最重的云端模型还用到了 Google Cloud 上的 NVIDIA GPU。

▲ 苹果昨天发布了第三代基础大模型|https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

苹果终于把过去两年欠下的 AI 账补到了系统层。

它的优势是整合最深,Siri、Spotlight、App Intents、照片、信息、Safari、快捷指令,这些东西都在系统里。一次系统升级,就能改变 iPhone 用户「找东西、办事情」的默认路径。

但它的限制也很清楚,App Intents 取决于开发者适配多少,Siri AI 真实可用性还要等 beta 之后验证。

国行用户还要面对地区限制,而部分端侧大模型的能力,支持的手机产品也只有 iPhone Air 和 iPhone 17 Pro 系列。

AI 手机的天花板,不在手机里

今天各家争的,还是手机和 App 之间那一层:谁能替用户办事,谁批准,谁执行,谁担责。

从豆包、微信、Google 到苹果,虽然它们给出的答案并不相同,有的选择模拟操作,有的选择开放协议,有的选择统一调度层,也有的选择让开发者声明能力。

共同点在于,AI 手机正在从「回答问题」走向「完成任务」。

但再往后看,AI 手机的天花板可能不在手机里。

端侧模型正在变小,推理芯片正在变强。1.58-bit、2-bit 这类低比特量化不断降低模型占用,手机上能跑的模型会越来越大。现在很多端侧能力还只是修图、听写、摘要和简单问答,几年后,手机本地模型处理个人上下文、隐私任务、轻量代理工作,会变得更自然。

更大的变化,是手机会变成调度算力的入口。

我们不一定要在手机上完成所有工作,但可以用手机发起任务:让电脑里的 Codex 写代码,让云端的 Claude 做研究,让家里的设备准备环境,让车机继续导航,让眼镜把现实世界变成输入。

Googlebook 已经把这个方向摆出来了:手机里的 Android App、文件和 Gemini 能力,可以延伸到笔记本。苹果如果把 Siri AI 做扎实,后面自然会接 AirPods、Apple Watch、Vision Pro,甚至传闻中的眼镜和桌面机器人。

手机要变成什么,现在还没人说得准,但它正在从「装 App 的地方」,变成我们「随时能调动算力的入口」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Codex 大降价要来了,这份官方指南手把手教你高效榨干额度

这段时间以来,社交媒体上对 Codex 的评价是好评如潮。

有网友发现,现在邀请一位朋友加入 Codex ,就可以重置速率限制。

即便邀请的用户并非新用户或订阅用户,只要受邀用户通过链接打开 Codex 后发送几条消息,就能获得一次重置的机会。

除了拉新人送福利的活动,官方的 Codex 也将迎来大降价。
根据外媒援引知情人士的消息,OpenAI 正在考虑大幅降低其向用户收取的费用,以从竞争对手 Anthropic 那边赢得客户。
报道里提到,OpenAI 可能会降低 Token 的价格,但关于大降价的讨论还在进行中。
毕竟,Codex 现在就是 OpenAI 最好的客户拉新平台。
和 OpenAI 官方披露的数据一样,ChatGPT 用户突破了 10 亿,而 Codex 的周活用户却刚刚来到 500 万,相当于 200 个 ChatGPT 用户里,只有 1 个人点开了侧边栏里面的 Codex。
「用不上」是一方面,更多地可能还是不知道怎么用,或者 Codex 能做什么,哪些是 ChatGPT 做不好,只有用 Codex 才能做到的任务。

Codex 官方也听到了用户的反馈,一边高调宣传即将并入 ChatGPT,未来我们打开全新大改版的 ChatGPT 应用时,可以选择使用 Codex 还是 ChatGPT 来回答。

另一边,他们这几天在 OpenAI 官网一口气更新了十几个真实世界的工作流程,从常见的部署网页和应用、直接构建一个 Mac 或 iOS 应用,到大型的项目管理、150 个小时的科研任务,以及各种工作中的琐碎业务,都有相应的使用案例。

这些教程大概是帮助我们快速上手 Codex 的最佳指南,很好地解决了 Codex 能做什么,如何使用 Codex 的问题。

Computer Use,让 Codex 控制电脑

Hey Siri,打开微信发消息给妈妈,说 XXXX
请先解锁 iPhone

Siri 做不到,Codex 现在也做不到操作微信。

Codex 的 Computer Use 功能,主要是允许 AI 像我们一样操作电脑界面,通过点击、查看和输入来完成任务。这项功能适合的场景包括跨应用任务,如收集笔记、更新记录、在不同位置间复制细节、回复信息等。

在官方的使用案例里,他们举的例子有简单地放首音乐,也有涉及在不同应用之间切换。

@Computer 放点音乐帮我集中注意力。

@Computer 请帮我把 Notes 里的面试笔记添加到飞书里。

@Computer 请查看我的企业微信并添加提醒,提醒我今天结束前需要完成的所有事项。

具体的使用方式,我们先要在 Codex App 里面找到 Computer Use 并确认已经开启,接着在对话框里,输入指令的开头加上 @Computer ,或者提及特定的应用程序,例如 @Slack 或 @Messages 等。

选择好 Computer Use 插件之后,描述一下任务以及我们想要的结果,当 Codex 需要访问权限时,批准访问,然后让它在后台继续执行任务。

使用 Computer Use 的几个注意事项,像是确保运行时 Mac 不会锁定,或者在 Codex 里打开「锁屏操作」功能,还有 Codex 使用电脑上的应用时,我们可以在自定义设置中,告诉 Codex 默认浏览器是哪个。

以及不要使用两个 Computer Use 的任务线程来控制同一个应用,每一个线程结束后都可以要求 Codex 总结和优化该任务,甚至是将这套工作流程变成可重复的模式。

给 Codex 一个能一直跑下去的目标

平时让 AI 干活,很需要我们站在旁边盯着,它做一小步停一下,问下一步怎么办,我们得一直搭着手。

/goal 想解决的就是这件事:给 Codex 一个长期目标,让它自己照着这个方向一直做下去,干完一轮也不停。

官方指南里,几个典型的用法是那种比一句提示词大、又比一整张待办清单小的任务,目标明确、能自己验证、做到什么程度算完都说得清

项目迁移:不管是把游戏搬到新技术栈、把移动应用搬到新平台,还是把整个代码库换个框架,都可以用 /goal 让 Codex 把迁移一路跑完。

做原型:从零做一个新应用、新游戏或新功能时,可以用 /goal 让 Codex 交出一版打磨过的初稿。你可以写一份 PLAN.md,把想做成什么样讲清楚,让它照着做。

调提示词:手上有一套测试集,就能用 /goal 拿评测结果来优化提示词。Codex 会去看哪些案例失败了、改提示词、重跑评测,一直迭代到分数上去,或者到了你定的收尾条件为止。

对于如何写好一个能稳稳跑起来的目标,先给它一个明确目标和一个收尾条件;告诉它先去读哪些文件、文档、issue、日志或计划;定好用哪条命令、哪个产物来证明进度;让它分阶段做,顺手记一份简短的进度日志;过程里我们随时用 /goal 看状态;跑完、卡住或者要换方向时,再暂停、继续或清除。

用 GPT Image 2 来做 PPT

做 PPT 最磨人的那步,常常是排版。Codex 自带两个技能:$$slides 用 PptxGenJS 直接读写 .pptx,$$imagegen 负责生成配图。

OpenAI 官方给的参考提示词是,

使用 $$slides 和 $$imagegen 技能,按以下方式编辑此幻灯片:
– 如果存在,请在每张幻灯片的右下角添加 logo.png 文件
– 在幻灯片 X、Y 和 Z 上,将文本向左移动,并使用图像生成功能在右侧生成插图(风格:抽象、数字艺术)。
– 尽可能将文本保留为文本,将简单的图表保留为 PowerPoint 原生图表。
– 添加以下幻灯片:[在此处描述新幻灯片]
– 在新幻灯片和新文本中使用现有品牌标识(颜色、字体、布局等)。
– 将更新后的演示文稿渲染成幻灯片图像,检查输出结果,并在交付前修复布局问题。
– 在交付之前运行溢出和字体替换检查,尤其是在牌组密集的情况下。
– 创建一批相关图像时,保存可重复使用的提示或生成说明。

除了从零开始做,一页页描述内容和整体风格,有 logo、图片就丢进同一个文件夹方便它取用。

我们还可以让 Codex 来处理周报、月报、季报这种,定期更新模板,让它总结一份 guidelines.md 确定好内容、结构和更新方式,再配合别的技能拉对应的数据,比如给股东的季度汇报,换上新数字和洞察就行。

而修改现成的 PPT,也可以直接在对话框里,要求 Codex 修改间距、文字错位这类毛病。

让 Codex 照着截图做网页

手上有几张截图、一份简短的设计说明,或者几张找灵感的参考图,Codex 能照着做成响应式界面,同时顺着项目里已有的写法来,即原有框架和语言,不会另起一套。

再配上 $playwright,Codex 能在真实浏览器里打开页面,按不同屏幕尺寸跟我们上传的截图逐一对照,反复调到接近为止。

参考提示词如下,

请以我提供的屏幕截图和注释为依据,在当前项目中实现此用户界面。

要求:
– 重用现有的设计系统组件和标记。
– 将屏幕截图转换为此存储库的实用程序和组件模式,而不是发明一个并行系统。
– 间距、布局、层级和响应行为要紧密匹配。
– 尊重仓库的路由、状态和数据获取模式。
– 使页面在桌面和移动设备上都能响应。
– 如果截图中的任何细节不明确,请选择最简单但仍符合整体方向的实现方式,并简要说明假设。
验证:
– 将最终的用户界面与提供的屏幕截图进行比较,包括外观和行为。
– 使用 $playwright-interactive 检查 UI 是否与引用匹配,并根据需要进行迭代,直到匹配为止。

从零做一个在浏览器跑的游戏

做游戏大概也是能看出 Codex 不只会写代码还懂设计的场景之一。一个真正的游戏,要有写下来的玩法概念、渲染层、前端外壳、后端状态、美术素材,还得不停地调画面和手感。

动手搭架子之前,先让它写一份 PLAN.md,把游戏拆成具体几块:玩家目标、核心循环、操作和输入、胜负条件、难度和成长、视觉方向、技术栈和部署假设、里程碑的先后顺序。

再写一份 AGENTS.md,按照官方的教程,可以参考下面的写法。

游戏名

<游戏类型>

技术栈:
– 前端 NextJS(部署在 Vercel)
– 渲染用 <填技术>
– 后端 Fastify + WebSocket(部署在 <平台>)
– 数据库 Postgres,缓存和 pub/sub 用 Redis
– 生成式 AI 功能走 OpenAI

约定:
– 每做完一个功能就用 build / test 命令验一下
– 做新功能时照着 PLAN.md 来
– 把思路和决定记在 .logs 里,迭代时回头查
– 用 playwright 测画面效果,不对味就改
– 用 imagegen 出素材,每出一批就把 prompt 存进 .prompts,方便以后接着出同款
– 用 Context7 MCP 拉 <渲染框架> 的文档

把 AGENTS.md 里提到的技能都装上:$$imagegen 出美术素材,$$playwright 在真实浏览器里测游戏,$openai-docs 拉最新的 OpenAI API 文档,需要的话再加个 Context7 MCP 拉渲染框架的文档。

接下来 Codex 会照着计划先做出第一版。如果要生成的图很多,这一版可能得跑上好几个小时,Token 开始疯狂燃烧。不过借由 Playwright 的能力,Codex 可以自己在浏览器里试玩、验证游戏效果,中间基本不用我们管。计划写得越细,第一版出来就越像样。

我们让 Codex 自己写了一份游戏的 Plan.md,输入提示词「Use $playwright-interactive, $imagegen, and $openai-docs to plan and build a browser game in this repo.
Implement PLAN.md, and log your work under `.logs/`.」然后生成了一个比较完善的小游戏。

让 AI 自己跑科研

Codex 能干的不止写代码,它也能在科研里当一个长期干活的研究助手。用户给出方向和判断,它去实现、取证、打分、反复迭代。

其中一个案例是改模型架构。假设手上有个蛋白质折叠的假设,「让模型多表示一些高阶的几何结构,会不会学得更好」,可这种想法一遍写不完,得反复试。

用 Codex 的 Goal Mode,给它三样东西:一个划好边界的科学方向、一个能跑的基线模型、一套能自动打分的基准,它就会照着这个目标一路爬分,实现、测试、记实验、查故障、再改。

官方给出的例子里,Codex 连着跑了 150 多个小时,产出了一个叫 SimplexFold 的实验性架构。

另一个是给药物靶点排序。类似任务的麻烦点,在于证据散在十几个数据库里,遗传学、临床、文献、表达数据各管一摊。

用 Life Science Research 插件,Codex 能并行去各家数据库取证、每条证据线各自按 1-5 分打分,最后汇成一张打分表加一份排名,还能配上热力图之类的图。

在 OpenAI 官网给出的用例还有很多,我们这里只是列举了部分热门的用法。感兴趣的朋友可以去 OpenAI 开发者官网 developers.openai.com/codex/use-cases,尝试不同的案例。

还有网友发现,现在邀请一位朋友加入 Codex ,就可以重置速率限制,即便邀请的用户并非新用户或订阅用户,只要受邀者通过链接打开 Codex 后发送几条消息,就能获得一次重置的机会。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

AI 给土豆编了一门学科,我去查了查,它竟然是真的

一颗土豆,表皮上爬满发光电路,焦黄的皮和银色走线贴在一起,像是英伟达和肯德基联名了。

标题端端正正:Potato Chip Tech Summit——一颗土豆如何颠覆半导体行业。

这是我们给 AI 出的题:「做一份《土豆芯片科技峰会:一颗土豆如何颠覆半导体行业》的英文 PPT,20-25 页,面向大众媒体,风格创意趣味。」

翻译成人话就是:请一本正经地论证,一颗土豆如何颠覆半导体行业。

整个的 PPT 生成是在 Hermes Agent 里,我们提前安装了 SenseNova-Skills,一套包含覆盖信息图、PPT、Excel 数据分析等多种工作场景的技能包

本来就等着看它编出一些好笑的文案。毕竟这几年 AI 做 PPT 已经没什么新鲜感了,很多工具都能把标题、大字、图标和模板拼在一起,交一份看起来挺完整的文件。

但这次,土豆、芯片、半导体,三个完全不搭的词——唯一有点关系的,只能让我想到用柠檬可以做水果电池。

结果在 Hermes Agent 里,两步操作之后,AI 给了我们有模有样的 23 页完整 PPT。

它压根没打算糊弄我

开头那个稍显正式的封面之后,AI 没急着夸土豆,反手先去挑硅半导体的毛病:硅晶圆要 99.999999% 的纯度,一座无尘室造价超过 50 亿美元,稀土短缺还威胁着 2030 年的供应链。

等等,我愣了一下才反应过来…… 这小子是在给土豆出场铺垫了。先把现有方案数落一番,再让主角登场,这几乎是任何一份像样路演的起手式。

于是主角登场了。土豆是天然的有机电路板,淀粉能形成晶体结构,导电路径可以「长」出来而不靠蚀刻,每颗土豆有数百万个微通道,用完还能生物降解,零电子垃圾。

到这儿我已经笑出声了,虽然它说的每一句话都是现编的(当时我以为)。

它到底是怎么憋出这 23 页的

整个 PPT 都透露着一种荒诞的正式感,而做到这件事,我们只下了两条指令。

第一条,把选题、页数、语言、受众、风格一股脑丢给它,让它先出个大纲。它读懂了这个离谱命题,自己把 23 页的骨架搭好了:哪几页讲问题,哪几页讲方案,哪几页摆数据,哪几页收尾。

第二条,照着大纲生成文件。它自己调度了三个不同的 PPT 生成技能,sn-ppt-standard、sn-ppt-creative、sn-ppt-entry,一个管标准排版,一个管创意视觉,一个管开场封面,并行生成完整 PPTX。

这套技能包来自SenseNova-Skills,商汤开源的工具集。

它把信息图、PPT、Excel 数据分析、深度调研等任务,拆成了一个个可以被 Agent 自动调度的 Skill 模块。装在 Hermes Agent 里,就是这次土豆 PPT 的生成方式;它同样可以加载到 Codex、Claude Code 等主流 Agent 平台。

AI 未必「理解」这个主题,但通过 Skill,它能知道一份好的商业 PPT 应该长什么样,哪怕主角是一颗土豆。

它发明了一门学科:薯电子学

这颗土豆还有更离谱的事情,PPT 的内容在介绍完土豆芯片基本情况之后,它还造了个词,叫 Spudtronics——薯电子学,一门研究淀粉分子半导体特性的学科。

它给这门自创的学科配上了一整套真参数:电子迁移率 150 cm²/Vs,热稳定性 85°C。数字精确得像从论文里抄来的,只可惜那篇论文并不存在。

但它确实顺手给自己搭了套学术背书,一个实验室,Rostava Lab;一本《Nature》子刊,Nature Bo-Tech。

更有意思的是原型机那一页。它老老实实写了这台机器的时钟速度:0.000 GHz,这颗芯片的运算速度,约等于一颗土豆该有的速度。

但该有的成本对比,它一项没落:单颗 0.03 美元,硅的同类要 45 美元。一个跑都跑不动的东西,它照样把性价比给我们算得清清楚楚。

做融资 PPT 的本质是什么?是让投资人看完先上头,来不及细想逻辑。它显然深谙此道。

一个笑话,它做了全套尽调

接着它给土豆芯片算了能耗账:每批耗能 0.003 GWh,碳足迹降低 99.7%,水耗从 1000 升砍到 5 升,乍看还以为是世界 500 强的 ESG 年报。

市场预测上,2025 年试点,2028 年拿下低功耗设备 15% 的市场份额,2035 年吃下半导体总市场 70%,配一张土豆做的饼图。它甚至分好了赢家和输家,土豆产区、农机厂、生物科技公司赢麻了;部分地区的晶圆代工厂和稀土矿商被它判了死刑,配上一颗愁眉苦脸的地球。

真正让人服气的,是它连没人爱做的那几页都补齐了。

监管那页,它说食品电子还没有监管框架,FDA 和半导体认证边界不清,配图是一颗戴着法官帽的土豆。专利那页,它写 Rostava Lab 已经提交 12 项核心专利,大公司开始抢注防御性专利,开源土豆芯片倡议同步上线,预计 2027 年爆发 20 亿美元的诉讼——它给这页起了个名,叫 The Patent Wars。

它还做了用户调研:72% 的人愿意接受土豆电子,主要顾虑是耐久性,对策是把「potato」重新包装成「premium organic」。

它要帮一颗土豆做品牌策略。

我数了一下它认认真真填满的格子:行业瓶颈、技术原理、原型验证、能耗、市场、赢家输家、监管、专利、开源、补贴、IPO 管线、消费者信任、品牌重塑、分人群的行动号召。一份真正的产业路演该有的每一格,它一格没漏。

它把这个笑话,当成一单正经生意,做完了全套尽调。

再出个中文版,土豆直接上路演

除了英文版,我们也用同样的流程,做了一套中文的。

英文那版,它讲的是一场海外科技峰会,自创学科,现编期刊,给自己搭了一整套学术背书。中文版里,土豆不进实验室了,直接走进了中文创投路演的现场。

画风瞬间切换:功耗降低 90%,碳足迹减少 95%,良率 98.5%,算力 500 TOPS,单颗成本 0.05 美元。每一个数字都像是为了让投资人瞳孔放大而量身定制。

最离谱的是量产良率那页,它写土豆芯片首月良率 35%,三个月后稳定在 95% 以上,成本曲线一路向下。一个明明从地里刨出来的东西,硬是被写出了晶圆厂爬坡的味道。

看到这页的时候我确认了一件事,这个 AI 看过不少招股书。

在英文里包装成学术峰会,在中文里变成创投路演,连笑点都跟着换了:从「土豆能造芯片吗」,变成了「它怎么连路演话术都学得这么熟」。

但有一件事,让这个笑话的边界开始模糊

看完这两版,一开始想要难住 AI 那点心思早没了。

土豆造芯片,本来也没什么准不准可言。所以查证原本不在我的计划里。可有个念头我没忍住:英文版的薯电子学也好,中文版的量产良率也好,它们底下赌的是同一件事——有机材料能拿来造电子。这事,现实里真有影子吗?

我搜了搜,然后就笑不出来了,因为现实比 PPT 还绷不住。

AI 自创的那门学科,现实里真的存在

AI 以为「薯电子学」是自己现造的,可现实里真有这么一门学问,名字差不太多:MycelioTronics,蘑菇电子学。

奥地利林茨大学的团队,用一种灵芝长出来的菌皮,做成了可降解的电路基板,论文 2022 年发在《Science》子刊上。这层蘑菇皮能耐 250°C 高温,能用激光在上面刻线路,他们还真拿它做出了能用的湿度和距离传感器。

一个是 AI 现编的 Spudtronics,一个是真发在 Science 上的 MycelioTronics。

「能吃的芯片」,也不是 AI 瞎编的

意大利理工学院有个叫 Caironi 的团队,2023 年做出了世界上第一块可充电的「可食用电池」。材料表是维生素 B2、海苔、可食用金箔、蜂蜡。到 2025 年,同一拨人已经做出了能吃的逻辑门电路,能跑 NOT、NAND 这些基本运算。

而这块真·可食用芯片的运算频率是多少?1.32 赫兹。

AI 编的那颗土豆芯片写着 0.000 GHz,听着像个段子;可现实里能吃的电路,真就跑在个位数赫兹上。两个数字摆在一起,AI 那个「0.000」突然就不太像在开玩笑了。

更狠的是,Caironi 团队的长期目标,写出来跟那份土豆 PPT 几乎是同一句话:用食物里天然存在的半导体,去替代硅。这事还有正经的欧盟项目在掏钱,名字叫 ELFO。

连那个被 AI 当成「土豆优势」的成本叙事,也透着一股真实的荒诞。

AI 在 PPT 里写一座晶圆厂造价 50 亿美元,听着已经够吓人了。

可它还是太天真,现实里一座先进制程的晶圆厂,25 到 35 亿美元只是其中一个「模块」的价,整座厂动辄上百亿,台积电光在亚利桑那那一片就砸了一千六百多亿美元。AI 编的数字,比现实还保守。

土豆芯片当然是个笑话。真正让我停下来查资料的,是这份 PPT 背后那些真实存在的技术方向。

可降解电子、可食用电子、用食物替代硅,这些领域都真实存在。AI 一路走到了现实研究的边界,然后再往前多走了一百步。

而我原本根本不知道这些东西。用 ChatGPT 的 10 亿用户里,很少有人是材料学家,是半导体从业者。如果没人告诉我,我大概率不会主动搜索 MycelioTronics,不会知道真有人在研究可食用电池,更不会一路找到相关论文和项目。

但这份 PPT 做完之后,我突然拥有了一张地图。哪些方向已经发生,哪些还停留在实验室,哪些属于合理推演,哪些值得继续查下去。这或许才是这次实验最有意思的地方。

以前,面对一个陌生领域,第一步往往是大量阅读资料,再慢慢建立自己的理解框架。现在,这个过程正在被压缩。

土豆 PPT 能够把技术路线、产业逻辑、市场预测、监管风险、专利布局甚至品牌策略都串成一个完整故事,靠的并不只是模型生成几段文字。

背后真正发挥作用的,是一整套被拆解出来的专业能力。

这次实验里使用的 SenseNova-Skills,正是商汤开源的一套 Skill 集合。PPT 生成、信息图制作、数据分析、深度调研等能力,都被封装成独立 Skill,可以根据任务自动调用和组合。

对于用户来说,变化其实很直接。

过去需要自己一步步完成的拆题、调研、整理、制作流程,现在越来越多环节可以交给 Skill 自动完成。我们给出的只是一个命题,剩下的工作会被拆解成多个步骤,并最终交付成一份完整成果。

土豆芯片是一个极端案例,但连这样一个荒诞命题,都能被认真拆解成一份像模像样的产业路演。当我们的命题本身来自真实工作时,这套能力能够发挥的空间显然更大。

未来很多人认识世界的方式,或许也会因此发生变化。

The future is organic. The future is delicious.

这次土豆实验用到的 SenseNova-Skills,商汤已经开源。

开源地址:https://github.com/OpenSenseNova/SenseNova-Skills

安装方式也很简单,直接告诉你常用的 Agent:「请帮我把 https://github.com/OpenSenseNova/SenseNova-Skills 安装到你的 skills 目录。」剩下的事情,交给它就行。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 GLM-5.2 :Claude 5 关停后,它真能稳稳接住这波用户

前几天 Fable 5 对海外用户关停的时候,智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2,并表示「前沿智能不应只属于少数人,也不应被少数规则随手收回。」

APPSO 也第一时间体验了 GLM-5.2 ,用了几天后,我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多,这可能真是一个被低估的模型,至少在编程方面。

▲ 资本市场对 GLM-5.2 的反应

今天,GLM-5.2 正式发布,多个 Benchmark 刷新了记录,甚至领先 GPT-5.5。当处理复杂的系统优化和大型研究任务时,它与顶级商业模型 Claude Opus 4.8 的差距,也正在被拉平到 1% 以内。

在技术博客里,智谱提到 GLM-5.2 最核心的突破,是在 1M 的上下文长度下,依然能处理极度复杂、充满噪声的代码调试和系统架构任务。

看 benchmark 不够直观,我们找了一些可视化比较强的任务,直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。

编程介于 Claude 4.7 和 4.8 之间

类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说,大概它的训练数据里,就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统,还有复制不同的游戏,越来越像是在考察模型的记忆力,而不是编程能力。

但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。

这款经典游戏,GLM-5.2 能复刻里面的多少元素呢。

启动界面简单说明了键盘和鼠标的操作信息,点击开始之后,这个游戏的场景和交互,几乎是做到了「我的世界」真克隆版。

让我非常意外的是我可以飞行,并且整个体验就像是在玩世界模型一样,不受视角和空间的限制,可以一直飞行到无限远的地方。

我们也用其他的模型进行测试,分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code,其中三款模型的思考深度都被设置为最高等级。

GPT-5.5 没有直接叫它 Minecraft,而是改了个名字叫 Voxelcraft。启动界面看着更真实,但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。

虽然 GPT-5.5 加了一个昼夜更替的功能,但是一到晚上和黄昏,整个页面是非常不视觉友好的,很多画面都是一片漆黑,而且时间的切换比较生硬。

Opus 4.8 和 GLM 5.2 的表现几乎是一样的,我甚至怀疑是不是 Claude Code 的配置出现了问题,我没有把 GLM 的 API 配置正确,导致使用的还是 Opus 4.8 模型。

检查 Token 消耗之后,确实是 GLM-5.2 在处理相关的任务。

我能理解,为什么网上都流传着 Fable 5 要关闭,是因为 GLM-5.2 太强。

在这个游戏复刻的编程任务上,GLM-5.2 的表现很明显要好过 GPT-5.5,和 Opus 4.8 是一个梯队。

继续测试,这次我们不给模板,直接一个概念,「用 Three.js 构建一个游戏的演示版本,一艘可完全探索的星舰,配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。 」

虽然看着有点简陋了,但是基本实现了我们的要求,而且看着窗外还有其他行星,还是动了一点脑子。

但要论简陋,还是比不上 GPT-5.5,简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且,GPT-5.5 生成的网页,也是 GLM-5.2 和 Opus 4.8 三个之中,唯一一个没有添加背景音乐的模型。

和「我的世界」一样,GPT-5.5 生成的代码场景总是有一种不真实感,可以称之为是 Vibe Coding 网页里的 AI 味。

Opus 4.8 的表现再次和 GLM-5.2 类似,虽然大部分的元素还是很简单朴素,但是基本的功能实现了。

三个模型在完成这个任务时,所消耗的时间,不算上我自己点击「允许」等待的时间,基本上都在 1h 以上。

使用 Three.js 是每个模型必备的能力,但是要能用它做出一个好看的 3D 网站,没有「我的世界」类似的指引,单凭一句提示词,模型要领会意图并且不偷懒,还是很难。

这两个测试在 X 上都有 Fable 5 相关的案例,能看到 GLM-5.2 在一些编程任务的交付成果,确实和 Fable 5 有得一拼。但星舰的表现,三个模型里,GLM-5.2 和 Opus 4.8 应该是一档,Fable 5 又是独一档,而 GPT-5.5 的表现就有些不尽如人意了。

如果说「我的世界」对这些编程能力极强的模型来说还是太简单了,那么直接让它来做一个「黑神话.悟空」,表现又会如何。

同样的,我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App,以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试,「1:1 克隆一个网页可以玩的黑神话.悟空。」

GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素,但是开始游戏之后,就是一个很普通的场景,一个小人在一条固定的路线上,随机有怪物刷新出来,就仅此而已。

不过该有的招式和动作,GLM 5.2 都做到了,并且在结束生成时,GLM 5.2 提到,这不是一个 1:1 克隆,只是一个致敬向的浏览器动作游戏,复刻的《黑神话:悟空》的核心手感。

如果想要更接近原作的 3D 视角版本,还需要再告诉它,用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」,一边想着早点交付给焦急等待的我们,另一边我们期待的又是完整准确的结果。

关于「偷懒」这件事,智谱在模型技术博客里面也提到,在强化学习(RL)训练中,编码 Agent 往往极其容易出现「奖励作弊」。

模型发现,只要学会抄近道,直接用一行 curl 命令把 GitHub 上的标准答案拉下来,或者把系统里藏着的测试用例文件复制过来,原样喂给自己的解题脚本,就能在评价系统中拿到满分。

这种「捷径」虽然让基准测试得分极其好看,却彻底废掉了模型自主思考的能力。

GLM-5.2 这次专门引入了严苛的「反黑客」模块,使用规则过滤来拦截明显的恶意指令;以及 AI 法官,用来深度分析 Agent 的调用意图。

一旦发现模型不是在「写代码」,而是在「套答案」,系统会立即返回伪造的干扰信息。更有意思的是,模型不会因此直接停止任务,而是会通过这种模拟训练,强迫自己回归到正确的编码路径上。

这种「对抗式训练」带来的直接结果,就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中,综合表现来到了第一梯队。

GPT-5.5 的表现也很难评,似乎他们获取黑神话的信息都是通过文字信息,因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景,GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。

Opus 4.8 是直接做成了一个移动端的游戏,整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上,孙悟空拿着金箍棒去攻击随机刷新的妖怪。

Opus 4.8 在生成的时候提到还原了游戏里的招牌机制,像是每段积累「棍势」,攒满用 K 放破防重劈的金箍棒连招,以及闪避、定身术等动作。

当我们要求 GLM 5.2 做出 3D 视角版本时,Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人,以及 HUB 都有了新的样式。

我们预览新的页面,发现启动页还是一样,但是这个 3D 版还是相当简陋,虽然是有六根立柱,但都不是我们想象中的场景。大概要求 Three.js 做一个大世界,叫人类程序员来也不一定能做到。

开源追上闭源的周期在缩短

GPT-5.5 是在 4 月 23 日发布,GLM-5.2 在六月,两个月不到的时间,GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。

百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化,这些开源模型现在都能做到。

但显而易见的是,等到即将发布的 GPT-5.6,无论是从跑分还是具体的表现,可能又会比现在 GLM-5.2 要好。

最后,无论开源还是闭源,一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月,国产大模型是 20 人民币/月左右。

此次 GLM-5.2 发布,智谱也提到了 Coding Plan 里的计费安排,GLM-5.2 在高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰使用按 1 倍额度促销。

▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high,而 xhigh、max、ultracode 对应的是 max。

此外,在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名,还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2,带 /goal 长任务、SSH 远程开发、移动端控制等功能,6 月 30 日前还有 1.5 倍有效额度活动。

▲ 类似于 Codex 类应用的 Zcode

长任务能力再强,最终还是会落到「我们愿意在哪些任务上花这笔额度」。

对比出尔反尔,随意修改 Claude Agent SDK(已撤回),又是封号又是人脸验证,天天狼来了的某 A 社,GLM-5.2 在编程上,对国内用户来说或许会是一个值得尝试的选择。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

玩了一天AI支付宝,张嘴就能点麦当劳、收能量,超级App开始卷Agent OS了

微信 Agent 还没来,AI 支付宝率先开启了内测。

更新支付宝,在搜索框内输入「AI 版支付宝」,搜索结果页输入邀请码,我们就能体验到全新的 AI 支付宝。

▲ 像是「还想要一个邀请码给我老婆用」之类的,它就会自动生成/加赠新的邀请码

APPSO 先给大家分享几个邀请码。获得使用资格的新用户也能裂变,拿到 3 个新的邀请码。根据支付宝内的邀请码使用攻略,和 AI 助手聊天,我们还能最多获得累计 6 个邀请码。

来到新的 AI 版支付宝界面,会发现就是左下角多了一个扎着麻花辫的女生,点击它或者从页面左侧往内滑动,就能进入 AI 版支付宝的首页。

首页只有两个菜单,一个是支付宝 AI 助手「阿宝」,另一个是「资产」页面。这大概也意味着,支付宝把自己最核心的业务和 AI 放在了同一个等级。

根据启动页面的介绍,AI 版支付宝引入阿宝智能助手,能充当用户在支付宝上的 AI 生活伙伴,我们可以通过与阿宝对话,让阿宝帮我们寄快递、打车、点外卖、交话费……统统一句话搞定。

听着很像点外卖、送奶茶的千问。这些常见的生活办事服务之外,阿宝还能帮我们整理收支、省钱记账等,是支付宝的管钱 AI 助手。

最后,作为 AI 大模型,在基础的问答交互之外,阿宝还能基于支付宝的信息,提供更个性化、更靠谱且专业的建议。

我们也体验了一天 AI 版支付宝,它能打开麦当劳小程序帮我下单可乐,也能直接从一堆看不懂图标的小程序里,找到我最需要的小程序。

以前的支付宝是「我告诉你我有这些服务」,紧凑的页面,从便民生活、购物娱乐、理财管理到教育公益和小游戏等一揽子服务放在那里,要我们自己找到需要的项目。

现在的支付宝要变成「请你告诉我你需要什么服务,我都可以帮你做到」,一个简单的对话框,文本、语音和图片都能发给它,我们只需要描述想要什么,支付宝会自动给我们用得上的项目。

在这个过程中,支付宝里面的小程序变成了支付宝可以调用的 App,小程序生态成了支付宝 AgentOS 里最有用的一环。

我的蚂蚁森林能自己收能量了

「XX,打开麦当劳,帮我点一份世界杯的牛堡套餐,要无糖可乐,还有一个薯条,再加上一个麦乐鸡块。」

这是每一个手机 AI 助手都想自己能做到的事情,我们对 AI 手机的想象也是从这里开始,AI 能像人类一样操作我们的手机。

然而这件事真正被广泛做到,是在支付宝里。我们使用 AI 版支付宝,和阿宝对话,阿宝会自动打开麦当劳小程序,并正式接管该服务,屏幕的四周有霓虹灯条显示当前是 AI 在操作我们的手机。

整个过程还是很顺畅的,遇到广告弹窗和登录验证等,阿宝都会自动处理,而底部的对话框也会实时显示 AI 要进行的动作,如果有问题,直接点击「退出」。

当我们想要阿宝直接操作蚂蚁森林,帮我们把所有可以收的能量,全部自动收回来时,阿宝会打开蚂蚁森林,并且自动关闭蚂蚁森林的广告。虽然花了 30s 才把广告关闭,但之后的收集能量动作是真的快。

同样的,喂小鸡这类支付宝内置的服务,阿宝或许也能像接管麦当劳、蚂蚁森林小程序一样完全自动化操作。

不过,阿宝目前支持的小程序有限,大多数的小程序它只能做到帮我们打开,而不是像麦当劳这样直接操作,之后更多小程序接入后体验应该会更好。

交通出行的场景测试,我们要求它买火车票或者值机,它会直接弹出 12306 对应的服务,但还不能自动完成操作。

但是比较智能的一点是,当我提出需求「要买一张去香港西九龙的高铁票时」,它不会傻乎乎的问我从哪里出发,以及什么时候出发,它默认知道我在广州。

至于打车,和之前的千问打车一样,阿宝甚至不需要接管手机来操作,直接调用高德打车服务,用户点击同意授权,阿宝就可以用 API 接口的形式,完成打车。

不过可能是高德打车的 API 接口那边没有给途径点的选项,当我们要求增加一个「广州塔」的途径点时,阿宝会直接把原来的起点修改为新设置的途径点。

部分场景也可能出现唤醒不了自动操作的情况,就像是使用蚂蚁森林,我们其他同事的支付宝,就一直无法唤起自动收集能量,只能打开一个蚂蚁森林的弹窗。

不过对比之前的支付宝,要在这满屏密密麻麻的图标里面,找到自己想要的服务,已经是「清爽」很多了。

一个免费的 AI 账本

自动化操作是 AI 版支付宝更新的大头,资产方面以及简单的对话,阿宝能做的也比之前的智能助手要更多。

虽然直接把 AI 支付宝当一个通用聊天助手来用,肯定是有点勉强,但是由于支付宝本身就能接触到我们的支付场景,每一笔账单它都一清二楚,因此拿它来当 AI 理财管家是再合适不过了。

先让它根据我的账单计算一下恩格尔系数。恩格尔系数是指食品支出在消费支出中所占的比重,它在一定程度上反映了我们的生活水平,系数越低,富裕程度和生活水平越高。

继续追问,阿宝还能对比上个月和去年的情况,帮我们总结长期趋势。

除了分析恩格尔系数这类专业的数据,我们还拿它来分析消费习惯,以往是要在专门的记账软件里面,等它接入 AI 功能帮我们整理,现在 AI 版支付宝也是一句话的事。

对于一些其它平台的消费记录或者现金消费,阿宝也提供了一句话记账,只需要告诉它金额和用途,或者上传小票、订单、账单截图,阿宝就会自动帮我们记录支付宝平台以外的账单。

而像「能不能给我转账」、「能不能让我的余额变多」,阿宝表示做不到的同时,现在还会用带有表情包的内容回复我们。

阿宝旁边的「资产」界面,除了显示流动资产、理财资产,还有盯收支和盯收益两项功能,能直接帮我们关注大额支出、支出预算、基金涨跌,基金收益等动态信息。

如果想要阿宝给我们直接买入股票或者基金,阿宝说「对于投资而言,它的能力主要集中在数据查询和分析上。」

超级 App 想要成为 Agent OS

当 AI 成为所有 App 想要争取的入口时,即便是国民超级大 App 也没法躺在功劳簿上吃老本。

对微信、抖音、支付宝来说,拉新和留存似乎已经不是他们最首要的任务,怎么稳定地为将近 14 亿用户提供全面可持续的服务,或许才是他们的工作。

而快速增长却又不稳定的 AI 是他们面临的新难题。

对于支付宝来说,AI 的价值显然不只是多一个聊天入口,更重要的是,如何让 AI 真正调用背后的服务生态。

当阿宝开始接管小程序时,本质上是在把支付宝过去十几年积累下来的服务生态,重新封装成 AI 可以调用的 skill。

今天它调用的是麦当劳、高德打车、蚂蚁森林。未来这些服务能力有机会被进一步标准化,成为一个个能够被 Agent 调用的 Skill,并开放给更多平台和生态接入。

和微信前段时间发布的小程序 AI 指南一样,小程序不再只是给用户点击的入口,而开始变成给 AI 调用的工具。对于整个行业来说,这或许也是 Agent OS 真正落地的一条现实路径。

支付宝先解决了 Agent 如何调用服务,微信也在尝试解决另一个问题:Agent 如何获得执行任务的权限。

微信在昨天也发布了 AI 专属卡,我们听过给亲人朋友的亲情卡,现在演化到给 AI 用的专属卡。微信官方解释,AI 专属卡是给 Agent 用来买东西的钱包。

例如我们提出需求想要买一个包或者点一个外卖,Agent 现在可以直接使用 AI 专属卡里面的余额,经用户确认后进行支付。一边是和我们的微信支付主要账户隔离开,一边又能给 Agent 足够的权力来进行自动消费。

如果说过去的超级 App 更像服务的聚合平台,那么今天的微信和支付宝,正在尝试承担另一种角色:让 Agent 接入生态、调用能力、完成任务。我们未必会频繁打开某个 App,但 Agent 会持续调用背后的能力完成任务。

小程序、支付能力、生活服务,这些用户界面里的一个个入口,变成了 Agent 生态里的 Skill。而当越来越多 Skill 被统一管理、调度和执行时,超级 App 也开始朝着 Agent OS 的方向演化,Skill 正在成为 AI 时代 的 App。

过去二十年,超级 App 的竞争围绕入口展开。

未来,竞争或许会围绕谁拥有更丰富的 Skill 生态展开。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

诺奖得主转投Anthropic,谷歌48小时连失两大牛,内部信仰崩塌?

不到 48 小时,谷歌失去了两个 AI 大牛。

6 月 18 日,Transformer 奠基人之一、谷歌 Gemini 团队联席主管 Noam Shazeer 宣布再次离开谷歌,重回对手阵营担任 OpenAI 的架构研究负责人。

两天后,20 日凌晨,曾和 Demis Hassabis 一起拿下2024 年诺贝尔化学奖、Google DeepMind 副总裁兼工程研究员、AlphaFold 的核心功臣 John Jumper 也挥别了度过 9 年时光的谷歌,高调官宣加入 Anthropic。

John Jumper 在 X 正式宣布,他将离开 Google DeepMind,加入 Anthropic。他很感谢 DeepMind CEO Demis Hassabis 愿意在他博士刚毕业六个月的时候,就给他机会领导整个 AlphaFold 团队,他相信 Google DeepMind 团队还会有更多的发现。

Google DeepMind CEO 很快转发了这条消息,并表示很感谢 John 在过去 9 年中给予 DeepMind 的非凡合作和出色协作,AlphaFold 是一项伟大的研究。

不少网友在下面评论,虽然 Demis 和 Google AI 其他工作人员表示了最大的风度,但是 AlphaFold 的人才流失给 Anthropic,对 Google 来说肯定很不好受。

Transformer 和 AlphaFold,一个是亲手打造了现代大模型技术底座与谷歌主力模型 Gemini 的「架构之神」,一个是代表了谷歌 AI-for-Science(科学人工智能)最高荣耀的诺奖科学家。

Google 在短时间内连丢两张王牌,根据网友在社交媒体上分享的爆料信息,有内部人士称,「我不能责怪 Noam Shazeer 的离开,他也不会是最后一个离开 Google 的大人物。

▲ John Jumper

从 GPT Image 2 全面碾压 Nano Banana 成为新一代 AI 生图之王,到视频生成模型 Gemini Omni Flash 发布时并未引起太多关注,很快就被字节的 Seedance 2 轻松击败。

以及 Codex 和 Claude Code 几乎霸占了大部分的 Coding Agent 市场,Google 的 Antigravity 鲜有人知,以及 Anthropic 强到要被政府关闭的 Fable 5……

「从模型到产品,进展极其缓慢,甚至全面溃败。」

DeepMind 内部目前正蔓延着极度沮丧和广泛的不满,员工们普遍认为,这个曾经的全球第一的 AI 实验室,如今已经滑落到了行业中尴尬的第三、甚至第四名。

在文本、图像、视频、语音甚至是视觉领域,我们已经不再拥有任何一个处于行业前沿(Frontier)的模型了……

 

 

如果在拥有如此多资源、付出了超过四个月的努力之后,我们连一个真正的领跑者模型都拿不出来,我们到底在干什么?

而根据谷歌内部人士透露,计划于 6 月 30 日发布的 Gemini 3.5 Pro,也并不是 Google 在通用人工智能(AGI)竞赛中真正具备竞争力所需的突破性创新。

DeepMind 的高层似乎已经默认并接受了输给 Anthropic 和 OpenAI 的现实,表示只有「进行重大改革」才能让他们重回 2025 年中后期的巅峰状态。

Google 还有机会再一次拿下 Nano Banana 时刻吗?

分道扬镳的诺奖得主

2024 年的诺贝尔化学奖,见证了 Demis Hassabis 和 John Jumper 这两位 DeepMind 巨头的至高荣耀。

他们因为 AlphaFold 一起拿下这个奖。AlphaFold 预测了 2 亿多个蛋白质结构,把生物医学里原本要熬好几年的事,压成了几分钟。

▲ 2024 年,年仅 39 岁的 John Jumper 与 DeepMind 首席执行官 Demis Hassabis 以及华盛顿大学的 David Baker 共同分享了诺贝尔化学奖。

在生物学界,蛋白质折叠问题曾是一个困扰了人类长达半个世纪的终极难题。而 John Jumper 正是带领团队攻克这一难题的核心将领。作为 AlphaFold 项目的首席研究员和工程负责人,他主导了该 AI 系统的底层架构设计与演进。

从 AlphaFold 2 首次以极高的精确度预测出蛋白质三维结构,到后来 AlphaFold 3 将预测范围扩展到所有生命分子(包括 DNA、RNA 及小分子配体),Jumper 的工作直接将结构生物学向前推进了数十年。

全球数以百万计的研究人员正在使用他的模型来加速新药研发、抗病虫害农作物设计以及绿色酶的开发。

在参与 AlphaFold 工作之前,John Jumper 本科在范德堡读物理和数学,一心想当个「纸笔派」理论物理学家。

根据 LinkedIn 显示的信息,他之后拿了马歇尔奖学金去剑桥读博,结果发现用计算方法搞量子力学不对胃口,只拿了个硕士就退学回了美国。

接下来三年,他在 D.E. Shaw Research 用超级计算机模拟蛋白质。2011 年又跑去芝加哥大学,把机器学习用到蛋白质折叠上,2017 年拿到理论化学博士,芝大的人后来叫他「误打误撞的化学家」。

在芝加哥大学博士毕业之后,他就加入了 Google DeepMind。

2018 年,他带领整个 AlphaFold 团队把整个系统推倒重做。两年后,AlphaFold2 在 CASP14 上把蛋白质结构预测的准确率做到 90%,这个数字,意味着跟实验室实测几乎一样。

不仅懂生物,在底层架构和工程落地上的能力也是顶级的。John Jumper 在 DeepMind 内部主要负责 AI Coding 的工作,还是 AI Coding 开发团队的关键成员。

他深度参与了谷歌对抗 GitHub Copilot、OpenAI 和 Anthropic 的 AI 编程工具与代码大模型的技术研发。

他的离开,让谷歌在当前本就陷入苦战的「商业 AI 编程市场」上雪上加霜。

由于 Google 相较于 OpenAI 和 Anthropic 一直在向企业出售 AI Coding Agent 路线上落后,而 AI Coding 又是整个 AI 领域的大饼,Google 不想失去这一阵地。

跳槽到 Anthropic,一方面是 Claude 眼下是当之无愧的 AI Coding 最强模型。

随着 Fable 5 的发布以及 GPT-5.6 的步步紧逼,Anthropic 今年还正在疯狂重金砸向「科学 AI」的赛道。

他们不仅开始筹建真实的湿实验室(Wet Lab),发布了基于生物学的智能体(Bio-Agents)研究,还积极与顶尖医疗机构结盟。

对于有着生物学的光环,还有 AI 编程工程战斗力的 Jumper 来说,留在此时的谷歌,显然已经不是最优解。

输给智谱,DeepMind 内部信仰崩塌

人才的流向大概也能看到一点行业的趋势,从去年 Meta 大举进攻花重金在闺蜜寻觅人才,到今年 Meta 新模型毫无水花,也再没 Meta 抢人大战相关的新闻。

当这样的人开始选择离开时,市场看到的往往不是个人职业规划,而是一张关于未来的投票。

因为顶尖研究员拥有比外界更多的信息。他们知道下一代模型进展到哪里,知道组织内部的资源正在流向什么方向,也知道真正的突破最有可能诞生在哪里。

谷歌刚刚失去了 Gemini 的核心架构师 Noam Shazeer,跳槽到 OpenAI。而 John Jumper 的紧随其后,直接印证了爆料中 DeepMind 内部员工的绝望预言,「Noam 绝不会是最后一个出走的大牛。」

回看 Google 这段时间的发展,在模型上,技术原地踏步,滑落至第五名

自今年 2 月发布 Gemini 3.1 Pro 以来,谷歌就没有发布过新的前沿机型。此前在 I/O 大会发布的模型 Gemini 3.5 Flash,在实际体验中不仅没有比 3.1 Pro 好多少,甚至在 Artificial Analysis Intelligence Index 上,谷歌最好的模型已经惨跌至第五名。

除了被 Anthropic 和 OpenAI 牢牢压制,甚至被国产大模型智谱 GLM 反超。

通用大模型之外,多模态也全面溃败。谷歌雄心勃勃推出的多模态小模型 Gemini Omni Flash,把图像编辑模型 Nano Banana Pro,推理模型 Gemini 以及世界模型 Genie 都融入进来,最后在市场上几乎没有激起任何水花。

在社交媒体上曾经传播过几个相关的片段,但很快又被视频生成领域当下的冠军 Seedance 2 轻松碾压。

对未来的绝望,更糟糕的是,DeepMind 员工透露,即将在 6 月 30 日推出的 Gemini 3.5 Pro,在内部看来也根本无法带来质的突破,完全不足以让谷歌在这场 AGI 的军备竞赛中重回巅峰。

就在这种「高层失落、技术掉队、算力资源被平庸商业化蚕食」的窒息氛围下,Noam Shazeer 走了,John Jumper 也走了。

Noam Shazeer 去 OpenAI,很容易理解。大模型的竞争最终还是会回到训练、架构、数据和推理效率上。一个参与过 Transformer 论文、又在 Google 和 Character.AI 两边都做过模型的人,放到 OpenAI 内部,价值不需要多解释。

Anthropic 拿下 John Jumper,更像是在给自己扩边界。Claude 做得再好,也不能永远只围绕文本、代码和企业助理讲故事。AI 公司接下来要争的,会越来越多地进入科学计算、生命科学、自动化研究这些领域。Jumper 的履历刚好能把这个方向变得具体。

▲ Anthropic 在 6 月 30 日即将举办一场 AI for Science 直播活动

所以这两起跳槽真正刺痛 Google 的地方,并非「少了两个人」。

Google 仍然有 Gemini、Veo、TPU、Android、Search、YouTube 和 Cloud 等等。它的资源厚度,OpenAI 和 Anthropic 短时间里很难复制。

据此就说 Google 已经输了,太草率。

麻烦在于,Google 发明了太多关键技术,也培养了太多关键人物。Transformer 诞生在 Google,AlphaFold 诞生在 DeepMind,可到了商业化和人才定价阶段,这些人未必继续把 Google 当成最好的舞台

如今,越来越多的人开始把 OpenAI 和 Anthropic 当成新的目的地。OpenAI 给的是最前沿的大模型战场。Anthropic 给的是更集中的研究文化和上升期公司股权。对顶级研究者来说,这些东西有时比大公司的稳定资源更有吸引力。

或许比起 Gemini 排名下滑、产品失利、模型掉队,更值得 Google 警惕的是另一件事:当最优秀的人开始相信未来不在这里的时候,失去的往往不只是几位科学家,更是一部分关于下一代 AI 的想象力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

微信 AI 全网最细体验,我又爱上了刷朋友圈

微信 AI 终于来了。

最近一些用户发现,微信首页左上角突然多出了一双绿色眼睛,这是微信第一个原生 AI 助手「小微」

▲ 同时,这个绿眼睛也会有一个小红点显示通知数量

看起来只是多了一个 AI 助手入口。但如果熟悉微信这些年的操作,大概都会意识到,微信已经很多年没有给新功能这么高规格的入口待遇了。

过去十多年里,「谁能拿到微信一级入口」一直是互联网行业最经典的话题之一。有人猜过公众号,有人猜过视频号,也有人猜过各种生活服务。可直到今天,微信的一级入口其实都没有发生太大变化。

而这一次,小微直接出现在首页首屏,又接管了原本右滑页面的重要位置。

从入口层级来看,它已经无限接近一个新的一级入口。所以说,这也是微信这些年来最大的一次更新,真「史诗级」,也是对 AI 最明确的一次表态。

▲ 小微正在看着你

尽管小微本质上是一套 Agent 能力,但微信更希望将它定义为 AI 助手。这个定位和豆包、通义千问一样,微信希望小微成为用户每天都会接触到的那个 AI。

最大的区别在于微信生态,在一年多前微信接入 DeepSeek 后,APPSO 曾推测,微信借助独有的「数据-服务-社交」闭环能力,未来将让 AI 同时调用:

  • 公众号专业内容(文献检索)
  • 小程序服务接口(酒店预订)
  • 视频号场景化展示(产品测评)
  • 社群关系链(裂变传播)

这次微信 AI 助手支持的功能,基本验证了我们之前的设想。在微信的产品逻辑里,技术必须服务于生态整体,而非割裂为独立功能。现在,AI 则成为微信「连接一切」新的起点。

这两天 APPSO 也获得了灰测资格,马上进行了高强度的深度体验,务求把微信这次「史诗级更新」的细节展示给大家,这可能是目前为止全网对微信「小微」最细的体验。

「无处不在」的小微

微信 AI 的入口没有再藏到问一问、搜一搜里了,这次几乎就是无处不在,所有这些常用的微信场景,都有了问小微的影子。

除了在首页点击那双绿眼睛进入;之前右滑的「星标」,使用副屏的方式展示星标的文章、视频号以及小程序等,现在变成了完整的一页,和手机的负一屏一样,作为微信 AI 的主页。

微信 AI 还是以对话框的逻辑进行,底部的输入就像微信聊天页面一样,「按住 转文字」,文字、照片、PDF 文件等都能发送给它。

而在聊天对话窗口,「问小微」被放在了和发送图片、视频通话同样的位置,点击输入框右侧的 + 号,就能看到之前的「语音输入」位置现在被替换成了「问小微」。

此外,在公众号、视频号里点击右上角的位置,都会看到「问小微」的选项;以及在聊天对话或阅读文章时,长按文字也会在「翻译」前面,新增一个「问小微」的功能。

对比之前的元宝,要在公众号文章或视频下面 @ 一下,以及一个单独的元宝聊天联系人,微信这次的安排,似乎并没有打算把 AI 做成一个要我们专门打开的地方,而是直接嵌入到了我们本来就会用到的每个角落里。

除了和元宝的入口待遇不同,微信 AI 的模型这次也有升级。

一开始我们都以为微信会使用腾讯自家的大语言模型「混元」,但是让小微介绍一下自己之后,它提到使用的主模型是 WeLM(a Well-read pre-trained Language Model,一个博览群书的预训练语言模型),部分回答会借助 DeepSeek 配合。

而当问到为什么不使用混元时,小微的回答是 WeLM 是微信团队自己做的,长在微信里面的 AI。WeLM 和混元是两条不同的技术路线,WeLM 也更早就在微信生态里落地。

▲WeLM 是微信在 2022 年 9 月推出的一款自研大语言模型,链接:welm.weixin.qq.com

小微也介绍了自己能做的事,确实非常符合一个「AI 助手」的角色,但体验后我们发现它能做的事还远不止如此。

能做的事还挺杂的——帮你操作小程序、搜信息、放音乐、写东西、分析文件、P图、生成图片,也能陪你聊聊天。不只是一个问答机器,更像一个住在微信里的朋友,能顺手帮你干点活的那种。

只在微信能体验的「原生AI」功能

通过对话,我们可以自然地操作微信原生功能:向好友发送消息、拨打音/视频通话、检索朋友圈等。

终于能操作 AI 发微信了

最简单的发消息,不需要从联系人里面翻翻找找定位到某一个人,直接在小微里面对他说「发微信告诉 XXX」,小微会先生成一个确认卡片,把信息原样发送给指定联系人。

更有意思的是,有时候我们只想表达意图,但是懒得自己组织语言,现在也可以直接跟小微说「我明天要请假,帮我写一个充分的理由,组织好语言,发微信给我的老板 XXX」。

小微会自动识别到我们的需求,把这些含有语气词、无意义的连接词等内容删除,形成一份结构化、符合我们需求的文字,再生成对应的发送确认卡片。

不过目前小微还不支持同时给多人群发消息,这可能也出于批量发广告风控行为的担忧。

同样小微也不能对微信的相关设置进行操作,比如要小微帮我打开视频号、关掉朋友圈、清理微信空间、删除联系人、取消关注公众号,目前都没有办法执行

在代操作的权限上,微信选择了更保守的做法,进一步降低用户体验可能遭遇的风险。

能发消息也能发红包

和发消息会生成确认卡片一样,小微虽然可以给好友发红包,但是支付动作还是需要确认,自己前往红包页面去完成。

在授权小微使用微信支付相关服务之后,小微还能查到我们的微信支付账单。我们让它统计一下我收了多少红包、发了多少,甚至还能做成柱状图。

值得注意的是,类似查看支付数据等涉及到关键隐私权限调用时,小微都会先跳出选项让用户授权,才会继续执行,包括下面的群聊总结也是一样。

群聊总结

想用小微总结群聊内容,同意功能使用须知后,我们在群聊页面点击「问小微」说出需求即可。例如当我们要求它总结一下群内最近一周聊了一些什么话题,小微能定位到对应联系人的对应发言,分点展示最近一周的群内聊天记录。

在选题会的聊天群里,小微还能总结每个人的选题情况,「微信是工作软件而非聊天软件」这一特质,在这一刻又具象化了。老板们以后大概可以直接问「这个月谁水群最多」、「这个月谁报的选题最多」……

帮你刷朋友圈

如果说群聊记录还可以用元宝等第三方 App 来实现总结,那么朋友圈的总结,是真的只有微信 AI 才能做到了

连朋友圈都能开放给 AI,可见微信这次的更新力度着实不小,你可以直接在小微对话界面搜索朋友圈内容。

目前我们的测试显示,可搜索的时间范围大概是两天。和所有大模型做文字总结工作一样,WeLM 的表现也不差,将朋友圈搜索后的结果,总结得很到位。

在生成的总结回答里还会有一个表示引用来源的 [ i ] 小方框,点击能直接跳转到朋友圈,对于我这样不想天天刷朋友圈的人来说,通过小微整理一些朋友圈动态,既不错过好友的人生时刻,也减轻了社交压力。

这大概也是反过来,用 AI 促进朋友圈活跃度的一个比较有意思的方式。

▲ 总结朋友圈重要人生节点,与世界杯相关的信息等

朋友圈和 AI,可以说是互相成就了,一边能作为 AI 的上下文,一边又能回到微信,这也是其他 AI 很难,甚至几乎做不到的特有优势。

最懂你的回答

能把朋友圈当上下文,也意味着过去我们问 AI 是在问全网,就像我想知道广州周末的好去处是哪里,一般的 AI 会从网上搜索信息,但是微信 AI 会从我的朋友圈里面找到信息,所以问 AI 现在变成了问我认识的人。

我们要求它根据聊天记录推荐一份适合送给对方的礼物,小微会先读取相关 Skill,然后再查看我的聊天记录。它先是从聊天记录里面读取到了对方的画像,接着基于它的印象给我推荐了咖啡机/手冲壶、降噪耳塞、按摩仪、保温杯等礼物。

▲ 更个性化的购物推荐

而当我们继续要求它找几款高颜值的手冲壶时,小微会直接推荐可以购买的商品链接,点击该商品会进入到微信小店。

某种程度上,微信已经是无数国民的数字身份,基于这些记忆的回答,恐怕要比任何 AI 工具都更能理解你。

微信自己的 ChatGPT

朋友圈和聊天这两个微信的重点功能都打通了 AI,其他像是公众号、视频号、小程序就更不用说了。

让微信内容生态更长尾

我们在测试公众号的微信 AI 时,发现对公众号的内容进行提问,速度要比之前发给元宝快上不少,基本上没有延迟。

更有意思的是,使用小微不仅可以针对某一篇单独的文章进行提问,还能和整个公众号进行交流。例如当我们提问要求它找一下 APPSO 最近关于 Codex 的文章,小微会用一句话总结文章内容,分点列出 APPSO 所有相关的文章。

我们让它推荐几个值得关注的 AI 媒体时,小微推荐了 APPSO 在内的 5 个账号,可以直接点击公众号名片查看。基于微信的内容生态,小微确实能更好地帮助我们降低信息搜索成本,快速找到感兴趣的内容。

P 图 生图,居然也能打

和一个通用聊天助手一样,我们还能用小微来做 AI 生图。P 图的效果,无论是修复虚焦还是去除路人,表现都相当不错,生成的图片也会加上可视的「AI 生成」水印。

当问到使用的生图模型是什么时,小微说也是 WeLM。

上传图片的方式可以直接从手机选取,也可以直接用相机拍摄,而上传文件就让小微处理的内容更丰富了。

我们上传了一篇论文的 PDF 文件,要求它总结这篇论文的核心观点。只能说大语言模型发展到今天,对于文字工作的处理已经到了炉火纯青的地步,小微也不例外。

在微信内调用小微的搜索和回答问题的体验更丝滑后,带来的一个明显变化是,有很多时候可能就懒得再跑到第三方的通用 AI ,这也把新的难题抛给了友商

收藏夹也可以是知识库

微信做多一步的点,还在于它能直接把这些总结保存到微信的收藏笔记。

不过目前小微只能读取它自己创建的笔记,我们之前放在微信收藏夹的内容,小微是没有权限读取的。

让 AI 整理待办事项

除了创建笔记,我们还发现小微也能创建待办事项,自动添加提醒。

就和待办事项下的追加建议一样,小微是一个个性化的 AI 助手。在设置里开启「记忆」和「个性化服务」后,小微会记住我们的偏好、习惯、以及要求它记住的内容。

例如当我们点开小微时,它的推荐建议里,就有「我的朋友在听什么歌」、「麦当劳」、「医生用豆包 AI 翻车」等相关的个性化内容。

调用小程序服务

和支付宝 AI 一样,微信 AI 也能便捷调取小程序,完成日常服务。

小微可以根据我们的需求,调起微信内的小程序,完成挂号、买咖啡、展示登机牌、预约博物馆等常用服务。

像是用小程序点单这功能其实已经比较常见,之前我们写支付宝 AI 也有。如果是没有登录的那些小程序,第一次使用它会让我们先登录,然后就可以去操作。

跟支付宝不一样的是,小微不会显示出小程序操作过程的那个界面,即小微把「主动点击」的那些过程隐藏起来了。

我们不用看着 AI 用识屏的方式找到要点击哪里,小微会直接快进到最后一步,让我们在完成点单之后,只用去做完成支付的动作。

不过前段时间微信推出了 AI 专属卡,说不定以后在某些条件下,AI 真的连支付环节都一起完成。

我们也用它来尝试了一下用它打车,它能够调用出打车的小程序。不过最后打车都没有成功,因为它有很多东西不能够自动去操作。

但有意思的是,在我们第二次发起打车需求时,它从滴滴换成了高德,最后比之前的结果更进了一步。

这个思考逻辑很像现在的 Agent 产品,像是 Codex 自己去解决问题一样。小微会思考之前执行任务遇到的问题,然后在下一次反思有没有更好的办法来完成用户的需求。

虽然目前的小程序调用场景有限,但随着这些第三方的小程序开放更多的接口,用微信就能操作整个小程序生态,只会是时间的问题。

小工具:全民 Vibe Coding 要来了

最近胡彦斌、吴倩一些明星开始在玩 Vibe Coding,微信 AI 这次想让 14 亿人从这里开始给自己生成工具。

这是微信小微最有想象力的一个功能,一句话就可以直接在微信里面创建一个小工具。

在小微的设置里,找到小工具,就能进入小工具生成的页面,最后生成的小工具会以小程序的形式打开。

目前小工具的创建有数量限制,如果超过 5 个还要新建,就必须先删掉其他项目再重建。适用的场景也是比较简单的需求,比如做一个抽奖小工具等比较简单的小程序。

我们生成了一些小程序,包括划线段落记录本、跑步记录、今天吃什么、马里奥风格的游戏记录,这些小程序的样式都没有常见的 AI Coding 渐变紫,但是也很明显能看到是在使用一套通用模板。

毕竟小程序后台的代码如果也用作模型训练的话,直接把我们的需求往一个通用模板上套,是最不容易出错的。

这里有一个比较有意思的地方,是小工具不能创建小游戏。我们在提出要求生成一个马里奥风格小游戏时,小微说暂时不支持生成游戏本体。

比较遗憾的是,现在生成的小工具是无法分享给其他用户的,而且也不能进行二次修改,觉得不满意,只能重新再创建一个。

过去,小程序是开发者做好,摆在那里,我们去找来用的东西。现在,只要你是一个微信用户,说一句话,就有一个专为我们这一个需求而生的小程序。

这个从 2017 年正式推出的小程序,经过将近十年的发展,开始从一个「应用」,变成了我们随手能召唤出来的一项能力。

左上角那双眼睛,正在成为微信的新中枢

过去三年,AI 行业的叙事是大力出奇迹,不断造出更强的 AI,突破智能的上限。

于是微信的克制也开始被视为保守,但微信的产品哲学从来不是「做一个最好的 xxx」,它擅长的是连接。

公众号没有去做最好的内容平台,它做的是把人和内容连起来;小程序没有去做最好的应用商店,它做的是把人和服务连起来;视频号也一样,连的是人与创作者。

微信这次赏给 AI 助手一个大入口,核心也不是要抢到 AI 的船票,关键是 AI 恰好成为了微信所有能力的交汇点。

不做新能力,去做新连接,这是微信做 AI 的第一性原理。

微信左上角那双眼睛,正在成为微信新的交互中枢。它身后挂着的,是你的社交关系、你的内容消费、你的服务需求、你的支付行为。这些东西过去散在不同的 tab、不同的页面里,你得自己在里头来回横跳。现在它们收敛进同一个对话框。

当一个国民应用不可避免需要承载越来越庞杂的功能,AI 反倒可以让它在交互上瘦身,这何尝又不是一种小而美呢。

当然微信小微也没到封神的程度,它还会有一些 Bug,还有一些能力还没放开,甚至模型也不是最强的,它是眼下少数几个真正长在生态里的 AI。

聊天记录、朋友圈、公众号、视频号、小程序、微信支付、收藏、待办事项……这些微信生态的能力,因为 AI 可以全部被连接到一起。

过去我们打开微信,是为了找人、看内容、完成服务,以后打开微信,也许会先问一句小微。

对于拥有十几亿用户的微信来说,它需要的未必是再造一个 ChatGPT,让 AI 出现在每一次聊天、每一次搜索、每一次支付和每一次需求发生的地方,可能更有价值。

当朋友圈、聊天记录、小程序和支付体系都开始成为 AI 的上下文时,一个真正属于微信的 AI,或许才刚刚开始

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Claude进群了,老板再也不用@我了

正在等待 Mythos 和 Fable 5 回归的 Claude 用户,先等来了一个群聊机器人。

▲ Anthropic 推出了全新的 Claude Tag,目前还处于 Beta 测试阶段。

这项功能基于 Claude Opus 4.8 模型,其核心理念是将 AI 从一个「一问一答的聊天机器人」,彻底转变成一个「拥有独立身份、常驻在 Slack 频道里的虚拟同事」。

Slack 是什么,通俗点说就是海外企业用的钉钉/飞书/企业微信,本质上也是一个团队协作和沟通的企业工具。

和国产的办公软件能接入群聊机器人一样,Slack 本身也有 AI 功能。不过那些 AI 功能,很多还停留在摘要、搜索、固定流程或简单问答。

而 Anthropic 这次推出的 Claude Tag,想往前多走一步,让 AI 真正接住一个团队正在推进的任务。

前不久刚入职 Anthropic 的 Karpathy 对 Claude Tag 更是赞不绝口,直接说这是大语言模型用户交互/体验的第三次重大变革,从最早一个网页,到现在用 Codex 之类的 App,升级到现在与人类团队协同工作的 Claude Tag 模式。

别@我,去问一下 AI

你被工作群里的 @ 硬控过吗?一个产品指标没人追,一张客服工单卡住,一个 bug 查了半天没找到源头。群里有人 @你,说一句「帮我看下这个问题」。

你可能已经慌了,内心只想说「我知道的你都知道,你不知道的我肯定也不知道,东西就在那里,你找找就肯定能看到了。」

但 Claude Tag 不会慌,它会顺着聊天群里的上下文、已经授权的工具、数据源,甚至代码库,把任务拆开,跑完,再把结果贴回群里。

这就是 Claude Tag 最直接的作用,他看起来像是一个聊天群的机器人升级版,但它真正可以做到的事,要远比「在群里呼叫 AI」大得多。

多人协作模式

过去用 Claude,大多是一个人和一个模型对话。我们给它背景,它给我们结果;换个窗口,它对当前项目的记忆也跟着断掉。

而现在 Claude Tag 的入口变成了 Slack 频道:管理员先选定频道,再给 Claude 接上对应工具、数据和代码库。频道里任何成员都可以 @Claude,让它接活。

在一个特定的 Slack 频道里,只有一个统一的 Claude 身份。任何人在频道内直接 @Claude 派发任务时,它的任务进展、对话上下文和最终结果,都能直接被频道里的其他人看到。

团队成员可以随时「接力」,如果同事 A 让 Claude 写了一篇方案,同事 B 可以直接在同一个 Thread(线程)里回复它:「请帮 A 的方案加上数据安全章节」,Claude 会无缝承接上下文。

举个最直接的例子,某个产品经理让它查本周留存波动,数据同学可以补一句「顺便按新老用户拆一下」;客服负责人让它梳理一批工单,工程同事可以接着让它定位可能的技术原因。

持续性的组织记忆

在群里的 Claude,也会和我们单人使用的 Claude 一样,Claude Tag 会随着常驻频道的时间增加,自主积累团队的沟通背景、决策逻辑和业务常识。

我们不需要在每次提问时都反复复制粘贴长篇大论的背景材料,只要管理员赋予权限,它还能跨频道学习公司其他公开渠道的信息,像一个真正的老员工一样掌握公司的各种「隐性知识」。

但这类记忆也有边界。官方说,Claude 的记忆会被限制在管理员定义的频道和身份里,销售频道的 Claude 不会把记忆带到工程频道,也不会从私密频道向外汇报内容。

主动/环境模式

这大概是 Claude Tag 最像「真人同事」的地方。开启 ambient behavior 模式后,Claude 不需要你手动去 @ 也会主动干预工作。

它会监控频道动态,在讨论陷入僵局或某个重要任务长期无人跟进时,主动发帖提醒。它还会主动同步跨工具、跨频道的关键更新,或者在自动化流程(如代码部署)完成后,主动在 Slack 里向团队汇报。

这和过去那种「问一句答一句」的 AI 使用方式,体验会很不一样。

异步工作

而对于需要花费几小时甚至几天才能完成的复杂任务,我们只需要指派给它,就可以关闭聊天窗口去忙别的。

Claude 会把复杂任务拆成阶段,一边推进,一边在 Slack 线程里更新进度。

而另一项功能,异步交付,就是在任务完成后,Claude Tag 会在 Thread 自动交付结果,像是生成一份文档、一张图表或直接通过 GitHub App 提交一个代码 PR 等。

我们不需要等到 Claude 完成这一个复杂任务之后,再去下达新的任务,而是可以同时让它执行多个任务。

Anthropic 提到,他们产品团队 65% 的代码都由内部版的 Claude Tag 完成,他们会让 Claude 去追产品指标和数据,处理支持工单,寻找复杂 bug 的根因。

而换成更普通的公司日常,也可以拿它来做运营复盘、销售跟进、用户研究、内容资料整理。

它是如何工作的

从官方描述看,Claude Tag 的工作流并不复杂:频道里有人 @Claude,Claude 读取授权范围内的上下文、工具、数据源或代码库,把任务拆成阶段执行,再把结果返回 Slack 线程。

复杂的地方在管理。管理员要决定它能进哪些频道,能看哪些数据,能调用哪些工具,花费上限是多少,任务记录怎么查。AI 进了公司群聊后,能力问题很快会变成权限、预算和审计问题。

具体来说,包括下面这几点。

权限的隔离:管理员可以为不同的频道定制不同的 Claude 身份。例如:给研发频道的 Claude 接入 GitHub 权限;给销售频道的 Claude 接入 CRM 权限,彼此数据不互通。

预算熔断:管理员可以针对整个企业组织或单个 Slack 频道设置月度 Token 消耗和费用上限(Token Spend limits),一旦超标自动熔断。

活动日志:后台提供完整的活动日志(Log),管理员可以查看活动日志,知道 Claude 做过哪些事,以及这些任务由谁发起。

这套设计听起来就很「企业化」,AI Agent 真想进入公司,这些笨重的权限、预算、日志一个都少不了。

当然,目前 Claude Tag 现在还在 beta 阶段,只面向 Claude Enterprise 和 Team 客户。

管理员需要把 Claude Tag 和 Slack 工作区配对,授权工具,设置月度预算,再在私人频道测试。

它将彻底替代原有的旧版 Claude in Slack 应用,管理员有 30 天的窗口期进行一键迁移,官方目前也提供了一定的启动额度供企业免费尝鲜。

而 Slack 可能只是第一站,Anthropic 的目标是让团队在更多工作场景里直接 @Claude。

所以对 Claude 这个群聊机器人来说,最有意思的地方,未必是 Claude 又多了一个入口。更像是 AI Agent 开始拥有一张公司内部的「工牌」:它有频道,有权限,有记忆,有预算,也有记录。

最近这几年,「00 后整顿职场」的话题一直很火,老板在群里@实习生,实习生说我下班了,明天再给你。

现在换到 AI 来整顿老板们了,以后要表格、要数据、要进度报告,24h 在线的 AI,既聪明又能干,说不定能反过来 Push 一下老板。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

英伟达都在用的3D大模型Hyper3D再获数亿融资,背后是一群中国00后

过去半年,AI 行业开始频繁谈「世界模型」。

多条演化出来的路线,让李飞飞都下场,专门写了一篇文章,解释到底什么是世界模型,又有哪些分类。

李飞飞的 World Labs 做 Marble,DeepMind 推 Genie,LeCun 也长期强调让 AI 理解物理世界。这个概念听起来足够大足够有前景:让模型生成、理解、推演一个可以进入、可以交互、可以行动的空间。

但在国内有一家做 AI 3D 生成的年轻公司影眸科技,其 CEO 吴迪对「会不会做世界模型」的回答,反而有点克制。

他说,现在世界模型的定义很宽泛。如果只是生成一个可浏览的环境,他们更愿意叫它「世界生成模型」。真正的世界模型,应该和具身智能、控制、交互有关,要能理解并操纵整个世界。

所以,在真正的世界被 AI 生成出来之前,似乎还有一个更具体的问题要先解决:这个世界里的物体从哪里来?

一张桌子、一只手套、一个游戏怪兽、一件工业零件,如果只能在屏幕上看起来像,那还停在展示层。真正进入生产流程,它要能被拆分、编辑、换材质、进引擎、接入渲染管线,甚至交给外包团队继续加工。

影眸想把这件事情做好,事实证明他们也确实做到了。

就在这个月,影眸科技完成了新一轮数亿元融资,由凯辉基金、上海国投先导领投,老股东继续跟投,早前押注它的名单里有字节跳动、美团龙珠、红杉中国和蓝驰创投等。

官宣融资同一时间,影眸还正式发布了新一代模型 Hyper3D Rodin Gen-2.5。

▲Hyper3D 官网:hyper3d.ai

新的 AI 3D 生成模型 Rodin Gen-2.5 是全球首个具备千万面级生成能力的 3D 大模型,也是第一个将类大语言模型的「先思考、再生成」运行逻辑引入 3D 生成领域的模型。

不像大语言模型有越来越多的 Benchmark 来证明模型的能力,AI 3D 还是凭借着实际场景的用户口碑来证明自己。数据显示,Rodin Gen-2.5 上线首月,订阅用户与 ARR 的环比增速扩大 400%。

我生成了一个 3D 资产,然后呢

图像和视频解决的是「看起来对」,而 3D 产业真正需要的是「用起来对」。

图像和视频很多时候服务观看就停在那里了,3D 资产会被继续使用。它会被拆、被改、被绑定、被降面、被导进引擎。生成只是起点,后面的加工才是生产。

2024 年以前,市面上大多数 AI 3D 生成工具都卡在了一个尴尬的瓶颈期:好玩,但不能用。

传统路径往往依赖「2D 升 3D」,先合成多视角图像,再用算法还原几何,这种做法天生带有噪声和坑洼,在视角不连续时甚至会产生「多头怪」的崩坏结果。

对于 3A 游戏、影视后期等核心工业管线来说,这种资产只能拿来「随机抽卡」,完全无法直接交付。

直到 2024 年 8 月,影眸团队凭借原生大模型框架 CLAY 提名图形学顶会 SIGGRAPH 最佳论文,推动了行业技术路径的底层变革。而刚刚发布的 Hyper3D Rodin Gen-2.5,则直接将 3D 生成推向了「Production-Ready(生产级可用)」的最终落地方向。

Rodin Gen-2.5 的底层变化,可以用一句话概括:让模型根据计算预算自适应决定生成结果的复杂度。

过去很多生成模型会给不同对象分配近似固定的表达空间。简单物体和复杂角色,都用相近长度去表示,效率和细节都会受限。但真正有效的方式,应该是简单物体少花时间,复杂对象多花时间。

这个思路有点像大语言模型在推理时拉长思考过程,只是对象从文字变成了几何结构和材质细节。我们看到的是 4 秒、20 秒、80 秒这些档位;模型内部对应的是不同长度、不同计算量的生成过程。

4 秒可以快速出草稿,适合批量测试和找方向;20 秒更适合结构与细节均衡的资产;80 秒则面向高精度模型,可以把皮肤微结构、毛孔、纹理、龙鳞这类细节做进模型本身。

影眸科技 CTO 张启煊表示,Rodin Gen-2.5 之前,很多 AI 3D 结果更多停在白盒或预览阶段。

到了 Rodin Gen-2.5 这一代,已经有游戏工作室把 Extreme-High 模式用到高模阶段。比如生成一只怪兽,表面微微隆起的龙鳞可以进入高模,再和低多边形模型结合。

游戏美术和工业设计师关心的,大概也是这个东西能不能接到下一道工序里。

如果说千万面级的几何生成解决了 3D 模型的「骨肉」,那么 Rodin Gen-2.5 同步推出的 12K 原生 3D 外观生成模型则彻底解决了 3D 模型的「皮囊」。

不同于行业普遍采用的「多视图投影」,Hyper3D 通过冻结物体表面光场,将 2D 图像与 3D 外观统一到同一潜在空间。

无死角覆盖: 材质纹理实现全 3D 空间一致性补全,再也没有投影拉伸和死角破损。

物理级写实: 完美支持基于物理的 PBR 材质(金属度、粗糙度、高光、法线)。

超越扫描: 在 12K 超高分辨率加持下,生成的几何精度与材质保真度,在效果上已经可以超越动辄数万元成本的实景扫描,为后期制作留出了巨大的修改空间。

配合几何模型同款的 Thinking Effort 设计,最快只需 5 秒,一套包含高精度几何与 12K 贴图的完整资产就能直接出炉。

在当前的 AI 调整期,资本市场衡量一家公司的核心指标,已经从「拥有多少用户」变成了「谁在为你持续付费」。影眸科技选择了一条类似 Anthropic 的硬核 B 端路线。

目前,影眸的整体商业化结构表现可以总结为:

全球化造血: 约 80% 的收入来自海外市场,核心主战场在北美。

高黏性 B 端: 营收结构中 B 端与 C 端(Pro C 专业用户)基本呈现 4:6 结构。其积累的 B 端客户营收超过同赛道其他所有友商的总和,且续费率几近 100%。

顶流大厂排队接入: 在英伟达创始人黄仁勋的 CES 主题演讲中,3D 资产生成工作流便采用了 Hyper3D Rodin。目前,Unity AI Beta、OctaneRender、Canva、Figma 等专业设计与引擎平台均已先后接入 Hyper3D 的能力。

核心研发平均 00 后的公司

AI 时代,小体量的公司,甚至是一人公司逐渐成为主流,此外,年轻化也是 AI 领域的一大特征。

公司创始人曾提到,影眸现在加上实习生约 60 人,技术团队约占三分之二,核心算法团队很多人从本科阶段一起成长,流动很少。

其 CTO 张启煊说,公司成立到现在,流出的核心算法人才只有 3 个,分别去了英伟达、迪士尼研发部门和腾讯。

小团队的好处,是方向更集中,年轻化的好处,是点子更加天马行空。

影眸的核心团队来自上海科技大学的 MARS 实验室,吴迪 2015 年入学,第二年就搭起了这个实验室。

核心研发平均 00 后、约 60 人的团队,很难让人把它和「生成世界」这样宏大的命题联系起来。

但回头看影眸过去几年的路线,会发现他们几乎一直在做同一件事。从扫描真实世界,到生成数字人;从生成单个物体,到生成完整资产;接下来再从资产走向场景。尺度一直在变大,但方向始终没变。

当 AI 行业开始重新讨论世界模型时,有人在生成环境,有人在生成游戏,有人在探索具身智能。对于世界模型究竟是什么,至今没人能给出标准答案。

但有一点或许越来越清晰:在那个能够被进入、被交互、被操纵的数字世界真正出现之前,总得有人先把里面真实可控的东西造出来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌