阅读视图

发现新文章,点击刷新页面。

微信要放出“终极猛兽”?腾讯股价史诗级暴涨10%

【GameLook专稿,禁止转载!】

GameLook报道/今天的国内科技股也算是过上了好日子。

此前的中国科技股板块,都是搞硬件的企业各种发大财。反观那些做应用、生态、大模型的公司,却因为高昂的资本支出,以及投资者对其产出不达预期的担忧,导致一个个迎来股价闪崩。

但在6月2日,科技股终于迎来了一个好消息:港股上市的美团、阿里、腾讯三家中国公司连番大涨,上演一出夺回股价失地的大场面。

GameLook作为游戏媒体,最关心的自然还是腾讯。截至6月2日收盘,腾讯公司股价报480港元/股,涨幅达10.09%,总市值超4.38万亿港元,创下自2021年1月25日以来单日最高涨幅纪录。

为何是这三家上市公司引领今日科技股大涨?美团刚刚发布2026年第一季度业绩,由上季度的161亿元减少至65亿元。美团的大幅减亏也说明了一件事:外卖大战即将迎来尾声。同样卷入其中的阿里,可以预见也会降低投入。至少在一季度,外卖行业的内卷整治已经出现较好的迹象。

但阿里还有另外一重身份,腾讯的主力业务也不涉及外卖、电商,这一轮股价大涨更多绕不开AI。字节、阿里跟腾讯都是国内押注AI最猛的巨头,一些AI相关的利好消息,就是能够直接影响腾讯股价。

6月2日,据外媒《金融时报》报道,两位知情人士透露,腾讯目前已完成微信内嵌AI智能体的原型测试,最快将于6月启动公开上线前所需的合规审批流程。完成合规程序后,腾讯计划先向小范围外部用户开放测试,再逐步扩大推广,目前日期尚未确定。

微信AI智能体开放测试和上线时间,最终需要腾讯公司官宣。对腾讯而言,无疑是一件开天辟地的重要事件,据报道,腾讯已将此次推出AI智能体列为最高战略优先级。

可以预见,未来微信不仅仅可以同人聊天、与小程序互动,还可以跟AI智能体进行直接对话、自动调用微信数百万个小程序、乃至小游戏进行互动,将构成10亿+中国网民使用微信的又一个重要理由。微信基于AI智能体展开的商业模式,想象力巨大。

此前,因为没有上市、始终游离在资本市场的字节跳动,每每因为豆包、Seedance等AI能力传出利好消息,会反向制造港股上市科技公司的业务焦虑。大家也都很担心,港股上市的腾讯、阿里能否扛得住。

如今也到了腾讯绝地反击的时刻,即将在微信内嵌未来AI最重要的形态“智能体”,用自己最强大的护城河重新瓜分AI这块蛋糕——这个动作的象征意义,远大于短期内产生的回报,也让我们看到了中国新一轮AI长期竞争的开始,

微信内置AI助手,能有多“恐怖”?

2025年爆火的Manus,较早兑现了“AI替你打工”的可能性,给国内用户和从业者带去了第一轮震撼,甚至惊呆了老外。Meta一度官宣将以超20亿美元的价格收购Manus母公司蝴蝶效应,当然最后成为首个被公开叫停的AI领域外资收购案。

Agent带来的第二轮震撼,则是今年3月的“龙虾热”。这一次,不再只是开发者的狂欢,消费端的大众也积极参与进来。当时,腾讯拿出了空前的决心,宣布所有业务条线全部支持一键“养虾”,单日股价随即暴涨7.27%。

如果说,之前的“龙虾”热腾讯还能参考别人的成功路径,这次用微信以身入局的腾讯,需要开始学着自己思考:微信内嵌智能体会是什么形态?Agent该如何同微信生态、商业模型结合?

可以想象,一旦腾讯量身定制的智能体方案上线,且能够充分发挥微信自身优势,这将是腾讯在智能体领域最狠的大招,没有微信的友商根本学不来。因此,腾讯接近推出微信AI助手的消息一经流出,随即引发港股投资者狂欢,股价立刻暴涨。

这种狂欢的氛围甚至会逐步传染,想象空间不断蔓延开来,一旦腾讯拿出了自己的智能体,阿里可能也会跟进……此前股价阴跌不止的中国科技股,随即展现出一副绝地反击的态势。卷不动的外卖大战,以及腾讯测试微信的AI智能体原型的消息,共同造成了今天港股科技股的大涨。

目前,微信已经嵌入具备搜索功能的AI智能助手“元宝”,但并非完整的智能体。更让外界好奇,微信即将内置的AI智能体助手,会带来什么样的新体验?

根据《金融时报》报道:据曾观看早期演示的知情人士介绍,用户可通过在微信主界面向右滑动,进入AI智能体的对话框。用户可以通过对话输入指令,智能体可以自动调用小程序执行该指令,比如查找咖啡馆并根据口味下单等任务。

GameLook认为,微信AI助手的最大价值,除了整合信息流、视频流、工作流之外,就是挖掘微信数百万小程序的互通。小程序本就是腾讯主导的一个可怕生态,智能体让整个小程序生态互通后,有望将微信的商业化潜力发扬到新高度。

作为超级APP的微信,是马斯克一直以来的“意难平”。不只是小程序,当智能体进一步将微信的整个信息流、视频号、电商、资金流……全部串联起来,AI时代一个最庞大的生态图景就此展开。

当然微信AI助手是否能有想象中的威力,需要一步步实现。用户第一时间使用的,永远都是个beta版。最终版本还需要随着用户使用不断调整、优化。一旦整个格局打开,下一个紧张的就该是阿里、字节了。

用户的时间和注意力都是有限的,全面布局的微信,必然会影响到阿里、字节旗下AI产品的用户时长和活跃度。一涨一跌,腾讯有望靠Agent再赢下属于自己的一城。

韩国人先给微信智能体打了个样?

微信内嵌AI智能体,让中国投资者表现得“一惊一乍”。但隔壁韩国,为了干好AI、出售游戏业务的Kakao已经花了一年多时间聚焦AI agent,目标是让所有5000万KakaoTalk用户都拥有个人AI智能体。

目前,Kakao AI Agent可以在单一聊天窗口内完成跨平台任务,具备美妆、时尚、零售、税务、旅行、就业、餐饮、高尔夫预订等能力;自动识别对话中的日程、约会和计划并发送提醒;基于对话上下文推荐商品并引导完成支付。

很多人没意识到,腾讯本就是Kakao股东,Kakao AI Agent相当于微信AI助手的“测试版”。腾讯内部AI智能体开发团队自然会了解海外产品的部署、具体表现形式、各功能使用率等情况。

当然,Kakao Talk并不等同于微信,Kakao自身虽然一直在研发Kanana大模型、还其性能显然并不属行业顶级之列,也没有强大的小程序生态,甚至很多功能都是照搬微信,但小程序生态与腾讯存在巨大落差。双方用户体量也有巨大差异,前者只有5000万用户,微信月活高达14亿。

Kakao相当于给腾讯内部团队打了样,测试用户对于AI智能体的接纳度。至少说明腾讯不是完全从0到1的冒险,外部投资公司的尝试一定会被腾讯消化吸收,再结合微信自身的特点转化。

目前大家最担心的是,微信内置智能体上线后,AI算力供应能否支持所有微信用户的正常体验。高频使用AI和Token消耗带来的巨额账单,已经让越来越多海内外大厂都直呼压力山大。

Uber的CTO Praveen Neppalli Naga透露,约5000名工程师四个月内就烧完了公司2026年的AI预算;海外一家科技巨头,短短一个月内烧掉了5亿美元的Claude账单;2026阿里云峰会上,《崩坏》系列AI NPC & Gameplay技术团队负责人郑银河透露,内部员工建了几十个Agent共同协作,一晚上烧了价值200万元人民币的Token。

14亿MAU的微信用户同时段使用,是否会让腾讯AI算力供应直接爆炸,或是导致出现排队等待、分时使用等影响体验的情况,是所有用户目前最担心的地方。

在GameLook看来,Kakao至少做对了一件事,值得其他厂商学习。其Kanana in KakaoTalk以及设备端的Kakao Nano模型,使用个人智能助理使用设备端处理,即所有聊天分析在本地完成,不发送数据到服务器。微信有一定条件向这种方案靠拢。对算力的吞吐量、资金压力都有一定程度的缓解,值得借鉴。

做微信AI智能体,腾讯“不急”

海外公司可参考之外,微信加速推进内嵌AI智能体计划的最大底气,是前OpenAI研究员姚顺雨的加入。

如果说,张小龙掌舵微信这艘大船,将整个超级APP生态做得相当扎实,真正兑现了Metaverse这件事。姚顺雨的加入则为微信带来了一个最强大的能力,用智能体将微信生态和能力全部串联起来,让用户真正步入智能化的AI时代。

去年的一档播客节目里,在被问及“如果是微信的一号位,你怎么在微信里做Agent”的问题时,姚顺雨的回答是:“不急”。

姚顺雨表示:“为什么要急着进攻?比较危险的是一个颠覆性的创新。真正的危险,不是说一个类似于微信的东西打败了微信,而是一个很不一样的东西打败了微信。需要对颠覆性创新有所警惕,但如果是这些incremental(渐进式的)创新,这种小的创新,早做晚做可能区别没有那么大,也不用太担心。”

这一想法似乎也代表了腾讯管理层的态度。早在2025年第三季度财报电话会上,腾讯总裁刘炽平就首次系统披露微信AI化战略蓝图,明确表示“微信最终会推出一个AI智能体”。但直到2026年才传出完成原型测试、即将启动合规审批流程的消息。

中国科技巨头的AI大战里,腾讯从不是最激进的那个,也不打没准备的仗。即使是在Agent最火热的那段日子里,腾讯依旧选择等大家都烧钱试错弄明白了,才加速推进微信的AI智能体计划,稳扎稳打地兑现预期。

微信推出AI智能体,决定了未来腾讯公司价值能否再攀高峰。即从一家市值几千亿美元的公司,在未来真正步入步入万亿美元市值的公司,成败在此一举。

就像GameLook曾经说的那样,如今腾讯的一切问题,都是AI的问题。微信把AI智能体这条路走通,将是所有投资者最希望看到的一幕。

英伟达:带领 PC,重铸 PC|硬哲学

爱范儿关注「明日产品」,硬哲学栏目试图剥离技术和参数的外衣,探求产品设计中人性的本源。

过去 48 小时,对于 Windows 电脑市场来说可谓地震不断——

不是微软要发 Win 12 了,也不是苹果重新内置 BootCamp 了,而是英伟达要造消费级 CPU 了。

图|Microsoft

更重要的是,老黄插手 CPU(SoC)领域,可不是来和英特尔、AMD 和苹果分蛋糕的……

他是来掀桌子的。

图|YouTube @Nvidia

在刚结束的微软 Build 与英伟达 GTC 显卡技术大会开幕式上,我们见到了来自英伟达的「终极 PC 解决方案」: RTX Spark N1X 处理器。

老黄期望通过 RTX Spark 打造的电脑很简单:

造出目前最全能、最智能、最面向未来十年甚至二十年 AI 潮流的终极 Windows 全能本。

支撑英伟达这一设计的根本逻辑,是老黄在 GTC 开幕演讲上的一个大胆判断——

面向人类用户设计计算产品的时代已经结束,未来我们应该面向智能体(intelligent agent)的需求设计计算硬件。

图|YouTube @Nvidia

下一个 AI 时代属于智能体

开场不久,介绍过 AI 技术如何塑造了当下的产业经济之后,老黄就拿出了他本次演讲的核心观点:

相比单独使用某个 LLM(大语言模型),智能体将是下一个阶段我们使用算力的主要方式(a new kind of computing pattern)。

这个核心观点如此重要,以至于老黄在演讲的前中后期反反复复提起这一页 keynote,将它重复播放了很多遍。

整个演讲上公布的新硬件——比如正式投产的 Vera Rubin 计算平台、企业级 AI 工具包、底层模型等等,全都是围绕着这个核心理论而设计的。

图|YouTube @Nvidia

根据老黄的介绍,智能体之所以能够成为下一阶段的核心算力使用方式,原因主要有 4 个——

1:解放用户生产力

过去几年里,单纯的生成式 AI(Generative AI)虽然能力得到了很大的提升,但并没有拓展出非常多的使用场景。

即使它可以画图、做视频、直接制作各种文件,但本质交互方式依然是用户问一句、AI 答一句。

智能体则不然——它的运作模式中包含「观察、推理、规划、使用工具」的闭环能力,这种模式让人类用户从工具操作者进化成了工具指挥者,可以被看作是一种形式的生产力解放。

2:减少隐性资源消耗

除了自身的运行模式之外,智能体还会彻底改变过去半个多世纪中,人类与计算机的核心人机交互模式

换言之,智能体将曾经需要手动打开程序、点击工具和操作的流程后置了一步,让人的工作从「动手」变成了「动口」,用解释意图(intents)取代具体的操作。

这种变化的意义,在于它结束了「人学习和适应软件」的时代。而一个「软件学习和适应人」的阶段,将会节省大量人类学习和练习使用软件所需的时间资源

3:无视物理数量限制

最「大力出奇迹」的优点是,智能体不会像人类一样,受到各种原因导致的数量限制。

在演讲中,老黄列举了几个例子:AI 编码智能体的出现,让 GitHub 上的代码提交量在 2026 年初同比近乎翻了三倍。

英伟达内部也计划通过部署「数十万个 Cadance 超级智能体」,将芯片设计验证的耗时从数周缩短到数小时。

换言之:只要算力资源允许,智能体就可以将单个人类的能力「超级加倍」,让生产力获得指数级放大。

4:比 LLM 更万能

相比传统 LLM,智能体还拥有一个非常具体的优势——普适性。

智能体的运作模式(模型 + 外壳 + 工具 + 运行环境)在所有应用场景中都是通配的,这种强大的通用性让它可以无孔不入。

比如大规模的云端 SaaS 服务、个人电脑部署、自动驾驶和人形机器人底层系统等等。

也就是说,智能体是 LLM 的一个「万能接口」,它自己就是完整的工具组件、可以直接嵌入具体的生产环节里,不需要人类在中间辛苦地做「回答搬运工」。

图|YouTube @Nvidia

基于以上四点论据,老黄指出了一种「面向智能体」的算力设计思路:

过去四十多年,所有计算硬件都是围绕人类的需求设计的,但智能体的世界以纳秒计算、对于各种资源(比如内存和电力)的需求模式和人类截然不同。

在这样的大背景下,老黄宣布了新一代全栈 POD 超级计算平台「Vera Rubin」的正式投产:

图|YouTube @Nvidia

相比年初在 CES 上首次介绍 Vera Rubin 平台,老黄在演讲中再次强调了这一代架构「专门为智能体设计」的属性。

尤其最新的 Vera CPU,就直接打上了「CPU for Agents」的标签——这颗 88 核心 176 线程的处理器的主要工作,用老黄的话说,是一位「指挥家」。

换言之,Vera CPU 主要控制智能体的调度、工具调用、内存和上下文管理,负责将 Rubin GPU 的巨量算力以最高效率、最低空置、最快速度的方式调度起来:

图|YouTube @Nvidia

在此基础上,其他机柜组件—— BlueField-4 DPU、NVL72 交换机、ConnectX-9 SuperNIC 网卡、Spectrum-6 以太网交换机等等,才能和 Vera Rubin 共同构成这套「面向智能体」的算力解决方案。

图|YouTube @Nvidia

但就像前面说的,老黄除了公布 Vera Rubin 投产之外,同时也将这个「AI 的未来属于智能体」的观点投向了一个更偏向消费电子的领域—— PC。

给智能体设计的电脑

之前提到,老黄今年 GTC 开幕演讲的主旨其实就一句话:

给人类用户设计硬件的时代结束了,我们下一步要面向智能体设计硬件。

但智能体的使用者不止 Oracle、OpenAI、Anthropic、AWS 这些企业巨头,个人 AI 用户的数量同样不可忽视。

为了占住极为分散但规模庞大的 C 端市场,老黄在今年的演讲中公布了英伟达首款面向个人消费市场的 CPU 产品—— RTX Spark 超级芯片。

图|YouTube @Nvidia

老黄对 RTX Spark 首型号 N1X 的介绍相当动情:「它集合了我们 33 年来的全部技术经验,因为它支持所有英伟达已有的技术栈」。

与苹果的 Apple Silicon 思路类似,RTX Spark N1X 是一块集成 CPU、GPU 和统一内存的 ARM 架构 SoC,采用台积电 3nm 工艺制造,CPU 与联发科共同设计。

图|Nvidia

尽管用着上一代 Grace Blackwell 平台,而非最新的 Vera Rubin,RTX Spark N1X 依然可以实现最高 1 PFLOPS(一千万亿次浮点)的 AI 算力。

根据英伟达工程师的介绍,N1X 的整体性能与 RTX 5070 笔记本接近,相比早期泄露的「与 M3 Max 跑分近似」又有了一些提升:

图|YouTube @Nvidia

在产品形态方面,RTX Spark 最主要的平台将会是 14-16 寸的笔记本,合作方也是那几个熟悉的巨头——联想、微软、惠普、华硕等等。

其中当属英伟达与微软的合作最为密切,毕竟 RTX Spark 是要运行 Windows on ARM 的。

而老黄的 ARM 处理器能否追上苹果,微软是其中不可或缺的因素。

相应的,微软也在演讲后更新了搭载 RTX Spark 的 Surface Laptop Ultra 预告片:

图|YouTube @Microsoft Surface

而相比高通的 ARM 架构笔记本,RTX Spark 还有一个得天独厚的优势:它支持所有英伟达已经有的技术,从光线追踪到 DLSS,再到 Cuda 加速和 TensorRT。

换言之,RTX Spark 笔记本不仅有 Win on ARM 上相对优秀的游戏体验,更是能够在本地 AI 工具加速之类的严肃场合提供「货真价实的生产力」。

图|YouTube @Nvidia

更重要的是——按照老黄的说法—— RTX Spark 所驱动的笔记本、小型主机和台式机都是「为智能体操作而设计」的。

除了 Windows 本身和软件商之外,甚至连 Adobe 都宣布将会为 RTX Spark 彻底重构 Premiere 和 Photoshop:

图|YouTube @Nvidia

就拿 Premiere 来说,Adobe 将会在 RTX Spark 电脑上带来一套全新的、以指挥智能体为主的交互模式,以及更多的 MCP 支持

再大胆一点设想,所有剪辑师都熟悉的「时间轴式 UI」很有可能在智能体时代被一个多模态指令框所替代——

听起来很酷,也很可怕。

在 RTX Spark 笔电上运行 Premiere Pro|Tom’s Guide

换言之,AI 不仅重塑了硬件的设计方式,也终于开始重塑一些已成定局十多年的软件 UI 交互规范了。

RTX Spark 的应用场景也不止笔电,在老黄的 GTC 开幕演讲与当天稍晚些的微软开发者 Build 大会上,我们看到了很多以此为基础的小型主机平台。

就比如这个长得神似 Xbox 的微软 RTX Spark Dev Box:

图|Microsoft

AI 需求塑造物理世界

纵观老黄的整个 GTC 演讲,以及同期召开的 COMPUTEX 和微软 Build 大会,我们可以明显地感受到:

AI 从「生成式」向「智能体」的转变,将会重塑人们使用计算机的主要方式,并且这种重塑也反过来影响了计算硬件上下游的设计和形态。

换言之,英伟达不仅定义了下一个 AI 时代的核心问题:「什么是生产力 – 是智能体」,更是为自己的观点拿出了一套相当具有说服力的配套产品。

图|YouTube @Nvidia

而 RTX Spark 的目标,是让新时代的全能本既要本地跑模型,又要兼顾生产力和娱乐——

毕竟支持 RTX 和 Cuda 对于 Windows on ARM 一直是个老大难问题,直到英伟达亲自下场。

只不过在为下一个 AI 时代催生新硬件感到兴奋的同时,我们也需要理性地看待 RTX Spark N1X 处理器:因为它并不是一个非常新鲜的东西

还记得去年的 DGX Spark 吗?里面的「GB10 超级芯片」基本上就是 N1X 的先行版本。

从芯片刻字上看,老黄在 COMPUTEX 上展示的 N1X 生产周期甚至是 2024 年,早期泄露跑分接近 2023 年的 M3 Max 也就不意外了。

图|YouTube @High Yield

虽然所有消费级产品都要等到今年秋天,但看到 RTX Spark N1X 的这些零星信息,也很难不让人微微担心——

一颗 CPU 两年前、GPU 一年前且不满血的 SoC,真能为未来 10 年 20 年的智能体需求准备好吗?

尽管 N1X 既没用上最新的 Vera Rubin 架构,也不如今年的骁龙 X2 Elite Extreme 甚至去年的 AMD Strix HALO,但它标志着一个开端:

一个芯片优先考虑智能体需求、并顺势开始影响操作系统、软件程序,直至硬件商品形态的时代的开端。

至于究竟谁能代表 AI 时代的操作系统,微软选择和英伟达联手,「再给 Win on ARM 一个机会」,明显是意识到了自己被 macOS 和 Linux 夹攻的困境。

图|Microsoft

然而成也 Win on ARM,败也 Win on ARM —— RTX Spark 主动带来全套的英伟达技术适配,并不能解决 Win on ARM 在其他体验上的长期瘸腿。

毕竟一个足够好的面向 AI 的操作系统(比如 macOS),即使它自己不倾向于开放,也会有用户通过逆向工程的方式帮它开放。

而在这一层上,RTX Spark + Win on ARM 所以立足的基点,就显得不是那么稳固了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

对话 MiniMax 择因:Agent 终会超过人类,我们又将何去何从?

Agent 的世界,四月还是山雨欲来。五月尚未结束,已然血雨腥风。

整个行业的加速快到不讲道理。Vibe Coding 已经不再是新名词,编程这条赛道也从未如此拥挤:Claude Code、Codex、Cursor 贴身肉搏,Trae、Qoder、CodeBuddy 杀成一团。

黑话一个接一个流行起来,支配所有人的注意力。去年还是 skill(技能)的天下,如今 harness(脚手架)站上了王座。

热词之下,模型已经卷到几近一条平直的线:不同的基准测试会给不同的答案,但总体来说,无论是 Opus、GPT,还是 Qwen、GLM、Kimi 和 MiniMax 们,无论是写代码还是执行越来越复杂的任务,都已不在话下。

模型之间仍然存在差距,但拉开模型公司之间真正差距的,早已不再是模型本身,而是套在外面的那层壳。

之前一份研究报告拆解了 Claude Code 泄露的代码,发现真正属于模型决策的代码只有 1.6%,剩下 98.4%,全是管权限、管上下文、兜错的 harness。

为了进一步发挥模型的优势,全新一代的 agent 产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO 纷纷推出。连一直以来低调沉默的 DeepSeek 都挂出多岗位招聘,组建 agent 开发队伍。

早于业界布局 agent 的 MiniMax,在混战中落下自己的子。桌面端产品先是在 5 月中推出主打全新多 agent 编排架构的 Agent Team 功能。而随着 M3 旗舰模型,MiniMax 桌面端全面升级为 MiniMax Code,再次搅动了大厂、小龙云集的 agent 市场。

Agent Team 的内核是一套 Leader-Worker-Verifier(领导-执行-验证)的「对抗式」架构。负责干活和负责挑错的职责,被拆成不同的 agent,受到经过代码逻辑固化的状态机去管理,彼此之间上下文隔离。

这味药,治的是长程 agent 任务中那些出了名的顽疾:上下文污染、上下文焦虑、agent 之间的「共谋」。

有趣的是,正如前述 MiniMax 并没有等 M3 发布,而是率先在 M2.7 上就将 Agent Team 推了出来。M2 这一代,被 MiniMax 称为「大巧若拙」,模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中,M3 只会更强。

近日 APPSO 与 MiniMax Agent  研发工程师择因(周淳辅)做了一场对谈。我们聊了  Agent Team 的设计原则及其所体现的 MiniMax 认知,探索了 Agent Team 的技术内核,浅析其它玩家对于 agentic 模型如何约束与放任。

业界有一种观点正盛:Anthropic 拥有最好的模型和最烂的工程。在择因看来,Anthropic 骨子里不信任模型,预设模型会作弊、耍小聪明,于是到处加以约束。OpenAI 的 harness 核心却是一个极简的 agentic loop。

一个极简框架养出了遵循度极好的模型,一个约束极强的框架却养出了「黑天鹅」。MiniMax 做 agent 的思路,既将两者融合,又不完全相同:要相信模型,给它和人一样的操作权限,但也要在脚手架中加入合理的约束。

这些思路在业界独树一帜,但业界追赶新东西并将之确立为共识的节奏,早已快过于新思想诞生的速度。在 agent 上,MiniMax 没有壁垒——没有任何人有。择因发给我一篇 71 页的论文,告诉APPSO:

「关于 agent 的所有东西,都在这篇论文里了。如果一篇就能说清楚,还有什么壁垒?」

但 MiniMax 仍有绝活。

他们力求以最快的速度不断向整个行业输出新的认知,做共识的领导者、执行者、验证者——这也是为什么 Agent Team 及其背后架构没等 M3,就公之于众了。

究其根本,中国模型公司的「开源」玩法不会一直持续下去。但这并不代表,优秀的认知不应该及时与世界分享。

就像一个 agent 的工作会有它的停止条件,开发 agent 的人们也有停止的那一刻。对于择因,可能会是当 agent 可以实现真正的自进化,并且在几乎任何数字或物理世界的任务上效率和成本优于人类。

从站在第一线的他的视角来看,我们离那个未来并不遥远。

以下是 APPSO与 MiniMax Agent 研发工程师择因的对话。卖个关子:在最后我们提出了一个开放性的问题,并获得了意想不到的答案。

架构即认知

APPSO:Agent Team 为什么没等 M3,直接在 M2.7 上就发布了?

择因:不用非等到和新模型一起发,是我们的意愿,也是自己的节奏,就是希望不停地把最新的认知传达给外界,这件事情很值得做。以及它在我们内部已经使用很久了,一个月的时间,我们觉得可以对外发布了。

APPSO:今天一切的周期都变得很快,一个月已经很久了。

择因:发布时我们模型还没迭代,但是有一批核心用户对我们的 agent 的运行范式感兴趣,所以我们提前发出去吸引他们。核心用户的建设对我们来说非常必要。后面我们也会考虑把我们的 Agent Team 架构开源出来。

APPSO:MiniMax Code 到目前为止的反馈如何?

择因:这次把订阅逻辑理顺了,订了 token plan 就能用 agent。一个多月下来,下载和订阅量有一个比较可观的增长。这其实很有意思,因为如果只是提供 API 的话,用户用模型的门槛高,使用效果也不是最佳。MiniMax Code 能让大家直接感受到模型的完全体,这也是我们一直以来的思路,这一次被验证了,我觉得很好。在 M3 上只会更好。

用户方面有个比较有意思的点,因为我们是全模态,发现很多用户拿 Agent Team 去做长视频生成,有古文爱好者用它来生成大量的诗朗诵音频。这些偏 C 端、兴趣向的使用案例,其实我们没有预料。

很多用户也告诉我们,当 Agent Team 被整个拉起来开始干活的感觉,给他们带来很大情绪价值。

APPSO:真的像是有了几个员工给自己打工的这种感觉?

择因:对。总体上看最近两个月的多 agent 产品,已经是血雨腥风。腾讯那个 (Marvis)「打工」感更强。很明显,在 Agent Team 的共识和落地方面,大家跟的都很紧。

APPSO:你说有人用 MiniMax Code 做视频,会不会以后可以不用专业视频生成工具,不用懂脚本、分镜、首尾帧,直接用 agent 调用全模态模型就能做视频了?

择因:首先明确一下,我说的是偏个人用户、爱好的角度做视频,我觉得是可行的。专业的视频制作,其实让一个 Agent Team 去做, 跑通打个样可以,但如果真的投入工业生产,还是需要分工。比如编导负责 idea、分镜、首尾帧这些关键的东西。给到另一帮人负责丢给海螺或 Seedance 抽卡。

但我认为随着模型能力提升,抽卡这部分的成本,以及后续剪辑的成本,会降得非常低。

我们调研了一下,发现今天让剪辑师剪视频其实比 AI 便宜。甚至市面上有一种服务,他把抽卡和剪辑都打包了,但价格主要是抽卡的成本,剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑,交学费,课程任务就是给我把视频剪了。

APPSO:如果更强的模型出来,比如 M3,能比人工剪辑还便宜吗?

择因:我们的模型在能力上可以。但是你要算账的话,还是我刚说的套路,人的成本也会越来越低。

APPSO:MiniMax Code 的 Agent Team 架构,也就是 Leader-Worker-Verifier,听上去很合理,你们先做出来,然后 Claude Code 也跟进了。

择因:我们是从三月开始做的,一开始我和边上同事讨论,一个 agent,它一旦做错了,在上一轮轨迹里面它永远会记得自己做错了这件事。但转念一想,它如果接下来按对的方向去做,其实这段做错了的记忆它是完全不需要的,对不对?

基于这个想法,我们设计了这个新的架构:让干活的和负责验证的 agent 之间分开。验证的时候要有打回的机制,并且要让一个新的「脑子」去打回。

当月我们就把这套架构搭出来了,不过目前那个时候是主要内部使用,大家用得非常不亦乐乎。

APPSO:你们内部用的爽点具体是什么?是解决了之前的痛点,还是效率高、更不容易出错?

择因:我举个最简单的例子,比如你睡觉前给它派个任务,哪怕是极度复杂的工作,只要你卡控的够严格,你的准出标准可量化、可观测,而不是模型自己觉得可以就可以了——只要你做好这些门禁,这群 worker 和 verifier 就能在你睡觉的时候一直跑,睡醒之后就干完了。

可以说三月开始,这种新的开发节奏、新工作方式,就在我们内部出现了。

APPSO:这和传统依赖提示词的多 agent 编排的本质区别是什么?

择因:本质区别是我们的 Agent Team 架构做了一套复杂的自由度限制。

首先运行层面它是一个状态机,是确定性的代码,有严格的限制,它不能跳出这套规范,你可以把它理解为一个更严格的工作流 (workflow)。

在 agent 基建的层面,我们又给了极大的自由度。所有的 agent 之间都可以互相通讯,这和传统的 agentic workflow,有方向的流程图是完全不同的。当然,以前的 workflow 里面也可以带循环,但是核心还是这步走完了下一步。

我举个例子,比方说你用 agent 做开发,环境里少了某个包导致开发受阻,过去的 workflow 上可能就卡住了,而我们的 worker 或 verifier 发现了之后,它可以通过多种健全的机制通知其它 agent 别踩坑。

再比如一个研究类的任务,一开始的研究计划需要 leader 做些初步研究,过去 leader 分配完任务就停止了。但在我们架构下,如果用户有新点子、补充想法可以直接说,leader 能随时启动、去打断当前的 agent team、加一个新编排进去。Agent 工作流可以随时调整,剩下的重活都交给模型就行了。

以及大家知道强化学习逻辑下会出现「上下文焦虑」,当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排,持续工作直到达到准出标准。

APPSO:你们如何让模型同源的 agent 实现对抗,避免共谋?择因:答案很简单,还是提示词。2026 年的大多数模型遵循能力足够强,提示词变得更可用。我们也会做一些提示词上的「雕花」行为,更重要的是给模型可观测的停止条件,让 worker 和 verifier 分别管理一些事情,比如 worker 的停止条件就是把活干完了,verifier 的停止条件是在干完的活里找到 bug。

APPSO:我的使用体验,有时候觉得可以交付了,但 agent 还在打过来打回去。你们怎么定义 agent 之间的对抗强度?太宽松肯定不好,太严格会无限循环。

择因:我们不会假定所有的用户生产场景,所以先把这套框架抛出来,用户可以自己去定停止条件。至于怎么定,可以通过 Skill,让 agent 根据用户对停止条件的倾向主动总结成 skill,下次运行任务就可以作为判断标准。这个 skill 肯定是千人千面的,不是我们来概括。随着用户长期使用,agent 会越来越懂用户。

我们在 M3 训练中也加入了类似数据,让模型具备主动性,去总结之前的轨迹,根据用户的反馈去提炼 skill,让工作更加可观测。随着模型能力提高,我们可以做得越来越多。

APPSO:MiniMax Code 的一大特点就是 agent 之间上下文隔离,很反直觉,你们是怎么想的?

择因:agent 上下文分为三部分:用户请求、环境里的生产资料、模型执行轨迹。比如当 agent 执行出了错,会把犯的错记下来,但这个记录对另一个 agent 可能是有害的。当上下文变得臃肿,这些轨迹一定会污染别的 agent。

长程 agent 任务跑出几个小时后,几乎全部的上下文都是执行轨迹,所以我们要隔离这一部分上下文。做这个设计就是因为我们预期 agent 会运行很久,既然大部分的信息都是不需要的,为什么不隔离?

APPSO:同时执行几个任务,通过微信、飞书跟 MiniMax Code 查询也不会「串台」,这个体验很独特,是怎么做到的。

择因:你可以理解为在 L-W-V 之外还有一个 IM agent。每个 agent 都有各自的启停触发,IM agent 的启动就是你给它发一条消息,它再去检查正在工作的其它 agent。

我们还有一些更宏大的交互层面的想法,就是所有功能都可以通过说来实现:目前的 agent 产品,比如 Cursor 还有代码编辑界面;豆包或其它 agent 还有各种具体功能按钮,比如新建任务、创建 skill、导入文件——我们觉得这些界面和按钮,以后都可以消失,你想让 agent 做什么只需要跟它说就行。

没有壁垒,全是共识

APPSO:为什么 Anthropic 一天到晚说自己模型多危险,作弊、耍小聪明?是模型没对齐好还是产品 harness 做的不够 robust?

择因:我觉得可能只是 Anthropic 在宣发上的倾向。从个人体感对比,GPT 5.5 明显比 Anthropic 模型干活更彻底,更具有主动性,在真正生产上就是最好的 agentic 模型。它完全不绕弯子,不耍小聪明。

Claude Code 泄露过一版源代码,Codex CLI 也是开源的,你会发现这两家公司在 agent 产品上的倾向性完全不同。Anthropic 就是不信任模型的,他们就是假设模型会出各种问题,于是在各处增加约束。OpenAI 提出 harness 概念更早,你去看 Codex 其实就是一个循环,非常极简。

一个极简的 agent 框架,驭遵循度极好的 GPT 5.5,实现目前最强的编码和 agent 能力;层层约束的框架,用在 Opus 4.7 上,却出现了黑天鹅效应,在超长任务中也会偷懒糊弄,这是我所看到的。

Agent 和模型是长短板的关系,你的 agent 足够强大,可以榨干模型的能力;相反如果模型足够强大,其实 agent 不需要特别复杂,就直接一个循环,给它工具就能用了。

APPSO:新的 Claude Code dynamic workflows 架构出现了 verifier 的设计,以及官方描述把编排从模型上下文搬到可执行代码层面,跟你们的构思「所见略同」。你觉得这种设计哲学的趋同,是 agent 工程的唯一解,还是阶段性偶然?

择因:目前阶段是比较合理的解决方案。其实开发 Agent 是一个比较神奇的过程,收益可能来自于模型能力变强,而非你的框架变优秀了;当然,也有可能是你的框架比较先进,能让模型完成之前无法完成的任务。目前大家采用 verifier 的方案,也是因为和这个阶段模型的能力水平比较匹配。

相同点上,CC的这套 dynamic workflow 是让 agent 自主决策如何编排一群 agent 运行,这和我们的 Agent Team 设计思想一致。同时二者的载体都是文件,或者说 coding,模型通过文件的方式去编排一群 agent 运行。

而不同点,主要在实现方案和玩法:CC 是让主 agent 编排完成后一次性并行执行大量子 agent,能调度几百次。但是它中途不会回头,和用户的互动主要是在遇到阻塞时候的询问。

我们的 Agent Team 在主 agent 编排完成的情况下,用户和主 agent 都能在执行的任意时刻介入进行调整,用户对 agent 的运行可观测,可以随时和具体的某个子 agent 聊天。同时能随时停止和重新继续。更强调人和 agent 用同种方式编排执行。

能确信的是,即使工作形式上类似,实际上还是有很多细节不同,可能是完全两种不同的东西。在 agent 时代,大家开发效率很高、迭代很快,但是决定胜负手的还是所有的细节。模型变快了,但我们得慢下来去知道所有的信息。

APPSO:你怎么看业内有种说法,就是 Anthropic 研究极强,模型很厉害,但他们的工程能力很差,甚至他们自己都说产品是 100% vibe coded。

择因:可能他们内部用的是好东西,只是没把最好的版本给放出来,所以之前泄露的 Claude Code 代码有很多非公开功能。

Harness 在四月份成为了共识,但我们也需要等会用 harness 的新模型出来,比如 M3,这样的产品才是饱满的。一个例子是去年 skill 提出时,当时 Sonnet 4.5 使用 skill 的效果跟后来的 4.6 差距极大——所以,你需要一个懂 harness 的模型才能把它玩得转。我觉得今天整个圈子共识形成得太快了,模型还没有跟上。

APPSO:所以给模型自由度,它其实能做得很好;但如果用人认为合理的架构去框住它,效果不一定好?人类的组织架构方式、对于该如何工作的想象力,是否制约了 agent?

择因:也不一定,现在还为时尚早。多 agent 确实是最近的大热点,大家都在做各自的早期尝试,包括我看到 Slock 那种把几个 agent 拉到一个群聊里的组织方式,都很有意思。

MiniMax 的倾向是人和 agent 应该拥有相同操作权限。在模型能力还没有达到顶尖的前提下,加各种约束、用现有的组织架构去编排它,肯定是为了让它工作的更好。

这里面当然有人性的考虑,你用人能理解的组织架构去编排,看 agent 给你干活,确实给你带来很强的情绪价值。但是从效率维度评价,就不一定合理。比如今天影视工业用人能理解的工作流去编排生成过程,比直接让人剪贵得多。

APPSO:DeepSeek 最近在招人做 harness,做 agent 了,很明显是发力了。你怎么看?

择因:我觉得模型企业做 agent,肯定不是为了做而做。最根本的是 agent 能力跟模型能力实现百分百契合,甚至放大。模型在自己的 agent 里能遵循自己的 harness,用户才能真正感受到模型的强大之处。

Agent 对于模型使用量也有好处。一个模型公司如果有了 agent,它的订阅量就会乘以一个系数;有模型但没有 agent,模型使用量就要打折扣。我相信这个逻辑对于 DeepSeek 和其它发力 agent 的公司也是一样。

APPSO:有个 OpenRouter 的数据,Claude 80% 以上的 token 消费用于编程和技术任务,DeepSeek 主要是闲聊和角色扮演。

择因:我觉得模型公司做 agent 会有许多的动机,但最重要的之一,应该是让自己的模型在更严肃的场景里被用起来。

APPSO:之前你们说没有做 Agent 的企业敢说自己有壁垒,现在呢?

择因:大家越来越重视 agent,并且形成共识的速度会越来越快。Skill 用了半年,龙虾一个半月,多 agent 也就一个月。

前几天有篇华人团队发的论文写得非常好。关于 agent 的一切,其实都在这 71 页的论文里了,叫做 Agent Harness Engineering: a Survey——既然 agent 已经能被一篇论文所概括了,你说有没有壁垒?

APPSO:哪个 agent 对你带来极大启发?

择因:OpenClaw,我觉得是对任何模型公司的 agent 团队的一次存在主义危机。为什么一个此前不在模型公司工作,不如模型团队更了解模型的个人,能做出一款世界上最多人用的 agent?

APPSO:你觉得 OpenClaw 哪做对了?

择因:它很多东西做得很细,就比如说连接飞书、微信,里面其实坑很多。它进而影响了整个行业。甚至在 OpenClaw 出来之前,飞书团队还是以 MCP 这种古老方式维护;OpenClaw 出来之后,飞书团队很快就推出了官方 CLI 和插件,这些接口和协议都是面向模型有好的,而且迭代很快。

APPSO:模型公司想要留在牌桌上的最关键因素是什么?

择因:就我们自己来说,一开始就走在全模态路线上,有完整的自研模型,并把它们直接部署到我们自己的原生 agent产品、创作平台、开放平台中。这种复合优势会给模型公司带来更多机会。

同时,为了不掉队淘汰,可能拼的是组织效率更多一点。如果你的组织效率足够高,大家有一个明确的目标,奔着这个目标去执行,这个公司其实就不会掉队。如果内部组织上扛不住压力了,做不出东西来,可能就会发现自己落后了、没法跟上。

APPSO:你说共识会形成的越来越快。之前 MiniMax 的特色现在快变成全行业模板了,你们接下来怎么做差异化?

择因:我觉得需要投入到细节上,虽然共识形成的很快,但谁能把相同的事情做透更重要。

APPSO:国产模型开源是否达到了目标?你觉得今后前沿模型还会开源吗?开源的红利期是否已经结束?

择因:如果你的模型能力足够强,开源不开源取决于团队的偏好与意志。过去两年里中国模型刚起步的时候,作为追随者,开源的确能够更好地体现价值。

我记得很多同行都公开或私底下表达过,如果有一天模型进入价格战阶段,到时候开源的风气可能会有所消减。

全球来看,开源仍是中美之间的最大区别。即便今后权重、训练框架不开源,你仍然可以把你的创新成果通过论文开放给全世界,不一定非得是模型能力。

APPSO:你们怎么看大厂用赛马甚至养蛊的方式做 agent 产品?

择因:就像我刚才提到的,agent 为什么存在,其实很明确的两个点:一是让模型以完全体形态呈现,放大模型的能力,让它被真正用起来,二是代表你这家公司对「模型该怎么用」做的探索。你的 agent 产品应该能闭环到模型训练上。

如果你堆了大量的 agent 产品,里面有多少是和你的模型能力闭环的?有多少能反馈到自己的模型训练当中?几个agent 团队是在整抢资源还是朝着一个大的目标?其实都是未知数。

总的来说,agent 产品要先能在内部使用再推出去。我也看到,目前 B 端 agent 产品的收益更明确,效果更直接,所以不能否认大厂在这方面的投入。

先交学费再上班

APPSO:人们对于对话助理以及 agent,有很多长久的期待,《Her》里的萨曼莎、钢铁侠的贾维斯。几十年前幻想出的东西今天还没实现,我们距离那样的 agent 还有多远?择因:我觉得其实不远。《Her》是聊天陪伴为主,我印象比较深的是和主角一起打游戏,也就是软件打通的层面,现在做的已经不错了;贾维斯的话,其实和现实世界连接更加紧密。这会有点难,但我很乐观,因为我觉得物理世界的交互协议会比代码层面更加简单。本质上,只要模型的多模态能力足够强就可以。

举个例子就是 GPT Image 2,你会发现它的生图能力几乎和现实世界一模一样。可以预见的是,会有一款全模态模型出现,对现实世界的理解能力是极强的。如果这样的模型去操作物理世界,唯一剩下的就是物理世界怎么把接口给 AI 打开。

距离还有多远?我觉得山雨欲来。

APPSO:你们自己的工作因为 agent 发生了怎样的变化?

择因:建立在 agent 能力自由、有执行规范,并且有一些严格的约束这三件事的前提之上,我们在 agent 自我迭代,也就是让 Agent 自己开发自己这件事上达到了很好的闭环。你会不断试探它的底线,交给它越来越复杂的任务,它的达成效果越来越好,我们的预期也越来越高,进入了一个非常高的正反馈循环。

以及连接飞书了之后,你跟它聊天、它向你汇报工作,这种体验的情绪价值是极强的。

但最重要的,是我们从过去迫使模型、agent 和我们一起干活,变成我们可以更多深度思考我们的工作,对工作进行抽象和模式识别,形成 skill 和规范——每一个人都变成了更加 senior(资深)的工作者。

APPSO:像你说的,如果 agent 越来越强,甚至自我进化,大部分人类都将无法追上它。那到时候人类应该做怎样的提升才能跟得上时代?新的工作范式会是什么样?

择因:Agent Team 上线后我去了新西兰 10 天,那里没有任何的 AI 和 agent,但我过得很快乐。那么我觉得,到时候或许人类只要去享受 agent 提升的效率带来的便捷性就够了,大家完全可以去干其它更感兴趣、更符合人性的事情。

跟你说个现象:有些大厂开始招高中毕业生参与研学了。基于此我还有一个推演:将来大学本科生毕业之后,可能要「付费再上两到三年班」,成为一个 senior 之后,才能开始上班赚钱。

APPSO:你觉得未来的就业市场会成这样?

择因:这是在当前教育体制下,我回答你「agent 效率高过人类」这个问题的一个推演。这个情况在一开始聊的视频剪辑领域,其实已经发生了。

「付费上班」的意思是,首先你的 token 消费可能最初是由自己买单,等同于交学费。如果 agent 的能力真的全面赶超人类,聪明的公司算笔账都不会再招初级员工,这才是最可怕的。到那时候,你要先成为资深员工,而这个过程可能需要自己付费。

当然这是基于现有的教育体制。那么会发生两种情况,一就是大家享受 AI 带来的效率,去创造更多更有人文情怀的事物;二是教育制度层面或许会发生一些创新。

APPSO:太有意思了。最后有个开放问题:如果你能掌握无限制的算力,训练或推理都行,并且可以以亲民的价格向用户提供,你想做什么?

择因:这个回答和 MiniMax 关系不大。我可能会把它用在推理上。

之前翁家翌提到(很多人也提过),人类的命运是可以被计算的:你的基因序列、倾向性、性格、激素水平可以测算;你的家庭条件,父母对你的影响(通过语言和肢体动作)也可以计算;你所处的环境是可量化的,小城市还是大城市、教育水平如何等等——在集齐了这些要素之后,每个当下的人的后续行为都可以预测。

我不是要用这个去预测别人,我希望它成为每个人的分身,可以把我的一切过往经历和生理资料都给它,在遇到决策点时去跟它讨论。

我之前是一个美团程序员,我可以跳槽去互联网公司或者考公(计算机还挺吃香),但这些决策更多因为我的过往认知。但是否存在一些我想不到的可能性,能够被建模、预测出来?

这就是我想做的,我觉得这才是真正解放人类的一环。人有生老病死,我们认为人生是一条单行线。但其实每个分支点都可能展开不一样的平行人生。

以及前面这些没有考虑意外。意外反而是最大的、不可预测的。我希望我做这个东西能够拯救因为意外而导致所有要素不再成立的人。从「肥尾效应」的角度来看,小概率事件才真正支配了我们大部分时间。它能让我们更多的关注点放在这些小概率但颠覆性的事件上,因为大概率的事件是能被算出来的。

APPSO:有点《少数派报告》《超验骇客》,所以你会希望你的每一步都走对吗?

择因:不一定。我更希望能知道我在认知之内能做什么选择,认知之外能做什么选择。

认知之外的就是惊喜。我想做的东西,对你不就是个惊喜吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

微信终于要给 AI 手机开门了|AI 器物志

如果你经常用手机的 AI 助手的话,一定碰到过这个问题:

原本点外卖、写评论、自动修图干得好好的 AI 助手,一碰到最简单的「用微信给 XX 发个消息」,就集体束手无策了。

这个在 AI 自主能力越来越强时代的「异象」,总算迎来了改观。根据腾讯客服表示:

微信正在与华为、小米、荣耀、OPPO 等手机厂商合作推出 A2A 助手能力……可以通过对应手机系统 AI 助手发起微信音视频通话或向指定好友发送消息。

而在荣耀 500 Pro 上,我们借助最新版本的 YOYO 智能体,体验了一把微信的 A2A(Agent to Agent)代理功能。

不得不说,动动嘴就能发消息的感觉确实很丝滑:

根据测试,在目前 YOYO 版本 90.10.30.067、微信版本 8.0.72 中,微信 A2A 支持这些功能:

  • 发送文字消息
  • 拨打语音/视频电话
  • 打开扫一扫、收付款码

与此同时,发送图片或表情、发红包与转账、打开公众号页面等等操作则暂时无法实现:

话说回来,用语音助手操作微信这件事情并不稀奇——九年前的三星 Bixby 就能做到(后来被砍了),如今的 Siri 也一直都支持:

但能够在安卓和鸿蒙上——尤其是经历过年初豆包手机的「围追堵截」之后——实现对大厂 app 的代理操作,的确是个意义非凡的里程碑。

虽然「智能体」(agent)的概念前几年就已出现,但整体还是靠 OpenClaw 的爆火,才逐渐成为了 AI 对接硬件的主流代理方案。

而相比豆包手机或者早期的小艺帮帮忙,我们需要明确一点:

A2A 的实现形式与 OCR 读屏 + 模拟点击完全不同,仅仅在结果上(帮用户操作手机)殊途同归。

小艺操作非鸿蒙 app 时就需要 OCR + 模拟点击

回想更早几年,行业普遍想象的「每个 app 都为手机厂商的 AI 助手开放 API 接口」,A2A 也走出了一条完全不同的路。

为什么 A2A 能够成为手机厂商 + app 大厂选中的那条路呢?原因很简单:

A2A 的操作模式,是现阶段能够最大化兼顾数据安全性、保证用户留存、均摊 token 开销的模式,能够比较好的兼顾各方的利益。

虽然微信开放测试的智能体能力非常有限,连发照片这种基础的操作都还没有上线,但是我们不难猜测后续适配好的样子——

仅就微信内部来说,除了最简单的「手机智能体 – 微信智能体」模式之外,小程序生态也有很大概率会逐步覆盖到这个生态中。

毕竟很多第三方程序(比如美团、携程、京东之类的)原本就有各自的智能体服务,将智能体功能移植到微信小程序里并不复杂。

美团智能体「小团」

微信可以向外适配系统智能体,也没有理由会放弃向内适配小程序智能体生态。

而在微信之外,A2A 作为一种通用的实现方案,自然也可以和其他 app 的智能体对接——

今天可以喊 YOYO 用微信发消息,明天就能喊小布用携程总结去年的旅行报告。

到那个时候,距离所谓「OpenAI」智能体手机也就不远了:

一个「神圣的 A2A 连接着每一个 app」、所有操作都可以由智能体转达和代劳的世界。

图|Blizzard Entertainment

有意让 A2A 生态连接每一个人的不止微信和国产手机厂商,谷歌、苹果、微软之类的国际大厂同样在研究这条路。

比如前两周的 Google I/O 上演示的 Gemini Spark。

它在 Android 移动端的执行模式同时支持 OCR 模拟点击、合作软件 API 接入和 A2A 三种方案,可谓「我全都要」的典型。

图|Google

苹果这边同样很积极。

虽然 iOS 26 既没有合用的系统 AI,也没有什么智能体能力,但今年 WWDC 上苹果对于 AI Siri 的重构中,肯定会包含一些针对智能体的支持。

根据行业消息,我们也将有望在今年年末看到字节跳动与中兴再次合作的「豆包手机完全体」。

新的豆包手机据信会放弃纯 OCR 模拟点击方案,而是选择和 Gemini 类似的 OCR + API + A2A 的结合模式,以规避此前的安全风险和利益冲突。

初代豆包手机

毫无疑问,A2A 之所以成为大厂的共同选择、而没有被「围剿」,正因为它是最能兼顾各方利益的方案。

同时也是目前能够看到的,智能体 AI 让生活变得便利的最直观表现之一。

然而 A2A 的模式听起来很美好,但其中的一些商业模式还需要再考量——比如最重要的算力成本

毕竟手机端无论是 YOYO 还是小艺,微信里是元宝还是张小龙.skill,这些智能体本身的运行始终都是服务提供商的一项开销:

图|PE Collective

而未来如何在用户、手机厂商、软件开发商、服务提供商之间分摊这些 A2A 操作产生的「token 费」,将会是对于所有服务提供方的考验。

更坏的情况是,「手机 OS – 微信 OS – 小程序生态」的嵌套本身已经足够繁琐了。

如果全部使用智能体代理操作,A2A2A2A 过程中导致的算力浪费也是一个必须要面对的问题。

除此之外,一个过于 A2A 的技术模式也会引起另一个方面的担忧:智能体对于人类使用习惯的影响。

在爱范儿之前的文章中,我们提到了在设想 OpenAI 手机时,一种纯粹由智能体代理人类操作的后果:

为了让 Agent 更好地工作,你会下意识地让自己的需求变得更明确、更单一、更具逻辑性,相当于人类主动将自己异化(alienation)成了机器。这就是我们在现代技术中,最需要警惕的一点:人的机器化。

当然,以上种种情况在短期内并不会发生——

毕竟微信更新 A2A 功能的速度肯定没有那么快,要完整覆盖基础日常功能至少也得大半年,更不用说小程序 A2A 了。

但总目前我们能够体验到的 A2A 能力来说,这的确是让我们在享受到未来科技的同时,还不用担心被超级 app 生态围追堵截的最好方式了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌