阅读视图

发现新文章,点击刷新页面。

马斯克花 100 亿想清楚一件事,不做 coding agent 就是等死

1.

OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。

在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。

事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。

在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。

当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」

当时,吴宇怀在信中写了一句话,颇为有趣:

「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」

为什么当时 xAI 的高层认为,开发自己的编码产品是关键?

后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:

上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI 模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元合作费用。

注意编程这个关键定语,后面还会 call back.

2.

最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。

本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor 合作的,一个既另类却又极度合理的分析:

不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这 100 亿也值回票价了。」

所以是什么数据?如果你也去看 Theo 这条视频,他会讲得非常清楚。但为了节约时间,我们在这里简单概括一下:

我们和 AI 的对话是一来一回的,你提出问题/需求,他给你解答;coding agent 同理,只不过返回的是代码。

一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。

Cursor 有的,SpaceX 想要的,就是这些数据。

可这些数据从哪里来呢?

答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了:

没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。

虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。

3.

大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。

用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding 模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。

但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。

强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。

而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。

在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。

蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏的老师模型内部的概率分布。

一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。

这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。

而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。

4.

APPSO 读者应该记得,年初 Cursor 发布了 Composer 2,号称「下一代专用编程模型」,技术报道写的相对保守,也没有提供具体的模型底座信息。

结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」

几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」

五天后,Cursor 放出了完整的 Composer 2 技术报告,显示底座的确是 Kimi K2.5,授权方则是 Firworks AI,大致流程是在 K2.5 上做训练,再继续做大规模强化学习(RL)。

但关键之处在于,Composer 2 的 RL 是运行在真实的 Cursor 会话当中,使用与生产部署完全相同的工具和 harness。

Cursor 将这套流程叫做「实时强化学习」(real-time RL),也即将模型的 checkpoint 直接部署到 Cursor 生产环境中,观察用户的响应,收集数据,聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本,然后继续部署到 Cursor 里,循环往复。

最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下 tab 即接受自动补全。

该功能采用的是在线强化学习,在行业内极具特色。Cursor 可以以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力给用户,直接在产品内收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路,让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露,这种方法让 Tab 建议的拒绝率降低 21%,接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 员工也删掉了之前吐槽的的推文,Kimi 官方账号发表了祝贺。

一家估值 600 亿美元(基于马斯克给的数字),不做自己的模型基座的 coding agent 应用层公司,仍然可以通过产品自身的数据飞轮,RL 出超越基座模型的专有编程模型。

所以与其说 Cursor 翻了车,不如说这反而是 coding agent 产品重要性的绝佳例证。

Cursor 在另一篇关于实时 RL 的文章里写到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。」

这句话,现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价,会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。

我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己开发 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。

在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,没有开发自己的 coding agent。

不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排名第九,在 SWE-bench Pro 上分数却掉到了 15% 左右。

OpenRouter 的真实流量数据可以解释这种反差:该平台 2025 年报告显示,Claude token 消费 80% 以上用于编程和技术任务,而 DeepSeek token 消费主要集中于闲聊和角色扮演。

没有自家 coding 产品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会原形毕露。

不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确透露自己在做一模一样的事情:「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据,反哺给 Claude 模型用来训练。

5.

在 AI 的演进历程中,生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现了严重的失衡。

今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx),让算力基建成为了当前舆论的主旋律。但实际上,特别是在编程范畴内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。

这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:

对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业路线,而是确保底层模型可以持续进化的核心生命线。

正如前面 APPSO 论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝对不是正确的成功学应该有的样子。在真实的编程环境中,知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值,远超于得到正确结果本身。

只有拥有自己的编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——

否则就不得不像 SpaceXAI 那样,花钱去跟 coding agent 产品公司去合作。

然而并不是所有模型厂商都跟马斯克一样有钱,以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈,当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候,恐怕已经没有足够的合作伙伴可以挑选,合作的价格也将水涨船高。

美国模型巨头的情况大家普遍比较熟悉了,在此不赘述。APPSO 也注意到,国内的主流模型厂商和 AI 巨头当中,绝大部分都已经在 coding agent 产品上有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做:字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。

AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过,在原生编程产品这件事上,CLI 不会是终局

另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样,不论用户使用何种 AI 开发环境,模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。

但这也只是接近,并非完全相同。核心在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。

自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧是相对模糊的隐式推断。简单来说,API 侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签,从而无法实现最高质量的强化学习。

形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数的任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍的生产力。

只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding,势必将会掉出第一梯队。

当然,事实上每家模型厂商都不会不重视 coding——而是说,在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。

就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并且也让客户端显著改善了对 coding 任务的支持。

此前 MiniMax 只是推出了桌面端,但没有加入原生 coding 和 agent 功能。

紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品(阿里的官方叫法是智能体自主开发工作台)。

与此同时,xAI 的 Grok Build CLI,也终于正式推出了。

没错,就是 xAI 年初被 Anthropic 和 Cursor 封号之后,他们自己捣鼓出来的那个 coding agent.

这不,又多了好几个现成的案例。

看来,大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。

6.

把话题从 coding 扩展到 agent 本身,情况也是一样的。

编码任务的轨迹数据,在公开语料中确实还是能找到一些的(比如 GitHub 的提交记录/PR,尽管质量并不高)。但是 agent 任务的轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。

所以我们会看到,即使在 agent 操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。

OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。

后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目,其实就是一个浏览器插件。

即便是在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对 Agent 的兴趣。

CEO 梁文锋此前接受采访时曾经提到这样的观点:数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。

这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当研究试验场,而非商业化方向。

但是在今年 3 月,DeepSeek 一次性放出了十几个 Agent 相关岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。

APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然,DeepSeek 要做独立、原生的 Coding/Agent 产品了。

此前资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来,靠合成的训练数据只能带 DeepSeek 走到这里了,剩下的是合成不出来的部分:真实用户在真实环境里的真实成功和失败,必须靠自家的 agent 产品才能拿到。

DeepSeek 以一种极度克制的方式做了三年模型以及模型产品(直到上个月才终于在官网加入了多模态能力)。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。

当主力依靠研究的路径支撑不住飞轮的时候,DeepSeek 终于行动了。

7.

最后,我们回到开篇的故事。

根据 The Information 援引知情人士报道,在接受马斯克 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是仍将聚焦于优化自己的 Composer 模型。

这可能意味着,即便被马斯克买通甚至收购,Cursor 仍然要保留自己数据飞轮的主体性。

数据归属的本身,是最关键的隐藏博弈点。

当所有顶级模型厂商都做了自己的产品,所有顶级产品也都开始训练自己的模型,「模型公司」和「产品公司」之间本就不太清楚的界限,似乎越来越不存在了……

这场博弈也才刚刚开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

MacBook Neo 杀疯了,英特尔派出「野猫」接招?

今年 3 月,苹果制造了 MacBook Neo 这个大爆款,把高质量入门笔记本的价格打到了 4599 元人民币起。

一个半月后,这台搭载 A18 Pro 处理器的入门款 Mac,全年销量从 700 万台追加到了令人难以置信的 1000 万台,交付周期一度排到了 5 个月之后……苹果紧急向鸿海、广达等供应商追加订单。

知名供应链分析师郭明錤给出更刺眼的数字:在全球 Windows 笔记本电脑预计同比衰退超 10% 的大背景下,2026 年 MacBook 系列出货量有望达 2500 万台,同比增长 20%-25%。

这一拳,Windows 阵营的最核心代表英特尔,该如何接住?

在今天,英特尔在中国正式推出第三代酷睿处理器,代号 Wildcat Lake「野猫湖」,并同时启动了联合产业链伙伴的「Firefly 萤火虫计划」。

英特尔的接招,围绕一件事而展开:

将最先进的 Intel 18A 制程,下放给低端,或是入门,或是「主流」——随便你怎么称呼它的价位段。

野猫盯上新的猎物

Wildcat Lake 这个代号,在去年底就已经在业界出现。

今年 CES 期间,英特尔高调发布了主打高端的产品线:酷睿 Ultra Series 3,采用 Panther Lake 架构。同一天,Wildcat Lake 也悄悄披露,你可以将它理解为 Panther Lake 的精简版本。

业界普遍将其视为英特尔为了对标苹果 MacBook Neo 而推出的产品,专攻平价入门级 PC 市场。

「直接对标」这四个字,并不是说说而已。

在 4 月底,英特尔为野猫湖推出的公版参考设计曝光,采用渐变配色、铝合金一体成型机身、窄边框键盘,扬声器开孔环绕在键盘两侧、D 面无出风口——

这种设计语言不需要过多解释,它就是在用苹果惯常的设计语言,去回应苹果本身最受欢迎的多彩配色与铝合金轻薄机身策略。

在 MacBook Neo 上,苹果做对了一件事:它让整个行业重新意识到,在「内存末日」(RAMmageddon) 的今天,入门价位段成了一座金矿。

用一颗本来进入销库存阶段的 A18 Pro 芯片,配上 8GB 内存和 256GB 存储,开价 4599 元——MacBook Neo 活脱脱成了 MacBook Air 平替。

英特尔,以及整个 Windows PC 阵营不能继续将这个用户群体拱手相让。而这,正是「野猫湖」存在的(几乎)全部理由。

18A 首次下放到入门段

第三代英特尔酷睿处理器的技术参数并不复杂,CPU 采用 2 个 Cougar Cove 性能核,加上 4 个 Darkmont 超低功耗能效核,总共 6 核 6 线程;GPU 部分配备 2 个 Xe3 核心,NPU 算力最高可达 18TOPS。整机基础 TDP 15W,最高 35W,在无主动散热的笔记本上,甚至可以压低到 11W 运行。

按照英特尔今天提供的官方口径,这颗芯片功耗相比前代降低超过 60%,图形 AI 性能提升了将近 3 倍,平台总算力更是达到了 40TOPS。

当然,考虑到「野猫湖」处理器的 NPU 算力只有 17TOPS,远低于 Windows 阵营的所谓「AI PC」,也即微软官方定义的 Copilot+ PC 40TOPS 的阈值。所以严格来说,野猫湖并不能直接和苹果 A18 Pro 高质量的神经网络引擎,以及统一内存架构,去做横向比较。

话虽这么说,驱动参数量不大的本地小模型,做一些 AI 推理任务,还是绰绰有余的。

以及更有意思的是,谷歌前段时间发布自家的 AI 笔记本电脑「Googlebook」的时候,也确认了和英特尔结盟——Wildcat Lake 被海外业界人士普遍认为将会成为是 Googlebook 的核心平台。

连谷歌都觉得够用,应该没大问题吧?

真正关键之处不在于这些参数,而是在于「野猫湖」用上了 Intel 18A 制程工艺本身。

要知道,过去两代酷睿 Series 1 和 2,一直沿用 Raptor Lake-U 架构和 Intel 7 制程,实质上是 10nm SuperFin 工艺的演进版本。

在主流芯片普遍走向 5nm 甚至 3nm 的当下,技术代际差距已经相当明显。

当 MacBook Neo 用虽然是老库存但货真价实 3nm 工艺的 A18 Pro,杀进四千多元的价位段,英特尔过去那套「靠老制程压低成本」的入门策略已经过时了。

所以,我们很欣慰地看到,英特尔将 18A——2nm 级别的工艺,压到一颗入门芯片上。

这意味着英特尔充分愿意承担初期更高的单位成本,去力保一座不能再丢弃的城池。

系统:手机供应链思路搬到 PC 上

对于守住市场,「Firefly 萤火虫计划」同样重要。英特尔副总裁、中国区软件工程和客户端产品事业部总经理高嵩如是说:

芯片本身的算力固然重要,但「芯片和系统层面的双重创新」才是这一代主流 PC 体验跃迁的来源。中国区客户端与平台销售业务部总经理宗晔则认为,PC 也正在从工具进化为「智能体验入口」。

根据英特尔提供的内部数据,与上一代相比,「野猫湖」产品的 PCB 面积缩小了 5%,器件数量减少了 7%。同时针对第三代酷睿平台特性制定并推广标准化主板与 I/O 板连接,推动主板核心电路进一步实现模块化、小型化、低功耗化。

这一套打法的精神底色,其实来自于手机。手机行业过去 10 年磨合出的供应链协同方式——元器件高度集成、模块化主板、统一接口标准,被英特尔搬到了入门级 PC 上。

结果,就是更轻、更薄,也更便宜。

参与「Firefly 萤火虫计划」的合作伙伴,包括但不限于华硕、七彩虹、荣耀、惠普、联想等。英特尔预计,全球合作伙伴将陆续推出超过 70 款基于 Wildcat Lake 平台的产品。

目前,荣耀 MagicBook X14 2026 已经率先上架,搭载该平台 Core 5 320 处理器,采用 16GB+512GB 存储配置,定价下探到了 4399 元。

用户画像:完全对标 MacBook Neo,但还有更多

英特尔列举了 Wildcat Lake 平台产品的 5 类目标用户:辅导孩子作业的家长、全天在校的学生、刚入职场的新人、「一人公司」创业者,以及银发族。

这些用户群体和场景描述本身没什么悬念,但值得注意的是,这个用户画像,和 MacBook Neo 在线下门店主要推荐的人群,几乎是完全重叠。

MacBook Neo 夺走的本来就是入门级 Windows 笔记本电脑的客群,英特尔的接招,就是造出具有更好价值主张的入门级笔记本电脑,再把心智重新抢回来。

英特尔还反复强调野猫湖平台的本地 AI 推理算力。这对于那些购机预算本就不多,也不太可能付费订阅优质云端模型算力的用户来说,倒也是个正确的思路。

最后,野猫湖看起来像是合格的入门芯片平台,跟 Firefly 萤火虫计划结合起来,也形成了一套颇具诚意的组合拳。轻、薄、便宜的 AI 笔记本,英特尔现在重新回到了这个擂台。

仅剩的悬念,是 OEM 最终能把零售价做到多少。

在 MacBook Neo 的价位上,苹果给到了系统生态、统一内存架构、多种潮流配色等等诸多看头。但英特尔要想把这只野猫放出去,跟苹果大杀四方,光有 18A 工艺和优秀的工业设计是不足够的。

这场仗的真正交战点,大概率不会在技术本身,而是在即将到来的 618 购物节期间,第一批搭载它的笔记本产品,能否真正把供货紧张的 MacBook Neo 杀个七零八落、措手不及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

华为做到了大平板的全球最薄,却给它塞进了一台鸿蒙电脑

5 月初,华为在海外发布了 MatePad Pro Max。

这台已经预定今年华为平板产品线旗舰的新机,带着新的全球纪录登场:4.7 毫米厚、499 克重,在 13 寸以上的大平板里没有比它更轻薄的,连 iPad Pro 13 寸都要厚 0.4 毫米、重 80 克。

但奇怪的是,在海外发布时的样子,并非完全体。原生鸿蒙系统,特别是平板/桌面电脑双系统的缺席,让海外版 MatePad Pro Max,除了硬件之外的部分都乏善可陈,只是一台硬件到顶的 Android 大平板。

5 月 20 日,华为终于在国内又把同一款产品又发布了一遍。

硬件本身没变,但真正有趣的东西都回来了:预装 HarmonyOS 6.1——一个如今早已无限趋近成熟的国产原生操作系统,不仅仅是全球最薄的大尺寸平板,更是一台货真价实的「鸿蒙电脑」。

在国行 MatePad Pro Max 上,我们终于见到了它的完全体形态。

先把大平板做薄,再把平板做成电脑

华为硬件的扎实程度,你永远无需担心。

4.7mm 的厚度并不是靠减配堆出来的。正相反,华为在工业设计这一系统性工程上再次突破了自己:

后壳与中框一体成型的云隼架构,以及与优秀智能手机师出同门的主板置于机身中央的三段式布局,让这台平板的整机堆叠密度提升了 15%。再引入 PCB 激光蚀刻、层板焊接的嵌入式封装,主板厚度进一步降低了 22%。

多年前 iPhone 6 的「弯折门」事件 (BendGate),至今仍是悬在超薄消费电子产品头上的剑。华为独创性地在 MatePad Pro Max 应力最大的区域,加入了承重梁+榫卯串锁这一极具建筑功能与美学的工业设计结构,更是提高了这台 13.2 寸大平板六成左右的抗弯折能力。

屏幕采用 13.2 英寸柔性 OLED——是的,我们都没有听错。在一台并无折叠/卷轴机构设计的平板电脑产品上,华为任性地使用柔性屏,这种「高射炮打蚊子」的行为,背后的动机是利用柔性屏去无限逼近大屏幕边框到底能多窄的物理极限。

MatePad Pro Max 的边框只有 3.55mm,并且塞进了胶囊形开孔的前摄像头,实现了窄边框,也没有流于「刘海」的俗套。

自从 2024 年开始,iPad Pro 保持了相当长一段时间最轻薄大平板的王座,但是13 寸机型上的厚度并没有突破 5mm,重量也有将近 580g。

两年后,华为刷新了大平板的轻薄记录。

但轻薄只是这台机器一半的故事。另一半在鸿蒙系统里。

MatePad Pro Max 搭载面向大屏设备的 Kirin T93 Pro 芯片,能够原生运行鸿蒙的双桌面功能:四指一划,即可在平板空间和电脑空间之间切换。

在平板电脑上,鸿蒙 6.1 支持多达二十个窗口同时开启(在电脑上是 50 个),并且支持外接双屏。背后是华为和生态伙伴为鸿蒙电脑专门开发的数百个原生 PC 应用。

对了,鸿蒙双系统之间切换的应用关闭问题,现在终于被华为解决了。在鸿蒙 6.1 系统上,绝大多数应用在切换平板/桌面模式时都不再强制关闭。

更别提华为给 MatePad Pro Max 配上了 1.8mm 键程的键盘。

鸿蒙平板?这已经无限接近于一台鸿蒙电脑。

三年,三个自研软件

苹果有「库乐队」,而华为今天也第一次正式拿出自研的专业音乐编创软件「音悦家」。

在 2022 年,华为做了原生的笔记 App;2024 年又做了绘画软件「天生会画」;今年,终于轮到音乐了。

三年,三个自研创作工具,华为做它们绝非单纯的对标。真实动机,在于华为需要把鸿蒙平板和鸿蒙电脑,从内容消费设备和基础办公设备,进一步改造成至少能够让新一代内容创作者不会感到捉襟见肘的创作工具。

在今天这个时间点,你可能会下意识地认为,一款新的音乐软件很有可能就是个套了壳的音乐生成模型?

「音悦家」非也。它是一个原生、全功能的音乐制作工具,覆盖作曲、录音、编曲、混音的全流程,最高支持 1000 轨混音,芯片级加速把弹奏时延压到 18 毫秒——当然,顺便也加入了一些 AI 驱动的功能,比如将导入的音乐素材拆分成不同乐器声部,方便采样。

这款鸿蒙音乐创作软件的音色库,收藏了 200 多种中西乐器。这些音色的背后,是华为联合上海音乐学院音乐工程系实地采样,复原了仿唐制曲颈琵琶、仿唐制竖箜篌等多款几近失传的国乐器,将智能存在于数字考古资料中的声音搬进了软件。

虽然功能全面,但音悦家真正瞄准的人群更接近非专业用户。这也是为什么它的软件界面氛围业余和专业两组,业余界面直接显示乐器部件,把门槛压到最低。

对职业音乐人来说,它离取代 Logic Pro、Ableton 等现有主流工具仍有距离。但更重要的是,它的价值体现在让没碰过编曲的人也能轻松制作出第一段旋律——而且是在鸿蒙平板/电脑上。

华为希望 MatePad Pro Max 不止能成为用户本人的办公创作帮手,回到家里也可以变成孩子的学习工具。

为此,华为在鸿蒙 6.1 系统中增加了一个从系统底层隔离开的「教育空间」,孩子进去退不出来,数据和家长的应用完全分开。

这个功能性沙箱里也内置了学习方面的海量内容以及功能,由学而思提供。去年 12 月,华为与学而思已经合作出过一台基于华为擎云的定制学习机,这次是把能力直接做进了旗舰平板。

另外值得一提的是,华为还把鸿蒙系统原生的编程产品——DevEco Studio 等 IDE 产品,放到了这台平板上。

用鸿蒙设备开发面向鸿蒙系统的软件,现在又多了新的趁手工具。

第一的另一面

在平板电脑的中国市场出货量排名中,华为已经连续两年第一,2025 全年份额 29.2%。

不过根据 IDC 的数据里,在去年 Q4 苹果以 26.7% 的份额反超了华为的 24.9%。

MatePad Pro Max 用上「Pro Max」这个从手机借来的后缀,又在轻薄上正面对标 iPad Pro,冲高端、守住第一的意图不能更明显。

往大看,这台平板站在一个产业拐点上:传统 x86 电脑阵营早已松动,ARM 架构凭能效优势扶摇直上;同时,平板和电脑的边界也变得愈发模糊。

上一代 MatePad Pro 13.2 柔光版国内 6299 元起,国补后 5499 元。

而这次的 MatePad Pro Max,一台顶着全球最薄名头的大平板旗舰,国内定到什么价格,将在 6 月 1 日首销时揭晓。

不仅继续抬高高端平板市场的天花板,还要守住平板电脑总品类的老大位置。MatePad Pro Max 肩上的责任更多,也更重了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

假如听不见声音,该如何「感触」音乐?

1.

王朝晖做了大半辈子的儿子,自己也已经当上了祖父。

但是,这还是他记忆里第一次紧张到如此程度,手心直冒汗。

攥着一台 iPhone,屏幕上正在播放一首名叫《远山》的歌。王朝晖即将第一次把这首歌,分享给一位从来没有听过任何一首歌的人——

他的母亲。

失聪的王书珍坐在床前。屋外,另一台 iPhone 静悄悄地对着他们。王书珍并不在意,一段时间以来她已经习惯了这些跟在身边的镜头。

王朝晖把手机塞给母亲,让她握住。他比划着,引她把手机贴在胸口上,贴近心脏的位置。

手机随着旋律开始震动起来。

王书珍笑了,那是一种体验到了从未经历过的新鲜事物而产生的兴奋。

但紧接着,是这对母子一生中都从未体验到的激动。

房间里没有声音,却震耳欲聋。

2.

健听者王朝晖成长于一个没有声音的宁波家庭。父亲和母亲都有听力障碍,童年时代的家庭生活是寂静的。交流靠眼神,靠手语的比划,靠一个孩子在本不应该的年纪就学会的察言观色。

虽然无法听到任何声音,王书珍却十分外向。尽管身体已没那么硬朗,她还是很爱往外跑,自己去菜场买菜,跟小区里的邻居比划着都能聊上半天。

不过,她还是更喜欢儿子陪着自己。如果儿子去买菜问她一句「走不走」,王书珍能高兴好一阵。

在王朝晖的记忆里,母亲的手很巧,也很忙。这双手替一家人缝补、做饭,铺就了几十年光阴里,一寸寸的日子。

如今,家里小孩住在别的城市,时常发来照片和视频。王朝晖拿给二老看,他们看得见孙辈的样子,却听不到声音。

至于音乐,更是不属于这个家庭的生活。王朝晖说,让父母听首歌,他以前想都没想过,因为那是不可能的。

五十多岁的他,有个念想藏在心头很多年:这辈子要是能喊一声爸爸、妈妈,让二老能听得见,他就知足了。

沈煜傑决定用一首歌帮他实现这个念想。

3.

做了 20 年导演,沈煜傑创作过逾百部作品,曾获得国内外多个大奖,在广告片的圈子里人送外号「帅导」「故事大王」。

他执导过《剃头匠》《再见白肩》《父亲的旅程》等优秀短片作品,还给苹果拍摄过一部无障碍主题影片《把眼前的说给你听》。

而在接到苹果这次邀约时,他对要拍的功能「音乐触感反馈」一脸茫然。

在原本的认知中,手机的震动模式,只是用来提醒的。沈煜傑把震动抽象为一种「信息的阻断」,挡住来电和信息,免得他们惊扰旁人。

在此之前,他从未想象过,对于听障人士,震动却可以成为一种声音的载体、情感的媒介。

「音乐触感反馈」是一个藏在 iPhone 辅助菜单里的无障碍功能,它能够把 Apple Music 的音乐,用任何人都可以直观感受到的敏感震动来重新诠释。

对于一般健听人来说,如果你开车走过「音乐公路」,原理是一样的。

如果随便找一个听障者,问 ta「你对音乐有没有概念?」会得到几乎一致的回答。

但苹果给了沈煜傑这个反直觉的命题:一个天生没有音乐概念的人,第一次碰到、听到音乐,会是什么反应?

为了找到对的人,剧组在全国筛选了数十组听障家庭。策划中的主角有夫妻、母子、姐妹、同事等各种关系。

最终,这条纪录片的对象筛到了最后的 5 组。沈煜傑和助理花了一个星期的时间奔波于重庆、安徽、北京、宁波等地,挨家挨户与他们做访谈。

他写了三个版本的故事。但最后令他念念不忘的,是王朝晖的母亲王书珍。

「她的脸,她的笑容,无论她在做什么,你跟她说什么……永远那么灿烂、干净,不掺杂任何别的东西。」

沈煜傑选择了相识十多年的独立音乐人末小皮所创作的《远山》,一首表达创作者与父亲关系的歌曲,作为这条片的主旋律。

母亲用一双手撑起了这个家,而儿子即将用一首歌,来回敬这双手。

4.

作为一条纪录短片,《有爱 无碍》从头到尾没有标准剧本。

王朝晖说自己签了保密协议,全程都不知道自己在拍一个什么样的故事。王书珍听不见,也只能看见几个陌生人抱着几台手机在狭窄的房间里跑来跑去。

导演给的指令也平常到无以复加,却又令人摸不着头脑:该打扫了,该做饭了,该吃饭了……

一家人就像平时一样,继续过着安静的日子。

全片的高潮,也是整个摄制的高光时刻,发生在最后一天的最后一场戏。直到那一刻,王朝晖才明白过来一切。

手里攥着 iPhone,屏幕上播放着《远山》。王朝晖把母亲叫过来,坐在床前,把手机塞到她的手里。

王书珍握着手机,放在自己的胸口,又贴到了耳朵上,再放回胸口。

她慢慢安静了下来。紧接着,一种王朝晖鲜少见到的表情浮现在母亲的脸上。有什么东西,正汹涌而来。

王书珍用手比划着——

「我喜欢。谢谢。」

王朝晖再也控制不住自己。他扑进母亲怀里,大声喊着「妈妈」。

王书珍紧紧抱住了他。

房间里的抽泣、鼓掌、欢呼交错。

把手机贴在胸口,王书珍什么都能听到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

再访 XREAL 徐驰:做眼镜是场万米长跑,靠运气也靠打怪升级

XREAL 把今年的第一场发布会,留给了一个之前没听说过的新牌子:xbx。

内部的全称是 x, by XREAL。

考虑 1699 的定价,xbx 的第一款产品 a01 的性价比相当不错:50° 视场角,tandem OLED 显示模组的亮度高达 1600 尼特,等效 4 米左右 147 英寸大屏,支持 HDR10 和在至高 120Hz 帧率下的空间防抖。

但参数远没有颜值和戴起来轻松更重要。62g,半透明未来感机身,可替换的多种个性化镜框。CEO 徐驰说,「颜值就是正义,只管玩就好。」

这是成立十年来一直在拼了命地往「上」冲的 XREAL,第一次「向下」。

过去这些年,徐驰和他创立的 XREAL 从来没有走过容易的道路。尽管中国的消费电子供应链资源足够好,以至于整合能力成为了成功的硬件创业者必备的素质——XREAL 却是不搞纯粹的「供应链整合」的。

正相反,XREAL 一直都在往上走,做最贵、最难、最「极客」的产品。为此,XREAL 不惜做极高比例,同时也是同行中最高比例的自研,甚至不惜因为过去两三年里的国际半导体波动,而损失相当一部分利润率。

这才是为什么去年 XREAL 能和硅谷巨头 Google 联合推出 Project Aura,一台令行业人士刮目相看,也让消费者打破对现有「智能眼镜」刻板印象的原型机(今年将正式面市)。徐驰毫不收敛地将 Project Aura 称为他所在的行业体验的「天花板」。

能做出这样的产品,断不可能靠整合供应链。为什么只有 XREAL 能做到,为什么谷歌选择了,LG、ROG 等也都选择了 XREAL?

徐驰说,答案是 XREAL 的 A 面:内敛、冷峻、长期主义、押注绝对的技术创新。

那么,XREAL 的 B 面又是什么?

在徐驰带领着公司一往无前地朝着头戴式显示技术的性能优化与极致轻量化冲刺的同时,他的背后险象环生:

在通过 Apple Vision Pro 试水也试错了之后,苹果立项了更多轻量级 AI/AR 眼镜产品,如无意外将于 26H2-27 全年逐步问世;小米、阿里千问、Rokid、VITURE 等纷纷杀入市场。

它们当中,有的用 AR 显示眼镜围攻 XREAL 占据已久的光明顶,更多的则是用 AI 眼镜(屏显/无屏)来提前抢占行业领头者尚未明确布局的新空间——无论何种产品定义,价格都被压得越来越低。

对此徐驰并不紧张。在和他深聊过后,爱范儿得出这样的感觉:XREAL 的 A 面朝前太久了,以至于同行们似乎误认为它没有或者不屑于展现另一面。

「怎么说呢,A 面没立住的时候,就没有 B 面。我们现在来了,虽迟但到。」

XREAL 主品牌的势能已经积攒到位,徐驰和他的产品团队终于腾得出手去做另一种风格的产品——一个更年轻、外放、价格也更亲民的牌子 xbx。

这就是 XREAL 的 B 面,与那个永远创新不止的 A 面,互为映照。

他说,自从创业以来,见到了 VR/AR 的泡沫,破了;然后元宇宙来了,也破了。一路走来,这次创业越来越像一场万米长跑——这也是从一开始他就坚信的赛制。「抢跑一点都不重要,跑对方向才重要。」

所以,徐驰看起来并不担心这些新来的竞争者。问他怕不怕大厂和其它创业公司一拥而上,他答:「我们最怕的,是这个行业只有自己。如果没有别人,没准说明我们走错了方向。所以热闹一点挺好的。」

2016 年,徐驰离开混合现实先驱企业 Magic Leap,回国草创,做一副在当时没人看好的眼镜。

快十年过去了,他庆幸 XREAL 能活到今天,运气占了相当大的因素。

「感谢这个赛道前十年的起起伏伏,让我有机会不断打怪升级……等到真的要跟大厂掰手腕的时候,不至于一上来就是总决赛。」

爱范儿等与徐驰、XREAL 产品负责人刘宗楷进行了一次专访,从全新的子品牌 xbx 和第一副价格打到 1699 元的 AR 眼镜产品 a01 聊起,一路聊到他怎么看待竞争,如何比较自己与同行之间的资本效率、AI 眼镜会不会最终取代手机,以及一个第一次创业的人,凭什么活到今天。

「年轻人最好的,就是不迷信传统」

爱范儿:XREAL 这些年的特质就是高端化,为什么要在这个时间点推出 xbx 这个品牌?

徐驰:我们一直说,今天的智能眼镜行业很像 05、06 年的手机行业,很碎片化,系统、应用生态、交互范式都不统一。在这个相对早期的阶段,没有哪个品牌能够覆盖所有的价位段。所以我们就想,有没有可能做两种风格不一样的产品,像 A 面与 B 面一样。

这个行业充满波折,是出了名的难做。很长一段时间里,大家都在摸索,我们自己也(一段时期内)没有一个特别清楚的定位。但是「XREAL 」在我心里就是那个极致创新的品牌,更冷酷、更经典。但是,一个品牌尚未立住的时候,我没办法再去做一个更大众、更宏观的东西。

慢慢地,XREAL 成为了我想要的那种更内敛的品牌,这时候,就可以有一个更绽放的品牌跟它相互映照了。这就是我说的 A 面与 B 面。A 面没立住的时候,就没有 B 面。

这件事虽迟但到。从今往后,我们不只是一家叫 XREAL 的公司,还是一家 x by XREAL 的公司。

爱范儿:年轻人想要什么样的 AR 眼镜?难道年轻人就不想要极致的产品?

刘宗楷:对年轻人来说,个性与自我表达是每个人心里的渴望。市面上不管是 AR 眼镜、AI 眼镜、还是 XR 头盔,很多人下意识觉得这东西就该不好看、不轻便。但我们偏要反着来,为什么不先做出一副好看、够轻、年轻人愿意戴在头上的眼镜?一副愿意戴出门的眼镜,是所有事情的第一步。

徐驰:年轻人最好的,就是不迷信那些传统的大道理。颜值就是正义,好看就好,好用就好。我们希望用 a01 这副眼镜让大家明白,一千多块的价格也可以做到两千多块的体验。我们会把它长期做下去。

爱范儿:必须戴到外面,才能影响更多潜在受众。

徐驰:没错就是这样。我们希望这个产品可以在地铁上,在咖啡馆里,在飞机上,在各个地方,更多的年轻人把它戴到外面,而且是不尴尬的。所以我们做了极致的轻量化和个性化设计。

爱范儿:轻量化肯定有取舍。一个产品想做更高的分辨率、帧率、视场角,模组就会变大;模组大了,重量就会大、配重也会失衡。

刘宗楷:做轻的同时还要保证体验,真的非常难。镜片和外壳的厚度能不能再降一点,但强度还能保住。每一个器件既要轻还要保住性能,我们抠了很多细节。

这条路没有尽头,就是一个个夜晚,一次次较劲和争吵。当然,我们觉得还可以做得更好。

爱范儿:AR 眼镜能做到的 FoV(视场角)物理极限是多少?以及不考虑极限,只说在不同场景下人类佩戴的人体工学舒适度,最优解是多少?

徐驰:我给你个最直接的答案,最好的视场角应该是在 85° 左右,但这是在不计成本堆料、不考虑重量的前提下。

在 Project Aura 上,我们做到了 70°,在这个产品形态下已经是非常不错了,但是仍然有差距。什么时候我们能做到 85°,并且仍然是轻量化的,那么我们会觉得至少在显示端做到极致了。

刘宗楷:根据场景来看,比如你戴上 VR 头显去火星,画面主体是一艘宇宙飞船,背景则是宇宙星空——你需要同时看到主体和背景才能获得最大的沉浸感。但是对于 AR 眼镜,最好的背景其实是真实世界。如果是打游戏或者看球赛可能就不需要很大的角度;但如果是看电影,或者附着在真实环境里的 AR 显示,那么宽视角的沉浸感就更重要。所以最终还是取决于内容是否沉浸。

至于人眼的注意力聚焦视角,从眼科学上来说的确有极限,一般就是水平方向的 50° 左右,垂直的 30-40°这个区域内。

视场角并不是唯一的关键因素,还有电致变色、性能续航等等。在我们定义不同产品的时候,会有无数个取舍的拨杆,往不同的方向去拨。

「我们最怕的,是这个行业只有自己」

爱范儿:苹果也入场了,国内大厂的竞品也已经上市,价格越压越低。你怎么看?

徐驰:大家进来,我认为是好事。我们最怕的是什么?是这个行业只有我们自己——那说明这个赛道没人关注,没人看好。

我们始终认为,眼镜是最有机会替代手机的下一代计算终端。虽然已经创业十年了,我们也才刚刚开始,我们的渗透率可能还不到 1%,后面还有百倍甚至更大的成长空间,所以大家一起来把蛋糕做大是件好事。

我们这个行业是有泡沫的,但泡沫不一定是坏事,说明大家对行业的期待值很高。过去在每个阶段,都有过想挣快钱的人,发现不好赚就走了。泡沫褪去,受害的其实是消费者。而真正推动行业往前走的,是那些把「用户期待」和「产品体验」之间的差距一点点缩小的人。

打个比方,今天的 AI 眼镜就像五岁小孩,而我们定义的全天候佩戴的 AI 眼镜就像贾维斯。这中间的差距得靠底层创新去一点点推动。这些创新不会无缘无故发生,背后一定有人负重前行。

问:你们跟 Meta 的距离还有多少?

徐驰:举个不那么恰当的对比:2025 年 Meta 的 Reality Labs 业务营收是 22 亿美元,亏损接近 200 亿美元。我们今年做到了 2 亿美元营收,差不多是它的十分之一,但我们的亏损不到 2000 万美元。

十分之一的营收,千分之一的亏损,我觉得我们的资本利用效率还可以,这也是我们的优势。

爱范儿:你们有自己的全栈自研芯片、光学,但 Project Aura 的部分算力还是用的骁龙,两者这两者是什么关系?将来 XREAL 会否提高核心算力的自主性?

徐驰:X1S 是一颗完整的 SoC。在 Aura 上,所有对延迟和带宽敏感的计算,放在我们的 X1S 芯片上,其它的给骁龙。

我们的芯片就是纯端侧计算,骁龙芯片放在 puck(外挂的计算单元) 上。这两者不是处理器和协处理器的关系,而更像是「端侧」和「云」之间的关系。有些计算需要发生在离你更近的地方,更加及时。

我们一直说眼镜会取代手机。在可预见的将来,puck 会消失,直接换成你的手机就行了;更长远来看,如果眼镜真的取代手机,它需要自己能够处理所有的计算。这才是我们为什么押注自主芯片的意义所在。

前段时间美国出台禁令,先进制程的晶圆不能直接运进中国大陆。这件事挺流氓的,我们的芯片在这个范畴内,本来要在大陆做封装,结果必须在台湾封装完才能运回大陆。当时国内一大批芯片厂商都在争抢台湾的封装资源,造成了一次性的短缺,跟今天的内存短缺很像。为此,我们的业绩也少了蛮大一块,否则去年 Q3、Q4 的增长会很明显。

但从长远看,这反而驱动我们继续往前走。还好我们今天销量不是很大,总比卖了几百万台突然被卡脖子要好(笑)。我们希望中国有越来越多的先进制程握在自己手里,谁也卡不住。

爱范儿:Project Aura 在国内能上吗?你们会选择哪些国内模型厂商一起探索?

徐驰:因为 Android XR 和 Gemini 强绑定,而 Gemini 在国内用不了。所以很遗憾,要不你海淘吧(笑)。

我们不会放弃国内市场,如果 Android XR 能够和 Gemini 解耦,连上国内 AI,就是 Project Aura 进入国内市场的时候,但不是今天。就像当年 iPhone 也不是刚问世就进入中国。我觉得这个结果我们可以接受。It’s okay.

对我们来说,阿里是我们的股东,我们也一直跟字节跳动保持交流。在模型方面,我们不会排斥任何一家。我们的终极理想,是 AI 能像搜索引擎一样换着用。未来的大模型会变成基建,谁家的 token 效果好就用谁,可以无缝切换。

「眼镜凭什么取代手机?」

爱范儿:你自己也说,AR 眼镜这个品类存在很多年了,但渗透率仍然很低。让更多人接纳它的「入门毒药」会是一个怎样定义的产品?

徐驰:大概率还是主流两大类:更加全天候的 AI 眼镜、带显示但不够全天候的 AR 眼镜。

这个「全天候」(always-on) 有两层意思:一是全天候佩戴,二是全天候使用。今天的问题是,AI 眼镜的主要场景不是 AI,而是听歌拍照;你打开相机拍个 30 分钟,产品就没电了。如果说眼镜是你的个人助理,但它每天只能睁眼 30 分钟……那就不是一个全天候的助理。

在将来的某个时间点,会有一款 35g 以下、全天候续航的产品,作为 AI 交互的载体。这样的产品,我认为是能做到的。如果做到了,它绝对会是人手一个的设备。

另一条路就是 AR 眼镜,追求更高清、更多内容。这个路线今天还是分体机形态,能做到 60g,但终极形态可能会是一体机。

这两种产品,一个像 iPhone,人手一台,整个品类可能是每年十多亿台的出货量;另一个像我们现在的设备,做到终极形态可能是平板和笔记本电脑加起来的体量,一年 1.5 到 2.5 亿台,也很不错;以及传统头显,可能体量会像台式机——这三者会长期共存。

至于那个彻底引爆品类,将眼镜真正推上「取代手机」道路的产品是什么,我认为到 2027、28 年,我们会看到更清晰的答案。

爱范儿:即便做到了极致的轻量化,你怎么说服那些仍然嫌重的客群?

徐驰:我认为今天大家太容易先行代入刻板印象,比如「没有 35g 绝对不戴」。今天的行业里,抛开补贴的产品,还没有不吃国补、销量过百万的产品。如果真能达到 35g,早就是 15 亿台的水平了。

我们得一步步来:先把一个单品做到百万,再做到千万,再做到一个亿、15 亿。中间有好多级台阶。我相信在今天,一副体验足够好的眼镜,50g 也不妨碍它卖一个亿。影响接受度、卡住销量的只是体验还没有打磨足够好。

爱范儿:手机厂商觉得未来 5-10 年里手机仍是主角。但与此同时手机厂商也在做眼镜。你看到的未来竞争格局是怎样的?

徐驰:的确,今天存在的东西,很长时间内仍然会存在。但核心是谁能站在价值链的最高点。就好比曾几何时我们觉得互联网大厂的超级 app 太牛了,但今天它们的风头一定没有 AI 公司更盛。手机也是一样。随着科技发展,总有一些新的领域、企业,会站到价值链更高的位置。

我们相信未来两年内会形成共识:眼镜是离 AI 最好的原生终端,它可能是离多模态 AI 最近的东西。这也是为什么我们跟谷歌一起去畅想未来的全新交互范式,以及新范式下的终端长什么样。

这件事令我非常兴奋,一是因为它难,二是如果做对了,会非常 rewarding。

爱范儿:其它形态的 AI 硬件,比如 pin、带摄像头的耳机,不如眼镜吗?

徐驰:不光我这么想,Demis Hassabis 也说眼镜绝对是所有 AI 里最中心的设备。因为只有眼镜能够拿到人的关注点这一关键上下文信息。

你戴了一个 pin,它能看到你面前有一堆人,但眼镜在未来会有眼动追踪,它能知道我当下到底在看什么,周围的信息可能没那么重要。只有眼镜能带来端到端闭环的数据链路,其它终端都不具备这个能力。当然别的形态可以辅助,但眼镜一定是最关键的入口。

「靠运气,也要打怪升级」

爱范儿:创业者、企业家会有不同恐惧来源,可能是内部的组织效率跟不上时代,可能来自同业的竞争,可能来自异业的颠覆。足以让你从睡梦中惊醒的恐惧是什么?

徐驰:做企业和做人一样,做人也会迷茫,有人给你指点,让你找到对标。但我觉得说到底,烦恼都是自己给的。

我相信伟大的企业全是价值观驱动的。最核心的就是找到一个组织舒服的状态,让全公司都认可你的这套价值观——无论离开还是留下,都会继续在这套价值观的规范下做事。只要这件事做到了,竞争也好,别的也好,其实都还好。

我个人睡眠还挺好的,我觉得这是创业者得有的一个特质(笑)。

要说真有什么让我担忧,那就是我所崇尚的价值观,是否真的能够百分百贯彻执行?我怕的是 XREAL 变大了,文化会被稀释掉。我需要大家打心底里相信一件事:我们要当创新者、引领者。这不容易,在中国尤其不容易。在中国大家的习惯是服从等级制度,「老板说的都对」,可我还是希望,大家既能自下而上,又能自上而下,形成一个扁平高效的机制。

爱范儿:就像你说的,几轮泡沫起起伏伏,XREAL 还是活到今天了。

徐驰:2016 年我从 Magic Leap 回国,到今天整整十年了。那时候真是草根创业,我就是想做一副眼镜。能活到今天,回头看真是运气挺好。这是我的第一次创业,也感谢这一路的投资人(以及其他同行者),让我在这个过程里慢慢理解了怎么去运作一家企业,一个组织,一门生意。

说实话,如果这个行业发展再快一点,起势再猛一点,没机会把自己磨练好,去应对巨头杀进赛道时那种强烈的竞争,可能我们就没了。

每个创业公司大概都得经历这么一段:你得先打怪升级才能站上更大的舞台。如果一上来就是总 boss,来一帮阿里字节那样的对手就没得打了。所以我其实挺感谢这个赛道前十年的起起伏伏,才有一天让我能跟大厂掰一掰手腕。

AR 行业是出了名的难做,我又干得有点久了,所以对这些事现在看淡了。只要大家都还在牌桌上,这就是一件长期主义的事情。

我认为 AR 是一场万米长跑,跑对方向比抢跑更重要。如果行业还在早期但所有人都往一个地方冲,那个所谓的共识可能就是泡沫。反而是早期非共识的东西,最后被时间验证是对的。历史无数次这样告诉我们。

文|杜晨

采访|杜晨

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

对话 MiniMax 择因:Agent 终会超过人类,我们又将何去何从?

Agent 的世界,四月还是山雨欲来。五月尚未结束,已然血雨腥风。

整个行业的加速快到不讲道理。Vibe Coding 已经不再是新名词,编程这条赛道也从未如此拥挤:Claude Code、Codex、Cursor 贴身肉搏,Trae、Qoder、CodeBuddy 杀成一团。

黑话一个接一个流行起来,支配所有人的注意力。去年还是 skill(技能)的天下,如今 harness(脚手架)站上了王座。

热词之下,模型已经卷到几近一条平直的线:不同的基准测试会给不同的答案,但总体来说,无论是 Opus、GPT,还是 Qwen、GLM、Kimi 和 MiniMax 们,无论是写代码还是执行越来越复杂的任务,都已不在话下。

模型之间仍然存在差距,但拉开模型公司之间真正差距的,早已不再是模型本身,而是套在外面的那层壳。

之前一份研究报告拆解了 Claude Code 泄露的代码,发现真正属于模型决策的代码只有 1.6%,剩下 98.4%,全是管权限、管上下文、兜错的 harness。

为了进一步发挥模型的优势,全新一代的 agent 产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO 纷纷推出。连一直以来低调沉默的 DeepSeek 都挂出多岗位招聘,组建 agent 开发队伍。

早于业界布局 agent 的 MiniMax,在混战中落下自己的子。桌面端产品先是在 5 月中推出主打全新多 agent 编排架构的 Agent Team 功能。而随着 M3 旗舰模型,MiniMax 桌面端全面升级为 MiniMax Code,再次搅动了大厂、小龙云集的 agent 市场。

Agent Team 的内核是一套 Leader-Worker-Verifier(领导-执行-验证)的「对抗式」架构。负责干活和负责挑错的职责,被拆成不同的 agent,受到经过代码逻辑固化的状态机去管理,彼此之间上下文隔离。

这味药,治的是长程 agent 任务中那些出了名的顽疾:上下文污染、上下文焦虑、agent 之间的「共谋」。

有趣的是,正如前述 MiniMax 并没有等 M3 发布,而是率先在 M2.7 上就将 Agent Team 推了出来。M2 这一代,被 MiniMax 称为「大巧若拙」,模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中,M3 只会更强。

近日 APPSO 与 MiniMax Agent  研发工程师择因(周淳辅)做了一场对谈。我们聊了  Agent Team 的设计原则及其所体现的 MiniMax 认知,探索了 Agent Team 的技术内核,浅析其它玩家对于 agentic 模型如何约束与放任。

业界有一种观点正盛:Anthropic 拥有最好的模型和最烂的工程。在择因看来,Anthropic 骨子里不信任模型,预设模型会作弊、耍小聪明,于是到处加以约束。OpenAI 的 harness 核心却是一个极简的 agentic loop。

一个极简框架养出了遵循度极好的模型,一个约束极强的框架却养出了「黑天鹅」。MiniMax 做 agent 的思路,既将两者融合,又不完全相同:要相信模型,给它和人一样的操作权限,但也要在脚手架中加入合理的约束。

这些思路在业界独树一帜,但业界追赶新东西并将之确立为共识的节奏,早已快过于新思想诞生的速度。在 agent 上,MiniMax 没有壁垒——没有任何人有。择因发给我一篇 71 页的论文,告诉APPSO:

「关于 agent 的所有东西,都在这篇论文里了。如果一篇就能说清楚,还有什么壁垒?」

但 MiniMax 仍有绝活。

他们力求以最快的速度不断向整个行业输出新的认知,做共识的领导者、执行者、验证者——这也是为什么 Agent Team 及其背后架构没等 M3,就公之于众了。

究其根本,中国模型公司的「开源」玩法不会一直持续下去。但这并不代表,优秀的认知不应该及时与世界分享。

就像一个 agent 的工作会有它的停止条件,开发 agent 的人们也有停止的那一刻。对于择因,可能会是当 agent 可以实现真正的自进化,并且在几乎任何数字或物理世界的任务上效率和成本优于人类。

从站在第一线的他的视角来看,我们离那个未来并不遥远。

以下是 APPSO与 MiniMax Agent 研发工程师择因的对话。卖个关子:在最后我们提出了一个开放性的问题,并获得了意想不到的答案。

架构即认知

APPSO:Agent Team 为什么没等 M3,直接在 M2.7 上就发布了?

择因:不用非等到和新模型一起发,是我们的意愿,也是自己的节奏,就是希望不停地把最新的认知传达给外界,这件事情很值得做。以及它在我们内部已经使用很久了,一个月的时间,我们觉得可以对外发布了。

APPSO:今天一切的周期都变得很快,一个月已经很久了。

择因:发布时我们模型还没迭代,但是有一批核心用户对我们的 agent 的运行范式感兴趣,所以我们提前发出去吸引他们。核心用户的建设对我们来说非常必要。后面我们也会考虑把我们的 Agent Team 架构开源出来。

APPSO:MiniMax Code 到目前为止的反馈如何?

择因:这次把订阅逻辑理顺了,订了 token plan 就能用 agent。一个多月下来,下载和订阅量有一个比较可观的增长。这其实很有意思,因为如果只是提供 API 的话,用户用模型的门槛高,使用效果也不是最佳。MiniMax Code 能让大家直接感受到模型的完全体,这也是我们一直以来的思路,这一次被验证了,我觉得很好。在 M3 上只会更好。

用户方面有个比较有意思的点,因为我们是全模态,发现很多用户拿 Agent Team 去做长视频生成,有古文爱好者用它来生成大量的诗朗诵音频。这些偏 C 端、兴趣向的使用案例,其实我们没有预料。

很多用户也告诉我们,当 Agent Team 被整个拉起来开始干活的感觉,给他们带来很大情绪价值。

APPSO:真的像是有了几个员工给自己打工的这种感觉?

择因:对。总体上看最近两个月的多 agent 产品,已经是血雨腥风。腾讯那个 (Marvis)「打工」感更强。很明显,在 Agent Team 的共识和落地方面,大家跟的都很紧。

APPSO:你说有人用 MiniMax Code 做视频,会不会以后可以不用专业视频生成工具,不用懂脚本、分镜、首尾帧,直接用 agent 调用全模态模型就能做视频了?

择因:首先明确一下,我说的是偏个人用户、爱好的角度做视频,我觉得是可行的。专业的视频制作,其实让一个 Agent Team 去做, 跑通打个样可以,但如果真的投入工业生产,还是需要分工。比如编导负责 idea、分镜、首尾帧这些关键的东西。给到另一帮人负责丢给海螺或 Seedance 抽卡。

但我认为随着模型能力提升,抽卡这部分的成本,以及后续剪辑的成本,会降得非常低。

我们调研了一下,发现今天让剪辑师剪视频其实比 AI 便宜。甚至市面上有一种服务,他把抽卡和剪辑都打包了,但价格主要是抽卡的成本,剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑,交学费,课程任务就是给我把视频剪了。

APPSO:如果更强的模型出来,比如 M3,能比人工剪辑还便宜吗?

择因:我们的模型在能力上可以。但是你要算账的话,还是我刚说的套路,人的成本也会越来越低。

APPSO:MiniMax Code 的 Agent Team 架构,也就是 Leader-Worker-Verifier,听上去很合理,你们先做出来,然后 Claude Code 也跟进了。

择因:我们是从三月开始做的,一开始我和边上同事讨论,一个 agent,它一旦做错了,在上一轮轨迹里面它永远会记得自己做错了这件事。但转念一想,它如果接下来按对的方向去做,其实这段做错了的记忆它是完全不需要的,对不对?

基于这个想法,我们设计了这个新的架构:让干活的和负责验证的 agent 之间分开。验证的时候要有打回的机制,并且要让一个新的「脑子」去打回。

当月我们就把这套架构搭出来了,不过目前那个时候是主要内部使用,大家用得非常不亦乐乎。

APPSO:你们内部用的爽点具体是什么?是解决了之前的痛点,还是效率高、更不容易出错?

择因:我举个最简单的例子,比如你睡觉前给它派个任务,哪怕是极度复杂的工作,只要你卡控的够严格,你的准出标准可量化、可观测,而不是模型自己觉得可以就可以了——只要你做好这些门禁,这群 worker 和 verifier 就能在你睡觉的时候一直跑,睡醒之后就干完了。

可以说三月开始,这种新的开发节奏、新工作方式,就在我们内部出现了。

APPSO:这和传统依赖提示词的多 agent 编排的本质区别是什么?

择因:本质区别是我们的 Agent Team 架构做了一套复杂的自由度限制。

首先运行层面它是一个状态机,是确定性的代码,有严格的限制,它不能跳出这套规范,你可以把它理解为一个更严格的工作流 (workflow)。

在 agent 基建的层面,我们又给了极大的自由度。所有的 agent 之间都可以互相通讯,这和传统的 agentic workflow,有方向的流程图是完全不同的。当然,以前的 workflow 里面也可以带循环,但是核心还是这步走完了下一步。

我举个例子,比方说你用 agent 做开发,环境里少了某个包导致开发受阻,过去的 workflow 上可能就卡住了,而我们的 worker 或 verifier 发现了之后,它可以通过多种健全的机制通知其它 agent 别踩坑。

再比如一个研究类的任务,一开始的研究计划需要 leader 做些初步研究,过去 leader 分配完任务就停止了。但在我们架构下,如果用户有新点子、补充想法可以直接说,leader 能随时启动、去打断当前的 agent team、加一个新编排进去。Agent 工作流可以随时调整,剩下的重活都交给模型就行了。

以及大家知道强化学习逻辑下会出现「上下文焦虑」,当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排,持续工作直到达到准出标准。

APPSO:你们如何让模型同源的 agent 实现对抗,避免共谋?择因:答案很简单,还是提示词。2026 年的大多数模型遵循能力足够强,提示词变得更可用。我们也会做一些提示词上的「雕花」行为,更重要的是给模型可观测的停止条件,让 worker 和 verifier 分别管理一些事情,比如 worker 的停止条件就是把活干完了,verifier 的停止条件是在干完的活里找到 bug。

APPSO:我的使用体验,有时候觉得可以交付了,但 agent 还在打过来打回去。你们怎么定义 agent 之间的对抗强度?太宽松肯定不好,太严格会无限循环。

择因:我们不会假定所有的用户生产场景,所以先把这套框架抛出来,用户可以自己去定停止条件。至于怎么定,可以通过 Skill,让 agent 根据用户对停止条件的倾向主动总结成 skill,下次运行任务就可以作为判断标准。这个 skill 肯定是千人千面的,不是我们来概括。随着用户长期使用,agent 会越来越懂用户。

我们在 M3 训练中也加入了类似数据,让模型具备主动性,去总结之前的轨迹,根据用户的反馈去提炼 skill,让工作更加可观测。随着模型能力提高,我们可以做得越来越多。

APPSO:MiniMax Code 的一大特点就是 agent 之间上下文隔离,很反直觉,你们是怎么想的?

择因:agent 上下文分为三部分:用户请求、环境里的生产资料、模型执行轨迹。比如当 agent 执行出了错,会把犯的错记下来,但这个记录对另一个 agent 可能是有害的。当上下文变得臃肿,这些轨迹一定会污染别的 agent。

长程 agent 任务跑出几个小时后,几乎全部的上下文都是执行轨迹,所以我们要隔离这一部分上下文。做这个设计就是因为我们预期 agent 会运行很久,既然大部分的信息都是不需要的,为什么不隔离?

APPSO:同时执行几个任务,通过微信、飞书跟 MiniMax Code 查询也不会「串台」,这个体验很独特,是怎么做到的。

择因:你可以理解为在 L-W-V 之外还有一个 IM agent。每个 agent 都有各自的启停触发,IM agent 的启动就是你给它发一条消息,它再去检查正在工作的其它 agent。

我们还有一些更宏大的交互层面的想法,就是所有功能都可以通过说来实现:目前的 agent 产品,比如 Cursor 还有代码编辑界面;豆包或其它 agent 还有各种具体功能按钮,比如新建任务、创建 skill、导入文件——我们觉得这些界面和按钮,以后都可以消失,你想让 agent 做什么只需要跟它说就行。

没有壁垒,全是共识

APPSO:为什么 Anthropic 一天到晚说自己模型多危险,作弊、耍小聪明?是模型没对齐好还是产品 harness 做的不够 robust?

择因:我觉得可能只是 Anthropic 在宣发上的倾向。从个人体感对比,GPT 5.5 明显比 Anthropic 模型干活更彻底,更具有主动性,在真正生产上就是最好的 agentic 模型。它完全不绕弯子,不耍小聪明。

Claude Code 泄露过一版源代码,Codex CLI 也是开源的,你会发现这两家公司在 agent 产品上的倾向性完全不同。Anthropic 就是不信任模型的,他们就是假设模型会出各种问题,于是在各处增加约束。OpenAI 提出 harness 概念更早,你去看 Codex 其实就是一个循环,非常极简。

一个极简的 agent 框架,驭遵循度极好的 GPT 5.5,实现目前最强的编码和 agent 能力;层层约束的框架,用在 Opus 4.7 上,却出现了黑天鹅效应,在超长任务中也会偷懒糊弄,这是我所看到的。

Agent 和模型是长短板的关系,你的 agent 足够强大,可以榨干模型的能力;相反如果模型足够强大,其实 agent 不需要特别复杂,就直接一个循环,给它工具就能用了。

APPSO:新的 Claude Code dynamic workflows 架构出现了 verifier 的设计,以及官方描述把编排从模型上下文搬到可执行代码层面,跟你们的构思「所见略同」。你觉得这种设计哲学的趋同,是 agent 工程的唯一解,还是阶段性偶然?

择因:目前阶段是比较合理的解决方案。其实开发 Agent 是一个比较神奇的过程,收益可能来自于模型能力变强,而非你的框架变优秀了;当然,也有可能是你的框架比较先进,能让模型完成之前无法完成的任务。目前大家采用 verifier 的方案,也是因为和这个阶段模型的能力水平比较匹配。

相同点上,CC的这套 dynamic workflow 是让 agent 自主决策如何编排一群 agent 运行,这和我们的 Agent Team 设计思想一致。同时二者的载体都是文件,或者说 coding,模型通过文件的方式去编排一群 agent 运行。

而不同点,主要在实现方案和玩法:CC 是让主 agent 编排完成后一次性并行执行大量子 agent,能调度几百次。但是它中途不会回头,和用户的互动主要是在遇到阻塞时候的询问。

我们的 Agent Team 在主 agent 编排完成的情况下,用户和主 agent 都能在执行的任意时刻介入进行调整,用户对 agent 的运行可观测,可以随时和具体的某个子 agent 聊天。同时能随时停止和重新继续。更强调人和 agent 用同种方式编排执行。

能确信的是,即使工作形式上类似,实际上还是有很多细节不同,可能是完全两种不同的东西。在 agent 时代,大家开发效率很高、迭代很快,但是决定胜负手的还是所有的细节。模型变快了,但我们得慢下来去知道所有的信息。

APPSO:你怎么看业内有种说法,就是 Anthropic 研究极强,模型很厉害,但他们的工程能力很差,甚至他们自己都说产品是 100% vibe coded。

择因:可能他们内部用的是好东西,只是没把最好的版本给放出来,所以之前泄露的 Claude Code 代码有很多非公开功能。

Harness 在四月份成为了共识,但我们也需要等会用 harness 的新模型出来,比如 M3,这样的产品才是饱满的。一个例子是去年 skill 提出时,当时 Sonnet 4.5 使用 skill 的效果跟后来的 4.6 差距极大——所以,你需要一个懂 harness 的模型才能把它玩得转。我觉得今天整个圈子共识形成得太快了,模型还没有跟上。

APPSO:所以给模型自由度,它其实能做得很好;但如果用人认为合理的架构去框住它,效果不一定好?人类的组织架构方式、对于该如何工作的想象力,是否制约了 agent?

择因:也不一定,现在还为时尚早。多 agent 确实是最近的大热点,大家都在做各自的早期尝试,包括我看到 Slock 那种把几个 agent 拉到一个群聊里的组织方式,都很有意思。

MiniMax 的倾向是人和 agent 应该拥有相同操作权限。在模型能力还没有达到顶尖的前提下,加各种约束、用现有的组织架构去编排它,肯定是为了让它工作的更好。

这里面当然有人性的考虑,你用人能理解的组织架构去编排,看 agent 给你干活,确实给你带来很强的情绪价值。但是从效率维度评价,就不一定合理。比如今天影视工业用人能理解的工作流去编排生成过程,比直接让人剪贵得多。

APPSO:DeepSeek 最近在招人做 harness,做 agent 了,很明显是发力了。你怎么看?

择因:我觉得模型企业做 agent,肯定不是为了做而做。最根本的是 agent 能力跟模型能力实现百分百契合,甚至放大。模型在自己的 agent 里能遵循自己的 harness,用户才能真正感受到模型的强大之处。

Agent 对于模型使用量也有好处。一个模型公司如果有了 agent,它的订阅量就会乘以一个系数;有模型但没有 agent,模型使用量就要打折扣。我相信这个逻辑对于 DeepSeek 和其它发力 agent 的公司也是一样。

APPSO:有个 OpenRouter 的数据,Claude 80% 以上的 token 消费用于编程和技术任务,DeepSeek 主要是闲聊和角色扮演。

择因:我觉得模型公司做 agent 会有许多的动机,但最重要的之一,应该是让自己的模型在更严肃的场景里被用起来。

APPSO:之前你们说没有做 Agent 的企业敢说自己有壁垒,现在呢?

择因:大家越来越重视 agent,并且形成共识的速度会越来越快。Skill 用了半年,龙虾一个半月,多 agent 也就一个月。

前几天有篇华人团队发的论文写得非常好。关于 agent 的一切,其实都在这 71 页的论文里了,叫做 Agent Harness Engineering: a Survey——既然 agent 已经能被一篇论文所概括了,你说有没有壁垒?

APPSO:哪个 agent 对你带来极大启发?

择因:OpenClaw,我觉得是对任何模型公司的 agent 团队的一次存在主义危机。为什么一个此前不在模型公司工作,不如模型团队更了解模型的个人,能做出一款世界上最多人用的 agent?

APPSO:你觉得 OpenClaw 哪做对了?

择因:它很多东西做得很细,就比如说连接飞书、微信,里面其实坑很多。它进而影响了整个行业。甚至在 OpenClaw 出来之前,飞书团队还是以 MCP 这种古老方式维护;OpenClaw 出来之后,飞书团队很快就推出了官方 CLI 和插件,这些接口和协议都是面向模型有好的,而且迭代很快。

APPSO:模型公司想要留在牌桌上的最关键因素是什么?

择因:就我们自己来说,一开始就走在全模态路线上,有完整的自研模型,并把它们直接部署到我们自己的原生 agent产品、创作平台、开放平台中。这种复合优势会给模型公司带来更多机会。

同时,为了不掉队淘汰,可能拼的是组织效率更多一点。如果你的组织效率足够高,大家有一个明确的目标,奔着这个目标去执行,这个公司其实就不会掉队。如果内部组织上扛不住压力了,做不出东西来,可能就会发现自己落后了、没法跟上。

APPSO:你说共识会形成的越来越快。之前 MiniMax 的特色现在快变成全行业模板了,你们接下来怎么做差异化?

择因:我觉得需要投入到细节上,虽然共识形成的很快,但谁能把相同的事情做透更重要。

APPSO:国产模型开源是否达到了目标?你觉得今后前沿模型还会开源吗?开源的红利期是否已经结束?

择因:如果你的模型能力足够强,开源不开源取决于团队的偏好与意志。过去两年里中国模型刚起步的时候,作为追随者,开源的确能够更好地体现价值。

我记得很多同行都公开或私底下表达过,如果有一天模型进入价格战阶段,到时候开源的风气可能会有所消减。

全球来看,开源仍是中美之间的最大区别。即便今后权重、训练框架不开源,你仍然可以把你的创新成果通过论文开放给全世界,不一定非得是模型能力。

APPSO:你们怎么看大厂用赛马甚至养蛊的方式做 agent 产品?

择因:就像我刚才提到的,agent 为什么存在,其实很明确的两个点:一是让模型以完全体形态呈现,放大模型的能力,让它被真正用起来,二是代表你这家公司对「模型该怎么用」做的探索。你的 agent 产品应该能闭环到模型训练上。

如果你堆了大量的 agent 产品,里面有多少是和你的模型能力闭环的?有多少能反馈到自己的模型训练当中?几个agent 团队是在整抢资源还是朝着一个大的目标?其实都是未知数。

总的来说,agent 产品要先能在内部使用再推出去。我也看到,目前 B 端 agent 产品的收益更明确,效果更直接,所以不能否认大厂在这方面的投入。

先交学费再上班

APPSO:人们对于对话助理以及 agent,有很多长久的期待,《Her》里的萨曼莎、钢铁侠的贾维斯。几十年前幻想出的东西今天还没实现,我们距离那样的 agent 还有多远?择因:我觉得其实不远。《Her》是聊天陪伴为主,我印象比较深的是和主角一起打游戏,也就是软件打通的层面,现在做的已经不错了;贾维斯的话,其实和现实世界连接更加紧密。这会有点难,但我很乐观,因为我觉得物理世界的交互协议会比代码层面更加简单。本质上,只要模型的多模态能力足够强就可以。

举个例子就是 GPT Image 2,你会发现它的生图能力几乎和现实世界一模一样。可以预见的是,会有一款全模态模型出现,对现实世界的理解能力是极强的。如果这样的模型去操作物理世界,唯一剩下的就是物理世界怎么把接口给 AI 打开。

距离还有多远?我觉得山雨欲来。

APPSO:你们自己的工作因为 agent 发生了怎样的变化?

择因:建立在 agent 能力自由、有执行规范,并且有一些严格的约束这三件事的前提之上,我们在 agent 自我迭代,也就是让 Agent 自己开发自己这件事上达到了很好的闭环。你会不断试探它的底线,交给它越来越复杂的任务,它的达成效果越来越好,我们的预期也越来越高,进入了一个非常高的正反馈循环。

以及连接飞书了之后,你跟它聊天、它向你汇报工作,这种体验的情绪价值是极强的。

但最重要的,是我们从过去迫使模型、agent 和我们一起干活,变成我们可以更多深度思考我们的工作,对工作进行抽象和模式识别,形成 skill 和规范——每一个人都变成了更加 senior(资深)的工作者。

APPSO:像你说的,如果 agent 越来越强,甚至自我进化,大部分人类都将无法追上它。那到时候人类应该做怎样的提升才能跟得上时代?新的工作范式会是什么样?

择因:Agent Team 上线后我去了新西兰 10 天,那里没有任何的 AI 和 agent,但我过得很快乐。那么我觉得,到时候或许人类只要去享受 agent 提升的效率带来的便捷性就够了,大家完全可以去干其它更感兴趣、更符合人性的事情。

跟你说个现象:有些大厂开始招高中毕业生参与研学了。基于此我还有一个推演:将来大学本科生毕业之后,可能要「付费再上两到三年班」,成为一个 senior 之后,才能开始上班赚钱。

APPSO:你觉得未来的就业市场会成这样?

择因:这是在当前教育体制下,我回答你「agent 效率高过人类」这个问题的一个推演。这个情况在一开始聊的视频剪辑领域,其实已经发生了。

「付费上班」的意思是,首先你的 token 消费可能最初是由自己买单,等同于交学费。如果 agent 的能力真的全面赶超人类,聪明的公司算笔账都不会再招初级员工,这才是最可怕的。到那时候,你要先成为资深员工,而这个过程可能需要自己付费。

当然这是基于现有的教育体制。那么会发生两种情况,一就是大家享受 AI 带来的效率,去创造更多更有人文情怀的事物;二是教育制度层面或许会发生一些创新。

APPSO:太有意思了。最后有个开放问题:如果你能掌握无限制的算力,训练或推理都行,并且可以以亲民的价格向用户提供,你想做什么?

择因:这个回答和 MiniMax 关系不大。我可能会把它用在推理上。

之前翁家翌提到(很多人也提过),人类的命运是可以被计算的:你的基因序列、倾向性、性格、激素水平可以测算;你的家庭条件,父母对你的影响(通过语言和肢体动作)也可以计算;你所处的环境是可量化的,小城市还是大城市、教育水平如何等等——在集齐了这些要素之后,每个当下的人的后续行为都可以预测。

我不是要用这个去预测别人,我希望它成为每个人的分身,可以把我的一切过往经历和生理资料都给它,在遇到决策点时去跟它讨论。

我之前是一个美团程序员,我可以跳槽去互联网公司或者考公(计算机还挺吃香),但这些决策更多因为我的过往认知。但是否存在一些我想不到的可能性,能够被建模、预测出来?

这就是我想做的,我觉得这才是真正解放人类的一环。人有生老病死,我们认为人生是一条单行线。但其实每个分支点都可能展开不一样的平行人生。

以及前面这些没有考虑意外。意外反而是最大的、不可预测的。我希望我做这个东西能够拯救因为意外而导致所有要素不再成立的人。从「肥尾效应」的角度来看,小概率事件才真正支配了我们大部分时间。它能让我们更多的关注点放在这些小概率但颠覆性的事件上,因为大概率的事件是能被算出来的。

APPSO:有点《少数派报告》《超验骇客》,所以你会希望你的每一步都走对吗?

择因:不一定。我更希望能知道我在认知之内能做什么选择,认知之外能做什么选择。

认知之外的就是惊喜。我想做的东西,对你不就是个惊喜吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Agent 时代,需要一台能折叠的「移动工作台」|AIDONE 5.0 全记录

前阵子有张梗图,在 AI Agent 圈子里火了:

没错,AI Agent 时代最炸裂的硬件,居然是一个毫无科技含量的小支架:把笔记本支起来,永不合盖、永不休眠,好让屏幕那头的 AI Agent 替你 7×24 小时干活,绝不停歇……

这当然是个玩笑,但笑来自真实的痛:

今天我们已经进入 AI 时代,但无论是手机、平板,还是电脑,今天我们所使用的设备仍属于上一个时代,为了盯着屏幕的人而来,而非为 AI 时代「原生」设计。

人会累,一天收工之后需要把电脑和眼睛都「合上盖」。但 AI 时代的新节奏恰恰相反:它要随时在场、持续感知,即便在用户没有直接注意的时候,仍在完成定时、长程、复杂的任务,而不是等用户注意的时候才开始工作。

这令人想起了上周黄仁勋说过的一句话:给人类用户设计硬件的时代结束了,下一步,要面向 AI 智能体设计硬件。

昨天,爱范儿、APPSO 联合 vivo、飞书在广州举办了一场线下共研活动,主题名为「AI 时代的终端想象」,由 vivo 副总裁、产品副总裁黄韬致主题演讲,知名创作者 flypig(林嘉澍)、飞书产品市场经理王大仙、vivo X 系列高级总监丁冠力、AI 科技博主李晓白、商业财经博主有点在李等数十位前沿 AI 科技媒体、从业者参与分享讨论。

通过这场活动,我们尝试探索面向 AI 时代原生的设备应该如何设计。更具体来说,就是一个最核心的问题:当 AI 从屏幕里破壳而出,它该长成什么形状?

一整天的共研会下来,答案其实可以归结为三句话。

任务变大了,App 装不下

这句话来自所有人的日常。

vivo 副总裁、产品副总裁黄韬在演讲里这样描述:一年多前,我们还在惊喜于 DeepSeek 的出现,AI 可以快速、准确地生成一个不错的答案;今天,以 OpenClaw、Codex 为代表的 Agent 能力已经走进终端,

它不再只是回答一个问题,而是可以理解我们的意图,主动调用工具,帮助我们完成任务,开始真正参与我们的工作和生活。

对于这一段表达,flypig 给出了一个具体得不能再具体的案例:尽管得到的演讲命题是分享「奇葩 AI 工作流」,他却讲了全场最扎心的一件事:开发票。

一切还得从被他称为「vivo 影像手机个人摄影展」开始:他发现自己手机里最多的一类照片,是各种小票和发票二维码,「某种程度上,这些二维码代表了我的人生」。每个月、每个季度,总有那么几天,全公司几个人要停下手里的工作,专门用来开发票和填报销。flypig 忍无可忍,写了份长长的 PRD,交给 AI 去开发工作流。

仅仅半小时后,流程跑通,屏幕上跳出「开票申请已提交」,全公司欢呼雀跃。

现在,他和同事们把发票存在公司云盘的统一文件夹里,只需要对着 AI 工具输入「开发票」三个字,潇洒地按下回车:从发票日期抬头类别统计,到生成报销表格,甚至审计工作,一次性完成。但更重要的是,哪怕是不懂编程、不知道 Agent 为何物的财务同学,现在都已经能够举一反三,自己开发让自己感到趁手的工作流了。

注意这件事的形状:它并没有发生在一个单独、具体的 App 里。识别、开票、归档、做表、审计,横跨一堆工具,起点是手机相册,终点是「个人所得税」App。

这正好映射了黄韬在演讲里描述的转变。他给智能手机的十几年下了个判断:本质上一直在解决同一个问题,让用户更方便地使用越来越多的工具。但工具越来越多,我们每天在不同的 App 之间切换、寻找、复制粘贴,「很多时候,我们不是在完成工作。我们是在操作手机」。

flypig 的发票工作流,恰好就是把这件事倒了过来。黄韬表示,过去用户是手机的「操作员」,未来我们会逐渐成为 Agent 的「指挥官」。我们与手机交互的方式,也会从复杂的指令和操作,逐渐走向轻松直接的「意图直达」。

交互的基本单位也随之改变:智能机时代是 App,AI 时代会逐渐变成「任务」。每个 App 解决一个相对独立的问题,但一个真实的任务,往往需要多个 App、多个工具和 AI 共同参与。终端不再只是 App 的容器,它要围绕用户的意图,组织一套完整的任务流。

另一位演讲嘉宾飞书产品市场经理王大仙,干脆把「围着任务转」搬到了现场:飞书机器人、多维表格、一台 vivo X Fold 系列折叠屏手机,再配上飞书的前端能力,用一台手机干出了一手电脑的活。

任务变大了,屏幕却还是原来那块。有人会问:复杂任务,电脑不是也能干?

当然能。但黄韬指出了 AI 带来的另一个变化:很多过去要坐在电脑前完成的事,正在走进每一个碎片化的时刻,出差路上、会议间隙、机场候机。电脑不一定在手边;直板手机一直在手边,屏幕空间却始终有限。

折叠屏第一次把手机的随身性与生产力工具的任务空间,放进了同一台设备:合上,是一台随时握在手里的旗舰手机;展开,是一个可以承载完整任务流的移动工作台。

vivo 的具体承接,是 X Fold 系列的「原子工作台」:围绕一个任务,把需要的 App 和 AI 工具组织在一起。准备一份方案,文档在中间,AI 在旁边随时讨论,浏览器停在另一侧查资料,文字、图片、文件在窗口之间直接拖拽。

更要紧的是,这套布局可以存在桌面上,下次一点就进,每个人都能组合出自己的会议工作台、旅行工作台、创作工作台、投资工作台。

有点在李把原子工作台形容为「思路调度中心」,能随时调度、随时监看,「它是重度 AI 用户的好搭档,可以让多线程思考变得有条理」。

爱范儿首席内容官何宗丞的类比则更有年代感:App 时代的「情景模式」,不过是换个主屏、摆几个 Widget;原子工作台的「情景模式」,直接升维到了工作流、生活流,「它不再用 APP 来组织你的手机,而是用『诉求』来组织交互」。

不看好 GUI,但仍想要一块大屏

明明把活交给 AI 了,不就是为了省事吗?为什么人仍然需要看见 AI 的工作?

李晓白是一位重度的 CLI 拥趸,微信、飞书全通过 CLI 接入了 Agent,每天几百条消息,各种各样的资料信息,需要亲自过手整理、回复的越来越少。他的暴论是 GUI 早晚退化:它还存在,只是因为 AI 不够聪明;人天然图省事,等 AI 能猜到你想吃什么、几点打车,谁还去划屏幕。

而 flypig 说,CLI 是问答题,你面对一片空白,得先知道 AI 的边界在哪,才能确认自己发出的提示词能够被有效回应;GUI 不一样,它更像是选择题,能干什么全摆在你面前。对于普通人来说,选择题永远更好做。

一切最后还得回归到信任上。诚然,模型本身已经是个黑箱,干活的过程不应该也是黑箱。有点在李分享了自己的体验:在云端跑一套自动化工作流,在 OpenClaw 这一类对话式、不提供显式工作轨迹的架构下,因为上下文或其他原因卡死缺乏有效的提示,只能问一句「你卡在哪里了」。

说白了,最后还是得有一块大的屏幕,能够清晰地检阅 Agent 的工作状态。于是,无论是唱衰还是捍卫 GUI 的、被自动化坑过的,绕了一圈站到了同一个地方:人得看见 AI,才敢把活交出去。

说难听点,今天的 Agent 用户是 Agent 的监工,监工也得有自己的工位,而工位完全可以是那块够大的屏。flypig 给这个工位画了张图:外屏是 Chatbot 时代的产物,一个对话流就够了;内屏属于 Agent 时代,两列、三列,显示更多细节内容。

他的观察是,现在所有的 AI 工具在桌面上基本都长一个样,一个对话窗口加一个 sidebar,「折叠屏的大屏最接近这种桌面级体验。展开之后,它会成为一个基于 Agent,可承载更复杂任务的工作台」。

把 AI 硬塞进旧的机器,还是从一开始就为 AI 而生?

这是留给厂商的功课。

丁冠力说,用户不关心你每秒多少 token,只关心事办没办成,衡量 Agent Phone 只有一条标尺:任务完成率。任务要在一块屏上展开、被人看着完成,这块屏还得随身。答案当然是折叠屏。

而且是从一开始就为 AI 而生的折叠屏。

「就好比油改电和原生纯电车,大部分人都会买原生纯电。」他表示,vivo 正在对 OriginOS 做更多底层重构、更早期的芯片联合定制,为的就是在原生 AI 终端的时代做好准备,而不是来了 AI,再给它塞进去。

他给这台理想终端画的像,是让屏幕从 App 的陈列窗,变成任务流的调度台,一台「用户可随身调用的 AI 搭子」。

黄韬从自己的角度回顾了折叠屏的两次进化。第一次进化,解决的是「物理问题」:更轻、更薄、更浅的折痕、更好的续航,vivo 的理念是「先旗舰,后折叠」,选折叠屏不该牺牲旗舰体验。

但他自己也补了一刀:在今天这个 AI 时代,如果折叠屏只是更薄一点、折痕再浅一点,是远远不够的。

下一次进化会是什么样?至少他能够看到的,是折叠屏要解决的是「价值问题」,这块展开的大屏,到底能带来什么直板手机无法替代的体验?

X Fold 系列的目标很明确,就是要做 AI 体验最好的移动终端。从「展开一块大屏幕」,到「展开一个大任务」,为用户展开一个可以承载完整任务流的工作台,让折叠屏真正进入 AI 时代。

AI 体验最好的移动终端,不等于多塞几个 AI 功能、多放几个 AI 入口。它首先必须是一台全面无妥协的旗舰手机,「只有每天都在你手里的那台设备,才有机会真正成为你的 AI 伙伴」。

这意味着整个手机的软硬件,都要围绕「AI 大任务」专属定制:

即将发布的 OriginOS 6 Fold,是行业第一个针对折叠屏在 AI 时代的多任务需求进行底层重构的 OS;SoC 也提前两年与合作伙伴联合定义,让 AI 体验「不断档」。

说到底,用户只关心一件事:它能不能帮我更快、更好地把事情做好。所以 X Fold 系列不求大而全,聚焦移动办公、出行、创作这些高频场景,把低效琐事逐一消解。

参与共研的用户们也提出了很多自己对于未来 AI 时代终端的看法。有用户提出,今天在手机上工作,难免被各种通知打断注意力,反而是电脑上更容易进入状态。原子工作台已经把大屏利用和多应用切换做到了一步到位,那为何不再多做一步?

点击工作台里的大窗口,直接进入全屏沉浸;从左或右边一划返回,又回到当前工作台——专注和调度,在同一块屏上自由进出。

还有很多人不约而同地提到一个更加大胆的主意:一台为 AI 时代准备好的折叠屏,可否有一块专门留给 Agent 的屏幕,比如外屏、副屏——不仅专门用于显示 Agent 的运行状态、承接简单交互,它甚至可以跑在一个相对独立的沙箱环境里,拥有更高的权限,再通过蓝心小 V 和手机的主系统桥接?

这些设想未必都会原样落地,但它们体现了用户的真实需求:经历了几年、数代进化之后,折叠屏在今天早已不只是一块更大的屏幕,而是真的有望成为 AI 时代的工作空间。

AI 终端破壳而出

回到开头的问题:属于未来的 AI 终端,应该长什么样?

flypig 分享了一次在国外远程连接国内部署的 Agent 的体验:有一次他在葡萄牙旅行,吃完饭给小票拍了张照片,用 Claude 的 Dispatch 功能说了句话,贴上照片。千里之外,北京办公室的电脑开始干活:翻译小票、记账、归档,最后将结果推回手机。

他说这种感觉好比一艘宇宙飞船的母舰 (mothership) 与分离舱 (pod):你所使用的大模型、大模型所依赖的算力,以及关于你个人的记忆,可以全部位于地球的另一端;而自己无论身处哪里,只要掏出手机,展开它,一整个工作世界也跟着打开了。

顺着这个感觉,他给出了一个有趣的新思路:

过去的智能手机是「all in one」,把相机、MP3、通讯工具等一切功能都融合到一起;但在未来,AI 终端可能会以「one in all」的拓扑结构环绕在我们身边:手机、手表、眼镜、音箱、汽车,设备各式各样,里面运行着同一个中枢大脑、同一份灵魂和记忆。

你可能并不觉得这些设备是一个移动设备,但它有移动的意识,会伴随你的一生,永远知道你在做什么。我觉得这可能就是未来 AI 终端的一种趋势。

AI 时代的个人终端,需要一个拥有足够大空间,可以容纳任务、容纳 AI、容纳人的判断的产品形态。未来,屏幕不会消失,我们甚至更需要一个承载更多任务流的、更大的屏幕。

而如黄韬所言,在那一天到来之前,无论 AI 如何进化,人始终应该是 AI 时代的主角。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌