阅读视图

发现新文章,点击刷新页面。

杀死 ChatGPT 聊天框的,是「鼠标」

1968 年的旧金山,计算机科学家道格拉斯·恩格尔巴特在一场后来被称为「演示之母(The Mother of All Demos)」的发布会上,拿出一个带着两个金属轮子的木制小盒子,向世界介绍了一个新物种:鼠标。

那是人类第一次公开用手上的鼠标,去牵引屏幕里的数字光标。此后的几十年里,这根小箭头几乎无处不在。它穿过办公软件、游戏界面、浏览器窗口和无数张电子表格,成为人类进入数字世界时最熟悉、也最沉默的向导。

然而在这半个多世纪里,计算机的算力、形态和应用场景几乎改头换面,鼠标光标的本质几乎没有变过:它知道自己停在屏幕上的哪个坐标,知道 X 和 Y,却不知道你指向的是一行代码、一张发票,还是一张风景照。

面对眼前不断闪烁的像素,它能做的事情依旧相当朴素:点击,拖拽,等待下一次点击。

今天,Google 要用 Gemini 重新发明鼠标光标。

在刚刚落幕的 Android Show 上,Google 几乎把围绕 Android、AI 与硬件生态的规划摊在了台面上。其中,一项名为「魔法指针(Magic Pointer)」的新功能,给古老的鼠标光标装上了「眼睛」和「大脑」。

Google 的意图不言而喻,未来的 AI 交互不该依赖冗长的提示词,只需像在现实生活中一样,指着屏幕说一句:「把这个,移到那里。」那么问题来了,当鼠标光标终于学会「看懂」屏幕,它究竟会把人机交互带向哪里?

这根睁开眼睛的 AI 箭头,到底能干嘛?

要理解这项技术的意义,必须先看清当下 AI 工具最别扭的一面:交互成本。

过去几年,大语言模型的能力一路狂飙,但使用门槛居高不下。为了让 AI 准确理解意图,用户被迫学习一套复杂的「提示词工程」:设定角色、补充背景、限定输出格式。为了一个简单的需求,写出几百字小作文更是家常便饭。

不仅如此,典型的 AI 工具通常运行在独立的网页或应用窗口中,频繁打断用户的工作流。比如当你在阅读一份 50 页的 PDF 时想让 AI 总结一张图表,通常需要经历:截图 -> 保存 -> 打开浏览器 -> 进入 AI 网页 -> 上传图片 -> 输入提示词。

Google 将这种繁琐的跨应用操作称为「AI 绕路(AI detours)」。这种跳转不仅效率低下,也容易打断人们工作时的注意力集中状态,即所谓的「心流」。

为此,Google 提出的第一个交互原则,就是「保持心流」。在他们展示的实验性 AI 光标原型中,AI 的能力不再局限于某个特定的 App 或网页,而是附着在鼠标光标上,随时待命。

触发方式也尽量克制:无需记忆任何快捷键,只需轻轻「晃一下」鼠标,AI 界面便会基于当前悬停的内容自动浮现,给出极具语境的操作建议。选中图,它会询问是否「对比」;悬停于段落之上,它会主动提供润色方案。

整个过程没有任何需要学习的指令,完全跟着直觉走。来看几个极其直观的场景:

第一,看图说话的终极形态。

当你在浏览一张卡通的城市风景照时,传统鼠标只能点击图片放大。但现在,你只需把 AI 光标悬停在照片背景里的一栋建筑上,然后对着麦克风说一句:「给我移动图片的元素到这。」

不需要解释「这儿」是谁,也不需要描述建筑外观。AI 光标会直接理解你所指向的像素,识别出对应元素,并成功移动。

过去,鼠标只能告诉系统「我点了哪里」;现在,它开始告诉系统「我指的是什么」。

第二,少写提示词,多用自然指代。

当你在网页上看到一份极其复杂的烘焙菜谱,你不需要复制粘贴,也不需要写「请将以下菜谱里的所有食材分量乘以二」这种书面语。你只需要用光标高亮那段文字,然后随口说一句:「把『这些』的分量翻倍。」

唰的一下,AI 直接在原地给你改写了一份新菜谱。

第三,将像素转化为可交互实体。

在计算机眼里,屏幕只是几百万个发光的像素点。但 AI 光标能将死板的像素(Pixels)转化为活的实体(Entities)。

比如,你正在看一段旅行 Vlog,视频里闪过一家看起来很棒的餐厅。你按下暂停,把光标指过去,原本死气沉沉的视频画面瞬间变成了一个真实的、可交互的地点,旁边直接弹出了这家餐厅的订座链接。

再比如,你随手拍了一张写满鬼画符的便利贴,鼠标一指,墨迹直接变成了一个可以打勾的 To-Do List。发现了吗? 以前,是你去找 AI;现在,是 AI 顺着你的鼠标,乖乖来到了你的指尖。

杀死 AI 提示词,回归人类直觉

仔细想想,人类最强大的沟通工具其实是代词。

当你和同事坐在屏幕前修改设计稿时,你绝对不会字正腔圆地说:「请将屏幕左上角坐标 (X:120, Y:350) 处的蓝色矩形向右移动 50 个像素。」你只会指着屏幕说:

「把这个,往右挪一点,弄淡一点。」

「那个餐厅看起来不错,怎么去?」

「这段代码里的这个报错是什么意思?」

在日常生活中,我们极度依赖「这个」和「那个」。手势配合着极简的口语,才是人类最高效的沟通密码。究其原因,我们身处同一个物理空间,共享着同一套视觉上下文。

Google 敏锐地抓住了这一点,并将其提炼成了一条产品原则:拥抱「这」与「那」的力量(Embrace the power of This and That)。

与其强迫人类去学习复杂的提示词框架,不如反其道而行之,把表达意图的脏活累活从我们身上剥离出去,让机器去适应人类最慵懒、最本能的「指手画脚」。

好消息是,这套交互方式已经开始落地。Chrome 浏览器里的 Gemini 从今天起率先支持;Google 全新推出的笔记本电脑产品线 Googlebook,则将「Magic Pointer」直接内置进了操作系统层面,覆盖所有应用。

Googlebook 的野心不止于鼠标。Google 将这个产品线定义为「Android 手机的完美伴侣」。

类似苹果的 iPhone 镜像,用户可将 Android 应用无缝投射到 Googlebook 桌面,以原生比例运行,并在文件管理器中跨设备自由穿梭,彻底打破手机、平板与笔记本的生态壁垒。此外,Gemini 还能依你所需,在桌面生成专属动态 Widget(比如旅客的实时航班卡片)。

在硬件设计上,所有 Googlebook 机型都会在机身上集成一条「Glowbar」发光条,让你一眼就能分辨出它与传统 Chromebook 或 Windows 笔记本的区别。

首批 Googlebook 将由宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)和联想(Lenovo)制造,预计今年秋天上市。

有意思的是,三星缺席了这份名单。近期的消息显示,三星可能正在筹备一款搭载 Google 新系统的 Galaxy 笔记本,其下一场 Unpacked 发布会据传定在 7 月 22 日。

至于底层的驱动核心,Google 虽未指名道姓,但通篇强化的「为智能而生的现代操作系统」以及 Android 与 ChromeOS 的深度融合,种种迹象均指向了传闻已久的 「Aluminum」系统。

这意味着,AI 开始成了操作系统级别的基础设施。而当 AI 真正化身为你的鼠标光标,它便拥有了介入万物的权限——所见即所得,所指即所控。

AI 人机交互,迎来十字路口

回望 1968 年,那个惊艳世界的初代鼠标,功能简单得令人发指:追踪位置。 这五十多年来,鼠标加了滚轮、加了侧键、甚至加了风扇和配重块,但它的灵魂依然是一张白纸:它准确地标记着坐标,却永远无法理解坐标背后的意义。

Google 的 AI 光标完成了交互史上罕见的进化:它不仅知道你在哪,更知道那是什么。

过去一年,无数拿了融资的创业公司挤破头,试图造出下一个「AI 时代超级入口」。大家疯狂地卷对话框的拟真度、卷 Agent 的复杂工作流。但 Google 这次用行动给全行业结结实实地上了一课:

最好的科技是什么?是润物细无声。聊天框(Chatbox)从来都不是 AI 的最终形态,它只是一种过渡期的妥协。最好的 AI,应该退居幕后,成为一种附着在你日常动作上的基础设施,而不仅仅是某个需要单独打开的应用。

从黑底白字的命令行(CLI),到图形界面的鼠标点击(GUI),再到移动时代的触屏滑动(NUI)。过去几年,大语言模型让我们短暂地倒退回了打字交流的时代,让无数人患上了 Prompt 焦虑症。

但今天过后,我们知道了,那不过是黎明前的一段弯路。真正好用的 AI,终究要学会像人类一样思考:看懂你的每一个眼神,听懂你的每一句「把这个,放到那儿去」。

58 年前,当道格拉斯·恩格尔巴特握住那个简陋的木制鼠标时,他的终极梦想是「增强人类的智慧」。

58 年后,当 AI 附身于这个古老的指针,机器终于开始真正「看懂」这个世界。属于提示词工程师的时代终将落幕,人机交互的终极闭环,也将在一句句含糊不清的「这个、那个」中,向前迈出历史性的一大步。

附体验地址:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

笑死,莫奈真迹被全网痛批是 AI「废画」

如果你想在今天的互联网上毁掉一幅世界名画,最快的方法不是物理消灭它,而是只需要给它贴上一个标签:「这是 AI 画的」。

最近,X 用户 @SHL0MS 进行了一场充满恶趣味的社会实验。他上传了一幅法国印象派大师克劳德·莫奈的《睡莲》真迹,特意打上平台的「Made with AI」标签,并配上了一段文案:

「我刚刚用 AI 生成了一张莫奈风格的图像。请尽可能详细地描述一下,这幅画作为何不如莫奈的真迹?」

▲ 原推文🔗 https://x.com/SHL0MS/status/2054280631807316329

面对博主的「钓鱼执法」,互联网上的 艺术卫道士们瞬间闻风而动。在博主刻意强调的详细二字诱导下,评论区迅速被各种长篇大论的专业分析淹没。

比起既搞笑,又令人十分感慨的大型翻车现场,这场闹剧也向我们揭示了一个残酷的真相:在 AI 时代,真正开始产生严重幻觉的,不光只有 AI,还有人类自己。

把真莫奈画作伪装成 AI 画作后,全网的艺术专家都翻车了

截至发稿前,网友原推文更引来了 400 万网友的在线围观,并开始在各大社交平台流传开来。

这幅画本身并没有什么可疑之处。画面里是莫奈标志性的睡莲池,水面漾着零碎的光斑,笔触的边缘晕染成深深浅浅的绿,整幅画笼着一层柔和的雾气感。如果你在卢浮宫的展厅里迎面撞上它,大概率只会感叹一句「莫奈果然是莫奈」,然后掏出手机拍照。

可现在,它顶着「Made with AI」的标签挂在那里。

果不其然,网友们丝毫没有辜负博主的期待。为了证明自己拥有超越 AI 的艺术审美,评论区瞬间涌现出无数个野生列文虎克。大家拿着显微镜,开始对这幅「AI 垃圾」进行各种细节解剖:有人信誓旦旦地指出构图的硬伤:「这一切都是一团糟,毫无空间感而言」;

有人目光如炬地抓住了色彩的破绽:「颜色是颠倒的,绿色的水面上显示的是蓝色的睡莲」;有人痛批细节的粗糙:「缺乏质感、棱角、褶皱、缝隙、折痕、斜面和立体感,这些都是塑料艺术品的典型特征。」;

有人辣评:「画面的景深和色彩选择毫无协调性,树的倒影和睡莲混杂在一起,完全不顾空间深度和对比度,背景中睡莲和藻类的混合部分模糊不清,就像大多数 AI 作品一样。」

有人给出了看似最一针见血的评价:「你能从骨子里感觉到这幅画缺乏真正的激情,毫无灵魂的赛博废料。」还有顶级「嘉豪」洋洋洒洒写了数百字的长文分析。

看着这些言辞恳切、逻辑自洽的批判,你几乎要为人类对艺术的敏锐感知力拍案叫绝,直到真相被公布,这幅被全网群嘲的画作,正是印象派宗师克劳德·莫奈(Claude Monet)亲手绘制的传世名作。

而稍微懂点艺术史的人应该都知道,莫奈在 1912 年确诊了严重的双眼白内障。随着视力急剧衰退,他眼中的世界失去了冷色调,变得模糊而斑驳。

他晚年创作了 250 幅 《睡莲》系列油画,原本就是以极其抽象、狂放甚至「不精准」的笔触,来记录他眼中那个正在消融的光影世界。

如果当时有人拿着「笔触不精准」、「缺乏激情」这套标准评判他,莫奈大概也只能苦笑。

标签即正义,AI 时代也有「廉价红酒实验」

为什么网友会把莫奈的真迹当成 AI 痛批?

在 Reddit 的 Singularity 版块上,这起事件引发了数千条的激烈讨论。有网友一针见血地指出了背后的心理学机制:这不过是又一次经典的认知偏差(Cognitive Bias)实验。

这就不得不提到 2001 年法国波尔多大学发生的一场著名心理学实验。

当时,研究员 Frédéric Brochet 邀请了 54 位资深的葡萄酒品鉴专家。他将一瓶廉价的白葡萄酒,用无味的食用色素染成了红色,然后请专家们品鉴。

2001年在法国波尔多大学进行了一项有趣的实验。 心理学博士兼平时亲自酿造葡萄酒的教授弗雷德里克•布罗舍给54名葡萄酒专家两杯葡萄酒,让他们比较一下味道。

结果令人大跌眼镜:这些平日里对风味挑剔至极的专家们,端起酒杯,煞有介事地写下了「浓郁的浆果香气」、「坚果般的余味」、「单宁厚重」——全都是红酒才有的特征,没有一个人发现这其实是白葡萄酒。

如果你告诉他们这是廉价酒,他们就会喝出酸涩;如果你告诉他们这是顶级名庄,他们就能品出岁月的沉淀。

今天,「AI 生成」这四个字,就是那张贴在廉价酒瓶上的标签。

当这幅画被贴上 AI 的标签时,人们的潜意识里就已经预设了它廉价、机械、没有灵魂。所以,他们并不是在用眼睛看画,而是在用大脑里的偏见去「寻找」那些预设的缺点。

网友所谓的「我能从骨子里感觉到它没有灵魂」,不过是一种被包装在理性主义框架下的玄学废话。正如一位 Reddit 网友的犀利吐槽:「如果有人告诉你这是 AI,它就毫无灵魂;如果告诉你这是人类画的,它就充满了激情。艺术的真实质量,在讨论中已经变得无关紧要了。」

我们不得不承认一个尴尬的事实:绝大多数人——包括那些在网上口若悬河的赛博判官——根本就不具备分辨顶级艺术与 AI 杰作的能力。如果在 AI 出现之前你看不懂莫奈,那么在 AI 出现之后,你也依然看不懂。

一场针对 AI 的大型猎巫

莫奈事件绝不是孤例,它折射出的是当下互联网一种极其危险且病态的趋势:「反 AI 猎巫行动」。

在生成式 AI 狂飙突进的今天,每天都有大量真实的人类艺术家在绝望地自证清白。他们的画作仅仅因为太过写实、光影太完美,或者相反的手指画得有点粗糙、比例有一点失调,就会被愤怒的网友打上 AI 的烙印,群起而攻之。

互联网上最著名的惨案,莫过于 2022 年底的 Ben Moran 事件。

这位人类数字艺术家在拥有 2200 万用户在 Reddit 论坛上发布了一幅名为《战区缪斯》(A Muse in Warzone)的插画。结果,版主以「这是 AI 生成的图片」为由,直接将他永久封禁。

当 Ben Moran 委屈地交出自己的线稿、图层和长达数十小时的绘画过程录屏,试图自证清白时,版主却给出了一个傲慢至极的回复:「我不相信你。就算这真的是你画的,它的风格也太像 AI 了,它毫无价值。你最好换一种画风。」

看,这就是我们当下的荒诞现实。真正的人类艺术家既不能画得太完美(那是 AI 的代劳),也不能犯低级错误(那是 AI 的幻觉),甚至连画风都不能撞车。

甚至这种偏见不仅存在于大众之中,也正在蔓延到专业领域。

美国奇幻小说巨匠 Brandon Sanderson(布兰登·桑德森)曾进行过一个盲测实验。研究人员将他亲手写的段落,与 AI 模仿他的文风生成的段落放在一起,让一群专业作家和同行去分辨。

结果,连这些靠文字吃饭的作家,都无法准确分辨出哪个是 AI 写的。

更有趣的是,在一些未贴标签的文学实验中,顶级的文学评论家在盲测时,反而更偏爱 AI 生成的文学作品,认为其更具张力;可一旦

给这些作品贴上「AI 生成」的标签,同样的评论家就会立刻换上一副面孔,开始挑剔其中缺乏人类情感的共鸣。
而莫奈真迹被当成 AI 赛博废料,看似只是一场互联网狂欢,但它背后隐藏的社会危机却让人无法一笑而过。

正如一个网友所说: 「我最害怕的不是 AI 变得多强大,而是它正在摧毁社会的信任基础。在一个没有人相信任何事物的社会里,我们将寸步难行。」

最可怕的未来,或许不是 AI 觉醒并消灭人类,而是社会信任的彻底破产。当人们发现自己的感官不再可靠,当「眼见为实」成为历史,我们就会彻底退回到情绪和立场的舒适区。

只要是我不喜欢的、不符合我认知的,我就可以名正言顺地指责它是「AI 伪造的」;只要是符合我心意的,哪怕是粗劣的 AI 生成,我也会赞美它的「真实」。

我们看似在拒绝 AI ,却又在不知不觉中,把自己活成了最容易被算法预测和操控的机器。人类也开始越来越像自己想象中的 AI:输入标签,输出预设结论,中间那段真正思考的过程,已经被省略掉了。

面对未知,人类的幻觉和普信,比 AI 有过之而无不及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统

1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。

三十年后,很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。

不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。

目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。

六个 Agent,一支随时待命的私人 AI 团队

安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。

这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。

任务链比较长的时候,看看这些动画也是别有一番趣味。

最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」

注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。

结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。

电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」

以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。

举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?

但 Marvis 能帮你一句话关掉。

本地文件时代,迎来 AI 入口

为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。

我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。

当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。

除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。

比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。

再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。

但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。

手机接管电脑,随时随地都能干活

手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。

具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。

比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。

连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。

但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。

而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。

和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。

另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。

有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。

最后,主打出活的 Agent 都绕不开最关键的问题:安全。

Marvis 马维斯提供了两种模式:效率模式和隐私模式。

设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。

不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。

Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。

拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。

多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。

Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。

至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeek 要用蜜雪冰城的打法,做中国版 Claude Code

DeepSeek 之于大模型,就像蜜雪冰城之于奶茶。你不必纠结性价比,因为它的本事你挑不出毛病,你的钱包它也从不为难。

最近,DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 API 将永久降价。同时,DeepSeek 表示,API 已完成输出提速与服务扩容,速度更快,服务更稳定,默认支持 500 并发,企业用户可以在线申请更高并发。

发布模型,再给出折扣,接着降低缓存命中价格,最后把临时优惠变成长期价格。大模型 API 的价格基准正在被重新改写,而低价模型背后的下一站,很可能是 Agent。

DeepSeek 永久降价,梁文锋把 Token 价格打骨折了

让我们先来简单梳理一下 DeepSeek 的降价时间线:

  • 4 月 24 日,DeepSeek V4 预览版正式发布。
  • 4 月 25 日,DeepSeek 宣布 V4-Pro 开启 2.5 折优惠。
  • 4 月 26 日,DeepSeek 宣布缓存命中价格调整为首发价的十分之一。
  • 4 月 28 日,DeepSeek 宣布 V4-Pro 的 2.5 折优惠延期至 5 月 31 日。
  • 5 月 22 日,DeepSeek 宣布 V4-Pro 永久降价为原价的四分之一。

时间线的关键之处,在于临时折扣变成了永久降价。调整之后,DeepSeek-V4-Pro 输入缓存命中价格从 0.1 元每百万 Tokens 降至 0.025 元,输入缓存未命中价格从 12 元每百万 Tokens 降至 3 元;

输出价格从 24 元每百万 Tokens 降至 6 元。叠加默认 500 并发和服务提速后,官方 API 对开发者和企业的吸引力进一步提高。

▲ 🔗 https://api-docs.deepseek.com/zh-cn/quick\_start/pricing

而价格下调最直接的影响,是把任务成本推到开发者决策的更前端。

在代码场景里,一次任务可能要读取项目文件、分析日志、多轮修改、反复运行测试,Tokens 消耗很容易放大。

长上下文、代码库分析、批量重构、自动测试、Agent 多轮执行这些高消耗场景,开始更接近个人开发者和小团队的预算范围。

过去,开发者选择 Claude、OpenAI 或 Gemini,主要看模型能力、稳定性、生态和使用习惯。DeepSeek 打骨折的永久降价,也意味着在绝对的性价比面前,开发者使用习惯也是可以轻易改变的。

顺着这条线,DeepSeek 一贯的市场角色也更清楚了:用低价、开源和强推理能力,持续建立大模型市场的价格优势。对国内模型厂商来说,V4-Pro 永久降价相当于重新划了一条 API 定价线。

智谱、MiniMax、月之暗面这类同样依赖 API 收费、又面向开发者和企业客户的模型,压力可想而知。反观 Claude、OpenAI、Gemini 等海外头部模型,由于市场、客户结构和生态位置不同,短期冲击则相对有限。

但如果 DeepSeek 后续推出类似 Claude Code 的编码工具,再用低 token 成本支撑高频调用,价格敏感的开发者群体会更容易被吸引过来。

梁文锋此前对 DeepSeek 定价哲学的解释,也能放到今天理解。

早在 2024 年 DeepSeek V2 降价时,梁文锋就提到,DeepSeek 只是按照自己的节奏做事,核算成本后定价,原则是不贴钱,也不赚取暴利。他还说,降价一部分来自下一代模型结构探索带来的成本下降,另一部分原因是 API 和 AI 都应该是普惠的、人人用得起的东西。

比起把 API 当成高毛利收费入口,DeepSeek 则更像是在用过硬的 Infra 实力压低推理成本,再用低价吸引开发者、应用和下游生态进入自己的轨道。

X 平台博主 @bookwormengr 最近在一篇题为《DeepSeek’s 10 trillion USD grand strategy(DeepSeek 的十万亿美元棋局)》的长文中,给出了一个更激进的解释。

他认为,DeepSeek 的真正目标未必是和智谱、月之暗面、MiniMax 竞争,也不是急着补齐多模态、语音、视频这些产品线,而是通过持续降低训练和推理的资源需求,推动一套更便宜、更分散的 AI 硬件生态成形。

在他看来,DeepSeek 的长期价值不只在模型本身,而在于让更多国产存储、GPU、ASIC、网络芯片和异构硬件进入大模型训练与推理体系。

这个判断未必能完全兑现,但它解释了 DeepSeek 一系列选择背后的方向:

MoE、MLA、DSA、GRPO、RLVR、KV Cache 压缩、Dual Path、TileLang,表面上看是模型架构和推理工程优化,往深处看,都是在降低对高端 HBM、顶级 GPU 和 CUDA 生态的依赖。

一系列降价公告里,最值得关注的不只是输出价格下降,还有缓存命中价格下降。

在大模型推理过程中,KV Cache 是一个关键成本项。模型处理长上下文时,需要把历史 tokens 对应的 Key 和 Value 存起来,后续生成时反复使用。上下文越长,需要保存和读取的缓存越多,对显存、带宽和存储系统的压力也越大。

普通聊天里,缓存压力不一定明显,但在进入代码、长文档和 Agent 任务后,成本结构会迅速变化。@bookwormengr 在长文里专门算了一笔 KV Cache 账。

他以 100 万 tokens 上下文、8 bit KV 精度和 16 bit 索引精度为前提,估算 DeepSeek V4 只需要约 5.48GB HBM,而 GLM5 约为 60GB,Qwen3-235B-A22B 约为 89GB。

长上下文和 Agent 任务真正贵的地方,不只是模型生成本身,还有缓存、显存、带宽和重复上下文搬运。

一个 Code Agent 处理项目时,可能要反复读取同一个代码库结构、同一批文件、同一段任务历史、同一套系统提示词和同一批测试日志。若每一轮都按完整上下文重新计费,长任务很快会变贵。缓存命中价格下降后,重复上下文的成本会明显变低。

DeepSeek 近年来在 MoE 架构、长上下文、KV Cache 压缩和推理效率上持续投入的表现有目共睹。降价是技术迭代后的必然结果,也将彻底搅动 AI 编程市场格局。

为什么必须做中国版「Claude Code」?

最先被牵动的,是 AI 编程工具的订阅模式。

市面主流 AI 编程工具均推出 Coding Plan 月付订阅,为用户提供代码补全、模型调用、Agent 执行等权益。在轻量化补全时代,单次调用消耗极低。

但 AI 编程已从单次补全迭代为全流程 Agent 自动化编码,模型可独立完成代码修改、测试运行、报错修复,单次任务 Token 消耗大幅提升。

当底层 API 又同时大幅降价,Coding Plan 也必须找到新的支撑点。这个支撑点,更可能落在工程能力上——比如能不能更好地读懂项目结构,能不能精准选择上下文,能不能控制 tokens 消耗,能不能稳定修改代码,能不能处理 Git、终端、CI/CD,能不能在企业环境里管理权限和审计记录?

同样要重新定位的,还有 API 中转站。对个人开发者来说,便宜和好用仍然重要。但对企业来说,稳定、可审计、可控、可迁移更重要。

沿着这个逻辑继续看,Coding Plan 和中转站的改变只是表层。低价之后更值得追问的,是开发者入口究竟掌握在谁手里。

Google CEO Sundar Pichai 最近接受了《Hard Fork》采访,他首次公开承认,Google 在文本、多模态、语音、推理和整体智能上都很有竞争力,但在 agentic coding 这一类能力上,尤其是工具调用、指令跟随和长周期任务,目前还有差距。

他还提到,更关键的是把模型放到真实世界里使用,让数据回流,继续迭代。Pichai 特别说到,coding 是一个需要接触 data flows(数据流)的领域。

终端工具能看到开发者如何提出任务,如何追问,什么时候接受建议,什么时候放弃,什么时候要求模型继续修复。它还可以通过测试结果、终端日志、文件变更和 Git 提交,判断一次 Agent 执行是否完成任务。这类数据,对 coding model 和 Agent 产品都非常有价值。

从公开招聘动作看,DeepSeek 近期围绕 Agent 的动作也变得密集。

我们也可以看到岗位里出现了 Agent 深度学习算法研究员、Agent 数据策略工程师、产品经理、研发工程师等角色。更关键的是,DeepSeek 资深研究员陈德里直接发出招聘信息,提到要从零开始构建 Code Harness。

如其所说,Model + Harness = Agent,在 Agent 产品中,模型负责理解和生成,Harness 负责把模型能力带入真实工程环境,相当于模型外面那套「执行系统」。

DeepSeek 版 Claude Code 不能只给开发者一个对话框,而要给开发者一个能持续执行任务的工程系统。

崔添翼加入 DeepSeek 后受到关注,也和 Code Agent 的工程属性有关。

公开信息显示,崔添翼本科毕业于浙江大学计算机系,曾因信息学竞赛保送浙大,6 次获得 ACM 亚洲区域赛金牌,之后在 Jane Street 工作 9 年,并联合创立 TSY Capital。

Code Agent 的难点不只是生成代码,还要在真实项目里持续执行任务。量化交易系统长期强调低延迟、稳定性、自动化执行和风险控制,这些经验放到 Agent Harness 上,至少在工程范式上是相通的。

而 Agent 工具的产品能力,不只包括写代码,也包括权限、审计、数据隔离和安全策略。

这反过来给 DeepSeek 这样的国产模型提供了机会。如果 DeepSeek 能把低成本模型、Code Harness、本地部署、企业级权限控制结合起来,它在政企、金融、制造、能源等对数据敏感的行业里,会有更强的替代价值。

DeepSeek 做中国版 Claude Code 的逻辑也正在于此:低价 tokens 把更多开发者吸引进来。低缓存价格让 Agent 任务运行成本下降。Code Harness 让模型进入开发环境。真实工作流又会反过来帮助 DeepSeek 改进模型和产品。

就像滚下坡的雪球,越滚越大,滚得越快。降价只是推下山的第一把力,往后它会自己越滚越沉,谁也拦不住。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米:请叫我 Token 价格屠夫

押注 2026 年 Token 大涨价的人,短短一周迎来两次打脸。

5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降价;今天凌晨,小米 MiMo-V2.5 系列跟进降价,最高降幅达到 99%。

与此同时,小米 Token Plan 计费体系同步优化,定价不变,可用量提升至原来的 5 至 8 倍。

没有出乎太多意料,海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊 Token 成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把 AI 行业推向何方

Token 价格打骨折,AI 行业迎来最严厉的父亲

小米此次公告显示,旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价,最高降幅达 99%,且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过,99% 的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例,一旦命中缓存,输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中,价格依然维持在 3 元每百万 Tokens,输出价格则为 6 元每百万 Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变,Credits 大幅提升:Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元, Credits 的额度,也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系,MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token,未命中缓存则要 300 Credits / token,输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线:4 月 24 日 DeepSeek V4 预览版发布;次日 V4-Pro 开启 2.5 折优惠;4 月 26 日,缓存命中价格暴降至首发价的十分之一;到 5 月 22 日,临时折扣干脆变成了永久降价,V4-Pro 永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在 Agent 场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动,让更多人体验 MiMo,并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线,到 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。

从平台视角看,低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对 token 价格战。她当时的判断是,低价 token 加开放第三方 Agent 框架,容易让平台陷入成本失控。

她提到,第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费,真实 API 成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的,是一套自认为能够支撑低价的推理工程方案。

按照小米公告,其技术团队基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存 token 数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯 AI 模型公司,小米的手机、汽车、IoT 和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口,避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的 Infra 实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进,更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限。下一阶段,模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限,而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时,我们才会真正看清,属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率

1492 年,哥伦布驶向大西洋深处。远洋航行当然需要速度,但真正决定船队能否抵达彼岸的,是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的,正是这种并不浪漫的工程逻辑。

后来,荷兰人设计出「福禄特」商船:造价更低、船员更少、货舱更大,能在大西洋航线上稳定往返。远洋航行由此从冒险家的孤勇,变成一门可复制、可计算、可扩张的生意。

今天的 AI 模型竞争,也走到了类似的十字路口。

过去,人们谈模型,习惯谈参数、榜单和峰值能力,但 APPSO 在使用 Claude Code、Codex 这类 coding agent 之后,明显感觉到当 AI Agent 开始走向生产环境,真正在乎的问题变得有些不一样了:能不能持续处理高频请求,能不能稳定调用工具,能不能理解复杂界面,能不能嵌入企业既有流程并长期运转。

这些问题的答案,往往不在跑分榜单里。

最近,阶跃星辰正式发布并开源 Step 3.7 Flash。作为面向生产级 Agent 的新一代 Flash 模型,它主要服务 Agent、Coding、Search 与多模态工作流。

它出现的时机,恰好踩在这个路口上。生产级 Agent 要的早就不只是快和便宜,更重要的是够可靠、够好用、够容易部署,还能在真实工作流里一天天产出结果。

Flash 模型,不再是旗舰的平替

过去,Flash 模型常被当成旗舰模型的轻量版,卖点无非就是快和便宜。但当 Agent 成为工作流的核心,Flash 模型的角色就变了。

如果模型在多轮任务中容易偏离目标,无论是企业还是个人都很难放心采用。相反,一个模型若能在速度、成本、工具调用、多模态理解和生态兼容之间取得平衡,才有机会成为 Agent 系统真正可依赖的基础能力。

某种意义上,Agent 时代要的 Flash 模型,已经从「更快的小模型」升级成了「生产效率最高的基座模型」。

它既要够得着旗舰模型的能力上限,又要扛得住大规模 Agent 调用的效率压力。Step 3.7 Flash 的定位,正是后者——新一代 Agentic 基座模型。

而生产级 Agent 的第一道门槛,是理解真实工作环境。

大量 Agent 任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。只擅长文本问答的 Agent,很难真正处理这些任务。

Step 3.7 Flash 重点强化的,正是原生多模态理解与执行能力。

它可以理解 UI、图表、文档、图片和应用界面,也可以在复杂视觉问题中自主裁剪、放大、重读图像。遇到信息不确定的情况,模型还能主动发起搜索,并对文本和图像信息进行交叉验证。

这里有个反直觉的设计思路。对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃反其道而行:权重里只留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度,用「多看几眼、多查几遍」去换「参数本来不够用」的那部分能力。

低延迟和高吞吐,到这里就不只是部署时的优势,直接变成了能力本身的一部分,巧妙且机智。

比如在这个驾驶舱操作的演示中,用户只输入「如何起飞」,模型就会自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并生成分步骤教程。

这里的重点不止在于它能识别一张驾驶舱图片,更关键的是,它能把一个密集、陌生、强依赖上下文的视觉环境,转换成一个人可以照着做的任务指引。

能看懂,和能教你动手,难度系数完全不一样。

我们还把 Step 3.7 Flash 接入了一套手机 GUI Agent 流程,并用一台 vivo 手机完成演示。

手机通过 USB 连接 Mac,打开 ADB 调试授权后,终端就可以获取手机当前截图,并通过 scrcpy 同步显示手机画面。随后,脚本把这张截图发送给 Step 3.7 Flash,让模型判断屏幕里正在发生什么。

比如我们让 Step 3.7 Flash 看了一眼手机里的微信读书热搜榜。它不只是把页面上的字读出来,还能理解榜单结构:哪些是书名,哪些是封面,当前排名是多少,有多少人在读,推荐值又对应哪本书。

这类能力的意义在于,Agent 面对的是真实 App,而不是整理干净的截图。它要先看懂页面,才有可能继续帮用户找书、比对热度、整理榜单,甚至执行下一步操作。

我们又把它放到美团小判官这样的页面里,让它处理一条商家申诉场景。页面里同时有用户评价、图片证据、商户回复,以及「用户更有理」「商家更有理」这样的处理按钮。

对模型来说,这已经不是简单的 OCR,它是在理解一段业务流程:谁在投诉、争议点是什么、证据是什么、平台接下来允许做什么。多模态 Agent 要进入真实工作流,遇到的往往就是这种混合了文本、图片、判断和操作入口的界面。

换到 Blender 场景里,用户输入「怎么删除这个方块」,模型会识别 Blender 的界面结构、图层、工具栏和当前编辑状态,再给出删除指定方块的操作步骤。

再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」,模型会识别不同图片中的信息内容,理解设计元素之间的关系,并生成专业分析。

Step 3.7 Flash 另一项关键能力,是联网与视觉搜索增强。

Agent 在真实业务里碰到的问题,往往牵扯动态信息、外部资料、多源证据,还有一堆残缺的输入。模型要是只啃自己肚子里那点知识,时效性和准确性上很容易翻车。

「瑞石楼」这个演示就很典型。模型先从用户上传的图片里读出可见的线索,围绕这些线索生成检索词,用网页抓取工具去外面查资料,最后把图里的视觉信息和网上的文字信息拼成一个完整回答。

搜索到这里,已经不是返回一串网页链接那么简单,模型是围着任务目标,主动去找、去筛、去对、去组织证据。这正是 Search Agent 和 Research Agent 真正需要的干活方式。

官方提到,Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等复杂视觉任务 Benchmark 上,展现出接近更大规模旗舰模型的表现。这也意味着模型能够在信息不充分的情况下继续推进任务,并减少未经验证的回答。

让 40 个 Agent 同时开工,这才是大模型下场干活的正确姿势

Agent 与普通聊天机器人的区别,在于调用密度更高。

一次普通问答往往只有一轮交互,而 Agent 完成任务时,需要反复观察环境、调用工具和读取结果。Coding Agent 要读代码、改文件、运行命令;Search Agent 要检索、核对和整理信息;办公 Agent 要处理表格、文档和邮件。

调用次数一旦大幅增加,模型速度和成本就会成为系统级问题。

Step 3.7 Flash 采用稀疏 MoE 架构,总参数为 196B 加 1.8B ViT,激活参数仅 11B,最高生成速度可达 400 Tokens/s。对于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent,这意味着同样时间内可以完成更多轮观察、调用和推理。

比如,Step 3.7 Flash 可以构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,并实时汇总它们对 5 个 MVP 方向的偏好。

批量跑 Agent 的价值,就在这里了。

过去一个模型做一次分析,成本和延迟都还能忍。可一旦企业同时跑几十个 Agent,分别扮演用户、专家、销售、产品、运营、客服,吞吐能力立马成了前提。速度不够,反馈就慢;价格太高,规模化根本无法成立。

类似地,Agent 并行实时构建大型知识图谱,同样属于高频、多步骤任务。模型价值不仅体现在生成速度,更体现在单位时间内完成更多观察、检索和推理。

再看信息整理。我丢给它一句「我要写一篇自动驾驶的综述,分头去查技术路线、政策法规、市场格局、代表公司四个方向」。

这类任务看似只是汇总资料,实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长,调用次数越密,模型吞吐的差距就越容易被放大。

Step 3.7 Flash 给我的直观感受是快,但快的同时质量没有打折——从全网搜集四个方向的资料各自归到对应板块,技术路线讲得清楚,政策法规和市场格局的信息也分得开,没有出现把不同方向揉成一团的情况,结构化输出该有的层级都在。

值得一提的是,Step 3.7 Flash 完成任务的性价比极高,尤其是对 Agent 这种高频任务形态更友好。

一次 Agent 任务往往包含拆解、检索、读网页、调工具、比对结果和整理输出,调用次数远高于普通问答。单次成本差异,放到完整任务链里会被迅速放大。

官方数据显示,开启 Advisor Mode 后,Step 3.7 Flash 的编程能力达到 Claude Opus 4.6 的 97%,但每个任务成本大约只有后者的九分之一。

也正因为如此,Step 3.7 Flash 的价值不能只用「快」来概括。放到 Agent 工作负载里看,它同时解决了三件事:高吞吐减少等待,更低任务成本支撑规模化运行,接近头部模型的编程能力则让它有机会进入真实工作流,承担持续、复杂的任务。

此外,Agent 要进入生产系统,关键还在于稳定调用工具。Step 3.7 Flash 在高可靠工具调用与编排上做了优化。官方称,它可以在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,并保持任务轨迹一致,降低任务偏移和执行失败的概率。

官方披露了几组数据。Step 3.7 Flash 在考察多工具协同的 Toolathlon 上达到 49.5%,在考察真实环境下日常自主任务执行的 ClawEval 1.1 上达到 67.1%,在横跨 44 种职业任务的 GDPval 上达到 45.8%。在 τ²-bench Telecom 的低、中、高三档推理难度下,通过率均超过 98%。

当然,Agent 生产化还有一个容易被低估的条件:模型必须适配工作流。模型通常被放进一套 harness 里,周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。

对此,Step 3.7 Flash 针对 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容优化,也面向 MCP、Skills 等工具调用协议和开发链路进行适配。

开发者因此可以更容易地把模型放进已有 Agent 框架中,而不必重新改造整套流程。对企业来说,适配价值不言而喻:模型越容易进入既有系统,试用和部署周期越短,工程成本越低。

目前,Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 与开发者生态项目中完成接入验证。阶跃星辰也在与 Fireworks AI、DeepInfra、Modal Labs 等 AI 基础设施与推理平台推进适配,后续还会接入 OpenRouter、ZenMux 等海外模型聚合与开发者平台。

🔗 https://huggingface.co/stepfun-ai/Step-3.7-Flash

截至目前,官方还提供关于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、国内开放平台 API、海外开放平台 API、Studio 在线体验,以及阶跃 AI App 入口。

这些入口意味着,它同时面向开发者试用、企业 API 接入和开源生态使用。更重要的是,Step 3.7 Flash 支持云端和本地部署。官方还提供了端侧多精度版本,面向个人工作站和本地环境进行优化。

海外开发者的实测反馈,也补上了官方数据之外的视角。有人在本地 MoE 测试中对比 DeepSeek V4 Flash、Step 3.7Flash 和 Minimax M2.7,Step 3.7 Flash 在 agg@64 下运行速度超越其它模型,达到 2123.13 tok/s;

也有开发者提到,自己用 Gemini 3.5 Flash 写代码后,再让 Step 3.7 Flash 检查,能找出 7 个以上小 bug 和错误。无论是指向本地吞吐,还是指向代码排错,都切实地说明 Step 3.7 Flash 已经开始进入真实开发流程,并被开发者当成可以长期使用的生产力工具。

基座模型,就该为 Agent 而生

体验完 Step 3.7 Flash,APPSO 发现它比起追求某个维度的跑分,更强调工程实用性。

多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些单拎出来都不算新鲜,可它们凑在一起,恰好补上了 Agent 在生产环境里最需要的短板。

这条路径并不花哨,但很适合 Agent 当前所处的阶段。我们过去问一个模型,问的是它够不够聪明。可 Agent 时代,真正该问的是另一个问题:这个模型,是为谁设计的。

这两个提问背后的出发点就不一样。

一个是模型为人优化,意味着它默认面对的是一个会读、会等、会自己脑补的人类。你问一句,它答一句,慢几秒没关系,偶尔含糊也能靠你补上。

但 Agent 不会,Agent 要在观察、调用、推理、纠错的循环里连轴转,它一天发出的请求,可能比一个人一年说的话还多。它不会替模型打圆场,模型跑偏了,它就跟着跑偏。

为人优化的模型,未必适合 Agent 。这也是为什么 Flash 这个词,在 Agent 时代有了新的含义。它不再只是旗舰的廉价替身,而要从头按 Agent 的脾气重新设计了一遍。

Step 3.7 Flash 这些特点恰好对应了这个逻辑。

原生多模态,是因为 Agent 得先看见任务现场;400 Tokens/s,是因为高频调用经不起慢;工具调用的稳定性,是因为长程任务断一环就全断;harness 适配,是因为模型再强,进不去现成的系统也白搭。

它不是冲着榜单去的,是冲着「Agent 究竟怎么高效、高性价比干活」去的。从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰一路强化的,其实都是同一件事:让模型为 Agent 而生,推动 Agent 进入规模化商用。

这也会成为模型今后一个重要的进化路线,Step 3.7 Flash 也还不是终点。但它让我们看到了一个变化:评判 Agent 时代的模型,不该只盯着它有多聪明,而要看它愿不愿意把那些琐碎的工程账,一笔一笔算明白。

1492 年真正改变世界的,其实不是哥伦布那一次惊险的横渡。反而是后来那些福禄特商船能一趟趟稳稳地出海、返航、装货,然后再出发。冒险家负责抵达彼岸,商船负责让彼岸变成航线。

模型竞争走到 Agent 这个阶段,道理也类似。真正拉开距离的,不只是跑分上的惊艳,更是那些能让 Agent 反复出发、可靠抵达,并把能力沉淀成航线的模型。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一夜之间,ChatGPT 变成了第二个 Claude

一夜之间,ChatGPT 和 Codex 的合并提上日程。

Codex 最初面向开发者,用于编程和工程任务;现在,OpenAI 准备把它推向更广泛的企业工作场景。公司宣布,未来几周内,Codex 将进入 ChatGPT。

整合后,用户无需再在两个产品之间切换。Codex 的 Agent 能力将并入 ChatGPT,覆盖桌面端、移动端、浏览器,以及 Excel、Slack、PowerPoint 等企业常用工具。

在 OpenAI 的设想中,ChatGPT 将从对话入口升级为企业员工调用 Agent 完成工作的统一界面。Codex 也将从写代码工具,变成能够处理数据分析、销售准备、市场素材、产品原型、投资研究、工程修复和安全扫描的工作 Agent。

更关键的变化在于,今天过后,OpenAI 的产品逻辑开始全面对标 Anthropic。

Codex 进入 ChatGPT,意味着 OpenAI 不再只围绕通用聊天入口组织产品,而是开始像 Claude 一样,把代码、文件、企业系统、长任务和工作流代理放进同一个客户端。ChatGPT 的新形态,也越来越接近 Claude 客户端。

500 万周活之后,Codex 站上 C 位

Codex 是本次发布会当之无愧的主角。

OpenAI 披露,Codex 周活用户已经超过 500 万,比今年年初增长 400%。Codex 最早用于软件开发,但使用人群正在大幅飙升。

分析师、市场人员、运营、设计师、研究员、投资人和银行从业者等非开发者,已经占 Codex 用户约 20%,增长速度达到开发者用户的 3 倍以上。

OpenAI 列举了几个官方案例,比如 Cisco 已将 Codex 推向整个组织。它最初用于软件开发生命周期,现在也被用于更多内部流程。OpenAI 称,Cisco 的 AI 相关产品已经全部通过 Codex 构建、部署和交付。

企业业务正在成为 OpenAI 更重要的收入来源。OpenAI 在发布会上表示,企业业务目前贡献约 40% 收入,预计年底将达到 50%。

The Information 披露,OpenAI 联合创始人兼总裁 Greg Brockman 上月曾向员工表示,Codex 来自企业客户的收入最近一度实现周环比增长 50%。Sam Altman 也在近期全员会上提到,Codex 整体使用量每天增长 5%。

目前 ChatGPT 和 Codex 是两个产品,用户在不同工作场景下需要反复判断该用哪个工具。OpenAI 的下一步,是把 Codex 放进 ChatGPT,让Agent能力进入统一体验。

完成整合后,Codex 的运行方式也会改变。

Codex 过去更多在本地运行,未来Agent将更多在云端持续工作。用户无需 24 小时在线,Agent可以在云端持续执行任务、更新进度、生成结果,并在需要时回到 ChatGPT 中交付。

此外,据 The Information 报道,OpenAI 准备把 ChatGPT、Codex 和浏览器 Atlas 合并为一个桌面应用。短期内,用户或许还会看到由 Codex 或 ChatGPT 分别处理任务的选项;长期看,系统会自动判断该由哪个Agent、在哪个环境中执行任务。

六类岗位插件登场,Codex 深入工作流

OpenAI 试图把 Codex 从通用Agent做成更贴近岗位分工的企业工具。为此,OpenAI 发布了六类面向具体岗位的 Codex 插件。

这些插件把相关应用、技能、指令和工作流程打包进 Codex,合计覆盖 62 个热门应用和 110 项技能。OpenAI 的目标,是让 Codex 适应企业既有工作方式,直接连接团队已经在使用的工具和业务系统。

数据分析插件面向分析师和业务团队,可以查询产品及业务数据,解释关键指标变化,生成报告和 dashboard。它连接 Snowflake、Databricks Genie、Hex、Tableau 等工具。

创意生产插件面向市场和创意团队,可以把 brief 转化为可评审素材,生成 campaign board、展示广告变体、产品生活方式图和电商图集。它连接 Figma、Canva、Shutterstock、Picsart、Fal 等工具。

销售插件用于整合客户上下文,帮助销售团队寻找高优先级客户和信号、准备客户会议、完成跟进、更新客户记录、制定 close plan、检查高风险交易。它连接 Salesforce、HubSpot、Slack、Outreach、Clay、Rox、Actively 等系统。

产品设计插件用于把早期想法变成可评审原型,包括探索产品方向、检查用户流程、从 live URL 生成原型,以及把静态截图变成交互界面。相关成果可继续在 Figma 和 Canva 中使用。

公开股票投资插件面向投资人,可以处理财报、公司比较、市场信号和投资 thesis 变化判断。它接入 Moody’s、Daloopa、Datasite、FactSet、LSEG、S&P、PitchBook、Hebbia 等数据来源。

投行业务插件面向银行家,用于把研究和尽调材料转化为客户材料,包括 pitch、可比公司和交易分析,以及基于尽调信息形成建议。

OpenAI 表示,Codex 目前已有超过 100 个插件。

后续插件还会覆盖 Corporate Finance、Private Equity Investing、Marketing Strategy、Strategy Consulting 和 Legal 等岗位。公司希望把插件生态开放给合作伙伴,让第三方直接在 Codex 和 ChatGPT 中创建并部署自己的插件。

企业汇报不一定得是 PPT,也可以是网站

在插件之外,OpenAI 还把企业交付物的形态往网站和轻量应用上前进了一步。

Sites 目前以预览形式面向 Business 和 Enterprise 客户推出。它允许 Codex 把想法、分析和计划转化为可托管、可交互、可分享的网站或轻量应用,并通过 URL 分享给同一 workspace 内的成员。

借助 Sites,Codex 的输出不再局限于文档、表格和幻灯片。企业团队可以把客户评审材料变成一个交互网页,集中展示产品更新、开放问题、使用趋势和下一步行动;也可以把财务模型变成 scenario planner,让管理层直接比较不同假设;还可以把发布材料变成 launch hub,持续更新 messaging、里程碑、负责人和决策状态。

发布会演示中,OpenAI 构造了一家银行 Hudson Bank。Codex 可以从邮件和日历中读取活动信息,生成参会公司行业分布;也可以每天早上 7 点从 Salesforce、Slack、日历和邮件中生成 CEO briefing。

在客户会议场景中,Codex 能从 Box 中找到销售模板,读取 Salesforce 和 Slack 里的客户记录,再生成一份适合会议使用的销售 deck。

OpenAI 还在与 Vercel、Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期合作伙伴共建 Sites 生态。

当 Codex 能生成网站、报告、表格和幻灯片后,OpenAI 也需要解决另一个问题:用户怎样和模型一起修改接近成品的内容。

annotations 就是面向这个环节的功能。

开发者此前已经可以在 Codex 中对代码、Markdown 文件和 Codex 生成的网站进行批注,指出具体位置并要求 Codex 修改。现在,这种交互方式扩展到文档、电子表格和幻灯片。

用户可以在网站里选中导航栏,要求 Codex 调整字体;在投资 thesis 中高亮某个判断,要求 Codex 说明来源;在幻灯片里标记图表,要求给出更清晰的标签。Codex 会围绕被选中的部分修改,保留用户已经认可的其他内容。

发布会中,OpenAI 展示了在 spreadsheet 中选中数据,让 Codex 生成图表;也展示了在 dashboard 中标注某个区域,让 Codex 增加一句发布表现摘要。

随着Agent越来越能生成接近成品的文件,用户需要一种更自然的方式参与修改。annotations 处理的是 AI 交付物的最后编辑问题,让用户无需反复重写 prompt,也不用要求模型重新生成整份材料。

 Agent 之争,从 Coding 开始

Codex 的另一个重点方向,是更长时间、更高自治度的任务执行。

OpenAI 展示了 goal command。用户可以给 Codex 一个目标和完成条件,例如拉取昨日发布后的所有 bug,为每个 bug 准备一个 PR,并确保所有测试通过。演示中,Hudson Bank 的 backlog 中约有 24 个 bug,Codex 可以在数小时内产出相应 PR。

代码迁移是更能体现长任务能力的场景。

演示者询问后端系统使用的 Java 版本,Codex 回答为 Java 8。随后,用户要求 Codex 将整个代码库迁移到 Java 26,并确保所有测试通过。OpenAI 表示,这类任务可能需要 Codex 连续运行数天,对应过去数月级别的工程工作。

OpenAI 还展示了 appshot。它类似更智能的截图,可以读取当前应用的视觉上下文和文本上下文,并让 Codex 通过 computer use 直接操作应用。

在演示中,Codex 像墨西哥用户一样进入移动应用 onboarding 流程,选择国家代码、填写手机号、测试验证环节,最终发现墨西哥用户无法完成注册。

安全场景中,Codex Security 插件可以扫描某个分支,指出潜在漏洞并在代码行内评论。演示中,Codex 将一个企业 SSO 相关问题标为 P0,并生成修复方案。

OpenAI 还展示了对整个 identity service 代码库的深度扫描,耗时 6.5 小时,报告覆盖威胁模型、攻击向量、信任边界和全部安全发现。

OpenAI 表示,普通 Codex 用户可以使用基于 GPT 5.5 的 Codex Security。更深入的安全需求,可以使用专门模型 GPT 5.5 cyber。

Codex 的转向,其实也有明确的竞争背景。

今天,The Information 爆出了更多内幕消息,Anthropic 推出 Claude Code 预览版后,OpenAI 意识到自己在编程工具上被对手领先。

早在 2024 年秋季,Claude 在 OpenAI 内部某些指标上已经超过 OpenAI 模型。这个变化让 OpenAI 感到压力,因为 OpenAI 长期认为,AI 编程能力会加速自身研究进程,并影响更强 AI 系统的开发。

2025 年 1 月,OpenAI 发布 Operator,这是一个通过浏览器点击完成任务的Agent,可用于旅行规划、购物等场景。但 OpenAI 内部随后发现,让 AI 在浏览器里逐步点击效率较低。对于构建电子表格、修改文件、处理复杂任务等场景,让 AI 写代码来控制计算机,速度和稳定性更好。

随后,Codex 团队在 OpenAI 内部获得更多资源。The Information 称,该团队像「创业公司中的创业公司」一样运作,并开源了 Codex 背后的部分代码,以便更快从用户那里获得反馈。

Codex 的 harness 也成为产品能力的一部分。它帮助 AI Agent调用工具、操作系统、处理文件并替用户执行动作。OpenAI 决定把 Codex 与 ChatGPT 整合,正是看中了这套执行能力。

今年 1 月,OpenAI 已重组团队,使产品团队和负责相关底层模型的研究人员更紧密协作。随后,OpenAI 又把 ChatGPT、Codex 和 API 团队合并成一个组织,由 Thibault Sottiaux 负责核心产品和平台。

Codex 是 OpenAI 押注的执行层。ChatGPT 提供分发入口,Codex 负责完成任务,插件连接企业软件,Sites 把成果变成可交互工作空间,annotations 处理交付物的修改,语音模型承担客户服务入口。

对 OpenAI 来说,这既是产品整合,也是对 Anthropic 的回应。

Claude Code 让 Anthropic 在开发者群体中获得优势,OpenAI 则试图把 Codex 放进 ChatGPT 这个更大的流量池。The Information 披露,OpenAI 希望借超级应用把 Codex 带给超过 9 亿消费者用户,以扩大收入规模。

尤其是,企业收入的重要性也在上升。OpenAI 和 Anthropic 都需要更大资本池来购买 AI 芯片、招聘研究人员,并为未来资本市场计划做准备。Codex 能否从开发者工具成长为企业工作入口,将影响 OpenAI 在企业 AI 市场中的位置。

对话框只是 AI 时代的开胃菜,真正接管工作流才是 Codex 的野心所在,也是企业 AI 的究究分水岭。

附上参考地址:
1.https://openai.com/index/codex-for-every-role-tool-workflow/
2.https://www.theinformation.com/articles/inside-openais-decision-combine-codex-chatgpt?rc=qmzset
*封面由 AI 生成

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Windows「梦中神机」来了,把你的 PC 变成 Agent 工位

微软和 OpenAI 的蜜月期,曾经是整个 AI 行业最重要的联盟。

一方握着模型,另一方手握云服务、办公软件、开发者工具和企业客户,双方互相成就,几乎让微软在 AI 时代提前拿到一张头等舱门票。但即便联盟再紧密,微软也不能永远把最关键的 AI 想象力寄托在别人身上。

尤其是在双方关系开始脱钩之后。

刚刚召开的 Build 2026 因此变成一场特殊的发布会。微软比以往任何时候都需要一场酣畅淋漓的 AI 胜利,向外界证明自己究竟是 AI 时代的主角,还是依旧只是 OpenAI 的云服务商?

从 MAI 模型、Azure AI Foundry、到量子计算以及本地智能体能力,再加上黄仁勋和龙虾之父的相继站台,微软展示了一整套覆盖开发、模型、数据、算力和治理的完整生态,其目标也很清晰:将 AI 从 OpenAI 主导的模型红利,转变为微软主导的平台生意。

微软自研模型发布, MAI 补上 AI 供应链最关键一环

相比去年,微软这次把模型放在了更重要的位置。微软 CEO 纳德拉称,Microsoft Foundry 目前已有超过 11000 个模型,覆盖 OpenAI、Anthropic 和微软自研 MAI 模型。

微软的判断是,企业和开发者不会只依赖一个模型完成所有任务。不同任务会对应不同模型,也会受到延迟、成本和能力边界的约束。因此,模型目录、模型选择、运行环境和企业治理,会一起构成新的平台竞争点。

今天,微软自研模型家族正式一口气推出了七款新模型,覆盖推理、代码、图像、语音和转录等方向。

MAI Thinking 1 是其中的推理模型。它采用稀疏 MoE 架构,35B active 参数,总参数规模约 1T,支持 256K token 上下文,足以容纳大约 600 页文档。

微软 AI 负责人穆斯塔法·苏莱曼强调,这个模型没有使用第三方模型蒸馏,训练数据来自干净且合规授权的数据,并在预训练中排除了 AI 生成内容。它已在 Microsoft Foundry 私有预览,之后会进入 MAI Playground 公测。

代码模型 MAI Code 1 Flash 面向日常开发工作流。它由微软端到端训练,使用干净且合规授权的数据,正在向 Visual Studio Code 中的 GitHub Copilot 个人用户推出,入口包括模型选择器和默认自动选择器。

微软称,这个模型针对 GitHub Copilot harness 做了训练和适配,支持 Agentic coding,也支持 adaptive thinking。简单请求保持简洁,复杂任务会投入更多推理预算。

微软把 MAI Code 1 Flash 直接拿来和 Claude Haiku 4.5 比较。

MAI Code 1 Flash 在 SWE Bench Pro 上达到 51.2%,高于 Claude Haiku 4.5 的 35.2%;在 IF Bench 精确指令跟随上领先 28.9 分,在 Advanced IF 上领先 14.5 分。它将支撑微软 GitHub Copilot 的常见编码场景,尤其是代码修改、多轮指令和真实开发环境里的 Agent 任务。
图像和语音模型也被纳入 MAI 体系。

MAI Image 2.5 和 Flash 版本支持文本生成图像和图像编辑,已经进入 PowerPoint,并会扩展到 OneDrive 和 Foundry。

MAI Transcribe 1.5 支持 43 种语言,微软称其速度达到竞品 5 倍,正在集成到 GitHub、Teams、Copilot 和 Dynamics 365 Contact Center。

MAI Voice 2 支持 15 种语言,可通过短样本适配声音,同时内置防滥用保护;低成本版本 MAI Voice 2 Flash 也在计划中。

微软还把 MAI 模型和自己的芯片联系起来。MAI Thinking 1 已针对 Maia 200 优化,端到端运行 MAI 模型时,还能获得 1.4 倍每瓦性能提升。

企业定制也是 MAI 模型的重要方向。未来所有企业不仅会调用模型,也会把自己的流程训练进模型。

为此,微软还发布了 Microsoft Frontier Tuning,核心是 reinforcement learning environments。企业可以把真实工作轨迹、任务步骤、决策、工具调用和评价标准变成训练环境,让模型学习组织内部的工作方式。

PC 变成 Agent 工位,你的桌面就是数据中心

除了模型,微软也把重点转向本地算力。

Surface RTX Spark Dev Box 是这部分最值得一提的产品。纳德拉把它称为面向开发者的「dream machine(梦中神机)」。这台设备提供 1 petaflop AI 算力、20 个 CPU 核心和 128GB 统一内存,计划在今年秋季推出。

Surface RTX Spark Dev Box 基于 Nvidia RTX Spark 平台。正如 APPSO 前几天所报道的,RTX Spark 是面向 PC 的下一代 SoC,把 CPU、GPU 和 AI 能力整合到一颗芯片中,并支持统一内存架构和集成 DRTM。

英伟达 CEO 黄仁勋在视频连线中表示,PC 正在从个人电脑走向个人 AI。他举例称:用户外出时,可以给自己的 PC 发消息,让本地 Agent 调用工具、修改代码、推进设计,再和用户继续迭代。

PC 不再只是一个被人操作的工具,也开始变成可以持续运行任务的 AI 助手。

此外,微软还为 Surface RTX Spark Dev Box 预装开发优化的 Windows 11 Pro,内置 VS Code、WSL、PowerShell 7、GitHub Copilot、Coreutils for Windows 等工具。

现场演示中,这台设备默认没有新闻流、组件弹窗和通知,使用深色模式;Windows Insider 版本还加入了纵向任务栏,不仅开发工具被进一步系统化,命令行和容器体验也更接近 Linux。

硬件上,它采用阳极氧化铝 3D 打印一体机身,拥有 1000 个通风孔,热设计功耗 100W,接口包括 USB-C、USB-A、HDMI、以太网和耳机接口。

Windows 将在 AI 时代大有作为。本地 AI 要让 PC 成为 Agent 工作流的一部分:开发者可以在本地调试、运行模型、调用工具、看日志、开容器、跑子 Agent,再把更大规模任务交给云端。

Agent 需要新入口,微软探路下一代 AI 终端

相比 Surface RTX Spark Dev Box 面向开发者,Project Solara 更像微软对 Agent 设备形态的提前试探。下一台计算机不会只是一台设备,而是一组协同工作的设备。

微软展示了两类参考设备。

第一类是固定在桌面上的工作终端,基于联发科芯片。

用户走近后,系统会安全识别身份,并让用户进入自己的 Agent 工作环境,访问基于 Work IQ 的 Microsoft 365 Copilot。

它可以显示当天重要事项,也支持点按或语音交给 Agent 处理任务,还能作为 Windows PC 伴侣,或通过 Windows 365 接入 Cloud PC。它更像企业办公桌上的 Agent 控制终端,负责身份识别、任务提醒、语音交互、Copilot 调用和 Cloud PC 接入。

第二类是可佩戴数字工牌,使用 Qualcomm 可穿戴芯片,面向移动工作场景。

演示中,用户通过指纹解锁后,要求 Copilot 为社交媒体帖子收集现场素材。工牌负责拍摄画面,Agent 负责挑选镜头、清理画面,并发送给本人和团队审阅。发布会还展示了医疗场景:护士可用它进行免提语音记录、区分说话人、核验生命体征、扫描药物并验证护理流程。

这两类设备只是参考形态。

手机和 PC 仍然重要,但一些工作场景需要更靠近人、空间和传感器的硬件。面对未来的 Agent 时代,企业可以更换 Agent,调整外观、屏幕、传感器和输入方式,在同一硬件和软件基础上适配不同垂直行业。

龙虾之父站台,微软给个人 Agent 加上企业护栏

Surface RTX Spark Dev Box 讲的是本地算力,Project Solara 讲的是新设备形态,OpenClaw on Windows 则把焦点转到个人 Agent 如何安全进入企业。

微软展示了适用于 OpenClaw 的 Windows 套件,可以帮助用户设置自己的 OpenClaw,或连接已经托管在 Windows 和 WSL 中的 OpenClaw。

应用里可以查看 gateway、参与 OpenClaw 的其他机器、会话和使用情况,也能快速进入 chat、canvas 和主控制台。

安全演示围绕文件权限展开。

OpenClaw Windows Companion app 允许用户控制 Agent 能访问哪些文件夹,以及这些文件夹是只读、可写还是隐藏。它也可以配置剪贴板访问、联网权限等细粒度选项。

微软在现场要求 OpenClaw 删除桌面上的所有文件,并临时关闭 OpenClaw 自身的安全层,只保留 MXC 的系统级限制。由于桌面文件夹被设置为只读,OpenClaw 多次尝试删除和检查目录,最后仍无法删除文件,桌面上的 94 张 JPG 得以保留。

龙虾之父 Peter Steinberger 也透露,过去几个月 OpenClaw 与 Microsoft、GitHub、OpenAI、Nvidia 等团队合作,增加了可观测性、自动权限模式,并重新设计访问控制。现在权限不再只有全部允许或全部禁止,用户可以指定哪些文件夹只读、哪些可写、哪些对 Agent 隐藏。

他还宣布,OpenClaw 可以在公司内部运行,harness 本身已经插件化。企业可以接入自己信任的 Copilot、Codex 或其他系统,把已有规则带进 OpenClaw,再获得持续记忆、heartbeat,以及在 Slack 或 Teams 中使用 OpenClaw 的能力。

AI 下半场,微软盯上企业平台入口

除前述硬件和 Windows 更新外,微软还发布了更多产品。

开发工具方面,微软发布新的 GitHub Copilot app。它更像一个 Agent 编码会话管理器,开发者可以同时启动多个 issue 会话,并用 Git worktree 隔离,让多个 Agent 并行工作。

Agent Merge 则负责跟踪 PR 的 CI 检查、代码审查和合并冲突。微软还发布 Raven,这是一个 Agent first SDK,用于连接 backend as a service,处理身份、存储和数据库 schema 等后端问题。

上下文能力由 Web IQ 承担。

Agent 要进入企业流程,需要连接网络新信息、企业业务对象、实时运营状态、人员关系和组织流程。Web IQ 负责外部网络信息,支持网页、新闻、图片和视频,模型无关、MCP native,可接入任意 Agent runtime,让 Agent 的回答建立在更新、可验证的内容上。

Copilot 也在升级为更复杂的工作入口。

纳德拉称,今年夏天会把 chat、cowork 和 code 放入同一个 Copilot,并发布 Autopilots。首个 Autopilot 名为 Scout,面向 Copilot Frontier 用户开放,可在 Teams 群聊和 Outlook 线程中工作。

企业治理层面,微软发布 Agent 365。它为 Agent 提供身份、权限、访问控制和合规管理,并接入 Entra、Defender 和 Purview。Agent 365 可管理托管在 Azure、AWS、GCP 或其他环境中的 Agent,也支持不同框架构建的 Agent。

科研方向则是 Microsoft Discovery。纳德拉把它定义为面向科学发现的 Agent 平台,希望把论文研究、候选方案生成、仿真计算、实验设计和自动化实验室连接成连续流程。

发布会最后,微软还正式发布了新一代量子芯片 Majorana 2,其量子比特平均寿命可达 20 秒,最高接近 1 分钟,比 Majorana 1 高约 1000 倍;操作时间为 1 微秒,尺寸仍为 0.01 毫米量级,并采用全数字控制。

至此,这场拼图庞大且野心勃勃的发布会终于完整。AI 的第一阶段,主导行业叙事的是模型公司;第二阶段,主导产业落地的可能是平台公司。

谁来选择模型,谁来分配任务,谁来管理 Agent,谁来定义权限和审计,谁就更接近企业 AI 的核心入口。当模型逐渐成为标准能力之后,真正决定价值归属的,将是承载这些模型运行的系统。

如果说当年那张 AI 时代的头等舱门票,很大程度上是借助盟友 OpenAI 的力量抢下的;那么现在,微软已经坐进了驾驶舱,并打算亲自接管这架飞机的航向。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

今年最值得升级的生产力工具,可能是一整张 AI 工位

AI 工具推荐现在是门显学。

打开任何一个平台,都有人在告诉你「这 10 个 AI 工具必须收藏」「2026 年最强 AI 工具箱」。标题一个比一个夸张,列表一个比一个长。你点进去、收藏,然后,再也没有打开过。

我们自己也推过不少工具。但说实话,大部分 AI 产品用一两周就删了。界面太复杂,响应太慢,免费额度用完就吃灰,还有的纯粹是「能做什么」和「我会用它做什么」之间隔了一条河。

一年下来,真正留在工位上、每天都在用的,就这几个。

也顺便聊聊,它们是怎么嵌进我们真实工作流的。

信息太多的时代,先让 AI 理清关系

Gemini 深度研究 + Kimi

在所有被 AI 改变的工作环节里,搜索可能是最早被掀翻的。

过去做一个选题、一份竞品报告、一次行业判断,最耗时间的不是写,而是找。找资料、筛资料、判断资料 A 和资料 B 之间到底是什么关系。传统搜索引擎给你的是一堆链接,你得自己点开、自己读、自己拼图。

AI 搜索做的事不太一样。它更像在帮你画一张问题地图:这个话题有哪些分支,哪些结论已经比较确定,哪些方向还需要继续挖掘。

Gemini 深度研究适合处理开放性问题。

比如研究一个海外 AI 产品、一条技术路线、一家新公司,它会先把问题拆成几个方向,自动搜资料,最后吐出一份结构化报告。不是说它写的结论都能直接用,但它给的那张地图,能帮你省掉最前面的两三个小时。

例如,我让 Gemini 深度研究整理 WWDC 2026 的爆料信息。它会先生成一份研究计划,把任务分为研究网站、分析信息、生成报告几个阶段,这些报告的 AI 味比较重,不能指望拿来就能用,但它提供了一套清晰的资料路径,省掉了大量前期资料整理时间。

日常中文语境里搜资料,我们更多用 Kimi。

国内公司的公开资料、政策文件、访谈稿、财报、行业研报,扔进去提炼要点、对比差异、整理时间线,基本够用。不过说实话,非付费用户偶尔会遇到算力不足的提示,这是它目前一个绕不开的问题。

两个搭配着用,大问题找 Gemini,日常中文资料搜 Kimi。搜索这件事,从「自己翻链接」变成「AI 画地图然后你挑路走」,效率差的不是一点半点。

你的知识库,正在变成 AI 理解你的入口

飞书 + Obsidian

搜来的资料、开会的结论、读文章的想法、做项目的经验,这些东西放哪?

过去说知识管理,第一反应是建文件夹、做分类、写笔记。但 AI 时代这件事的逻辑变了。知识管理不只是把东西存起来,而是给 AI 建一套理解你的系统。让它知道你的写作风格、判断标准、常用模板、在关注什么方向。

知名 AI 大神 Andrej Karpathy 前段时间聊过怎么构建个人知识系统,方案偏技术派,但思路值得借鉴:协作工具管动态信息,笔记系统管长期沉淀,AI 参与整理、检索和再加工。

落到日常,我们用的是一个更轻的组合:飞书 + Obsidian。

飞书负责每天都在变的东西:会议纪要、项目进度、选题池、需求列表、团队 SOP。Obsidian 负责更长期的沉淀:写作风格、判断标准、工作方法、案例库、阅读笔记、复盘记录。

串起来的方式是这样的:把个人信息整理成分层的 markdown 文件,接着可以通过 OpenClaw 接入飞书机器人,也可以把 GPT、Claude、DeepSeek、Kimi 统一接进来。之后不管调用哪个模型,它都可以先去知识库里翻对应的规则文件,理解清楚背景再回答。

比如让它写视频脚本,它先看你的脚本规则;让它做选题判断,它先看你的内容方向;问它职业规划,它先看你的履历和目标。用得越久,规则文件越完整,AI 对你的理解就越接近真实的你。

说白了,技术门槛其实没那么高,难的是先花一个下午,把自己的工作方式整理成 AI 能读懂的格式。

打工人的会议外挂,终于不只是录音了

Plaud

对每周开 10 个会议以上的打工人来说,开会本身可能只占一半工作量。另一半是整理纪要、提炼重点、追踪待办、同步给没参会的同事。这后半段,往往比开会还磨人。

Plaud 是我们这两年推荐次数最多的硬件,也是近几年少有的硬件黑马。它解决的就是会议结束后那 30 分钟的无用功。

这个小录音设备往桌上一放,会议结束,纪要已经结构化了。客户访谈完立刻把纪要发回去确认,专业且留了书面凭证;重要会议结束把整理好的重点扔给没参会的同事,省掉所有人的同步时间。

但它最好用的地方,其实不是录音转文字本身,而是支持定制 prompt 模板。

这里有一个很多人没意识到的技巧:不要用默认的会议模板,而是换成贴合你岗位的提示词,产出价值通常差好几倍。比如销售可以用「按客户痛点排序总结,列出反对意见」,再加一句「额外梳理客户在会议中表现出犹豫或兴奋的三个瞬间,分析潜在顾虑」。同一段录音,换几套 prompt 重新生成,往往能挖出完全不同的观察角度。

免费得到一份「客户心理学报告」,这件事最妙的地方在于,你不需要学任何新技能,只需要学会怎么把问题问对。

先用 AI 做草稿,正在成为视觉表达的新习惯

GPT-Image-2 + TapNow

内容产出里,视觉一直是最容易卡住的环节。

文字可以自己写,方案可以自己改。但一到配图、海报、PPT 视觉、短视频素材,很多人还得等设计师排期。需求说不清楚,来回改几轮,灵感早就凉了。

今年用得最顺手的组合是 GPT-Image-2 + TapNow。GPT-Image-2 的出图质量稳定、风格可控、提示词体系成熟。科技感配图、产品概念图、社媒海报草稿,它都能快速给出一个能拿来讨论的版本。

注意,是「讨论」的版本,不是终稿。但这一步恰恰最管用,过去很多需求卡在「你说的感觉我不太理解」,现在可以先丢一张 AI 生成的图到群里,所有人对着同一张图说话。

视频生成环节,我们更多用 TapNow。它支持调用 Seedance 2.0 和可灵 3.0,适合把已经确定的角色、产品、环境素材延展成短视频。日常视觉记录、产品展示、社媒短内容,够用了。

这套组合不只服务设计师和媒体人。

销售可以出提案配图,产品经理可以出 UI 草图,品牌营销可以生成海报,老师可以出课件配图。它真正的价值在于正式投入设计资源之前,快速把模糊想法变成可见草稿。提前用 AI 确认方向,沟通成本低很多,返工也少很多。

Vibe Coding 火了,需求表达成了新技能

Claude Code、Codex

今年一个很有意思的变化:越来越多不写代码的人开始用 Claude Code、Codex 这类 AI coding agent。

过去想写一个小工具、改一个网页、做一个自动化脚本,得找程序员。现在把需求说清楚,AI 就能通过自然语言完成相当一部分开发。这也是 Vibe Coding 今年突然火起来的原因。

它让不会写代码的人也能参与软件生产。不需要先学完整的编程语言,甚至不需要理解每一行代码,只需要知道自己要什么,并且持续把需求描述清楚。

配合阿里千问语音输入法,口述需求,让 AI 整理成任务说明,一个人就能跑通过去需要产品、设计、工程一起配合的小工具原型。

生活中也可以用。比如给自己装一个「微信读书 skill」,让它定期分析阅读记录,统计最近关注的主题,推荐下一批书,找认知盲区。

未来很多人未必会成为程序员,但会越来越像一个小型工程团队:能描述需求,能指挥工具,能验证结果,能把重复工作交给 AI。

AI 干活的间隙,我趁机回血

清闲 OC1 Pro

到这里,五个工具聊完了。

但有一个东西,今年给我的回报感可能比上面任何一个都强。它不是软件,也没有 AI 功能。它是一把椅子。

AI 没有把人从工位前解放出去。相反,当我们越来越习惯把长文档、代码、研究、图片、视频都扔给 AI 处理,工作里反而多了很多新的间隙:等 DeepSeek 读完一份文档,等 ChatGPT 重构一个模块,等 Gemini 生成报告,等视频模型吐出第一版素材。

人的角色在变。不再只是埋头输出,而是在「发出任务、等待结果、判断修改」之间来回切换。这让工位上的短暂休息变得比以前重要得多。等 AI 的几十秒、几分钟,可以继续刷手机、盯进度条,也可以活动腰背、调整坐姿、闭眼歇半分钟,再回到下一轮判断。

我工位上这把清闲 OC1 Pro,是最近在科技圈、创业圈非常火的动态人机工学椅,定价 4299 元,不便宜。但比起我待在椅子上的时间,我和床待在一起的时间是比不过椅子的。

颈枕、椅背、坐垫、扶手都能随坐姿变化调整,腰背支撑不是固定在一个位置上。后仰有 5 档,从日常办公到午休都能覆盖,一键脊柱拉伸在连续工作几小时后是实实在在的放松。

Pro 款多了座椅通风,夏天办公室空调不稳的时候体感差距很明显。它不是那种会让你惊呼黑科技的产品。它就是让你坐到下午五点,腰不酸了。

我们过去聊工位升级,聊的是屏幕尺寸、键盘手感、桌面收纳、设备性能。但用了一年 AI 工具之后,我发现工位真正需要升级的,是人和工具的协作关系。

查资料、建知识库、记会议、出画面、写工具,最后是坐得住。

AI 时代最容易被高估的是工具,最容易被低估的是人。

过去两年,AI 生产力工具的付费主体正在发生剧烈的变化。早期更多是个人用户和技术爱好者自己付费,现在不少公司开始把会员订阅、APl token、算力额度纳入员工预算。原因并不复杂,只要一类工具能持续改善表达、判断,创作和执行效率,公司就愿意为它买单。

类似的逻辑也会延伸到办公硬件上。当越来越多人进入AI-native的工作状态,坐在电脑前的时间并没有减少,甚至在一些岗位上变得更长。真正影响效率的,也不只是模型能力和软件体验,还有员工长时间工作时的身体状态、专注质量和办公环境。

一个好的工位,应该让你更快进入工作,也更容易从工作里恢复。它不只是生产力中心,也是一个人和 AI 协作时最基础的身体接口。

我们的办公桌上会有越来越多智能硬件、Agent、模型入口和自动化流程。但无论 AI 怎么进化,坐在椅子上的人,才是所有工作的起点。

工具负责记录、整理、生成和执行。人负责判断、表达、沟通和创造。效率提升的意义,不是接更多任务、坐更久时间,而是少被琐碎消耗,把精力留给重要的事。

照顾好自己,就是 AI 时代最实在的生产力。

作者:莫崇宇、李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

iPhone 终于支持 Siri AI!但国行无缘首发,闹钟成为最大惊喜

作为库克最后一次主讲的苹果发布会,WWDC26 本身也颇有一种「收尾」的感觉。

从 WWDC24 压大轴的「AI」,WWDC25 唱主角的「UI」,到今年的「AI + UI」两手抓,苹果放慢了脚步,更多是将前两年确定的这些新方向,做深做稳。

特别是 AI,70 多分钟的发布会,将近 40 分钟都留给了 Apple 智能的新进度,不仅有大量的新功能,苹果也给出了自己的新主张:

真正有益的 AI,应该以用户为核心。

iOS 27 主打一个求稳

今年的 WWDC 有一个显著变化:不再按不同设备平台,将发布会分成 iOS、iPadOS 或 macOS 的独立板块,而是直接发布跨系统的新功能。

这也预示了一种大方向上的调整:苹果未来的系统更新,将从「设备」转变为「功能」为主线,以后更会贴近 AI 大模型的能力,推出更新。

去年引入的「液态玻璃」设计语言,虽然让人激动,也带来了性能和可读性的问题,因此 iOS 27 的一个首要任务,就是要搞好优化,提升系统的基础品质。

在 iOS 27、iPadOS 27 和 macOS 27,用户可以直接通过滑块自定义「液态玻璃」的透明度,甚至可以恢复到类似以前版本的低透「磨砂玻璃」。

苹果也对图标进行了进一步打磨,通过「液态玻璃」叠层和光折射效果,为原本就晶莹剔透的图标增加细节。

系统界面进一步精装,系统底层的体验也没有落下,这次 WWDC 苹果也大谈优化。

最直观的表现,不管是 iPhone、iPad 简单的划动,还是 Mac 四指上划打开调度中心,这些简单的操作响应和动画都会更顺畅,相信 iOS 26 的掉帧 Bug 终于要解决了。

苹果表示,iPhone、iPad App 的开启速度将提升 30%,这不仅限于苹果的第一方应用,得益于系统底层的优化,第三方应用的响应速度也会有明显提升。

更多系统操作的速度也会更快,比如拍摄新照片后,进入相册可浏览的速度提升了 70%;AirDrop 的传输速度最高提升 80%,等等。

苹果也宣布,所有支持 iOS 26 的 iPhone 都能升级 iOS 27,包括 iPhone 11 和第二代 iPhone SE。

另一个横跨多个系统的更新,是「搜索」功能,苹果重构了聚焦搜索、照片和邮件应用中的搜索能力,安装新系统后,后台会对全设备存储的信息进行「索引」,知道设备上有什么、内容在哪里,因此搜索会更个性化和智能。

近几年,苹果生态的围墙开始松动,iOS 27 进一步开放了 iCloud 共享相册,将支持 Android 和 Windows 设备上传和共享照片。

还有一个很小,但相信口碑会不错的更新:升级 iOS 27 后,AirPods 新增自定义均衡器,用户可以个性化调整耳机的音效。

这次 WWDC 的另一个重点,在于「儿童安全」,以「儿童账户」为核心,系统会立即启用与孩子年龄匹配的保护措施,阻止一些网站和媒体浏览,家长可以进一步管控孩子的 App Store 使用,和联系人方式。

爱范儿上手 iOS 27 Beta 版后发现,还有更多 WWDC 上没说,但非常实用的更新。

比如一个「史诗级」功能:自带的时钟 App,终于支持节假日闹钟,「调休」也会算作工作日开启闹钟了。

天气 App 也重新设计,各种指标有了更清晰的呈现柱状图方式。

其实多项更新单独看都不大,放在一起却能看出 iOS 27 的优先级:减少操作摩擦,修复旧体验,同时为 AI 入口腾出空间。

今晚的主角,还得是重振旗鼓的 Apple 智能。

苹果迟到的 AI 反攻,从 Siri 开始

如果说 iOS 27 是系统层面的修修补补,Apple 智能就是苹果重新抢回 AI 时代的系统入口。

过去两年,苹果在 AI 上的被动不难理解,ChatGPT、Claude、Gemini 等海外御三家已经把用户对 AI 助手的期待抬高了一大截,用户已经不再满足于语音问答,而是开始习惯于多轮对话、文件分析、图像理解乃至更复杂的任务执行。

因此,这次 WWDC 的重心毫无疑问落在了 Apple 智能。 耐人寻味的是,苹果高管 Craig Federighi 表示,一些公司似乎在为了 AI 本身推进 AI,而没有足够关注 AI 最终要服务的人。

(所以,这是在点谁呢?)

苹果给出的 AI 答案是「围绕用户」。Apple 智能要深度整合进日常产品,理解个人上下文、常用 App 和屏幕内容,同时从设计之初保护隐私。

为了支撑这套系统,苹果今年与 Google 展开了更深合作。

双方利用 Gemini 系列模型背后的技术,共同创建下一代 Apple Foundation Models。这些模型会用于苹果内建的 Apple Intelligence 体验,并适配两类运行环境:一类在设备端运行,另一类通过私有云计算在服务器端运行。

从短期看,苹果引入 AI 外援,算是间接承认了自己在通用大模型上的差距,但长期看,这也是一种用时间换空间的聪明策略。十几亿设备带来的使用反馈、请求分布、端侧体验和开发者调用方式,只要经过隐私保护和合规处理,就会成为苹果迭代模型、调度系统和端云架构的重要依据。

此外,苹果还针对最强的 Apple Silicon 系统优化了能力更强的端侧模型,它可以理解并生成语音,也能同时理解文本和图像,并带来更准确的系统级听写、更好的自然语言理解,以及更有表现力的语音反馈。

更明显的变化,发生在入口层面。

在 Siri 被苹果收购 16 年后,它终于重新拥有独立 App 的形态,产品逻辑也明显向 ChatGPT App 靠近。

用户可以在新版 Siri 中查看已有对话,延续之前的话题,也可以开启新的对话。Siri 的对话历史会通过 iCloud 在 iPhone、iPad 和 Mac 之间私密同步。

考虑到用户过去的使用习惯,传统入口仍然保留。用户可以继续说 Hey Siri,也可以按下侧边按钮调用 Siri。

真正体现 iOS 27 交互变化的,是 Siri 与灵动岛的深度整合。

现在只要从屏幕顶部中央向下滑动,灵动岛就会向下展开,变成一个暗色文本框,能搜索,能提问,光标闪烁的颜色也使用了 WWDC 2026 宣传图中那种发光渐变效果。

在这里,用户可以打字问天气、查网页,也可以直接下达复杂指令。

苹果也通过三个场景展示了新版 Siri 的核心能力——充分展现了 Siri 从单纯的问答工具,升级为能够理解屏幕内容、调用个人信息并持续完成任务的系统级 AI 助手。

新版 Siri 能把搜索、提醒、音乐、导航等能力串联起来。你可以查询世界杯赛程,并让 Siri 策划观赛派对、生成菜单、起草群聊邀请;也可以追问演出购票方式、设置抽签提醒、播放歌手新单曲。

在屏幕感知和个人情境上,Siri 还能识别照片中的具体地点,并结合朋友发来的地址信息规划路线。

值得一提的是,WWDC 上所有 Siri AI 的演示,基本都采用了一镜到底的拍摄模式,你能明显感受到 Siri AI 思考的速度没有那么快,还能看到测试版动效的各种掉帧。

保留这些不完美的细节,就是为了告诉你,这次的演示是真实的,避免重蹈 2 年前的覆辙。

哦,对了,在支持最先进端侧模型的设备上,Siri AI 还会获得两项额外能力。第一项是全新的语音体验。Siri 的声音会更自然,也更有表现力。用户还可以自定义 Siri 的语音,包括表达强度和语速。

第二项是系统级听写能力提升。新听写在拼写、标点和大小写方面更准确。由于它内置在键盘中,用户可以在整个系统里使用,包括发消息、写日记、记录想法等场景。这些更新也会扩展到 CarPlay 和 AirPods。

Siri AI 的入口也进一步扩展到 Mac、Apple Watch 和 Vision Pro:用户不仅能在 Mac 上直接选中文件、图片或文本向 Siri 提问,完成报价对比、生成表格、起草邮件等操作。

视觉智能也同步进入 macOS 和 visionOS,既能识别屏幕内容和日程信息并建议加入日历,也能结合 Vision Pro 的空间计算能力,直接理解用户眼前的物体与场景,例如判断背包是否符合随身登机要求。

Apple 智能接管生态入口,但国行用户还得再等等

至于使用范围,苹果称,这些跨 App 的 Apple Intelligence 新功能,将支持所有 Apple Intelligence 已支持语言,并随最新软件版本免费提供。

不止于系统级的基础能力,Apple 智能也深入到每个具体的 App 中。

Safari 浏览器

得益于苹果 AI 能力,Safari 浏览器用起来会更顺心。

全新的 Safari 浏览器能够检测用户打开的网页,按相似主题进行自动分组。

用户还可以通过自然语言,告诉 Safari 自己关注的内容,比如商品上新、放票,更新会及时通知用户。

更「AI」的功能是自定义扩展生成功能,利用自然语言生成浏览器的扩展,比如自动保存美食网页中的食谱。

iMessage、邮件 和日历

AI 也进一步融入了更多系统应用:它能够自动理解短信和邮件中的上下文内容,主动提供操作建议,例如识别活动日程后一键加入日历或提醒事项,聊天中提到相关内容时,也会自动推荐合适的照片发送。

而在日历中,用户甚至可以直接用自然语言创建和修改行程,只需一句话描述活动主题、地点、时间和参与人,系统就能自动生成完整事件,也能快速调整固定日程安排。

电话

近几年,厂商都在借助 AI 改造最传统的「通话」功能,苹果也不例外。

用户和商家进行通话时,AI 会自动抓取、提示用户的个人资讯,例如和航空公司通话提供订票的邮件详情,和餐厅通话提供预订的日程信息。

家庭

在 WWDC 上,苹果也预示了一部分「智能家居生态」的未来。

首先是「家庭」App,AI 会自动识别、归类智能家居的最新动态,并整合为一个事实更新的动态通知。

更有趣的能力在于视觉,利用摄像头智能家居,家庭 App 能理解、描述画面,并能从多个摄像头中调取相关片段组成时间,用户也可以用自然语言搜索特定场景。

快捷指令

快捷指令的自定义功能很强大,但复杂的门槛让普通用户望而却步。

最新的快捷指令,会利用 Apple 智能理解自然语言描述,自动组装各种所需步骤,后续也能用自然语言描述修改。

相机

视觉智能被整合进相机应用中,切换到相应的模式,就能让 Siri 看到相机前的内容,进行智能识别,可以用来记录饮食状况。

图乐园

新版图乐园将基于更强大的图像模型,能够生成更高质量的图像,并支持更丰富的风格,包括写实风格。

从发布会上的例图来看,全新图乐园的产出质感确实比前一个版本更优秀,更有「果味」。

图乐园的编辑也更加灵活, 用户可以圈选某个对象,利用自然语言修改重构。

照片

更强大的图像模型,也为照片应用带来了全新的 AI 编辑功能。

首先是「消除」功能更加强大,可以消除更复杂、更庞大的物体,这有待进一步实测。

新的编辑功能有两个:「扩展」和「重构」。

「扩展」就是 AI 扩图,能够利用 AI 补充更多画面。

比较有意思的是「重构」,通过将平面照片转化为空间照片后,可以改变被摄物体的角度。

图乐园和照片的 AI 编辑功能将会有每日使用限制。苹果称,用户可以通过大多数 iCloud+ 订阅计划获得更高访问额度。iCloud+ 也将包含对兼容 Home 摄像头的 Apple Intelligence 支持。

过去 iCloud+ 卖的是存储、备份和隐私服务,接下来它很可能会变成苹果 AI 的付费入口,苹果不会让用户觉得自己在为一个聊天机器人续费,而是让 AI 成为 iCloud+ 的新价值。

上线节奏方面,开发者可以从发布会当天开始试用新版 Siri。普通用户将在今年晚些时候获得 Siri AI Beta 版本。Siri AI 会先支持英语,并较快扩展到更多语言。

不过,Siri AI 初期不会在欧盟的 iOS 和 iPadOS 上提供。

至于我们心心念念的国行版本,基于监管要求,Siri AI 和其他新的 Apple Intelligence 功能也暂时不会上线。我们也第一时间上手了国行开发者预览版,除了液态玻璃设计的升级,AI 功能几乎可以说是「原地踏步」。

同样值得注意的是,苹果口中「最强大的端侧模型」,目前仅支持 iPhone Air 和 iPhone 17 Pro 等有限机型,隔壁为了苹果 AI 入手 iPhone 16 Pro 的同事,已经哭晕在工位上。

面向开发者,苹果的核心思路也很明确:让第三方 app 接入 Siri,把 Apple Intelligence 从系统能力扩展为生态能力。

通过 App Intents,开发者可以开放 app 内的信息和功能,让 Siri 成为不同应用的统一入口;而更新后的 Foundation Models framework,则进一步开放了端侧模型、图像输入、Custom Skills 以及服务器模型调用能力,让 AI 逐渐成为苹果生态的底层基础设施。

简言之,WWDC26 的重点并不是 Siri 终于变聪明了多少,也不是苹果接入了哪一家大模型,而是苹果开始把 AI 重新写进 iOS 的系统逻辑里。

过去的系统更新围绕设备展开,今年则明显转向模型能力:理解屏幕、读取个人上下文、调用 App、生成内容、完成跨应用任务。iPhone 仍然是核心,但它正在从一个运行 App 的终端,变成 Apple Intelligence 调度个人数字生活的入口。

Apple 智能的魅力,肯定不是模型能力,更像是「信任」。

从发布会到官网,苹果 AI 叙事,强调的始终是隐私、端侧处理、私有云计算和个人上下文。用户使用苹果 AI,首先是因为在 iPhone 里,因为它和系统绑在一起,因为用户愿意让它读取照片、邮件、日程、信息和 App 数据。

未来十年,最重要的 AI 设备大概率仍然是智能手机;苹果要做的,是让 iPhone 继续成为那台用户最愿意信任的 AI 设备。

当然,以上这么多这么丰富这么吸引的全新苹果 AI ,对于我们来说,还得等到真正「准备好」的那一天。

作者:苏伟鸿、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测Claude史上最强模型Fable 5,普通人慎用

对普通人最坏的消息要来了。

就在刚刚,Anthropic 宣布推出 Claude Fable 5 和 Claude Mythos 5。

其中,Fable 5 是 Anthropic 首个面向公众开放的 Mythos 级模型,Mythos 5 则主要面向少数网络安全防御机构、关键基础设施提供方以及后续进入可信访问计划的生物医学研究者。

只是,鲜少有人注意的是,按照官方说明,Fable 5 从现在到 6 月 22 日,会包含在 Pro、Max、Team 和按席位计费的 Enterprise 计划里,不额外收费。到了 6 月 23 日,Fable 5 将从这些订阅计划中移出,继续使用就需要消耗 usage credits。

换句话说,过去那种一张「月卡」解锁最强 AI 的模式,或许将一去不复返。对于用户而言,未来需要考虑的可能不只是订阅价格,还有每一次调用、每一次长任务执行背后真实消耗的 token 成本。

欢迎进入 Token 计费时代。

Claude Fable 5 封神登场,但它也是最狠的「Token 刺客」

Anthropic 对 Fable 和 Mythos 的命名也给出了解释。Fable 源自拉丁语 fabula,意为「被讲述的小故事」,含义上接近希腊语 Mythos。

两个新名字看起来像两款模型,实际更接近同一底层模型的两个版本。Fable 5 目前面向公众开放,带有更严格的安全限制;
Mythos 5 目前只通过 Project Glasswing 计划提供给少数网络安全防御机构和关键基础设施合作方。

根据 Anthropic 官方博客的介绍,Fable 5 是该公司目前一般可用模型中能力最强的一款,在软件工程、知识工作、视觉理解、科学研究等方向都有明显提升。任务越长、越复杂,它相对此前 Claude 模型的优势越大。

Fable 5 的意义在于,Mythos 级能力第一次大规模面向普通用户开放。基准测试跑分图如下,主打一个遥遥领先。

不过,模型名字本身也引发了一些讨论。原 OpenAI Codex 相关负责人 Tibo都发文调侃道,Anthropic 用了 OpenAI 想用但没有用的 Fable 命名。

能力层面,软件工程是官方最强调的方向之一。

Anthropic 提到,Stripe 在早期测试中让 Fable 5 处理一个 5000 万行 Ruby 代码库的迁移任务。这个工作如果交给一个工程团队手动完成,原本需要两个多月,Fable 5 在一天内完成。

Cognition 的 FrontierCode 测试也显示,Fable 5 在复杂生产级代码任务中表现领先。这个评测关注的不是普通代码题,而是模型能否完成困难编程任务,并达到高质量生产代码库的要求。

Anthropic 还强调,Fable 5 比此前 Claude 模型更节省 token。当然,这话听听得了,以往每次 Claude 新模型的发布都有类似的表述,但几乎都成了一个个 Token 刺客,为偌大的互联网提供了相当多的笑话。

知识工作方面,Fable 5 在 Hebbia 的金融基准测试中拿到最高成绩,提升集中在文档推理、图表理解和复杂问题分析。IMC 的交易分析评测也显示,Fable 5 在事实检索、概念推理、原因分析和期望值分析上都有较强表现。

视觉能力也是发布重点。Anthropic 称,Fable 5 能从复杂科学图表中提取精确数字,也能根据网页截图重建应用源码。

官方还展示了一个更直观的案例:Fable 5 只依靠游戏画面完成《宝可梦火红》,没有使用额外地图、导航工具或游戏状态信息。此前的 Claude 模型做类似任务,还需要更复杂的辅助系统。

长上下文和记忆能力也有提升。Anthropic 在《杀戮尖塔》测试中发现,给模型提供持久化文件记忆后,Fable 5 的表现提升幅度达到 Opus 4.8 的三倍,进入最终章节的频率也提升三倍。

生命科学方向更敏感。Anthropic 称,内部蛋白质设计专家使用 Mythos 5,把部分药物设计流程加速约 10 倍。

在一个案例里,Mythos 5 借助蛋白质设计和生物信息学工具,在没有人工协助的情况下完成了科学家通常要处理的一整套流程,包括选择结合位点、调用设计工具、处理失败结果。14 个蛋白靶点中,有 9 个产生了值得继续研究的候选方案。

生命科学和网络安全能力的提升,也解释了 Anthropic 为什么没有把完整 Mythos 级能力直接放开。

Fable 5 面向公众开放时,配套了一套新的安全分类器。只要用户请求涉及网络安全、生物、化学或模型蒸馏等高风险方向,系统就会自动改由 Claude Opus 4.8 响应,并告知用户模型发生了变化。

Anthropic 表示,早期数据中,超过 95% 的 Fable 5 会话不会触发这种变化。普通写作、编程、分析、设计、数据处理等任务,大多数情况下仍能使用 Fable 5 本身。但只要进入高风险区域,模型能力就会受到限制。

网络安全是限制最严的方向。Anthropic 承认,Mythos 级模型擅长发现和利用软件漏洞,也具备较强的代理式攻击能力,可能覆盖侦察、发现、横向移动等环节。为了避免这种能力被滥用,Fable 5 的网络安全分类器覆盖范围很广。

生物和化学方向也类似。Anthropic 认为,模型已经具备完成真实科学任务的能力,过去只屏蔽少数生物武器相关问题已经不够。因此,Fable 5 暂时会在大多数生物和化学相关请求上回退到 Opus 4.8 处理。

值得一提的是,Anthropic 还为 Fable 5 加入了一层针对前沿大模型开发的隐藏保护。

它主要限制 Claude 协助构建预训练流水线、分布式训练基础设施或 ML 加速器设计等任务,避免模型反过来加速其他机构训练下一代前沿模型。

和触发后会切换到 Opus 4.8 的安全限制不同,这类保护不会直接提示用户,而是通过提示词修改、steering vectors 或 PEFT 等方式,降低 Fable 5 在相关任务上的性能。目前也已经有受害者现身说法。

截至目前,Claude Fable 5 现已面向全球用户开放。开发者可以通过 Claude API 调用 claude-fable-5。Claude API 和按需付费的 Enterprise 计划从发布日起已经全面可用。

Fable 5 和 Mythos 5 的价格相同,均为每百万输入 token 10 美元,每百万输出 token 50 美元。按照 Anthropic 的说法,这已经低于 Claude Mythos Preview 的一半,但对于高强度长任务来说,价格仍然不低。

AI 终于数清了 6 根手指

比起官方博客,实测更能说明 Fable 5 到底变强在哪里。根据我的实测,Fable 5 已经能够识别 6 根手指了。

恰逢高考结束,我们也拿了道全国高考一卷语文作文题,让它练练手,怎么说呢?整体文风表达比较流畅,并不「普通」。

更具体的对比可以参考@ Hypergent 的实测,在小行星可视化任务中,Fable 5 不仅完成数据提取,还设计了包含轨道轨迹和悬停详情的交互式展示,在保证性能的同时提升了信息表达能力。

在健身度假村规划任务中,Fable 5 借助 GPT-Image-2 和 Nano Banana 生成更符合实际使用逻辑的场地方案,能够考虑区域连接、功能分布和人流动线,而不仅是简单摆放建筑。

Fable 5 能够把天文现象与可视化表达结合起来,展示太阳耀斑对极光影响的模拟;而 Opus 4.8 甚至未能正常加载。

前特斯拉 AI 总监,OpenAI 联创 Andrej Karpathy(现已加入 Anthropic)的评价更能说明开发者的感受。

不过,在设计审美上,人类目前仍然略占上风。

沃顿商学院教授 Ethan Mollick 的实测更能体现 Fable 5 的变化。他拿到早期访问权限后,重点测试了游戏、地图和研究工具等复杂任务。

其中最有代表性的是一个等时线地图项目。Mollick 要求 Fable 5 构建一个基于真实交通数据的交互式地图,展示不同城市在一定时间内的可达范围。模型随后调用多个 Agent 收集航班、铁路和道路数据,同时完成代码编写和测试,并不断根据反馈修正结果。

Mollick 还让 Fable 5 开发了一款名为 Concord 的研究工具。模型先生成 19 页设计文档,又连续工作 9 个半小时,最终完成软件开发,用于分析开放式研究数据并校准人类与 AI 的判断结果。

实测也暴露出明显问题。Mollick 认为,Fable 5 仍然会出现错误和遗漏,需要人工检查和完善。同时,长任务带来的 token 消耗非常高,而 Fable 5 的价格又明显高于 Opus 4.8,真正投入生产环境后,成本可能成为最大的现实挑战。

高强度长任务能力,最终都会反映到使用成本上。作为 20 美元套餐的 Pro 用户,我甚至只是简单跑了几个任务,就用完了额度。

而 Claude 客户端也显示 Fable 5 「included until June 22」,如开头所述,由于算力限制,按照 Anthropic 的安排,免费包含窗口结束后,Fable 5 会从部分订阅计划中移出,继续使用需要消耗 usage credits。

过去用户付一笔不算贵的月费,就能在很大程度上享用世界上最强的一批智能。订阅制模糊了真实成本,也让普通个体在某些时刻和一些巨头站上了同一条起跑线。

Token 计费降临之后,一切都会发生变化。

AI 会从一种近似包月服务,变成一种按量消耗的生产资料。最强模型也正在变成一种更昂贵、更精细计价的生产工具。

有些人可以不太在乎成本,比如让 Fable 5 执行 24 小时长链任务,重构 5000 万行代码,独立开发一个完整应用,持续跑研究项目,反复测试和修改结果。

但更多普通用户则会在每一次调用前下意识地掂量:这个问题值不值得花 token?这个任务值不值得交给最强模型?这次尝试失败后,还要不要继续让它重来一遍?

最糟糕的消息莫过于此。AI 没有变弱。相反,它正以前所未有的速度变强,强到足以独立完成越来越多原本属于人类的脑力工作。

与此同时,获得这种能力的门票正在不断提高。普通人与先进生产力之间,刚刚被大模型拉近的信息差,可能会因为昂贵的 token 计费重新拉开。

Anthropic 如此,未来 OpenAI 等其它厂商也很难例外。前沿模型越强,训练和推理成本越高,尤其是这两家 AI 公司目前都在争取上市,都需要向资本市场证明自己不只是能训练更强模型,也能把模型能力变成持续收入。

因此,与其说 Fable 5 的发布是一次模型升级,倒不如说是一次彻底调整 AI 订阅体系的预热。如果 AI 的普惠窗口期开始进入倒计时,那这绝对不会是最好的消息。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一场世界杯,怎么踢出营销新玩法?

世界杯从来不只发生在球场上。

2026 年美加墨世界杯,对中国球迷来说,也是一场跨时区的观赛体验:调闹钟看球、囤零食饮料、升级观赛设备,各类和观赛消费相关的需求提前「涌入」购物车。

聚拢了海量注意力的世界杯,为今年的 618 营销提供了绝佳窗口。而对品牌商家来说,这些注意力能否真正转化为消费、沉淀为品牌资产,才是更值得关心的核心问题。

今年京东 618,联想和京东给出了一个样本。

6 月 11 日至 6 月 14 日,作为 2026 FIFA 世界杯官方合作伙伴,联想在京东 96 小时过足瘾「巅峰宠粉狂欢季」。

京东广告不再依赖单一触点的零散曝光,而是凭借多业态的资源优势,将达人引流、拍卖互动与跨品类联动整合进同一消费场景。从社交平台的视频种草,到活动会场的承接,再到直播间中 AI 猜球、跨品类福利等玩法的深度留人,京东搭建了一条从流量吸引到消费转化的完整通路,让每一次注意力都能被高效利用,最终沉淀为品牌资产。

这场合作的意义,已经超过一次普通大促。

内容、交易与权益形成闭环,让世界杯带来的关注进一步沉淀为消费和品牌资产。

如果把世界杯营销比作一次完整进攻,联想是持球推进的核心,京东则是画出战术板的人,前者带来赛事权益、巨星资源和 AI 产品吸引关注;后者则负责串联内容、货品、流量与交易,推动整套体系运转。

超级赛事的流量,正在进入京东

足球比赛里,一次完整进攻很少靠单个动作完成。拼抢得球后,中场组织推进,边路拉扯打开空间送出助攻,最后还需要前锋在禁区内完成致命一击。

类比到品牌营销,联想已率先「抢下第一落点」:联想集团是 2026 FIFA 美加墨世界杯官方合作伙伴,联想品牌是 FIFA 全球技术合作伙伴,摩托罗拉是 FIFA 全球智能手机合作伙伴。同时,联想还签约大卫·贝克汉姆担任「AI+体育」全球战略伙伴。

世界杯、贝克汉姆、AI 终端、定制款产品,天然具备传播势能。大事件能带来流量高峰,但热度稍纵即逝,关键看谁接得住。

京东提供的正是这样一个 3C 消费决策场。在用户兴趣最高燃的时刻,把内容、商品、价格、服务一次配齐,缩短从关注到购买的路径。

电脑、手机、平板、游戏设备都属于高决策成本品类。用户购买前会比较参数、理解功能、确认价格、判断售后,也会关心新品是否值得买、功能是否真有用。

京东长期积累的 3C 采销专业口碑、官方自营心智、履约服务和用户信任,能够把这些传播概念转化成具体商品选择。

6 月 11 日,京东 3C 采销直播间以探展直播形式进入联想 FIFA 世界杯嘉年华北京会场,通过一镜到底的逛播,把直播间用户带到现场。

用户既能看到联想 AI 算力设备,也能看到贝克汉姆与联想集团执行副总裁兼中国区总裁刘军的现场交流。

巨星和赛事权益负责制造注意力,京东直播间负责推动消费决策。用户在直播中看到 AI PC、AI 手机、平板和世界杯定制款,也能同步了解产品权益、价格机制和购机福利,直接完成下单。

这种转化能力,对今天的品牌尤其重要。

跨品类联动,京东搭建一站式球迷好生活

争下第一落点后,进攻推进至中场区域,中场的任务是组织调度。

世界杯球迷熬夜看球,需要大屏设备,也需要零食、饮料、外卖和健康补给;移动观赛需要手机和平板,也需要续航、网络和互动体验;看球之外,还会延展出游戏娱乐、内容创作、社交分享和办公效率等需求。

品牌做赛事营销,面对的是一组被赛事同时激活的生活场景。

例如在本次活动中,世界杯畅饮套餐、麦当劳「大堡口福套餐」、熬夜看球修复套装等跨品类权益,都围绕球迷夜间消费展开。用户购买联想相关产品后,可以根据规则申请对应实物赠品或权益。

3C 产品是联想的主推货品,但世界杯看球季打开的是更宽的消费界面。

真正的场景化经营,不是货架的拼接,而是需求的理解与满足。京东依托自营模式的全品类供给能力,破除了品类之间的壁垒,也实现了从「电脑手机」到「食品餐饮、健康补给」的无缝串联——把用户一次完整的生活情境,还原为同一条消费路径。这背后,是京东场景化营销的底层能力:精准识别用户在特定情境下的完整需求图谱,并用平台资源一站式满足。

单一货架承载不了全部场景,单一内容平台也难以完成即时交易。而在京东,用户享受的是,一套围绕世界杯和日常生活展开的一站式球迷消费体验。

复杂的 AI 产品,更需要达人在线种草

中场完成组织后,进攻还需要边路打开空间。

相比于往届,本届世界杯也随着 AI 技术加速落地,成为 AI 终端集中走向大众消费市场的重要节点。

对品牌来说,AI 终端的难点在于理解。

相比于普通快消品,AI PC、AI 手机和高性能游戏设备用户则会关心 AI 功能能解决什么问题,设备适合哪些人群,世界杯定制款的纪念价值在哪里,拯救者产品为什么适合游戏和观赛。

这些问题的答案,需要专业内容来传递。而京东的营销优势,体现在能够打通内容种草与交易转化之间的链路。

联想联手京东邀请多位 3C 数码领域达人参与,包括 AI 晓彤、哈利玩数码、Cap 万物实验室等。他们分别覆盖 AI 应用、智能硬件、数码测评、黑科技实测等内容方向,把复杂的产品卖点转化成用户听得懂、愿意看的内容。

相比单纯投放广告,这类达人内容更接近用户日常信息流。测评、体验、场景演示和观点表达,能降低用户理解门槛,也能帮助品牌在大促节点前积累兴趣人群。更重要的是,当用户在内容平台被「种草」时,只需一步操作,下一秒就能直达京东商品页面,实现从「种草」到「拔草」的高效闭环。

站外赚足关注,京东站内完成临门一脚

进攻推进到最后,仍然需要禁区里的射门能力。

站外内容和品牌话题能带来兴趣,但成交最终要回到平台内。用户进入京东之后,能否快速找到活动、看到适合自己的商品,决定了整场营销的最终效率。

在联想世界杯主推日期间,京东通过首页资源、3C 会场、频道资源、百亿补贴及秒杀等多个入口,持续承接流量。

比如在「禧从天降 一球千金」活动会场,京东集中呈现直播、AI 猜球、答题瓜分奖金池等互动玩法,有效延长用户停留时间,将浏览行为转化为参与行为。用户对产品与权益的理解越具体,最终交易发生的概率也越高。

此外,京东拍卖也在这一阶段制造了更多传播话题。

贝克汉姆亲签球衣、联想拯救者世界杯定制套装、ThinkBook 14 世界杯定制款、moto razr 手机等稀缺拍品,让限量、收藏和赛事记忆变成可参与的消费内容。

用户参与拍卖,品牌获得话题,产品也从货架商品变成带有故事感和纪念感的内容素材。而京东所有这些努力最终都能指向交易,不会停留在「看过即走」的浅层互动。

站内资源的价值,在于把前面的动作集中到同一个交易场。世界杯注意力负责开局,跨品类权益丰富消费理由,达人内容扩大人群触达,站内会场和直播间推动最终购买,共同指向同一个目标:把品牌热度转化为真实消费。

更重要的是,京东的价值没有停在大促爆发。活动之后,场景化内容、会员运营和平台 IP 资产,又能为日常销售提供增长基础。

这也是电商平台进入新阶段后的价值变化。

平台过去主要扮演货架和流量入口的角色,如今正在成长为品牌建设的绝佳阵地。

尤其在 3C 品类上,京东在这方面的叠加优势不言而喻:3C 消费心智已经建立,丰富的站内外资源能力,构建起从触达到转化的完整链路,为品牌长期经营提供坚实支撑。

6 月 11 日至 14 日,96 小时不间断直播、百万福利、稀缺拍卖、AI 互动……京东为联想搭建的不只是一个促销场,而是一条从聚拢注意力到撬动购买力的全程进球通道。

世界杯终场哨声响起,场上胜负已分之后,京东为品牌带来的商业「进球」,还在继续。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Codex 大更新,你在电脑的操作正在成为 AI 经验包

你坐在电脑前干活,旁边有个家伙一声不吭盯着你。你点哪它看哪,你填什么它记什么,等你做完,它说一句:下次这活我来。

这就是 Codex 刚刚发布的重磅功能,叫 Record & Replay。

翻译过来就是录制加复现。

你把一套操作完整演示一遍,Codex 在旁边观察学习,然后把整套流程打包成一个 skill(技能)。下回要干同样的活,新开个对话,让它调这个 skill,再告诉它这次哪里不一样,剩下的它自己搞定。

图形界面,这个原本为了让人类摆脱命令行而发明的伟大创造,现在有望成了 AI 接管电脑的现成基础设施。

「学徒」模式上线,Codex 开始复制你的工作流

当然,不是所有任务都适合这么玩。

Record & Replay 瞄准的是那种重复、看个人偏好、说不清楚但做一遍你就懂的活。适用场景有这么几个:报销、订停车位、建一个配置正确的 issue、发视频、拉周期性报表。

这些活有个共同点。要么步骤又固定又繁琐,要么里头藏着一堆只有你自己知道的隐性规则。

比如文件该怎么命名、某个字段默认填啥、到了某个岔路口该往哪走。这种东西你要用文字一条条写清楚给 AI,成本极高。不如直接做一遍,让它自己看。

操作过程也比想象中省事,主要拆成了七步。

先在 Codex 应用里打开 Plugins(插件),搜索并添加 Record & Replay 插件。

然后它来要录制权限,你准备好了就点同意。

剩下的就是你在 Mac 上正常把活干一遍。

这期间 Codex 全程观察,学这套操作要点哪些地方、动哪些窗口的内容。

录制会一直开着,直到你主动停止。所以记住,专心做那一个任务就行,别录着录着开始干别的。

干完从菜单栏或悬浮层停止,或者直接跟 Codex 说一声已经录完。

录完之后 Codex 会复盘一遍刚捕捉到的流程,自己起草一个 skill。这个 skill 里写得很清楚:什么时候该用这套流程、需要哪些输入、按什么步骤走、做完怎么验证结果。

你要是觉得它写得不够好,还能让它再打磨。

几条录制建议值得照做:

演示尽量短而完整;录之前先把目标和那些每次会变的输入告诉 Codex;用真实输入,但密码和敏感数据千万别录进去;录完后补上那些重要的隐性偏好,比如命名规范、字段默认值、决策点怎么选;流程做完就停,别拖到无关的收尾动作上。

至于,下次复现就简单了。新开对话,让它调这个 skill,把这次的具体值喂给它,比如要传哪个文件、建哪个 issue、报表要哪段时间。

有个关键设定需要注意:Codex 会把这个 skill 当作可复用的上下文(reusable context)。

什么意思呢?这个 skill 不是一段写死的脚本,而是一份它每次都能拿来参考、再结合当前环境灵活执行的说明书。所以同一个 skill,这次传 A 文件、下次传 B 文件,它都能套着用。

具体干活的时候,它会调动当前环境里能用的工具,包括 Computer Use、浏览器操作和已安装的插件,把流程跑完。

Codex 到底怎么「用电脑」

来看一次公开演示。

这回 Codex 要学的是上传 YouTube 视频的完整流程。它的工作方式是盯着用户在 YouTube Studio 里操作,把点击、选文件、敲文字这一整串动作全捕捉下来。

诸如选视频文件、填标题和描述、传缩略图、加字幕、设隐私选项等等,Codex 全记下来了,随后展示了独立复现的能力。

更有意思的是,它不只是机械地照着步骤复读,还试图搞懂背后的逻辑和门道。

比如什么时候该把视频设成 Private、什么时候设 Unlisted,怎么管 .mp4 视频文件和 .srt 字幕文件这种成对的东西,元数据字段该怎么填,字幕怎么跟视频对上号。

它甚至现场处理了一次报错:

缺 Python 环境的时候,它直接从已安装的 skill 位置读信息,自己适配过去了。而这一整段录下来,转译成一个随时能调用的 skill。

换句话说,Codex 一旦学会,理论上就能在没人盯着的情况下反复执行。对那些天天要传一堆视频的内容工作流来说,这事确实有用。

要搞懂它凭什么能复现,得先看 Codex 到底怎么操作电脑。

OpenAI 工程师 Jason 之前梳理过 Codex 用电脑的三条路,能力有重叠,各有各的地盘。总原则是:能用插件或 MCP 就先用,视觉控制留给结构化工具够不着的边角。

第一种叫 Computer Use,覆盖面最广。

它能在 macOS 和 Windows 上看见并操作图形界面,通过窗口、菜单、键盘、剪贴板来动那些授权过的应用。

代价是慢,因为它得看界面、判断点哪、等响应、再确认状态,一步一回头。但好处也明显,那些没有 API 的应用它也能对付,比如 Spotify、Xcode、系统设置、iOS 模拟器,甚至能通过 iPhone 镜像去操作 iPhone。

在 macOS 上它还能后台跑,你能同时干别的。它信任边界也最宽,凡涉及钱、账户、支付、凭据的改动,建议你全程在场盯着。

这也解释了为什么 Record & Replay 只能跟着 Computer Use 一起开启。它录下来的操作要复现,靠的就是 Computer Use 这套看界面、动鼠标键盘的底层能力。

第二种是 Chrome 扩展。

它接管你已经登录好的 Chrome,适合那种靠账号、cookie、已认证标签页的任务,比如 Gmail、Salesforce、内部仪表盘。它能玩多标签,把同一个任务的好几个标签页串成一个完整工作流来理解。

代价是它带着你的身份在动,网站会把它的点击和提交都当成你本人,所以发送、发布、购买这种步骤一般得先过你审核。

第三种是应用内浏览器。

它活在 Codex 对话内部,跟你共享同一个渲染页面,特别适合开发调试 Web 应用。它最大的特点是隔离,不碰你的浏览器配置、cookie、扩展和登录会话。

需要的时候这是限制,不需要的时候反而是个干净的边界。开发者能让它改代码、操作页面、截图、修完再跑一遍,形成一个紧密的反馈循环,还能直接点页面元素留设计意见。

另外还有个叫 Appshot 的机制,它不操作电脑,只负责把 Codex 的注意力指到你眼前的东西上。在 Mac 上连按两下 CMD 键,它就抓最前面那个窗口,把图像和文字附进对话。你对着一个报错、一封邮件、一个看不懂的表单直接发问就行。

用 Jason 的话说,Appshot 负责指方向,浏览器、Chrome 扩展和 Computer Use 负责动手。而 Record & Replay 录下来的 skill,正是可以随时调动上面任意一种或几种方式来复现。

人类操作软件的经验,正在变成 AI 技能

从今年以来,Codex 的发布节奏仍在不断加速,许多人都不知道的是,Codex 应用、CLI 和 SDK 不是只能配 OpenAI 自家模型。

在 config.toml 里配一下 model_providers,你可以把 Codex 指向 Ollama、LM Studio 这类本地开源模型,也能接 Mistral、Azure、Amazon Bedrock 这些第三方。传个 –oss 参数就能跑本地 provider,不指定的话默认走 oss_provider。

▲ 🔗 https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

也就是说,Record & Replay 这种能力,载体本身是个对模型开放的客户端。

它也有适用范围。Record & Replay 是从一次演示里快速造 skill 的捷径,但如果你想把一个稳定的包发给整个团队、捆绑好几个 skill、加应用集成或 MCP 服务器、管安装元数据,那就别停在录制层面,老实打包成独立插件。

还有几个上手前最好先知道的限制。

Record & Replay 目前只在 macOS 上能用,首发不覆盖欧盟、英国和瑞士,而且必须先开启 Computer Use 功能。

如果你是组织管理员,还有个坑得避开:

要是你们用 requirements.toml 统一管 Codex,那 [features].computer_use 这一项是连 Record & Replay 一起管的。

▲ 🔗 https://developers.openai.com/codex/record-and-replay

哪天把 computer_use 设成 false,你会发现这俩功能一起消失。所以要是你发现「我这儿压根看不到 Record & Replay」,先去查这一项是不是被关了。

「Record & Replay」的上线,看起来只是一个录制和复现操作的小功能,但放到更大的背景里,它代表的是 AI 与软件交互方式的一次变化。

过去,自动化的基础是 API。软件必须先开放接口,把能力封装成机器能够调用的服务,自动化工具和 AI 才能接手流程。没有 API,没有结构化入口,很多任务就无法实现自动化。

因此,传统自动化的边界,往往取决于软件愿意开放多少能力。

但现在,OpenAI 试图绕开这层限制。它不再要求软件专门为 AI 提供接口,而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口,它也去理解;人能完成点击、输入和切换页面,它也去执行。

这意味着,AI 的工作对象开始从 API 扩展到整个图形界面。换言之,「Computer Use」负责赋予 AI 操作电脑的能力,而「Record & Replay」则负责把人的操作经验沉淀成可复用的技能。

这背后对应的,其实是操作系统角色的变化。过去,操作系统是所有软件的组织者。我们在 Mac 或 Windows 上安装各种应用,再由人自己在不同软件之间切换、复制、整理和传递信息。

人始终是连接各个软件的中间层。

而当 AI 能够跨应用观察、理解并执行任务时,它开始承担这层角色。对于用户来说,关注点逐渐从「如何操作软件」,转向「想完成什么事情」。

报销软件怎么填、视频后台怎么配置、多个系统之间如何来回切换,这些细节理论上都可以交给 AI 处理。照这样发展下去,未来真正频繁使用软件的,未必是人,而是 AI。

对于 AI 来说,漂亮的界面没有意义,复杂的菜单也没有意义。它更关心的是:这个软件能不能完成任务、能不能被调用、能不能稳定执行流程。

从这个角度看,「Record & Replay」真正有意思的地方,不是又多了一个自动化功能,而是它透露出一种新的趋势:人正在从软件的直接操作者,逐渐变成软件能力的训练者。

今天我们学习怎么使用工具,未来或许更重要的一项能力,是教会 AI 使用工具。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Seedance 2.5 正式发布,国产视频模型再次捅破天花板

180 万亿。这是截至今年 6 月,豆包大模型的日均 token 调用量。

相比最初发布足足增长了几个数量级,且完全没有放缓的迹象。火山引擎总裁谭待在 2026 火山引擎 FORCE 原动力大会上公布这个数字时,台下更是掌声雷动。

更值得注意的是市场份额。在公有云大模型市场,火山引擎把份额提升至 49.5%。每消耗两个 token,就有一个是火山引擎提供的。

去年 12 月,「万亿 token 俱乐部」还只有 100 家企业,现在已经暴涨至 200 多家。足够夸张的数字背后,反映了 token 已逐渐成为像水电一样的基础消耗。

越来越多企业不再把大模型当作一个「试试看」的新工具,而是开始把它接进核心流程——写代码、做视频、跑分析、做客服、做决策。

豆包 2.1 Pro:既 SOTA,也划算

这场大会真正的主角,是刚发布的豆包大模型 2.1 Pro。

按谭待的说法,这是一个突破了「生产质变点」的旗舰模型,意思是它写的代码能真正交付、进入企业研发流程,而不是停在「玩具」阶段。

coding 能力上,几个硬榜单它都拿得出手。

Terminal Bench 这种最贴近真实研发的终端编程评测,模型要在命令行里端到端跑完一整个工程任务,2.1 Pro 和 Claude Opus 4.7 基本持平,进了全球第一梯队;

覆盖五大学科科研问题的 SciCode 拿到 59.8 分,超过 Opus 4.7;从需求文档出发从零生成整个可运行仓库的仓库级评测,拿到 47 分。

现场还演示了个硬核 case:

让 2.1 Pro 围绕一个 16×16 PE 的微型模型,连续跑 18 个小时、迭代九轮,最终写出六个核心模块、1300 多行 RTL 代码——芯片设计里最严谨的环节,通常要 3 到 5 名资深工程师干上数周——

而且不只是生成代码,还跑通了仿真测试、综合检测,最后通过了手写数字识别验证。

Agent 能力上,在 OpenAI 那套覆盖九大行业 44 种职业的 GDPval 真实经济价值评测里,2.1 Pro 拿了国内第一;评测 AI 用真实 MCP server 和工具能力的 MCP Atlas 上,全面超过 Opus 4.7。

价格是另一记重拳。

百万 token 输入 6 元、输出 30 元,缓存命中只要 1.2 元,对比 Claude 同系列成本降了接近 80%,另有个价格只要 Pro 一半的 turbo 版本。

Seedance 2.5 登场,AI 视频终于不止 15 秒了

模型矩阵的下一块是视频,也是发布会的重头戏。

今年 2 月发布的 Seedance 2.0,是中国第一个全球 SOTA、也是第一个跨过「生产质变点」的视频生成模型。

谭待表示,在它出来之前视频模型更像玩具,5 到 10 秒的 UGC 内容为主;2.0 之后,15 到 30 秒的广告、影视、科普短片被全面解锁。

这次先给 2.0 上了个大升级:原生 4K。

以旗袍广告作为一个典型案例,720P 下,刺绣线迹和面料肌理不够清楚;用超分把 720P 拉到 4K,画面虽然锐化了,但细密绣线反而被平滑掉,质感更差;

而原生 4K 从生成阶段就保留更高密度的有效信息,发丝、丝线走向、面料纹理都清晰完整。Seedance 2.0 原生 4K 还率先支持 4K 10bit 高位深,色彩层次更丰富,给后期调色留足空间。

但 4K 只解决了画质。

更长、更多参考、更强编辑这三个挑战,得靠新主角。

万众期待之下,Seedance 2.5 登场,目前已在内测尾声,预计 7 月初正式见面,三个升级全是「全球第一/最多」:

单条视频生成长度最高 30 秒,全球第一。市面上同类模型最多只支持 15 到 20 秒,这次直接突破瓶颈,镜头表达更连贯。

多参考能力支持 50 个全模态素材联合输入,全球最多。现场一次性输入十多位演员的图像资产,让模型自己编排。

更灵活的视频编辑:可以在整体画面不变的前提下,对局部单独修改——微调背景、更换商品、更换模特。现场一个口红广告演示,直接把「挑口红」这个困惑给解决了。

它还能稳定承接专业创作。现场输入一个接近 10 万面的宇宙飞船白膜加一份渲染材质参考,让模型生成渲染视频模拟镜头,飞船主体轮廓、比例、复杂结构在镜头缓慢推进中都稳定保持。

在实体产业,Seedance 2.5 能自动生成多语言产品视频说明书,能给具身智能合成多场景多视角的高质量训练数据,能给自动驾驶合成极端天气、罕见路况这类案例补上训练盲区。

当视频模型跨过生产质变点,它积累的对物理世界的理解,正在成为世界模型的重要基础。

模型只是入口,生产系统才是终点

视频之外,图像和音频这两块也各自上了新东西。

图像这边接棒的是 Seedream 5.0 Pro。年初发布的 Seedream 5.0 Lite 已经在帮用户把普通产品图转成高级广告海报、把线稿上色成完整插画,5.0 Pro 则是智能水平上的全新尝试。

最直观的是交互式精准编辑。

创作者既能用语言描述空间关系,也能直接在画面上标记圈选。比如一张图里,把树枝上的松鼠移到左下角树桩、在右下角加两只小猫的结婚照、把小黄狗移到左侧——

模型能识别箭头和高亮块,理解意图、定位元素、生成符合要求的画面。设计师随手画的草图线稿,它也能编辑成符合意图的视觉效果。

另一个能力是多图层分离。

圈选点选任意区域、任意颗粒度,小到一行字、大到整个版面,都能拆分输出成独立图层。把人物从画面拿走后,模型会自动智能填充背景;还能递归拆分,对拆出去的人物再拆出帽子、滑板,方便二次拖拽缩放编辑。

还有个一直让大模型头疼的能力,高密度信息呈现。复杂图表、多层结构、甚至一整页 PPT 的信息量,都可能被完整塞进一张图,模型还会自动优化版面、保持审美。

它还支持英语、西班牙语、阿拉伯语、日语、韩语等 10 余种主要语言,并自动适应每种语言的排版习惯。

Seedream 配 Seedance 还能一加一大于二。

以「天问一号发射」科普视频为例,先用 5.0 Pro 把探测器外观、发射、着陆几个关键阶段准确生成,再喂给 Seedance 2.5,就得到一个高品质的 30 秒科普视频。

音频方面,Seed-Audio 1.0 支持情绪、口音、背景音、氛围音、拟音特效一次直出,做到影视级成品音效。落到产业侧,奔驰、东风都在基于豆包大模型探索智能座舱的语音交互。

奔驰中国研发负责人在现场视频里提到,已经把豆包大模型集成进新款纯电车型,让车里的对话更自然、更能读懂用户意图和情绪。
而开头所说的 180 万亿 token 指向的不只是一个规模数字,更是一条正在不断延伸的能力曲线。

企业每天把客服、营销、研发、内容生产、办公协同、数据分析等任务交给模型处理,模型也在这些高频调用中持续暴露问题、修正偏差、积累经验,逐步逼近真实生产环境的要求。

这背后,是一场长期的能力攀登。

字节跳动 CEO 梁汝波在大会上提到,攀登 AI 高峰是字节当下最重要的事情——收缩业务宽度,把精力重点聚焦到 AI,并在 AI 内部进一步聚焦于提升模型能力。

火山引擎正是这个方向的对外出口。它把字节内部沉淀的模型能力、工程体系和应用经验,转化为云服务、模型 API、行业解决方案和工具链,交付给企业使用。

高峰还在前方,但路径已经清晰。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测豆包专业版,我愿意当第一批掏钱的人

日活跃用户超过 2 亿,已经让豆包成为国内最有存在感的 AI 应用之一,但令人艳羡的流量规模之外,商业化却始终是一道绕不开的坎。

对于一个持续吞噬算力、带宽和研发资源的 AI 产品来说,免费早就不只是增长策略,而是一道必须尽快收尾的阶段性命题。于是乎,我们看到基于付费订阅的豆包专业版应运而生。

相比此前以对话、搜索、图片理解和文档问答为主的通用 AI 产品,这一次,豆包把重心明显往更「能干活」的方向挪了挪——工作和生产力场景。

它基于豆包 2.1 系列大模型,新增办公任务模式,并开放更高的功能使用额度,直接对准软件开发、数据分析、专业设计、流程自动化和金融分析等高价值工作需求。

APPSO 也第一时间上手体验,看看豆包专业版是否已经从一个大众 AI 入口,变成真正可付费的生产力工具?

豆包办公任务模式登场,Agent 正在成为新的生产力入口

豆包专业版的核心杀手锏,叫做「办公任务模式」。

顾名思义,这是一种以 Agent(智能体)为核心的高级 AI 工作模式。它强调的不再是单纯的「返回答案」,而是理解工作目标、自主规划步骤、调用工具并最终交付结果。

具体而言,它支持本地电脑操作、浏览器操作、网站生成、Office 集成、飞书协同、Skill 技能调用和定时任务。其中,最能体现「干活」属性的是本地电脑操作。

用户授权后,豆包可以协助使用电脑里的应用、浏览器和文件,完成文件整理、资料归类、文档处理、表格填写、信息搬运和跨应用协作。

例如,我的桌面上有格式混乱的 PDF 和发票截图,可以要求豆包批量重命名为「日期_开票方_金额」的格式,并移动到新建的「发票」文件夹。

再比如,我还尝试让豆包随机挑选半年前保存的旧照片,复制到桌面新文件夹中,通过图像识别判断照片内容,再生成一份带有搞笑文案的「盲盒解说.txt」。

除了日常工作,豆包专业版在专业开发领域的表现同样令人侧目。用户可以直接输入需求,让豆包创建、修改和部署网页应用。

先来个简单的案例,我让它用 HTML5 Canvas 和 CSS 动画做一台透明外壳的复古磁带随身听,要求播放按键有下压反馈,磁带轮匀速转动,页面覆盖 VHS 噪点滤镜。

对于一个初级程序员来说,这可能需要耗费大半个下午去查文档、调 CSS 动画曲线。但豆包专业版不仅能迅速理解这些充满画面感的复杂指令,还能直接在本地环境中将代码转化为可见、可交互的网页成品。

从需求到产品,中间的「编译」过程被 AI 彻底抹平了。

再举一个更复杂的例子,是用 Three.js 和 WebGL 制作可交互的小票页面,通过 Verlet integration 和质点约束模拟纸张质感,期间,我可以拖拽小票任意位置,且纸面会自然弯曲并回弹。

此类需求已经不只是生成一段代码,而是把交互设计、图形编程、动画系统和浏览器运行效果放进同一个交付流程。

生产力集成则是另一块核心能力。

豆包办公任务模式整合飞书旗下的在线文档、表格和 PPT,可以独立生成文档、表格和演示文稿,也支持多轮修改和在线协作。

我让它读取本地论文《Attention Is All You Need.pdf》,生成 10 到 12 页中文手绘风 PPT,面向对 AI 有基础兴趣但不熟悉 Transformer 细节的人,用类比、图示和例子说明论文解决了什么问题、提出了什么方法、为什么重要,以及它对后来大模型发展的影响。

Skill 技能调用则让豆包处理更专业的流程。

技能相当于为特定场景封装工作方法、工具和流程。首批上线技能覆盖文档、表格、PPT、创意设计、浏览器操作、可视化讲解和金融分析等方向,用户也可以创建和安装自己的专属技能。

比如,我可以要求豆包查找苹果公司最新一季度财报,提取营收构成和研发投入比例,再调用金融分析技能生成投资摘要,并把财务数据转化为面向大学生的通俗网页。

定时任务把豆包从即时响应工具变成周期性工作助手。

用户可以设置固定时间或固定周期,让豆包定期整理资料、汇总信息、生成报告,或提醒处理待办事项。比如,我让它每隔一个小时搜集全球最有价值的 3 条 AI 行业新闻,并从「技术实质」「商业版图」「泡沫预警」三个维度做表格分析。

在具体使用和订阅层面,豆包也给出了相对清晰的分层方案。

对于免费用户而言,现有的日常功能和额度不会受到影响,仍可使用基础对话、联网搜索、图片问答、网页问答、附件问答,以及图片和视频生成、专家模式、AI PPT、AI 表格、深入研究、语音与视频通话、录音纪要等功能。

同时,免费用户也可以在一定额度内体验搭载豆包 2.1 Turbo 模型的办公任务模式。在此基础上,专业版提供更高的使用额度,并接入性能更强的豆包 2.1 Pro 模型。

具体来看,订阅分为三个档位:
1、标准套餐:连续包月 68 元,包括免费版的所有权益,接入 2.1 Pro 模型,办公任务、专家模式等功能为免费版 5 倍以上额度。

2、加强套餐:连续包月 200 元,标准套餐 4 倍额度。

3、高级套餐:连续包月 500 元,标准套餐 10 倍额度。

从定价看,68 元这个入门定价不算激进,基本卡在主流 AI 会员的水位线上,普通用户尝鲜的心理门槛不高。真正的算盘藏在后面两档:200 和 500 的价格,则承接更高频、更重度的使用需求。

豆包专业版真正想验证的,其实也不只是用户愿不愿意为 AI 付费。办公任务、AI PPT、专家模式这些能交付结果的能力,能不能撑得起用户持续续费的动力,才是更关键的那个问题。

此外,豆包还宣布将为大学生提供为期 6 个月的学生优惠,认证学生购买标准套餐可享连续包月 38 元的价格。针对视障人群对视频通话功能的需求,豆包也将提供相应的优惠方案。

我们如何为 AI 生产力付费

知名营销学者西奥多•莱维特有一个被反复引用的经典论断:人们买钻头,真正想要的并非钻头本身,而是墙上那个孔。放到今天的 AI 应用里,这句话依然适用。

过去两年多,豆包的用户心智主要来自 C 端。

聊天、搜索、图片理解、文档问答、视频生成,都是大众用户更容易感知的能力。免费、高频、低门槛,帮助这类产品快速获得规模。但进入付费阶段后,矛盾也随之出现:大众用户愿意高频使用 AI,未必愿意持续订阅 AI。

国内互联网用户被免费产品教育了太久。搜索免费,社交免费,短视频免费,网盘和基础办公软件也长期用免费版吸引用户。久而久之,用户形成了一种消费本能:

基础数字服务应该免费,付费通常只发生在少数场景,比如会员内容、游戏道具、网约车、外卖配送,或者能明确省钱、赚钱、节省时间的工具。

但正如生态学者 Hardin 在 1968 年提出的「公地悲剧」:公共草场人人都能免费使用,短期看每个放牧者都获益,长期看草场会被过度消耗,维护成本却无人承担。

单个产品用免费换增长,尚且是理性的商业选择;整个行业都用免费换增长,用户对数字服务的付费预期就会被不断压低。豆包专业版选择办公任务模式,正是在回应这个问题。

相比大众聊天场景,企业和专业用户的付费理由更清晰。普通用户用 AI 写几段文字,价值感不稳定;运营团队用 AI 生成数据简报、整理用户反馈,节省的是固定人力成本;

投研人员用 AI 读取财报、生成摘要和可视化网页,节省的是研究时间;市场或设计团队用 AI 生成 PPT、网页和创意素材,节省的是交付周期。

电影《点球成金》里,比利·比恩用数据指标重新评估球员价值,把球探口中的「感觉不错」,换算成胜场贡献和性价比,从而用有限的预算组建更有竞争力的阵容。

豆包把办公任务模式与飞书、文档、表格、PPT、浏览器、本地电脑、Skill 技能和定时任务放在同一个框架下,背后指向的是一个更完整的 AI 工作台。

目前产品还在完善阶段,后续值得期待的能力包括:面向科学研究场景的深度研究能力、支持用户添加和管理 Skill 的技能商店、手机远程操作电脑、电脑端 GUI 操作,以及与飞书更紧密的融合。

沿着这条路径看,豆包的目标已经不只是提升单次问答效率,而是把信息获取、内容生产、工作协同和设备操作逐步串联起来。

归根结底,面向大众的 AI 产品,关注规模、频次和传播效率;面向企业和专业人群的 AI 产品,关注任务价值、复购理由和交付稳定性。前者解决「有多少人用」,后者解决「为什么付费、为什么续费、为什么能进入预算」。

未来几年,AI 模型产品怎么找到能够变现的真实商业模式,会成为行业最重要的问题之一。模型厂商、办公软件、浏览器、云服务、企业协作平台,都会围绕这个问题重新组合。

而豆包专业版代表了豆包从大众 AI 应用向生产力服务延伸的一次转向:用免费能力维持大众入口,用专业版承接重度需求,用办公任务模式进入企业和专业用户的日常工作。

两端各取所需,各有所赢。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.6 正式发布,史上最强但被自己坑惨了

就在刚刚,GPT-5.6 系列正式发布,不过,它并没有直接全面开放,而是以「有限预览」的方式先行试水。

作为 OpenAI 最强的一代,GPT-5.6 一口气端出三款型号,名字起得颇有诗意:

  • Sol(太阳)是旗舰模型,也是 OpenAI 口中目前最强的模型;
  • Terra(地球/大地)是面向日常工作的平衡型模型,性能可以与 GPT-5.5 竞争,同时价格便宜一半;
  • Luna(月亮)主打速度和低成本,是 GPT-5.6 系列中最便宜的模型。

从这命名方式来看,奥特曼私底下没少学习 Anthropic 营销的精髓。而借着 GPT-5.6 的发布,OpenAI 也顺手把命名体系重新梳理了一遍:

数字表示代际,Sol、Terra、Luna 对应不同能力层级,便于区分智能水平、速度与成本。产品定位上,Sol 面向高难复杂任务,Terra 覆盖日常工作流,Luna 主打低成本调用。
换句话说,GPT-5.6 不只是一次能力升级,也是 OpenAI 对模型产品线的一次重新分层。

🔗 https://openai.com/index/previewing-gpt-5-6-sol/

GPT-5.6 深夜突袭,能力全系霸榜

作为 OpenAI 迄今最强模型。GPT-5.6 Sol 的能力展示,主要集中在编程、生物信息学和网络安全三个方向。

这三类场景有一个共同特征:

复杂、长链条、强依赖上下文。模型需要在任务中持续规划、推理、调用工具、修正错误,并不断推进流程。OpenAI 把这种能力称为 agentic capabilities——让模型更像一个能独立执行任务的 agent。

在编程场景中,GPT-5.6 Sol 已经不再停留在代码补全,而是深入到命令行环境中的复杂操作。

OpenAI 称,Sol 在 Terminal-Bench 2.1 上刷新了表现。Terminal-Bench 2.1 测试的是命令行工作流,任务要求模型具备规划、迭代和工具协调能力。

基准测试成绩显示,GPT-5.6 Sol Ultra 在 Terminal-Bench 2.1 上得分 91.9%,GPT-5.6 Sol 得分 88.8%。作为对照,GPT-5.5 为 88.0%,GPT-5.6 Terra 为 82.5%,GPT-5.6 Luna 为 84.3%。

横向对比其它模型,Claude Mythos 5 为 84.3%,Claude Fable 5 为 83.4%,Claude Opus 4.8 为 78.9%,Gemini 3.1 Pro Preview 为 70.7%。

Sol Ultra 的成绩,也对应 GPT-5.6 的核心功能。

一方面,max 级别的推理强度让模型可以投入更多时间进行深度推理;另一方面,新增的 Ultra 模式会调度多个子 Agent,把复杂任务拆分处理,再统一汇总结果。

在真实开发场景里,模型经常需要理解项目结构、读取文件、修改代码、运行命令、分析报错、继续修改。一个复杂任务通常无法靠一次回答完成。Ultra 模式的方向,是让多个子 Agent 分别处理不同环节,再把结果汇总起来,从而提高复杂任务的完成效率。

生物方向上,GPT-5.6 Sol 的提升体现在 GeneBench v1 上。这个评测主要面向长周期基因组学和定量生物分析任务。OpenAI 称,Sol 相比 GPT-5.5 取得了更强结果,而且使用的输出 tokens 更少。

这一点对科研场景尤为关键。生物信息学、基因组学和定量生物分析,经常需要模型持续分析数据、解释结果、选择方法、比较假设,并在多轮操作中保持上下文一致。模型能不能完成这类任务很重要,能不能用更低 tokens 成本完成长链条分析同样重要。

如果 Sol 能在更少输出 tokens 下取得更强结果,意味着它在专业科研工作流中有更好的成本效率。对实验室、企业研发团队和生物医药场景来说,tokens 消耗直接影响调用成本,也影响模型能否进入大规模工作流。

网络安全则是 GPT-5.6 Sol 最敏感的能力方向。

OpenAI 称,Sol 是其迄今最强的网络安全模型,能够推进长周期安全任务的性能和效率边界,包括漏洞研究和 exploitation 相关任务。

在 ExploitBench 上,GPT-5.6 Sol 的表现接近 Mythos Preview,但只使用了大约三分之一的输出 tokens。

同时,OpenAI 还提到 ExploitGym——一个由 UC Berkeley 联合多家前沿实验室打造的评测体系,用于衡量模型在安全任务中的能力。随着推理能力提升,Sol、Terra、Luna 在这一领域都有明显进步。

不过,OpenAI 对这部分表述明显踩了刹车。

官方强调,Sol 更擅长发现和修复漏洞,还不能稳定完成端到端攻击。在涉及 Chromium 和 Firefox 的评估中,Sol 可以识别 bug 和程序缺陷,也就是漏洞利用的基础组件,但在测试条件下没有自主生成可运行的完整攻击链。

基于这些结果,OpenAI 判断 GPT-5.6 Sol 尚未跨过 Preparedness Framework 中的网络安全关键风险阈值。

▲System Card 🔗:https://deploymentsafety.openai.com/gpt-5-6-preview/introduction

这种踩刹车的判断显然是为了避免重走「Mythos」的老路。

一方面,OpenAI 要证明 Sol 在网络安全任务上确实强了很多;另一方面,它也要说明 Sol 还没有达到必须极端限制的风险级别。更讽刺的是,这种压力很大程度上来自 OpenAI 自己参与塑造的 AI 行业炒作叙事。

与此同时,OpenAI 也承认,基准测试无法覆盖所有现实用法。没有任何评测可以代表所有产品配置、多步骤攻击和真实工作流。模型可能被接入其他工具,也可能被放进更复杂的攻击链条里。正是这种不确定性,让 GPT-5.6 的发布方式变得格外谨慎。

性能最强,但戏份却给了 AI 安全

GPT-5.6 的发布说明中,安全罕见地占据了较大篇幅。

OpenAI 为 Sol、Terra、Luna 配置了分级防护体系,能力越强,防护越严,目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。

模型层面,系统被训练为拒绝违规网络安全请求,即便用户尝试伪装或绕过。生成阶段引入实时分类器,对高风险内容进行检测与拦截,必要时交由更强模型复核。账号层面则结合跨对话行为与风险信号,识别持续性滥用。

这套机制被称为分层安全栈,涵盖模型拒答、实时检测、账号审查、差异化访问与持续测试。多层协同用于应对复杂滥用,同时尽量减少对正常工作的干扰。
面向企业客户,OpenAI 还提出了隐私保护检测、自主安全控制以及风险分级访问等方案,试图在安全与数据保护之间找到平衡点。

为了避免重蹈覆辙,OpenAI 在自动化红队测试上投入了超过 70 万 A100 等效 GPU 小时,重点寻找通用 jailbreak(越狱),并辅以专家人工测试。OpenAI 还建立快速响应流程,对新漏洞进行复现、评估与修复,并纳入持续评测体系。

可用性方面,GPT-5.6 目前仍处于有限预览阶段。

OpenAI 表示,模型将先通过 API 和 Codex 向一部分可信合作伙伴开放,随后再逐步扩展到 ChatGPT、Codex 和更广泛的 API 用户。

同时,OpenAI 也强调,自己相信前沿模型应该尽可能广泛地开放,并计划在未来几周内,让 GPT-5.6 Sol、Terra 和 Luna 进入更普遍的可用状态。

▲ 看起来评价不太妙

价格体系也同步公布:

按每百万 tokens 计费,Sol 输入 5 美元、输出 30 美元;Terra 输入 2.5 美元、输出 15 美元;Luna 输入 1 美元、输出 6 美元。

同时,GPT-5.6 引入了更可预测的 prompt caching 机制,支持显式 cache breakpoints,并提供至少 30 分钟缓存生命周期。缓存写入按未缓存输入价格的 1.25 倍计费,读取则享受 90% 折扣。

当然,想要用上还需要一些时日,OpenAI 宣布 GPT-5.6 Sol 将在 7 月登陆 Cerebras,最高速度可达每秒 750 tokens。这个版本初期同样只面向部分客户开放,后续会随着容量扩展逐步放开。

换句话说,GPT-5.6 的「有限预览」并不只是产品灰度发布,更是一套安全验证流程。OpenAI 需要在能力、风险与开放之间,找到一个可控的平衡点。

前沿模型发布节奏,进入新周期

两周前,Anthropic 停用了其最强模型之一 Fable 5,因为美国政府要求该公司限制美国境内外外国公民使用相关模型,理由是国家安全。
而在 GPT-5.6 的发布流程中,第一批使用用户同样不完全由 OpenAI 自己决定。

OpenAI 在官方博客中披露,在发布前已向美国政府展示 GPT-5.6 的能力与发布计划。根据美国政府要求,模型将以有限预览形式上线,仅向少数可信合作伙伴开放,并且这些合作伙伴的信息已与政府共享。

《华盛顿邮报》的报道提到,美国联邦政府将审核哪些公司可以访问 OpenAI 的最新技术。且目前只有获得美国政府批准的公司可以访问新模型,个人用户没有申请通道。

彭博社则报道称,GPT-5.6 首批开放对象约为 20 家合作伙伴,其中一个入口可能是亚马逊的 Bedrock 平台。

对此,OpenAI 的态度显然是有些模棱两可。OpenAI 在博客中表示,不认为美国政府参与模型访问流程应当成为长期默认机制,因为这会让最好的工具远离用户、开发者、企业、网络防御者和全球合作伙伴。

但现实是,OpenAI 仍选择接受这一安排,理由是希望争取更广泛开放,同时与美国政府共同制定一套可复制的模型发布流程。

这一变化背后,是前沿 AI 模型逐渐被纳入国家安全框架。

过去,新模型发布主要是公司产品节奏问题。现在,一旦模型在编程、网络安全、生物和代理式工作流上跨过新的能力区间,发布节奏就可能被纳入安全和出口控制讨论。

对 OpenAI 来说,GPT-5.6 既是一次旗舰模型预览,也是一次政策试探。OpenAI 需要证明 Sol 足够强,也需要证明安全体系足够严密,还要在美国政府审查和商业开放之间找到可执行路径。

如此复杂的发布流程,某种程度上也「剧透」了前沿 AI 未来的魔幻走向:当模型能力逼近关键阈值,使用资格与使用方式,将成为比性能更为关注的事项。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeeK 突然发布 DSpark,让 AI 的回答不再「挤牙膏」

最近忙着大规模招兵买马的 DeepSeek,也始终没有忘记开源这条主线。

今天,DeepSeek 与北京大学团队联合发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,提出了一套新的大模型推理加速框架 DSpark。

▲ 技术报告 🔗 https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

论文披露,DSpark 已经进入 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务系统,并替代此前的 MTP-1 方案。

在线上真实用户流量中,在系统总吞吐水平相同的情况下,DSpark 将 DeepSeek-V4-Flash 的单用户生成速度提升了 60% 至 85%,将 DeepSeek-V4-Pro 的单用户生成速度提升了 57% 至 78%。

速度飙成这样,DeepSeek 究竟给自家的推理引擎喂了什么灵丹妙药?当然,本文难免有些枯燥,感兴趣的朋友不妨耐心阅读。

天下苦 AI 「蹦字」久矣

为什么每次等到大模型的回复总感觉在「挤牙膏」?原因并不复杂。

主流语言模型生成文本时,基本采用 autoregressive(自回归)方式。模型每生成一个新 token,都需要做一次以前文为条件的前向计算,因此输出越长,解码步骤越多,延迟也越容易累积。

对于实时聊天、多轮 Agent workflow(智能体工作流)、代码助手这类高交互场景,生成速度会直接影响用户体验,也会影响 GPU 利用率。

speculative decoding(推测解码)就是为了解决这个问题。

▲ 为方便阅读,图片由 AI 生成,仅供参考

它的思路像是让一个「小模型」先写草稿,再让「大模型」快速审稿。系统先用一个轻量级 draft model(草稿模型)生成一串候选 token,再由真正负责输出质量的 target model(目标模型)一次性验证这些候选 token。

通过验证的 token 会被接受;一旦某个位置被拒绝,后面的候选 token 全部作废,target model 再生成一个修正 token。由于 verification(验证)阶段可以并行完成,speculative decoding 可以在不改变 target model 输出分布的前提下提高生成速度。

更直观地说,它想让大模型一次前向计算确认更多 token,而不是每次只确认一个。

speculative decoding 已经是大模型推理加速的重要方向,但已有方案仍有明显限制。

第一类方案是 autoregressive draft model(自回归草稿模型)。

它像正常语言模型一样,一个 token 接一个 token 地生成候选内容。优点是前后关系更自然,候选质量较高;缺点也明显:draft model 自己写草稿时也要一步一步来,候选 token 越多,draft 阶段越慢。

第二类方案是 parallel draft model(并行草稿模型)。

它可以一次性生成多个候选 token,速度很快,也更适合生成较长的 candidate block(候选块)。问题在于,candidate block 内部的 token 之间缺少足够的依赖关系。

▲ 为方便阅读,图片由 AI 生成,仅供参考

论文里举了一个很直观的例子。模型面对某个上下文时,可能同时存在 「of course」 和 「no problem」 两种合理续写。parallel draft model 因为没有真正按顺序生成,很容易把两条续写路径混在一起,生成 「of problem」 或 「no course」 这种前后不一致的组合。

结果就是,parallel draft model 开头几个 token 往往还不错,但越往后,候选 token 被 target model 接受的概率下降越快。论文把这种现象称为 suffix decay(后缀衰减)。

更现实的问题发生在线上服务里。

parallel draft model 很容易一次生成一长串候选 token,但在真实高并发服务中,把这些 token 全部送给 target model 验证,未必划算。

数学、代码这类结构化任务,答案路径相对明确,候选 token 更容易被接受。开放式聊天不确定性更高,后面的 token 更容易被拒绝。

系统空闲时,多验证几个 token 影响不大;系统繁忙时,验证那些大概率会被拒绝的 token,会占用 batch capacity(批处理容量),影响其他用户请求。

换句话说,推测解码的问题已经不只在于能不能一次生成更多 token,还在于哪些 token 值得交给 target model 验证。

DSpark 是怎么「既要又要」的

DSpark 的思路可以概括为两件事:草稿要写得更像样,审稿要更会挑重点。

在生成侧,DSpark 采用 semi-autoregressive architecture(半自回归架构)。

它保留 parallel draft model 的主干,让大部分计算仍然一次完成;同时在输出端加入一个轻量级顺序模块,让后面的 token 能参考前面已经采样出来的 token。

可以把它理解成:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

论文默认使用 Markov head,也测试了 RNN head。Markov head 主要建模相邻 token 之间的转移关系,计算成本低,部署更方便;RNN head 能保留更长的块内历史,但收益有限,复杂度更高。

因此,论文把 Markov head 作为默认方案。

这种架构的目标很明确:保留 parallel draft model 的速度,同时补上部分 autoregressive draft model 的前后连贯性。

在验证侧,DSpark 引入 confidence-scheduled verification(基于置信度调度的验证)。

系统会给每个候选位置预测一个 confidence score(置信度分数)。这个分数表示:在前面的 token 都已经被 target model 接受的情况下,当前位置继续被接受的概率有多高。

随后,hardware-aware prefix scheduler(硬件感知前缀调度器)会根据三个因素动态决定每个请求该验证多少 token:当前系统负载、每个候选位置的置信度、引擎在不同 batch size(批大小)下的 throughput curve(吞吐曲线)。

因此,DSpark 不会机械地验证固定长度的 candidate block。

系统资源宽松时,它可以验证更长的 prefix(前缀),让一次 target model 前向计算尽量产出更多有效 token。系统负载升高时,它会缩短低置信度请求的验证长度,减少对 target model batch capacity 的占用。

这也是 DSpark 相比传统推测解码更接近真实生产环境的地方:它不只追求单次生成更多候选 token,也会根据系统负载调整验证预算。

大模型的尽头,是复杂的系统工程问题

离线实验部分,论文在 Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Gemma4-12B 四个 target model 上测试 DSpark,并与两类代表方案对比:autoregressive draft model Eagle3,以及 parallel draft model DFlash。

评测覆盖数学推理、代码生成和日常聊天三个场景,包含 GSM8K、MATH500、AIME25、MBPP、HumanEval、Live-CodeBench、MT-Bench、Alpaca 和 Arena-Hard 等 benchmark(基准测试)。

结果显示,在 Qwen3-4B、Qwen3-8B 和 Qwen3-14B 上,DSpark 相比 Eagle3 的 macro-average accepted length(宏平均接受长度)分别提升 30.9%、26.7% 和 30.0%;相比 DFlash 分别提升 16.3%、18.4% 和 18.3%。在 Gemma4-12B 上,DSpark 也保持领先。

accepted length 可以理解为每一轮 speculative decoding 中,平均有多少 token 能被 target model 接受。这个数字越高,说明 draft model 写出的草稿越能被大模型认可,推理加速空间也越大。

论文还观察到,不同任务之间差异很大。以 Qwen3-4B 为例,DSpark 在数学任务上的平均 accepted length 为 5.57,在代码任务上为 5.12,在聊天任务上为 3.49。

数学和代码更结构化,续写路径更稳定;聊天更开放,模型可能有很多种合理回答方式。因此,同样长度的候选 token,在不同任务里的价值并不一样。固定 verification length(验证长度)会浪费一部分计算资源。

更详细的实验解释了 DSpark 为什么行之有效。

DFlash 这类 parallel draft model 在第一个候选 token 上表现很强,因为它可以用更深的网络一次性生成候选。但从第二个 token 往后,它缺少块内依赖,接受率下降更明显。

Eagle3 这类 autoregressive draft model 在后段一致性上更好,因为它确实按顺序生成。但为了控制 draft 阶段延迟,它通常不能做得太深,因此第一个 token 的预测能力受限。

DSpark 介于两者之间。第一个 token 继承 parallel draft model 的强预测能力,后面的 token 通过 sequential module 减少 suffix decay。

结构实验也支持这个判断。论文显示,2 层 DSpark 已经超过 5 层 DFlash,说明轻量级顺序建模比单纯增加并行层数更有效。

随着 proposal length(候选长度)从 4 增加到 16,DSpark 相对 DFlash 的优势继续扩大。在最长设置下,DSpark 在数学、代码和聊天任务上分别领先 DFlash 30%、26% 和 22%。

延迟方面,sequential module 带来的额外开销很小。在 batch size 128 的测试中,相比 DFlash,DSpark 的单轮延迟只增加 0.2% 至 1.3%,但 accepted length 最多提升 30%。

置信度模块也经过了单独验证。论文在 Qwen3-4B 上做了 confidence threshold sweep(置信度阈值扫描),也就是不断提高置信度门槛,观察系统会保留哪些 token。

结果不言而喻:门槛越高,系统过滤掉的低价值候选 token 越多,整体 acceptance rate(接受率)越高。聊天任务变化最明显,acceptance rate 从 45.7% 提升到 95.7%;数学任务从 76.9% 提升到 92.5%;代码任务从 67.6% 提升到 92.0%。

线上部署部分更关键。

DeepSeek 在 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的 production engine(生产引擎)中部署 DSpark,最大 draft 长度设为 5,对比对象是此前的 MTP-1 生产基线。

MTP-1 只做单 token 预测,加速空间有限,但在高并发下比较安全。原因在于,静态 multi-token draft(多 token 草稿)虽然看起来一次生成更多 token,但如果很多 token 最后被拒绝,反而会浪费 target model 的验证资源,拖累系统总吞吐。

DSpark 的意义在于,它让 multi-token draft 在真实线上流量中变得可控。

面对中等并发时,DSpark 会把验证预算从 MTP-1 的静态 2 个 token 扩展到大约 4 到 6 个 token,让每次前向计算产生更多有效输出。

当并发继续升高、target model 接近饱和时,DSpark 会自动缩短验证长度,减少低置信度 token 对 batch capacity 的占用。

在线上测试中,V4-Flash 在 80 token/s/user(每用户每秒 token 数)的服务目标下,DSpark 相比 MTP-1 将系统总吞吐提升 51%。在

更严格的 120 token/s/user 目标下,MTP-1 已经接近可承载边界,DSpark 给出的名义吞吐优势达到 661%。

这个 661% 不应理解成所有常规场景都能获得 6 倍以上提升。更准确的理解是:在高交互、强 SLA 约束下,MTP-1 已经很难继续维持服务能力,而 DSpark 把原本难以达到的性能区间打开了。

V4-Pro 的趋势类似。在 35 token/s/user 的目标下,DSpark 总吞吐提升 52%;在 50 token/s/user 的严格目标下,名义吞吐优势达到 406%。在相同系统容量下,DSpark 让 V4-Pro 的单用户生成速度提升 57% 至 78%。

故事的最后,自然是熟悉的配方、熟悉的味道。

DeepSeek 还宣布开放 DSpark 的模型权重,包括 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 对应的 DSpark checkpoints(模型检查点)。同时,DeepSeek 开源了 DeepSpec,一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

🔗 https://github.com/deepseek-ai/DeepSpec

简言之,大模型推理加速已经不只是模型结构问题,也越来越是系统调度问题。

单纯让 draft model 一次生成更多 token,并不等于服务一定更快。候选 Token 的质量、通过率、验证长度、系统负载、吞吐目标……每一个变量都在极其微妙地互相牵扯。

大模型竞争正在进入更精细的阶段。训练出更强的模型,仍然是牌桌上的硬实力;但能否把模型以更快、更便宜、更稳定的方式送到真实用户面前,同样会决定一款 AI 产品的上限。

DeepSeek 选择把这套生产环境里的加速经验开源,相当于把一部分真正能提高推理效率、降低服务成本的核心方法,无私分享给全行业。

只能说,做人不要太 OpenAI,多学学 DeepSeek。

作者;莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌