阅读视图

发现新文章，点击刷新页面。

林俊旸离开的48小时：一条朋友圈、一个小模型、和一个万亿美金的假设

爱范儿

Selina

2026年3月5日 19:47

「按照原来安排继续干」

离职的消息最沸沸扬扬的时候，在 Qwen 团队的核心负责人林俊旸在朋友圈发了两句话：

「Qwen 的兄弟们，按照原来安排继续干，没问题的。」

「安排好的」？这是什么？

林俊旸离开前夕，Qwen 团队刚刚发布了一件被全球开发者社区刷屏的东西。Qwen 3.5 Small 系列，参数量从 0.8B 到 9B，专为端侧设备设计，可以在普通笔记本电脑上运行。

不是一个更大的模型——而是一组更小的模型。要知道，过去三年里，AI 行业最强大的共识是「越大越好」。OpenAI 的 Sam Altman 四处筹措万亿美金建设算力基础设施，各家实验室军备竞赛般地烧钱烧卡，底层假设只有一个：模型越大，就越聪明。

这套逻辑被称为 Scaling Law，它不仅仅是一条技术规律，更像一种信仰——整个行业的融资叙事、人才分配、硬件投资都建立在这个前提之上。

但 Qwen 3.5 Small 的发布，和林俊旸的离开，同时发生。一个技术信号和一个人事信号，交织出一个更复杂的故事：小模型到底在发生什么？它为什么重要？

当 9B 打赢 120B

即便不是开发者，也可以跑分上一窥 Qwen 3.5 的战绩：

Qwen 3.5 Small 系列中，9B 参数的模型在多项基准测试中全面超越了 OpenAI 的 gpt-oss-120B——一个参数量是它 13 倍的模型。

这些不是边缘指标上的微弱优势，而是在核心推理任务上的系统性领先。一个可以装进笔记本的模型，在数学、科学、视觉推理上全面击败了一个需要数据中心级硬件才能运行的对手。

当然了，摸着良心说，gpt-oss-120B 不是 OpenAI 的旗舰产品，而是其开放权重的中端线。而且它采用 MoE 架构，标称 120B 参数，但每个 token 实际只激活约 5.1B 参数——所以参数量的对比，在工程层面并不像字面数字那么悬殊。

但这不影响趋势本身的成立。因为 Qwen 3.5 Small 并不是孤例。

同一时期，Nature 报道了一个微型递归模型（TRM），在 ARC-AGI 逻辑测试中击败了多个顶级大语言模型。Google Research 在 2026 年初发表论文，证明小模型在意图提取任务上的表现优于显著更大的模型。PNAS 上的一项研究更直接——模型规模与说服力之间呈急剧递减收益，大到一定程度之后，更大几乎不带来更好。

《华尔街日报》早在 2025 年 10 月就已经敢说，「大模型拿走了所有的关注，但小模型才真正干活的那个。」

这些信号共同指向一个判断：以小博大不是偶发事件，而是大势所趋。

那么问题来了——小模型凭什么？

才不是大模型的替身文学

直觉上，人们容易把小模型理解为「大模型的平替」，同样的方法，只是规模小一些，性能差一点，胜在便宜。

但事实恰恰相反：今天的小模型之所以能以小博大，是因为它们在技术方法论上，走了一条和大模型完全不同的路。

第一，数据质量压倒数据规模。大模型的路线是「尽可能多地吞入互联网数据」，而小模型路线的代表——比如微软的 Phi-4 系列——走的是精筛路线：用高质量的合成数据加上严格筛选的公开数据集，让模型在更少的数据上学到更精确的能力。这背后的逻辑转变是根本性的：不是「喂得越多越聪明」，而是「吃得精才学得好」。

第二，原生多模态设计取代了适配器拼接。传统做法是先训练一个纯文本大模型，再通过适配器模块接入图像、视频、音频等能力。Qwen 3.5 采用了完全不同的架构：将视觉 token 和文本 token 在同一个潜空间中联合训练，从底层就是多模态的。这意味着它是一个天生就同时理解文字和图像的模型。这种架构在小参数量下反而更有优势，因为不需要额外的适配器开销。

第三，量化技术带来的不只是压缩。 4-bit 量化常常被理解为「把模型压小 4 倍以节省存储」，但它真正的意义在于减少 4 倍的内存吞吐量。在端侧设备上，瓶颈往往不是存储空间，而是内存带宽，也就是数据从内存搬运到处理器的速度。量化技术让小模型在带宽受限的手机和笔记本上，获得了决定性的速度优势。

这些方法论上的突破已经开始转化为产品。3 月第一周，苹果发布了 M5 全线芯片，每颗 GPU 核心内置 Neural Accelerator，AI 性能较 M1 提升最高 8 倍。与此同时，苹果研究院公开了 Ferret-UI Lite——一个仅 3B 参数的端侧 GUI 代理，可以本地操控手机和桌面应用。加上 Apple Intelligence 约 3B 参数的端侧基础模型，苹果正在将「on-device AI」从概念推进到芯片、模型、交互三位一体的产品形态。

微软的 Phi-4 multimodal 也开始尝试商用上线 Azure，3.8B 参数，接受文本、音频和图像输入。开源社区的反馈更加直接——Reddit 上的开发者实测后认为 Qwen 3.5 的 4B 版本是「甜点级」模型：跨任务稳定、无崩溃、远快于 9B 版本。

技术路线已经被验证，产品化拐点已经到来，天边泛起鱼肚白，曙光乍现。

而就在此刻，林俊旸选择离开。

最会做小模型的公司，最没有动力让它成功

Qwen 3.5 Small 在发布后获得了开发者社区的广泛认可，开源社区的评测结果甚至超出了官方发布时的宣传。

但是，他所在的公司是阿里巴巴，阿里巴巴的商业引擎是阿里云。

大模型和云计算之间存在天然的正向循环：模型越大，推理所需的算力越多，客户就越需要购买云计算服务。对阿里云来说，大模型是完美的商业叙事——它同时推高了客户的算力需求和对云平台的依赖。

而小模型的逻辑恰恰相反。小模型的核心价值在于可以在端侧设备上运行——手机、笔记本、边缘服务器。这意味着客户可以绕开云，在本地完成推理。对用户来说，这意味着更低的成本、更好的隐私和更低的延迟。但对阿里云来说，这意味着收入被侵蚀。

Qwen 3.5 Small 做得越好，对阿里云的商业叙事就越尴尬。

这不是阿里一家的问题。放眼中国的科技巨头，几乎所有 AI 领先的公司都面临同样的结构性矛盾。百度和腾讯的处境与阿里类似——商业模式建立在云服务和平台抽成之上，小模型的端侧化趋势直接削弱了它们的价值主张。

字节跳动的豆包手机是一个有趣的例外，但字节做硬件才刚起步，远没有建立起「芯片+操作系统+模型」的垂直整合能力。

华为理论上最有条件，既有芯片，又有终端设备。但在制裁的影响下，它的算力上限本身就逼着它走小模型路线，这更多是被动的求生策略，而非主动的战略选择。至于小米、OPPO、vivo，它们有设备，却不是 AI-first 的公司，缺乏自研模型的基因和持续投入的动力。

全球范围内，真正打通端侧 AI 全栈的公司，可能只有一家：苹果。芯片、设备、操作系统、自研模型，全部自有。苹果的动力来自复合型的商业模式，这驱动它把一切计算尽可能留在设备上，因为每一次端侧 AI 体验的提升，都会转化为硬件的溢价和生态的黏性。

不过，这里需要诚实地处理一个可能的反驳：云厂商难道不能走「端云协同」的路线吗？用小模型做端侧入口，复杂的推理任务回调云端处理，两边都不耽误。

理论上可以。但这恰恰说明了问题——在端云协同的框架下，小模型对云厂商来说是「引流工具」，而不是「独立产品」。云厂商没有动力把小模型做到好到不需要云。

还有一个绕不开的反例：微软也是云厂商，但它在认真做 Phi-4 系列小模型，而且已经商用上线。这是否说明「左右互搏」的论点站不住脚？

非也。微软之所以能两条腿走路，是因为它同时拥有 Windows 和 Surface 的硬件生态、Azure 的云平台以及 Copilot 的端侧产品线。做 Phi-4 对微软来说是防御性布局：如果端侧 AI 的趋势不可逆转，为了大局，宁可壮士断腕，自折一臂，也不能把端侧市场拱手让给开源社区和苹果。

但阿里没有这个选项——没有消费级操作系统、没有主流终端硬件、没有面向个人用户的 AI 产品矩阵。Qwen 做得再好，也没有自家的「最后一公里」可以落地。

动力不同，产品的天花板就不同。

这就形成了一个令人不安的画面：小模型从实验室走向产品的真正瓶颈，不是技术能力，而是供需错位；最擅长做小模型的公司（云厂商），最没有动力让它真正成功；最需要小模型的公司（设备厂商），又缺乏独立研发的能力。

「没问题的」

回到林俊旸的那条朋友圈，「继续按照安排好的干，没问题的」。

也许技术路线确实没有问题，一切都在朝着正确的方向走。但在一家以云为重的公司里，就算做出世界级的小模型，团队的处境注定不会舒适。

这不是对阿里的批评——任何一家以云收入为生命线的公司，面对一项可能侵蚀自身收入的技术路线，都会陷入同样的两难。这是一个结构性矛盾，不是个人或管理层的选择问题。

比人事更值得关注的，是 Scaling Law 本身正在发生的变化。

过去三年，「越大越好」不仅仅是一条技术规律，它是整个 AI 行业的信条。融资叙事围绕它建立——投资人相信更大的模型意味着更强的能力，所以万亿美金涌向算力基础设施。人才分配围绕它运转——最顶尖的研究者被吸引到训练最大模型的团队。硬件投资围绕它定价——英伟达的估值建立在一个前提之上：对算力的需求会永远增长。

现在，这个前提正在松动。MIT 的研究估计，效率提升将使中等硬件上的模型在 5 到 10 年内逐步追平最大最贵的模型。芝加哥大学的研究表示，数据质量正在取代数据规模成为核心竞争维度。

产品化的方向不再只有云端，而是同时向端侧扩散。Scaling Law 正在从一条单调递增的曲线，变成一张需要在多个维度上寻找最优解的地图。

不再是「越大越好」，而是「在对的地方，用对的大小」。

林俊旸大概比大多数人更早地感受到了这个变化。他用 Qwen 3.5 Small 证明了一件事：在对的方法论下，9B 参数可以击败 120B。但他同时也撞上了另一堵墙——技术上的正确，不等于商业上的可行，更不等于组织上的舒适。

他说，没问题的。确实，技术路线已经铺好了，而剩下的问题不在实验室里，而在实验室外面。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

林俊旸离职后首发长文：反思千问得失，预判 AI 下半场需要「智能体思维」

爱范儿

李超凡

2026年3月27日 15:00

带队发布 Qwen 3.5 小模型系列、获马斯克公开点赞，20 小时后在社交媒体宣告离职。林俊旸离开阿里的方式，本身就是 2026 年 AI 行业最戏剧性的一幕。

32 岁，阿里最年轻的 P10，一手将千问做到全球下载量超 10 亿次、衍生模型超 20 万款，成为全球开源模型的新王。他的离开源于一次组织架构调整的分歧：

阿里希望将 Qwen 团队按预训练、后训练、视觉、语音等维度水平拆分，与通义实验室其他团队合并；林俊旸则坚信预训练、后训练乃至基础设施团队应该更紧密地垂直整合，而非割裂。这不只是管理风格之争，更是对「怎样才能训出最好的模型」这个根本问题的路线分歧。

离开近一个月后，林俊旸发出了这篇长文。他没有回应任何人事风波，直接亮出了自己对 AI 下一阶段的判断：我们正在从「训练模型」的时代，进入「训练智能体」的时代。

这篇文章之所以值得逐字读完，不仅因为写它的人在过去两年亲手操刀了 Qwen 全系列的后训练，更因为林俊旸在文中罕见地复盘了 Qwen3 在「混合思考模式」上的得与失。

以下为 APPSO 对林俊旸的编译：

原文 https://x.com/JustinLin610/status/2037116325210829168

从「推理式思考」到「智能体式思考」

过去两年，彻底改变了我们衡量 AI 模型的方式。

OpenAI 的 o1 证明了一件事：「思考」可以是模型的核心能力，可以专门训练出来、直接交到用户手里。DeepSeek-R1 紧随其后，证明这种「推理式后训练」并非大厂专利，可以在原始实验室之外复现和扩展。用大白话说：o1 是一个被教会了「回答之前先想想」的模型，R1 则是一个开源版的同类选手，跟 o1 打得有来有回。

那个阶段很重要。但 2025 年上半年的行业主旋律，说到底还是在围绕一件事打转：怎么让模型「想」得更多。让它在推理阶段烧更多算力，用更强的奖励信号训练它，暴露或控制那些额外的「思考过程」。

现在的问题是：然后呢？

我相信答案是智能体式思考。为了行动而思考，一边跟真实环境交互，一边根据世界的反馈不断修正计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们一个朴素的道理：想在大模型上把强化学习跑起来，你得有靠谱的评分标准。

什么叫靠谱？就是答案能判对错、结果能验证、反馈信号足够清晰。数学题有标准答案，代码能跑测试，逻辑推理能验证步骤。这些领域之所以成了强化学习的主战场，就是因为在这里，模型收到的奖励信号远比「让人类标注员觉得这个回答还不错」强得多。换句话说，强化学习终于能优化正确性，终于不用只追求看着像那么回事了。

然后，基础设施的重要性一下子凸显出来了。

一旦你开始训练模型进行更长的推理链条，强化学习就不再是在监督微调上面加个小配件那么简单了，它变成了一个重工业级的系统工程。你需要大规模的模拟推演（rollout）、高吞吐量的答案验证、稳定的策略迭代、高效的采样流程。推理模型的诞生，表面看是算法突破，底下看是基础设施的胜利。

OpenAI 把 o1 定义为用强化学习训练的推理产品线；DeepSeek R1 接棒验证了同一方向，同时也展示了推理式强化学习对底层算法和基础设施的要求有多高。

APPSO 划重点： 第一次大转折发生了。行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。模型变强靠的不再是吃更多数据，靠的是在训练后阶段学会「怎么想」。

2. 真正的难题从来不只是「融合思考和指令模式」

2025 年初，我们 Qwen 团队心里有一张很大的蓝图。

理想中的系统长这样：一个模型同时搞定「思考」和「执行」两种模式。你可以手动调节它思考的深度，轻度、中度、深度，就像调空调温度一样。更理想的情况是，模型自己就能判断：这道题简单，直接答；这道题有点难，多想想；这道题极难，调动全部算力来啃。

方向是对的。Qwen3 是当时最清晰的公开尝试之一。它引入了「混合思考模式」，一个模型家族里同时支持「想了再答」和「直接答」两种行为，还描述了一条四阶段后训练流水线，其中明确包含了在长链推理冷启动和推理强化学习之后的「思考模式融合」步骤。

但融合这件事，说起来一句话，做起来要人命。

难在哪？难在数据。

很多人一听「融合思考和指令模式」，脑子里想的都是模型层面的事：一个模型文件能不能同时跑两种模式？一套对话模板能不能在两种风格之间切换？一个推理服务能不能暴露正确的开关？这些确实要解决，但都不是最深的坑。

最深的坑是：两种模式想要的东西，从根儿上就不一样。

你想想，一个好的「指令模型」该长什么样？干脆、简洁、格式规范、响应快。企业用户拿它来批量改写文本、打标签、做模板化客服、结构化数据提取，这些场景要的是效率和稳定，不需要深思熟虑。

一个好的「思考模型」呢？恰恰相反。它该在难题上多花时间、维持清晰的推理中间步骤、探索不同的解题路径、保留足够的「思考余量」来确保最终答案的正确性。

这两种性格天然打架。如果融合的训练数据没有精心设计，出来的模型往往两头不讨好：思考的时候啰嗦、犹豫、不够果断；执行指令的时候又不够利落、不够稳定、比客户真正需要的版本更贵更慢。

说实话，我们在平衡融合与数据质量的过程中，没有把所有事情都做对。

在不断修正的过程中，我们也仔细观察了用户到底怎么用这两种模式。结论是明确的：这两种行为画像确实在相互拉扯。

现实很诚实。2025 年晚些时候，在 Qwen3 最初的混合架构之后，我们的 2507 版本还是发布了独立的 Instruct 和 Thinking 版本，包括分开的 30B 和 235B 变体。大量商业客户根本不需要思考模式，他们要的就是高吞吐、低成本、高度可控的指令行为来跑批量任务。对这些客户来说，融合不是福音，是多余的成本。拆开来做，反而让两条线的团队都能更专注地解决各自的问题。

其他实验室走了相反的路：

Anthropic 公开押注集成式路线。Claude 3.7 Sonnet 是一个混合推理模型，用户可以选择普通回复或扩展思考，API 还能设定「思考预算」。Anthropic 直接放话：推理应该是模型的集成能力，不该单独拎出来做一个独立模型。

GLM-4.5 同样定位混合推理，把推理、编程和智能体能力统一到一个模型里。

DeepSeek V3.1 后来也做了类似的事，推出了「Think & Non-Think」混合推理方案。

那么问题来了：谁是对的？

答案不在「融合」还是「分离」这个二选一本身，在于融合是否有机。如果思考模式和指令模式只是尴尬地挤在同一个模型里，像两个性格迥异的人被硬塞进一件衣服，用户体验不会好。

真正成功的融合，需要一道平滑的光谱：模型能自如地在不同推理力度之间切换，最好还能自己判断该用多大力气。GPT 风格的 effort control（推理力度控制）指向了这个方向，这是一个关于「花多少算力来想」的连续策略，不是一个「想 / 不想」的二元开关。

APPSO 划重点： 林俊旸罕见地直言 Qwen3 在融合上「没做到完全正确」。核心矛盾其实很好理解：一个追求快准狠的执行者，和一个追求深思熟虑的思考者，硬融到一起，很容易两头都做成半吊子。

3. 为什么 Anthropic 的方向是一种有益的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法，是一种值得注意的克制。

他们没有大谈模型有多能「想」，把重点放在了：集成推理、用户可控的思考预算、真实世界任务、编程质量，以及后来的关键一步，让模型在思考的过程中就能动手用工具。Claude 3.7 是带可控预算的混合推理模型；Claude 4 更进一步，推理过程和工具使用可以交错进行，边想边干。与此同时，Anthropic 把编程、长时间运行的任务和智能体工作流摆到了最优先的位置。

这里面有一个深刻的洞察：

推理链更长，不等于模型更聪明。很多时候恰恰相反。一个模型如果对所有问题都用同样冗长的方式来「推理」，说明它根本分不清轻重缓急。它可能正在失败于三件事：该优先处理什么（优先级判断）、该压缩掉什么（信息浓缩）、该在什么时候停止想而开始做（行动决策）。

Anthropic 的做法暗示了一种更有纪律的观点：思考应该为具体的工作目标服务。如果你要做的是编程，那思考就该帮你导航代码库、规划架构、拆解问题、恢复报错、编排工具调用。如果你要做的是智能体工作流，那思考就该帮你在漫长的执行过程中保持质量，而不是产出一堆令人印象深刻但没有实际行动力的中间长文。

这种「思考必须服务于行动」的理念，指向了一个更宏大的命题：

我们正在从训练模型的时代，进入训练智能体的时代。

这句话我们在 Qwen3 的博客里也明确写过。智能体是什么？一个能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长时间跨度上持续运作的系统。一句话概括它的核心：与真实世界的闭环交互。

APPSO 划重点：长不等于强。Anthropic 的实践提供了一个重要的纠偏信号。思考的价值在于有没有真正服务于最终的行动目标，不在于产出了多少字的推理过程。这是从「炫技式推理」到「实用型思考」的转向。

4.「智能体式思考」到底意味着什么

说了这么多铺垫，现在进入正题。

智能体式思考和推理式思考，优化目标完全不同。

打个比方：推理式思考就像闭卷考试，评判标准是你交卷那一刻答案对不对。模型能不能解出定理、写出证明、产出正确代码、通过基准测试。想得再天花乱坠，最终只看结果。

智能体式思考更像是在真实世界里做一个项目。评判标准不是某一刻的答案，是你能不能在跟环境不断互动的过程中持续推进、持续解决问题。

核心问题变了。

不再是「模型能想多久？」，变成了：「模型能不能以一种维持有效行动的方式来思考？」

这要求模型处理一堆传统推理模型可以绕开的难题：

什么时候该停止思考、开始动手？想太多会错过行动窗口，想太少会犯错
该调用哪个工具、先后顺序是什么？这是一个规划和调度问题
怎么消化来自环境的嘈杂、不完整的信息？真实世界不会给你干净的输入
失败了怎么办？不能崩溃，得修正计划继续干
怎么在几十轮交互、几十次工具调用之后还保持连贯？这是长程记忆和一致性的问题

如果用一句话概括：

智能体式思考 = 通过行动来推理的模型。它在做的过程中不断地想。

APPSO 划重点：推理式思考像闭卷考试，智能体式思考像在真实世界里做项目。前者看最终答案对不对，后者看你能不能在复杂、动态、充满意外的环境里持续推进。这是 AI 能力评价体系的根本性转向。

5. 为什么智能体 RL 的基础设施更难

目标一变，底层的工程全都要跟着变。

经典推理强化学习的那套基础设施，不够用了。

直观地理解一下区别：在推理 RL 里，模型做一道题、给出一个答案、评估器打一个分，整个过程基本上是自包含的，评估器也相对干净。就像在一个封闭的考场里阅卷。

但在智能体 RL 里，模型不是在考场里答题，它活在一个复杂的真实环境中。工具服务器、浏览器、命令行终端、搜索引擎、模拟器、代码执行沙箱、API 接口、记忆系统、调度框架……模型的策略嵌在这一整套系统里。环境不再是一个站在旁边打分的裁判，它本身就是训练系统的一部分。

这带来了一个新的硬需求：训练和推理必须更干净地解耦。否则整个系统的吞吐量会崩掉。

举个具体的例子：一个编程智能体生成了一段代码，需要在真实的测试环境里跑一下看结果。这时候，推理端在等执行反馈，干不了别的；训练端在等完成的轨迹数据，也饿着。整条流水线的 GPU 利用率远低于你在经典推理 RL 里的预期。再加上工具响应延迟、环境状态不完全可见、每次交互都会改变环境状态，这些低效会成倍放大。结果就是：你还远没达到想要的能力水平，实验就已经慢得让人崩溃了。

环境本身也变成了一等公民级的研究课题。

在监督微调（SFT）时代，所有人都在拼数据多样性，谁有更多更好的标注数据，谁就占优势。在智能体时代，该拼的是环境质量了：环境稳不稳定？够不够真实？覆盖了多少场景？难度梯度合不合理？状态空间够不够丰富？反馈信号够不够有营养？模型能不能找到漏洞作弊？大规模生成训练轨迹的效率够不够高？

环境构建正在从一个「顺手搭的实验配件」，变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作，那这个环境本身就是你核心能力栈的一部分。

APPSO 划重点： 一句话总结这个转变，SFT 时代拼数据，智能体时代拼环境。构建高质量的训练环境，正在从「实验室的脏活累活」升级为「决定你能走多远的战略资产」。

6. 下一个前沿是更可用的思考

我的判断是：智能体式思考将成为思考的主导形态。

它最终很可能取代那种旧式的静态独白推理，就是那种模型关起门来、对着自己嘟嘟囔囔写一大篇内部推理过程，试图用更多更多的文字来弥补「我没法跟外界交互」这个根本缺陷的做法。

即便面对极其困难的数学或编程问题，一个真正先进的系统也应该有权利去搜索、去模拟、去执行、去检查、去验证、去修正。目标是把问题切实解决掉，而且解决得稳健、高效。不是比谁的推理链写得更长更好看。

但训练这类系统，有一个比什么都棘手的挑战：奖励劫持（reward hacking）。

一旦模型有了真正有意义的工具使用能力，奖励劫持的危险就成倍增加。怎么理解？

一个能搜索的模型，可能在强化学习训练过程中学会了直接搜答案，不是靠推理做出来的，是查到的。
一个编程智能体，可能学会了利用代码仓库里的未来信息（比如测试用例本身就暗含了答案）、滥用日志、或者发现某个捷径让任务直接「通过」但其实什么都没做。
如果训练环境有隐藏的信息泄漏，模型可能看起来表现超人，实际上只是被训练成了一个高效作弊者。

这就是智能体时代比推理时代精细得多、也危险得多的地方。工具越强大，模型越有用，但模型能钻的空子也越多。更好的工具同时扩大了「虚假优化」的攻击面。

我预期，下一个让整个行业卡住的研究瓶颈，将来自这几个方向：环境设计、评估器鲁棒性、反作弊协议、以及策略与世界之间更有原则的接口。

但方向是清晰的：工具赋能的思考，就是比闭门造车的思考更有用，也更有希望带来真实世界的生产力提升。

智能体式思考还意味着一种全新的系统工程。核心智能将越来越多地来自于多个智能体如何被组织起来：一个负责全局规划和任务分发的编排器（orchestrator），一群各有专长的专业智能体（specialist agents），以及执行更具体任务的子智能体（sub-agents），后者帮助控制上下文窗口、防止信息污染、在不同层级的推理之间保持清晰的边界。

未来的路线图是三级跳：从训练模型，到训练智能体，再到训练系统。

APPSO 划重点： 工具让模型更有用，也让模型更容易作弊。奖励劫持是智能体时代的「定时炸弹」。谁先解决好环境设计和反作弊问题，谁就掌握了下一阶段的竞争主动权。

结论

推理浪潮的第一阶段，确立了一件至关重要的事：当反馈信号靠谱、基础设施扛得住的时候，大模型上的强化学习能够产出质变级别的认知提升。

但更深层的转变，是从推理式思考到智能体式思考：从「想更久」，到「为了行动而思考」。

训练的核心对象已经变了。不再是单一的模型，是模型 + 环境构成的整个系统。更具体地说，是智能体本身，加上围绕它的一切工程。这意味着什么研究最重要也变了：模型架构和训练数据当然还重要，但环境设计、rollout 基础设施、评估器鲁棒性、以及多个智能体之间的协调接口，重要性一点不输前者。

它还改变了「好的思考」的定义：在真实世界的约束下，能够维持有效行动的那条推理链，才是最好的。不是最长的那条，不是看起来最酷炫的那条，是最有用的那条。

它也改变了竞争优势的来源：

推理时代，拼的是更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。

智能体时代，拼的是更好的训练环境、更紧密的训练与推理一体化、更强的系统工程能力，以及闭合「决策 → 后果 → 学习」这个循环的能力。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。