阅读视图

发现新文章，点击刷新页面。

让 Anthropic 破防的「蒸馏」风波，美国 AI 大牛泼冷水：中国 AI 成功不靠走捷径

爱范儿

杜晨

2026年2月25日 20:27

Anthropic 昨天点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 实验室「蒸馏」Claude 模型，全网炸锅。

对于此事件，RLHF （基于人类反馈的强化学习）领域最知名的研究者之一，《RLHF》一书的作者 Nathan Lambert 指出，这件事没有人们想象的那么严重，但也没有那么简单。

他认为，中国 AI 公司的基础设施非常好，取得了很多创新，也在攻克各种技术难题，但它们取得这样的结果，靠的并不是「走捷径」。

在讨论蒸馏这件事之前，先看看 Lambert 的话为什么值得听。

Nathan Lambert 是 Allen AI 研究所的科学家，博士毕业于加州大学伯克利分校，师从机器人领域的著名学者 Pieter Abbeel。他并非 RLHF 技术的发明者，但他写的《RLHF》这本开源书籍，如今是 AI 从业者理解大模型训练流程的标准参考材料之一。

和到处都是的 AI 网红不一样，他是真正上手训练过大模型的人。

在 Anthropic 博客发出的当天，Lambert 就发布了一篇详细分析文章《蒸馏对于中国大模型到底有多重要？》。他的核心论点，和主流媒体的解读方向截然不同，也比一般网友更加深入和全面。

蒸馏是什么，Anthropic 又说了什么？

首先我们来看 Anthropic 指控的核心：「蒸馏」（distillation）。

它指的是让弱模型学习强模型的输出，从而快速获得相似能力。

Anthropic 指控三家公司通过约 2.4 万个虚假账号，在违反服务条款和地区访问限制的情况下，用 Claude 生成了超过 1600 万次对话，用于训练各自的模型。

博客还附上了安全警告：非法蒸馏出来的模型可能缺失原模型的安全护栏，一旦被用于网络攻击、生物武器研发或大规模监控，后果难以预测。

Anthropic 把这套基础设施叫做「九头蛇集群」(hydra cluster)——多达数万个账号的分布式网络，流量同时分散在 Anthropic 自己的 API 和多个第三方 API 聚合平台上。

在最极端的案例里，一个代理网络同时管理超过 2 万个虚假账号，还把蒸馏流量混入普通用户请求流里，用来规避检测算法。这种网络没有单点故障，封掉一个账号，马上换一个。

海外媒体随即跟进，复述了 Anthropic 的话术。然而这套叙事逻辑很快就翻车了：毕竟「蒸馏」这件事美国 AI 公司训练的时候也会做，更何况 Anthropic 自己也有类似行为：

以及：Anthropic「蒸馏」了人类最大的知识库

但 Lambert 更加冷静，他认为要先把这三家中国 AI 实验室分开来看

Lambert 指出，Anthropic 把三家公司并排列在同一篇博客里，掩盖了一个关键差异：它们做的根本不是同一件事，量级天差地别，动机也各有侧重。

按照 Anthropic 的指控，DeepSeek 的蒸馏数量最少，只有 15 万次，但手法更精准。与其直接收集答案，Anthropic 指控 DeepSeek 在做的是批量生产思维链 (chain-of-thought)训练数据。

要的不是「你得出了什么结论」，而是得到结论的过程。

但 15 万次是个什么体量？Lambert 认为，这点数据对 DeepSeek 传闻中的 V4 模型或任何模型整体训练的影响可以忽略不计，「更像是某个小团队在内部做实验，大概率连训练负责人都不知道。」

月暗的规模就不是「可以忽略」了：340 万次交互，目标集中在智能体推理、、工具调用、代码与数据分析、computer-use 开发、计算机视觉等方向——这些方向当中，大部分都是 Claude 近期最受企业客户欢迎的能力组合。

Anthropic 指出三家里流量最大的是 MiniMax，约 1300 万次，目标是代理编码、工具调用和复杂任务编排。

月暗和 MiniMax 相加约 1650 万次，按对话平均 token 量估算，总量大约在 1500 亿到 4000 亿 token 之间，折合数百到上千万美元的 token 成本。

但问题是，只盯着蒸馏看，其实有很大问题。

蒸馏的天花板在哪里？

这才是 Lambert 真正想说的部分，也是整件事里最被忽视的地方。

把强模型的输出喂给弱模型，弱模型能快速获得类似能力——这个逻辑本身成立，Lambert 没有否认。但他指出了一个没人说清楚的问题：蒸馏的天花板到底在哪里，取决于你想要的是什么类型的能力。

作为 RLHF 方面的专家，Lambert 认为，当前最顶尖的模型训练，已经高度依赖强化学习（RL）。而 RL 和蒸馏在本质上是两种不同的事情：

蒸馏是模仿，学强模型的输出，把它的「答案形状」复制过来；RL 是探索，模型必须大量自己推理、自己生成、在错误里反复迭代，从试错中提炼能力。

换言之，真正强大的模型，需要的从来不只是正确答案，而往往要靠模型自己摸索出来的解题路径，这是依靠蒸馏别人 API 的输出，得不到的东西。

以 DeepSeek 自己做的蒸馏尝试为例：基于隔壁千问蒸馏自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 这个小模型，仅靠 7000 条样本和极低的计算成本，就在 AIME24 数学竞赛基准上超越了 OpenAI 的 o1-preview。

但关键在于：这个提升等多仰仗强化学习的结果，而非来自蒸馏这个行为本身。

换句话说，蒸馏能帮你更快「热身」，要真正到达顶级水平，还是得靠自己跑 RL。

不同模型之间的数据分布差异

Lambert 还指出了一个技术层面很少被外界提及的问题：不同模型之间存在微妙的数据分布差异。

把 Claude 的输出直接喂给另一个架构的模型，不一定有效，有时甚至会产生干扰。两个模型内部表征空间的差异，会让「老师」的回答在「学生」那里引发意想不到的偏差。

这意味着蒸馏从来不是「拿来用就行」的事，而是需要大量工程工作才能真正发挥效果。这本身就是一个研究课题。

这也是为什么 Lambert 将 Anthropic 所指控的「蒸馏」行为，看作是一种创新的做法，可以理解为试图攻克这一研究课题的努力。

Anthropic 的杀手锏，恰恰最难蒸馏

Anthropic 点名的三家公司，抓取的重心都落在代理行为 (agentic behavior) 这同一个方向上，包括 AI 自主规划、工具调用、分解复杂任务并逐步执行的能力等。

这是 Claude 目前最突出的方向，也是 Anthropic 最不想被复制的能力。

但 Lambert 的判断是，这些能力恰恰也是最难通过蒸馏获得的。

正如前面提到，一个强大的 AI agent，强大之处从来不在于知道或者训练过正确答案，而是「在面对没见过的情况时能自主探索出解决路径」，可以理解为一种 0-shot 或 few-shot 实现 SOTA 效果的能力。

这个过程中产生的价值，体现在推理轨迹，而推理轨迹是很难通过蒸馏习得的——至少现在是这样。

DeepSeek-R1-Distill（蒸馏模型）和 DeepSeek-R1（蒸馏对象）之间的差距，是 Lambert 论点最直接的例证。

在格式化的数学推理任务上，前者表现不错；但在需要自主探索、动态规划的复杂代理任务上，两者的差距是真实存在的。

为什么 Anthropic 现在公开说?

Lambert 有一个判断，很多人可能都有同感：这次 Anthropic 公开点名中国 AI 公司，「技术防御」压根不是首要动机。

在 Anthropic 这篇博客发出的几天前，美国国防部刚刚威胁 Anthropic 配合提供「不受限制的使用权限」，否则就将做出对后者不利的安排，比如将其标记为「供应链危险」，也即无法进入国防/政府供应商名单。

Anthropic 现在处于一个「既要又要」的两难境地：既想维持安全、不反人性的模型定位和公司形象，又不愿意错过美国政府的大单。

Lambert 指出了一个根本矛盾：美国的学术界和开源模型开发者也在做蒸馏行为，但包括 Anthropic 在内的大厂并没有对它们做出实质性的打击。如果仅因为对方是中国公司，未免地缘的意味太重了。

结果就是，Anthropic 这篇博客与其说是报告一个重大技术风险事件……其实更像是一封「投名状」。

双标

关于 Anthropic 在这件事上的立场，有一个绕不开的背景。

APPSO 在昨天的文章里也有提到：Anthropic「蒸馏」了人类最大的知识库

2024 年年初，美国某仓库里，工人们把一本本新书送进机器，切掉书脊，扫描，然后把纸送去回收。下令做这件事的是 Anthropic，项目内部代号「巴拿马」，目标是以破坏性方式扫描全球所有书籍——Anthropic不希望外界知道他们做了这件事。

2021 年，Anthropic 联合创始人 Ben Mann 在 11 天里从盗版网站 LibGen 下载了大量侵权书籍；次年，另一个公开宣称「在大多数国家故意违反版权法」的网站 Pirate Library Mirror 上线，Mann 把链接发给同事，留言：「来得正是时候！！！」

在后来的书籍版权诉讼中，Anthropic 被迫支付 15 亿美元和解金，折算下来每本书约赔 3000 美元。

斯坦福和耶鲁的研究者发现，Claude 3.7 Sonnet 在特定条件下会以 95.8% 的准确率「近乎逐字逐句」地输出《哈利波特》等受版权保护的作品——这不仅与 Anthropic 长期以来关于「模型只是学习了语言规律」的说法背道而驰，更让该公司对任何人的「蒸馏」指控显得缺乏底气。

Futurism 的标题写得很直接：「Anthropic 对 DeepSeek 未经授权复制 AI 大发雷霆——考虑到它是怎么构建 Claude 的，这相当讽刺。」

Musk 在 X 上也补了一刀：「Anthropic 大规模窃取训练数据，还为此支付了数十亿美元的和解金。这是事实。」

反驳者还有一个更尖锐的逻辑：Anthropic 当年从那些书里拿走的，不仅没付过任何使用费，回头还用于商业行为（Claude 和 Anthropic API 都是付费服务）；而从商业角度来看，蒸馏 Claude 的公司至少付了钱……

当然，从法律层面来看，这两件事的性质完全不同。但不论怎样，Anthropic 看起来还是很像个伪善的双标者。

「后蒸馏时代」

最后再强调一遍：蒸馏有用，但没有你们想象的那么有用。

DeepSeek 的 15 万次，按任何合理标准来看都是可以忽略的数字。Moonshot 和 MiniMax 合计 1650 万次，量级是另一回事——但能转化成多少真实能力，取决于他们能不能解决「如何用好这些数据」的技术问题。

考虑到数据分布差异、模型架构差异，以及代理能力的获得本身对于强化学习的重度依赖，蒸馏从来不是「拿来就用」那么简单。

Lambert 还是给了 Anthropic 面子：「快速迭代加上高质量数据可以走很远，让学生模型超越老师也并非不可能。」

但他也明确指出，真正的创新靠的是强化学习，不是蒸馏。从 DeepSeek、月暗、MiniMax 公开的论文来看，它们都用有相当完善的基础设施和优秀的人才，远非只靠小聪明小伎俩企图弯道超车的「小作坊」。

蒸馏能帮你更快入场，但真要打到顶级水平，从来没有捷径。

某种意义上，Anthropic 提出的「蒸馏」争议，本身就是这个 AI 时代缩影。

整个行业打一开始就建立在暧昧不清的规则上：用人类写的东西训练，用别人的开源成果迭代，在法律没有明确禁止的地方快速行动。

现在，规则开始慢慢收紧——先是版权，再是芯片，现在又是 API……谁在制定规则？谁受益于规则？谁一边打着人类的旗号，却滥用规则谋求私利？

这些问题的答案，都越来越清晰。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

马斯克下场点赞！Kimi 这篇论文撬动了大模型的「祖传地基」

爱范儿

莫崇宇

2026年3月18日 17:30

同样的算力，同样的数据，凭什么效果不一样？大多数人的直觉是：模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。

3 月 16 日，月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》（注意力残差）。

这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造，并在实验中证明，用同样多的算力，新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。

报告发布后，也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。

▲附 GitHub 开源地址：github.com/MoonshotAI/Attention-Residuals

比如马斯克通过社交媒体表示「「Impressive work from Kimi」（令人印象深刻的工作）」OpenAI o1 主要发明者 Jerry Tworek 称其为「深度学习 2.0」的开端。

前 OpenAI 联创 Andrej Karpathy 说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」但比起这些夸奖，技术论文背后的信号或许更值得关注：深度学习最基础的范式，正在发生变化。

十年没人动过的地基，被撬动了

过去两年，大模型的竞争主要在「上层建筑」展开：更好的注意力变体、更聪明的 MoE 路由策略、更精巧的对齐方法，大家都在 Transformer 这栋大楼的高层精装修。

唯独有一样东西，从 2015 年 ResNet 论文发表以来，几乎没人动过：残差连接（Residual Connections）。

要理解这项技术，得先知道大模型内部的基本结构。

现代大模型，其实都是由很多层神经网络叠加而成的，少则几十层，多则上百层。信息从底部输入，一层一层往上传递，每一层都对信息做一次加工，最终在顶部输出结果。

可以把它想象成一条流水线上的工人：原材料从第一道工序进来，每个工人对它加工一遍，再传给下一个，最终出来成品。问题是，流水线越长，越难训练。

假设第 50 道工序的工人犯了错，你想纠正他，就得把这个「纠错信号」一路往回传，经过 49 个工人才能传到第 1 个。传着传着，信号就消失了，底层的工人根本不知道自己哪里出了问题。

为了让这么深的网络能够训练起来，知名学者何恺明团队在 2015 年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文，引入了一个关键设计，叫做残差连接（Residual Connections）：

每一层在加工信息的同时，还会保留一条「直通道」，把原始输入原封不动地加到加工结果上，再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换，一路流回底层，从根本上解决了深层网络难以训练的问题。

比较通俗的理解是，在每道工序旁边加一条「直通道」，把原材料原封不动地绕过这道工序，直接和加工结果合并，再往下传。这样纠错信号就可以沿着直通道一路畅通无阻地传回底层，不会消失。

这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一，残差连接也沿用至今，是几乎所有大模型的基石。

残差连接虽然好用，但它做信息聚合的方式非常粗暴：把所有前面层的输出，无差别地等权相加。

还是用流水线来比喻。到了第 51 道工序，这个工人手里拿到的，是前面 50 道工序所有产出物的等量混合，每道工序的产出各占一份，不多不少。他没有办法说「我想多要一点第 3 道工序的原料」，也没有办法说「第 20 道工序的东西对我没用，少给我一点」。

这带来了一个名为 PreNorm 稀释的实际问题：随着网络越来越深，累积叠加的信息越来越多，每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层，想要让自己的声音被「听见」，就得输出越来越大的数值，否则就会被淹没。

结果就是，很多中间层其实没在认真干活。已有研究发现，大模型里相当一部分层直接删掉，效果几乎不变，这说明这些层的贡献实际上极为有限。

大多数团队早就知道这个问题，选择绕开它，转而在在现有架构上叠加更好的数据配比、更精巧的训练策略、更长的上下文窗口。这些工作当然有价值，但本质上是在一个已有的技术框架内做增量优化。

Kimi 选择的是一条更孤独也更难的路：回到最基础的结构，用第一性原理重新审视那些「理所当然」的设计。

今天凌晨，Kimi 创始人杨植麟在 GTC 2026 演讲中提到：「行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为 Scaling 的瓶颈。」

杨植麟认为，要推动大模型智能上限的持续突破，必须对优化器、注意力机制及残差连接等底层基石进行重构。

一次优雅的「旋转」

Kimi 团队这篇论文的核心突破，其实也来自一个优雅的类比发现。

处理文字序列时，早期的循环神经网络（RNN）也有类似的额外问题：记性差。它读完一整段话之后，早期读到的内容会被后来的内容不断覆盖，等读到最后一个词，前几句说了什么已经模糊了。

后来 Transformer 用注意力机制解决了这个问题，相当于给模型配了一张「全文笔记」，处理每个词的时候，都可以翻回去查任意一个之前出现过的词，而且查哪里、查多少，由当前的内容自己决定。

研究人员发现，残差连接在深度方向上碰到的问题，和 RNN 在时间方向上碰到的问题，数学结构完全一样。换句话说，把 Transformer 想象成一张二维的网格：

横轴是序列方向，一句话里从左到右的每个词；纵轴是深度方向，从底层到顶层的每一层网络。传统的注意力机制是沿着横轴工作的，处理某个词时去查同一层里其他词的信息。

而 Attention Residuals 做的事情，就是把完全相同的机制转到纵轴上去，处理某一层时去查前面所有层的输出，决定要参考哪些层、参考多少。操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」，机制本身一模一样，好比方向转了 90 度。

既然注意力机制解决了序列方向的问题，旋转一下搬到深度方向上，同样有效。

这里有一个更深层的理论发现值得一提。研究人员通过数学分析发现，过去十年里所有对残差连接的改进，包括标准残差、Highway 网络、mHC 等各种变体，在数学上其实都是同一件事的不同形式，都等价于某种「深度方向的线性注意力」。换句话说，大家一直在朝同一个方向努力，只是当时没意识到。

而 AttnRes 的核心思路在于，把注意力机制从「处理文字序列」的维度，移植到「跨越网络深度」的维度上。

具体做法是，给每一层配备一个小小的「查询向量」，就像给每道工序的工人配了一张需求单。工人在开工前，先拿着需求单去翻所有前面工序的产出，根据相关度算出一套取用比例，再按这个比例把需要的原料混合起来。

这样一来，每一层不再是被动接受所有前面层输出的等权叠加，而是主动、有选择性地决定要从哪些层提取多少信息，比例还会根据当前任务的内容动态变化。每层只新增一个向量和一个归一化操作，参数量的增加对整个模型来说几乎可以忽略不计。

为了保证训练初期稳定，这个查询向量必须初始化为全零，相当于让工人一开始什么偏好都没有、平等对待所有前序产出，等训练推进了再慢慢形成自己的判断。

值得一提的是，研究人员也测试过一个更激进的版本：让查询向量不再是固定参数，而是根据每一层当前的输入内容动态生成。这个版本效果确实更好，损失值进一步下降。

但最终没有采用，原因是推理时这种方式需要顺序读取内存，会增加延迟。这个取舍体现了贯穿整篇论文的工程哲学，理论上更优的方案，不一定是实用上应该选的方案。

大模型的新技术，最后都得过这一关

全量 AttnRes 在小规模实验中很好用，但一到大规模训练就遇到了麻烦。

它需要每一层都能访问所有前面层的输出。模型有一百多层，每层的输出都得保存在内存里，还要在不同计算节点之间来回传输，内存和通信开销随层数线性增长，在大模型上根本承受不起。

Kimi 团队的解法很实在：Block AttnRes。把网络所有层划分为若干个 Block（48B 模型中分了 8-9 个 Block，每个 Block 约 6 层），Block 内部沿用传统残差连接，Block 之间使用 softmax 注意力。打个比方——不必给每层楼都装电梯，在关键楼层之间架设快速通道就够了。

这样，需要保存和传输的数据量，从「所有层的数量」降低到「块的数量」，开销大幅缩小。实验发现，分成约 8 个块就能保留全量方法绝大部分的性能提升。

在具体的工程实现上，团队还做了两项优化。

训练端设计了跨阶段缓存机制，在流水线并行训练中每次切换阶段时只传输新增的那一小部分块数据，而不是每次都把全部历史重新传一遍，实测整体训练额外开销不超过 4%。

推理端设计了两阶段计算策略，把一个块内所有层的查询打包成一次矩阵运算统一处理，把重复的内存访问摊销掉，最终推理延迟增加不超过 2%。

那实验效果怎么样呢？研究人员测了五个不同规模的模型。

结果显示，Block AttnRes 在全部规模上均以更低的验证损失领先于基线，且改善幅度随规模增大而稳定保持。按拟合曲线推算，在相同的计算量下，Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果。

在 48B 参数（3B 激活）规模的 Kimi Linear 架构实验中，Block AttnRes 展现了极强的泛化性：在全部 15 项主流评测基准中，其表现均持平或优于 PreNorm 基线模型。

例如，在博士级科学推理 GPQA-Diamond 上实现了 7.5% 的飞跃，在数学 Math (+3.6%) 及代码生成 HumanEval (+3.1%) 任务中也录得了显著增益。

从训练过程来看，基线模型的各层输出数值随深度单调增大，印证了 PreNorm 稀释问题；而 AttnRes 的各层输出数值在块边界处得到重置，呈现周期性变化，各层梯度分布也更加均匀，说明更多的层真正参与到了有效的学习中。

此外，研究人员还可视化了训练后模型学到的注意力权重，发现了几个有趣的规律。

每一层仍然最依赖直接前一层的输出，局部性依然是主要的信息流通方式。但同时出现了一些跳跃性的连接，比如某些层会稳定地回溯到很早期的层，还有些层会特别关注最初的词嵌入输出。

另一个规律是，注意力层和 MLP 层的「回望」模式不同：注意力层倾向于关注更广泛的历史，MLP 层则更依赖近邻层。这与两者在模型中的功能分工是吻合的。

AttnRes还带来了一个对未来模型设计有参考价值的发现。研究人员在固定总计算量和参数量的前提下，枚举了 25 种不同的深度与宽度组合，对比基线模型和 AttnRes 各自偏好的最优架构。

结果发现，标准残差连接偏好「更宽、层数更少」的模型，而 AttnRes 的最优点偏向「更窄、层数更多」的模型。这说明 AttnRes 能够更有效地利用深度，让每增加一层都真正产生价值，而不是让深度变成一种边际效益递减的堆砌。

这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁，而是从根本上改变了网络深度的利用效率，也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。

杨植麟曾提到，十年前不是没有好想法，而是没有算力去验证。现在有了足够的资源和「缩放阶梯（Scaling Ladder）」，那些被搁置的问题才终于能被认真答一遍。

大佬点赞的背后，是一个时代在转弯

一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可，这件事本身十分罕见，他们认可的不只是论文成果本身，更在于Kimi 这篇论文指向了一个全新的方向：优化已经从 attention、MoE 这些上层模块，深入到了最底层的残差连接。

在 GTC 2026 演讲中，杨植麟还披露了一连串底层技术创新：MuonClip 优化器实现了相比 AdamW 2 倍的计算效率提升——要知道 Adam 优化器自 2014 年以来几乎未被撼动，属于深度学习的「不可触碰之物」；Kimi Linear（KDA 架构）在 128K 到百万级超长上下文下实现 5-6 倍的解码加速；Vision RL 的跨模态训练甚至让纯文本 benchmark 也提升了约 2.1%。

杨植麟把这些创新概括为三个维度的 Scaling 框架：Token 效率 × 长上下文 × Agent Swarms。

「当前的 Scaling 已经不再是单纯的资源堆砌，而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。」

一家公司，同时在优化器、残差连接、注意力架构、跨模态训练这些底层战场上全线推进，这种打法在行业里相当特立独行。

这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切，更多是它代表了一种方法论的回归：不再满足于在已有框架上修修补补，去重新审视那些被所有人当作「已解决问题」的基础设施。

如果残差连接可以被重新设计，那么 Adam 优化器呢？层归一化呢？位置编码呢？深度学习的基础范式本身正在发生变化，这扇门一旦推开，后面的故事就不再是线性外推能预测的了。

Karpathy 那句「Attention is All You Need 还没被理解透」的感慨，大概也是这个意思。

过去几年，中国 AI 团队的贡献更多集中在工程落地和应用创新上，在底层架构理论方面的原创性突破相对稀缺。Kimi 这篇论文走的是一条完全不同的路线——一个统一的理论框架，一个优雅的工程实现，加上严谨的大规模实验验证。

当然，Kimi 这篇论文还有留下不少需要解决的问题。论文的大规模验证是在 48B 总参数（3B 激活参数）的模型上完成的，这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上，1.25 倍的等效优势能否稳住，目前还是个问号。

同时论文展示的也只是预训练阶段的收益，经过指令微调、RLHF 等后训练步骤后，AttnRes 的优势是否会被稀释，缺乏数据。

但话说回来，这些局限恰恰也是想象力的来源。一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改，就能在 48B 规模上带来这样的提升。

当它被应用到更大规模的下一代模型上时，收益的天花板在哪里，谁也说不准。

Attention Residuals 抬高了 Token 效率的天花板，Kimi Linear 拓展了长上下文的边界，Agent Swarms 指向智能体协作的未来。当这三条技术线在下一代模型中汇合，呈现出的可能就是新的范式转变。

在 AI 这座通天塔的工程上，所有人都在争着往上添砖加瓦，而 Kimi 低头往路基重重地凿了一锹，恰好撬动了深度学习的地基。

作者：莫崇宇，李超凡

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。