阅读视图

发现新文章，点击刷新页面。

让 Anthropic 破防的「蒸馏」风波，美国 AI 大牛泼冷水：中国 AI 成功不靠走捷径

爱范儿

杜晨

2026年2月25日 20:27

Anthropic 昨天点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 实验室「蒸馏」Claude 模型，全网炸锅。

对于此事件，RLHF （基于人类反馈的强化学习）领域最知名的研究者之一，《RLHF》一书的作者 Nathan Lambert 指出，这件事没有人们想象的那么严重，但也没有那么简单。

他认为，中国 AI 公司的基础设施非常好，取得了很多创新，也在攻克各种技术难题，但它们取得这样的结果，靠的并不是「走捷径」。

在讨论蒸馏这件事之前，先看看 Lambert 的话为什么值得听。

Nathan Lambert 是 Allen AI 研究所的科学家，博士毕业于加州大学伯克利分校，师从机器人领域的著名学者 Pieter Abbeel。他并非 RLHF 技术的发明者，但他写的《RLHF》这本开源书籍，如今是 AI 从业者理解大模型训练流程的标准参考材料之一。

和到处都是的 AI 网红不一样，他是真正上手训练过大模型的人。

在 Anthropic 博客发出的当天，Lambert 就发布了一篇详细分析文章《蒸馏对于中国大模型到底有多重要？》。他的核心论点，和主流媒体的解读方向截然不同，也比一般网友更加深入和全面。

蒸馏是什么，Anthropic 又说了什么？

首先我们来看 Anthropic 指控的核心：「蒸馏」（distillation）。

它指的是让弱模型学习强模型的输出，从而快速获得相似能力。

Anthropic 指控三家公司通过约 2.4 万个虚假账号，在违反服务条款和地区访问限制的情况下，用 Claude 生成了超过 1600 万次对话，用于训练各自的模型。

博客还附上了安全警告：非法蒸馏出来的模型可能缺失原模型的安全护栏，一旦被用于网络攻击、生物武器研发或大规模监控，后果难以预测。

Anthropic 把这套基础设施叫做「九头蛇集群」(hydra cluster)——多达数万个账号的分布式网络，流量同时分散在 Anthropic 自己的 API 和多个第三方 API 聚合平台上。

在最极端的案例里，一个代理网络同时管理超过 2 万个虚假账号，还把蒸馏流量混入普通用户请求流里，用来规避检测算法。这种网络没有单点故障，封掉一个账号，马上换一个。

海外媒体随即跟进，复述了 Anthropic 的话术。然而这套叙事逻辑很快就翻车了：毕竟「蒸馏」这件事美国 AI 公司训练的时候也会做，更何况 Anthropic 自己也有类似行为：

以及：Anthropic「蒸馏」了人类最大的知识库

但 Lambert 更加冷静，他认为要先把这三家中国 AI 实验室分开来看

Lambert 指出，Anthropic 把三家公司并排列在同一篇博客里，掩盖了一个关键差异：它们做的根本不是同一件事，量级天差地别，动机也各有侧重。

按照 Anthropic 的指控，DeepSeek 的蒸馏数量最少，只有 15 万次，但手法更精准。与其直接收集答案，Anthropic 指控 DeepSeek 在做的是批量生产思维链 (chain-of-thought)训练数据。

要的不是「你得出了什么结论」，而是得到结论的过程。

但 15 万次是个什么体量？Lambert 认为，这点数据对 DeepSeek 传闻中的 V4 模型或任何模型整体训练的影响可以忽略不计，「更像是某个小团队在内部做实验，大概率连训练负责人都不知道。」

月暗的规模就不是「可以忽略」了：340 万次交互，目标集中在智能体推理、、工具调用、代码与数据分析、computer-use 开发、计算机视觉等方向——这些方向当中，大部分都是 Claude 近期最受企业客户欢迎的能力组合。

Anthropic 指出三家里流量最大的是 MiniMax，约 1300 万次，目标是代理编码、工具调用和复杂任务编排。

月暗和 MiniMax 相加约 1650 万次，按对话平均 token 量估算，总量大约在 1500 亿到 4000 亿 token 之间，折合数百到上千万美元的 token 成本。

但问题是，只盯着蒸馏看，其实有很大问题。

蒸馏的天花板在哪里？

这才是 Lambert 真正想说的部分，也是整件事里最被忽视的地方。

把强模型的输出喂给弱模型，弱模型能快速获得类似能力——这个逻辑本身成立，Lambert 没有否认。但他指出了一个没人说清楚的问题：蒸馏的天花板到底在哪里，取决于你想要的是什么类型的能力。

作为 RLHF 方面的专家，Lambert 认为，当前最顶尖的模型训练，已经高度依赖强化学习（RL）。而 RL 和蒸馏在本质上是两种不同的事情：

蒸馏是模仿，学强模型的输出，把它的「答案形状」复制过来；RL 是探索，模型必须大量自己推理、自己生成、在错误里反复迭代，从试错中提炼能力。

换言之，真正强大的模型，需要的从来不只是正确答案，而往往要靠模型自己摸索出来的解题路径，这是依靠蒸馏别人 API 的输出，得不到的东西。

以 DeepSeek 自己做的蒸馏尝试为例：基于隔壁千问蒸馏自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 这个小模型，仅靠 7000 条样本和极低的计算成本，就在 AIME24 数学竞赛基准上超越了 OpenAI 的 o1-preview。

但关键在于：这个提升等多仰仗强化学习的结果，而非来自蒸馏这个行为本身。

换句话说，蒸馏能帮你更快「热身」，要真正到达顶级水平，还是得靠自己跑 RL。

不同模型之间的数据分布差异

Lambert 还指出了一个技术层面很少被外界提及的问题：不同模型之间存在微妙的数据分布差异。

把 Claude 的输出直接喂给另一个架构的模型，不一定有效，有时甚至会产生干扰。两个模型内部表征空间的差异，会让「老师」的回答在「学生」那里引发意想不到的偏差。

这意味着蒸馏从来不是「拿来用就行」的事，而是需要大量工程工作才能真正发挥效果。这本身就是一个研究课题。

这也是为什么 Lambert 将 Anthropic 所指控的「蒸馏」行为，看作是一种创新的做法，可以理解为试图攻克这一研究课题的努力。

Anthropic 的杀手锏，恰恰最难蒸馏

Anthropic 点名的三家公司，抓取的重心都落在代理行为 (agentic behavior) 这同一个方向上，包括 AI 自主规划、工具调用、分解复杂任务并逐步执行的能力等。

这是 Claude 目前最突出的方向，也是 Anthropic 最不想被复制的能力。

但 Lambert 的判断是，这些能力恰恰也是最难通过蒸馏获得的。

正如前面提到，一个强大的 AI agent，强大之处从来不在于知道或者训练过正确答案，而是「在面对没见过的情况时能自主探索出解决路径」，可以理解为一种 0-shot 或 few-shot 实现 SOTA 效果的能力。

这个过程中产生的价值，体现在推理轨迹，而推理轨迹是很难通过蒸馏习得的——至少现在是这样。

DeepSeek-R1-Distill（蒸馏模型）和 DeepSeek-R1（蒸馏对象）之间的差距，是 Lambert 论点最直接的例证。

在格式化的数学推理任务上，前者表现不错；但在需要自主探索、动态规划的复杂代理任务上，两者的差距是真实存在的。

为什么 Anthropic 现在公开说?

Lambert 有一个判断，很多人可能都有同感：这次 Anthropic 公开点名中国 AI 公司，「技术防御」压根不是首要动机。

在 Anthropic 这篇博客发出的几天前，美国国防部刚刚威胁 Anthropic 配合提供「不受限制的使用权限」，否则就将做出对后者不利的安排，比如将其标记为「供应链危险」，也即无法进入国防/政府供应商名单。

Anthropic 现在处于一个「既要又要」的两难境地：既想维持安全、不反人性的模型定位和公司形象，又不愿意错过美国政府的大单。

Lambert 指出了一个根本矛盾：美国的学术界和开源模型开发者也在做蒸馏行为，但包括 Anthropic 在内的大厂并没有对它们做出实质性的打击。如果仅因为对方是中国公司，未免地缘的意味太重了。

结果就是，Anthropic 这篇博客与其说是报告一个重大技术风险事件……其实更像是一封「投名状」。

双标

关于 Anthropic 在这件事上的立场，有一个绕不开的背景。

APPSO 在昨天的文章里也有提到：Anthropic「蒸馏」了人类最大的知识库

2024 年年初，美国某仓库里，工人们把一本本新书送进机器，切掉书脊，扫描，然后把纸送去回收。下令做这件事的是 Anthropic，项目内部代号「巴拿马」，目标是以破坏性方式扫描全球所有书籍——Anthropic不希望外界知道他们做了这件事。

2021 年，Anthropic 联合创始人 Ben Mann 在 11 天里从盗版网站 LibGen 下载了大量侵权书籍；次年，另一个公开宣称「在大多数国家故意违反版权法」的网站 Pirate Library Mirror 上线，Mann 把链接发给同事，留言：「来得正是时候！！！」

在后来的书籍版权诉讼中，Anthropic 被迫支付 15 亿美元和解金，折算下来每本书约赔 3000 美元。

斯坦福和耶鲁的研究者发现，Claude 3.7 Sonnet 在特定条件下会以 95.8% 的准确率「近乎逐字逐句」地输出《哈利波特》等受版权保护的作品——这不仅与 Anthropic 长期以来关于「模型只是学习了语言规律」的说法背道而驰，更让该公司对任何人的「蒸馏」指控显得缺乏底气。

Futurism 的标题写得很直接：「Anthropic 对 DeepSeek 未经授权复制 AI 大发雷霆——考虑到它是怎么构建 Claude 的，这相当讽刺。」

Musk 在 X 上也补了一刀：「Anthropic 大规模窃取训练数据，还为此支付了数十亿美元的和解金。这是事实。」

反驳者还有一个更尖锐的逻辑：Anthropic 当年从那些书里拿走的，不仅没付过任何使用费，回头还用于商业行为（Claude 和 Anthropic API 都是付费服务）；而从商业角度来看，蒸馏 Claude 的公司至少付了钱……

当然，从法律层面来看，这两件事的性质完全不同。但不论怎样，Anthropic 看起来还是很像个伪善的双标者。

「后蒸馏时代」

最后再强调一遍：蒸馏有用，但没有你们想象的那么有用。

DeepSeek 的 15 万次，按任何合理标准来看都是可以忽略的数字。Moonshot 和 MiniMax 合计 1650 万次，量级是另一回事——但能转化成多少真实能力，取决于他们能不能解决「如何用好这些数据」的技术问题。

考虑到数据分布差异、模型架构差异，以及代理能力的获得本身对于强化学习的重度依赖，蒸馏从来不是「拿来就用」那么简单。

Lambert 还是给了 Anthropic 面子：「快速迭代加上高质量数据可以走很远，让学生模型超越老师也并非不可能。」

但他也明确指出，真正的创新靠的是强化学习，不是蒸馏。从 DeepSeek、月暗、MiniMax 公开的论文来看，它们都用有相当完善的基础设施和优秀的人才，远非只靠小聪明小伎俩企图弯道超车的「小作坊」。

蒸馏能帮你更快入场，但真要打到顶级水平，从来没有捷径。

某种意义上，Anthropic 提出的「蒸馏」争议，本身就是这个 AI 时代缩影。

整个行业打一开始就建立在暧昧不清的规则上：用人类写的东西训练，用别人的开源成果迭代，在法律没有明确禁止的地方快速行动。

现在，规则开始慢慢收紧——先是版权，再是芯片，现在又是 API……谁在制定规则？谁受益于规则？谁一边打着人类的旗号，却滥用规则谋求私利？

这些问题的答案，都越来越清晰。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

不用折腾部署 OpenClaw，我用 MiniMax Agent 一键养「龙虾」，还拍了个短剧

爱范儿

张子豪

2026年2月26日 17:07

春节假期，帮亲戚朋友们部署 OpenClaw 成了我一份额外的工作。虽然不一定能真正用上，但这只龙虾是不得不拥有。

AI 进入我们的工作流，在 OpenClaw 爆火之后，这种感觉变得更加强烈。在「不用 AI 会被淘汰，用了 AI 也像是能被替代」的悖论下，不错过任何一个能放大自身价值的 AI 工具，让人陷入了无止境的 FOMO。

越来越多的「龙虾变体」也涌现出来，但是当被问到打算怎么把这个部署好的 OpenClaw 融入工作流，答案往往又是个未知数。更不用说光是部署好 OpenClaw，就有两道大关，一是要手动部署和配置复杂的模型 API，二是让人心疼的额外 API 费用。

今天，更新后的 MiniMax Agent 推出了两项新功能。

专业度更高，更会干活的 Expert 智能体社区，涵盖从技术开发、创意写作到音视频图片生成等多模态领域，超过 1.6 万个专家，且还在持续增长。大多数场景下，我们几乎都能直接找到现成可用的专家；即便没有完全匹配的，用几句话还能快速创建一个自己的 Expert。

另一项新增的 MaxClaw 模式，能让我们一键打通 OpenClaw 生态，而且完全不需要自己配置 API，以及承担额外的 API 费用，解决了「不知道 OpenClaw 能做什么」和「怎么部署 OpenClaw」这两个问题。

这也就意味着，即便是纯小白，现在也能拥有开箱即用的专属 AI 专家团队了。

APPSO 也实测了一波智能体专家和 MaxClaw 这两项新功能，它确实和一般的智能体 Agent 不同，结合了 Skills 的能力和 OpenClaw 的兼容能力，我们直接就能操作飞书、钉钉等即时通讯软件。

而和市面上不同版本的 OpenClaw 对比，MiniMax Agent 的 MaxClaw 又有了预置的专家智能体，整个体验会更加友好。

体验地址：国内版 https://agent.minimaxi.com
海外版 https://agent.minimax.io

超过 1.6 万个 Experts 的大社区

对于 AI 创作来说，无论是文本还是多媒体，大多数时候用大模型，最痛苦的就是「AI 味太重」或者「废话连篇」。究其原因，往往是「提示词不当」、「模型不够强」，总结在普通的聊天形式缺乏深度的垂直领域优化。

MiniMax Agent 这次推出的 Expert（专家智能体）虽然还是在聊天对话里进行，但底层逻辑做了一些改变。它主打即开即用，提供了针对各种深度垂类场景优化的 Agent。

▲MiniMax Agent 内提供了办公效率、商业金融、教育学习、生活娱乐等上万个专家

在处理对应垂直领域的任务上，和非专家的单纯对话形式相比，专家能交付更专业、质量更高的结果。为了验证这一点，我们直接从它目前已经 1.6w+公开的 Expert 库（大部分是用户创作）里，挑了几个热门的场景进行实测。

PPT、网页、行业分析，AI 开始按场景分工干活

从目前 Expert 社区的使用热度来看，用户最先跑起来的，往往还是那些直接指向生产力的刚需场景，比如办公制作、内容搭建，以及金融与行业分析。

在 MiniMax Agent 首页，我们点击左侧边栏的「探索专家」，就能进入已经按场景分好类的专家社区。不同专家不仅标注了能力方向，还能看到背后调用的「子代理」和完整项目指令，相当于把一套成熟工作流直接摆在用户面前。

找到合适的专家后，点击「开始聊天」，输入需求，它就会按既定流程自动推进任务。

▲股票价值分析专家介绍

在办公与内容生产场景中，落地页生成和 PPT 制作依然是浏览量最高的一类专家。

我们先测试了 Landing Page Builder 专家。输入需求：「我要给初中生做一个五代十国历史的网页，得让他们真的能听进去，内容翔实有考据，一节课 45 分钟的内容。要解释清楚、配图到位、动效得当、沉浸感强，举的例子能让他们产生共鸣，再加几道题检验下理解程度。」

整个过程中，专家几乎不需要额外干预，而是按照预设流程自动完成结构设计、内容填充和页面生成。

▲预览链接：https://qvwu1nyvju2u.space.minimax.io/

从最终效果来看，这类 Expert 和传统 Agent 最大的区别在于，它从边聊天边拼凑，转成了沿着一条完整生产流程在推进，结果的稳定性和完成度明显更高。

生成的网页不仅信息完整，画面和动效也有一定沉浸感，相比过去一些 vibe coding 产品常见的模板化和渐变紫风格，要更克制也更可用。

在偏专业的分析类任务上，Expert 的优势会更明显。我们选择了 McKinsey PPT（麦肯锡风格演示文稿生成）专家进行测试。按照介绍，它会自动补充数据、图表以及行业洞察。

实际测试中，我们只输入了一句非常简单的需求，「制作一份关于全球机器人市场的10页幻灯片演示文稿」。但最终生成的 PPT，在信息密度、结构完整度和图表配置上都没有明显缩水，基本具备拿来就能用的初稿质量。

这类场景也很能体现 Expert 的定位，它尝试把一整段专业工作流程产品化，从增强单次问答的模式里彻底跳了出来。

有了多模态能力的专家，一句话拍出顾北辰的短剧宇宙

还没听说过有能生成视频的通用 Agent 产品，但现在结合多个不同的 Skills、Agents 的专家，输入一段剧情，直接就能给我们一部短剧。

▲提示词：霸总重生在电子厂打螺丝，宫崎骏动漫风格，1-3分钟视频长度，台词激烈有冲突，剧情跌宕起伏有反转。

我们使用 AI 短剧导演+摄影+剪辑师专家进行测试，和一般的视频生成模型只能产出 5-10s 左右的视频不同，这个专家能自动生成完整的分镜，并且把视频进行剪辑和拼接。

最后生成的视频，完成度很高，虽然没能对口型把台词一字一句说出来，但是也配了一段应景的 BGM。而且大概率是检测到了提示词里面的「宫崎骏」，整个动画的风格，乃至角色和公司名字，都透露着一股日漫的味道。

简单对话，每个人都能创建一个专家

如果觉得官方或别人做的专家，还不够贴合我们的使用习惯和工作场景，MiniMax Agent 也提供了自定义功能，通过简单的一两句话就能创建一个专家。

我们完全不需思考什么是 Skill 或者专家，也不用遵守标准文件的规则设置等，只需要通过自然语言交互，就能更方便地把个性化的工作流、SOP 等集成，创建专属 Expert。

热点追踪是媒体编辑一项非常重要的工作，我们在 MiniMax Agent 的专家社区里，也使用过多次热点追踪的专家。例如当我们要求它基于输入的「春晚被机器人刷屏」这个主题，去搜索最新消息和近期热门话题时；它最后能给我们一份完整详细的长文，但是不够个性化。

于是，我们开始自己来创建一个 APPSO 的热点追踪。

▲在探索专家页面右上角点击「创建专家」，输入自己的需求，MiniMax Agent 会自动帮我们完成创建

创建专家的过程是可以连续对话，如果对目前专家的输出不满意，我们可以继续在对话框内要求 MiniMax Agent 进行更新。

创建完成之后，我们只需要发送一句「开始，帮我整理今天的科技快讯」，专家就会给我们 24h 内最值得关注的 AI 消息，并且以早报的文风和格式要求写好。此外，这些自己创建的专家，MiniMax 还提供了 15 轮免费，即不消耗积分的优惠，体验门槛更低。

▲APPSO 自定义的专家，现在可以自主完成一份快讯早报

除了大量可以直接使用和自定义的 Experts，更值得关注的是即将上线的 Marketplace。用户创建的 Expert，如果被使用，就能获得相应的积分，可以用来在 MiniMax Agent 里完成更多的任务。

而后续 MiniMax 还将开放专家自行定价，这意味着如果你在某个垂直领域有真正的专业积累，封装成 Expert 除了分享自用，还可能是一种新的变现路径。

说白了，一个 Skills 专家的应用商店雏形，已经摆在我们面前了。

一键接入 OpenClaw 的 MaxClaw

如果说 Expert 是强大的大脑，那么 MaxClaw 就是让大脑连接到现实的双手，这也是 MiniMax Agent 这次升级里，玩法最丰富的一个功能。我把它叫做升级版的 OpenClaw。

根据网络上到处都是的 OpenClaw 指南，想要真正好用的OpenClaw生态，我们要先学会手动部署、配置复杂的模型API，还要时刻盯着后台，生怕一不小心跑出天价的 API 账单。

对于绝大多数不懂代码的普通小白来说，这门槛属实是太高了。我只是想把好用的 AI 接入自己的飞书或钉钉，创建一个机器人，但是第一步就困住了。

MiniMax Agent 新增的 MaxClaw 模式，一键打通了 OpenClaw 生态，不需要繁琐的手动部署和配置模型 API，通过MiniMax Agent 网页端就可以快速上手。

目前，它也兼容手机端多个即时通讯交互工具，我们可以在飞书、钉钉、Telegram、WhatsApp、Discord、Slack 中使用。

拿部署到飞书机器人举例，甚至不用额外的部署指南，我们只需要点开首页左侧边栏的 MaxClaw 按钮，点击「立即开始」，我们可以选择使用默认配置，或者其他专家。

这也是 MaxClaw 对比 OpenClaw 的一大亮点，除了能像 OpenClaw 一样连接到不同的聊天应用，在自己常用的 App 里就能指挥 AI 干活；我们在初始配置时，就可以直接选择那些已经有的预置专家 Agent 配置。

创建之后，在对话框里发送消息，「我想连接到飞书」，按照 MaxClaw 回复的消息，我们点击飞书开放平台的链接，登录之后，按照流程，创建一个企业自建应用，获取 App ID 和 App Secret。接着把复制的信息发送给 MaxClaw，它会提示重启，重启之后在飞书的配置事件订阅里选择添加对应的事件就能启用。

不出所料，整个过程肯定会有一些问题。例如我们在拿公司飞书账号测试时，就被提示相关的授权需要审核才能发布，以及在权限管理和事件配置部分，飞书里面的内容太多太杂乱，根本不知道授予哪些权限。

这个时候，直接回到 MaxClaw，把遇到的问题统统发给它，跟着它的提示走，基本上都能解决。

顺利部署之后，我们在自己的飞书里，就能看到一个对应名字的机器人，然后直接开启对话，所有的对话也会同步在 MiniMax Agent 网页里的 MaxClaw 显示。

▲现在，飞书就能指挥你的 MaxClaw

让 MaxClaw 帮我们干活，都只用在飞书里面指挥它。我们直接把之前创建的「热点追踪」专家的指令发给它，然后在飞书里对话，输入一句简单指令，「帮我整理今天的快讯」。

很快，一份结构完整的 AI 早报就直接回到了飞书对话框里，完全按照要求的格式，摘要、关键信息提炼、标题等全部都有。并且还能设置定时任务，让 MaxClaw 在飞书里主动给我们发送消息。

除了热点追踪，之前的股票价值分析等专家，我们现在也可以直接通过飞书聊天的方式，就让 MaxClaw 为我们总结出一份逻辑清晰的完整报告。同时，继续让它为我们监控英伟达最新的动态。

而如果直接在配置的时候，选择对应的专家，我们可以看到它的 Skills 情况，MaxClaw 会自动添加开箱即用的 Skills 来帮助我们更好的上手。

▲在效率工具里面有「博客监控」和「内容摘要」等 Skills 用于「热点追踪」专家

时间一到，MaxClaw 在飞书里，准时给我们推送了最新的资讯。

「Claw」是 Agent 之后一种新的智能阶段

这次更新，真正值得关注的，其实不是又多了一个 Agent 工具。

OpenClaw 的爆火，让我们看到了一个能真正干活的「Agent」是什么样。它是个性化的，部署在自己的电脑上，告别了过去一个网页解决所有用户问题的统一；它是互联互通的，打穿了终端设备上不同应用的壁垒，在 Telegram 也能指挥 AI 帮助我们回复工作邮件……

▲知名博主 Simon Willison 提到 Claw 似乎正在成为像 Agent 一样的专用术语，用来描述一种新的智能体类别｜图片来源：https://simonwillison.net/2026/Feb/21/

这本质上是在提醒我们一件事：AI 正在从「辅助回答问题」，走向「直接进入工作流」。当 AI 开始能够调用工具、跨应用执行任务、甚至在后台持续运转，我们原有的工作组织方式，本身就已经在发生变化。

问题只在于，大多数普通用户其实卡在门外。

▲全球 81 亿人中， 84% 的人从未用过 AI，而只有 0.3% 的用户愿意为 AI 付费｜图片来源：https://global-ai-adoption.netlify.app/

一边是大家都知道 Agent 很强、OpenClaw 很火；另一边，是复杂的部署流程、看不懂的 API 配置，以及随时可能失控的调用成本。很多人不是不想用，而是很难真正用起来。

MiniMax Agent 这次做的事情，某种程度上就是在把这道门槛往下搬，让普通打工人也能轻松搭建自己的顶级 AI 工作流。

▲MiniMax Agent 会员定价｜对比大部分 AI 动辄 20 美元一个月的订阅费用，MiniMax Agent 39 元的价格，大约一杯咖啡的钱，却已经足够能帮我们把写稿、做 PPT、跑多 Agent 工作流一口气打通，让这只「龙虾」多线程干活

Expert 把过去需要反复调 Prompt、反复试错的专业流程，打包成了即开即用的专家社区；MaxClaw 则把原本偏极客向的 OpenClaw 生态，压缩成了一键可用的连接能力。

对于普通用户来说，这种变化的意义很直接，我们不用懂什么是终端，不用让自己费尽力气做个半吊子「工程师」，也能开始搭建自己的 AI 工作流。

▲METR 此前的研究显示 AI 工具对开发人员生产力的影响，导致生产力下降了 20%；但 METR 表示现在这一发现已经过时，生产力提升似乎更有可能｜图片来源：https://x.com/METR_Evals/status/2026355544668385373/

当越来越多「Agent」能够被像软件一样使用，AI 对工作方式的影响，才会真正开始外溢。

从这个角度看，MiniMax 推出这些产品，价值或许不只在于功能多了两个按钮，更在于它正在把一套原本属于少数人的先进工作范式，逐步变成更多人可以上手的日常工具。

对普通用户来说，这或许才是 Agent 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

实测 MiniMax M2.7：AI 狠起来，连自己都卷

爱范儿

张子豪

2026年3月20日 11:13

龙虾爆火之后，全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题：驱动龙虾的那颗「大脑」，够不够聪明？

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型，清一色都是 Mini、Flash 款，官方潜台词几乎写在脸上：专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界，反而成了最不被讨论的话题。

一个真正适配龙虾的模型，除了 Token 要量大管饱还实惠，更多的是模型要足够聪明、动手能力和学习能力足够强。

最近，MiniMax 正式推出了全新的 MiniMax M2.7 模型，主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」，既能处理代码工作、常见的 Office 任务，还能主动学习构建稳定的 Agent 系统。

具体来说，它能做好的工作比大多数模型要更宽。对于写代码，M2.7 能真正理解一个系统在运行时发生了什么，做到了 SRE（网站可靠性工程）级别的系统推理，看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%，几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改，M2.7 在这块有明显提升，金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士，但是真正进入工作流，作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。这是 M2.7 专项打磨的能力，多角色场景下边界清晰，面对包含 50+ Skills 的复杂环境，依然能保持极高的指令遵循能力。

然后是这次更新的重点，它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型，不只是「辅助迭代」，是「深度参与迭代自己」。能够自我进化，M2.7 可以自主迭代 Agent Harness（智能体脚手架）来胜任大部分的工作流。

实战能力的提升，也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升，来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准，它测试的是大模型在 OpenClaw 真实业务场景下的表现，图中为任务成功率指标，MiniMax M2.7 排名第四，在 Claude Opus 4.6 之后｜https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里，都接入了 MiniMax M2.7 模型，以及 MiniMax 提供的 MaxClaw，然后把真实的开发过程中遇到的 Bug、枯燥的金融数据，还有大量的长流程任务统统交给它。

两天的测试下来，我们发现不仅软件要为了 AI 重做，就连 AI 模型本身，除了要理解人类的用意和产出人类满意的结果，模型更需要懂得 AI 的工作方式和工作流，还得学会自己优化自己。

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后，真正的「AI 时代工作流」应该是，AI 作为核心运转枢纽，去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前，我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型，还是说拿去跑个 benchmark 好看，实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据，然后按照比赛的要求，告诉 MiniMax M2.7 帮我实现对应的需求，即根据给定的数据，进行合适的数据处理和特征工程，为我生成一份可视化的分析报告。

整个数据集的内容相当庞大，有超过 3000 行的表格数据，整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后，我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析，需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型，最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务，MiniMax M2.7 充分利用了我已经安装的各种 Skills，它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取，接着开始编写 Python 代码，自动安装 Pandas 库（常用来处理表格数据），一步一步进行。

最后，MiniMax M2.7 也交出了一份完整的可视化方案，它同时生成了多张图片用来展示收益率分布，不同特征的重要性和类别排名，以及综合仪表盘。

而在可视化的网页里，它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统，所有的信息都可以直接动态查看。

这种大型的项目任务，MiniMax 能够顺利完成，我们日常工作中的办公和编程任务，就更不用说了。

我们先是在手机上操作龙虾，让它帮我总结我放在电脑上的文件，然后要求 MiniMax M2.7 根据这份文件，帮我写一个研究计划 Word 文件，再整理一份相关论文的 Excel 文档，最后是一个用来组会做汇报的 PPT 文档，直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势，也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中，ELO 得分达到了 1495，国产模型最高。

前段时间，AI 工作助手的可视化面板很火，把龙虾放到了真实的二次元风格办公室里，用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家，但是如果我想要修改二次元房间布局，可以怎么做呢？交给 MiniMax。

在 OpenClaw 的可视化本地界面里，我们直接发送「我想修改这个小房子的风格该怎么做？」，MiniMax M2.7 会自动阅读项目的代码，然后告诉我们哪些地方是可以修改的，如何修改。

由于我输入的要求是科技编辑部办公室的风格，然后它就帮我修改成了有星球大战的海报，还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key，所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天，我们还能根据这个风格设计一个编辑部大亨的游戏，谁做的任务多，谁的办公室就大，就能升级。

如果是 MiniMax 官方的 MaxClaw，是直接支持多模态的生成，可以一步到位生成视频、音频、图片等，不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全，但是它不允许我们像操作本地电脑一样，任意安装不同的库文件。

最后在将视频转成 GIF 时，MaxClaw 提醒我，它没有足够的权限将 ffmpeg（一个开源的多媒体处理库）安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7，它会自动调用海螺等视频、音频和图片生成模型，为我们生成多媒体文件，而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能，我们就能看到所有安装在 MaxClaw 的 Skills 详情，并且点击「问问 MaxClaw」，它会自动编辑一条消息「告诉我 frontend-dev 能做什么，并告诉我如何使用它」，引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill，MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库，我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」，龙虾会自动获取 Skill 文档完成安装。

▲下载链接：https://github.com/MiniMax-AI/skills

AI 狠起来，连自己都卷

除了在日常工作和办公领域上表现出的完整工作流，以及实际的交付能力，MiniMax M2.7 最让我们感到特别的，还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向，把构建系统的任务交给模型，它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考，harness 负责把这个「会想」的东西，变成一个能稳定干活的系统。这个系统像是运行层，负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限，MiniMax 让它去优化某个内部脚手架的软件工程表现。结果，M2.7 全程零人工干预，硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹，自己规划改动，改完脚手架代码再去跑评测，最后对比结果决定是保留还是回退。在不停歇自我互搏中，它自己发现了最优解，最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证，MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题，M2.7 依靠内部的短时记忆文件和自反馈机制，每跑完一轮就给自己提优化建议。

24 小时内，它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌，得牌率 66.6%。

这个成绩，仅次于 Opus-4.6（75.7%）和 GPT-5.4（71.2%），与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份，仅用 1 人 4 天时间，零人工编码就搭出一套包含测试和代码审查的 Agent 系统时，AI 研发的齿轮，大概已经换上了自动挡。

在极其硬核的生产力之外，MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商，这让它在互动角色扮演（Roleplay）上，比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom，一个万物皆可互动的 Web GUI 空间，可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」，这件事比写好代码更重要

体验下来，MiniMax M2.7 真正让我们在意的，不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率，也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事：让 AI 真正理解工作流，并且参与到工作流的演化里。

过去，软件是人写的、人用的。现在，AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下，自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮，某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」，我想很快就不再是一个问题——因为决定这一切的，不再是我们。

而是那个，开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。