普通视图

发现新文章,点击刷新页面。
昨天以前爱范儿

ChatGPT,别再「稳稳接住我」了|附指南

作者 张子豪
2026年5月8日 17:42

晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。

都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。

盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。

▲ChatGPT 的常用口癖

除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。

有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。

社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。

表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。

▲图片来源:小红书@Lijie_11

还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。

这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。

无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。

▲项目地址:https://not-a-devstudio.github.io/jiezhu/

举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」

OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。

漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」

自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。

我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。

用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。

AI 第一句被全民模仿的中文台词

在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。

一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。

但翻译成中文之后,它变得又长又戏剧化。

我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗

其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。

有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。

这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。

它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。

这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。

而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。

所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。

问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。

一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。

另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。

久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。

类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。

深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。

每个「人」都有自己的口癖

本以为换个模型,耳根就能清净清净。

事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。

Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。

前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。

但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」

将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。

没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。

之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。

情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。

在知乎上有一个类似的问题,底下有一条回答特别有意思。

他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。

确实,我想真正在场的人,从不需要宣告自己在场。

最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。

▲提示词来源:https://linux.do/t/topic/1924570

硬约束

– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构

沟通

– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节

中文输出规范

适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。

GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):

暴力倾向类(把技术操作比喻成暴力行为):

– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门

废话连篇类(无意义的开头、总结或过渡):

– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对

庸医问诊类(把代码问题比喻成看病/诊断):

– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型

不说人话类(生造的口语化/黑话表达):

– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的

单音节动词滥用(在技术语境中不自然的单字动词):

– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”

机械感/工业感比喻(把代码比喻成机械零件或物理操作):

– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实

过度主动/逼迫用户确认(制造虚假紧迫感):

– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…

谄媚/讨好类(过度吹捧用户或制造情感依赖):

– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗

虚假确定性(对自己的修复过度自信):

– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以

整句模式(典型 GPT 句式,正常人不会这么说):

– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”

正面锚点:

– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

国产AI编程冲上全球第二!实测五大模型,谁才是Vibe Coding神器

作者 张子豪
2026年5月28日 12:02

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。

▲5.26 榜单截图

除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

虽然现在大模型四年,我们已经对这些排行榜的刷新屡见不鲜,但还是忍不住想要体验一下,能够超越 GPT 5.5 的 Qwen 模型,实际能力到底如何。

要知道,现在最火的 Coding Agent 组合,大概就是搭配了 GPT 5.5 的 Codex。

如果我们把 Codex 里面的默认模型修改成 Qwen3.7 Max,再用 Codex 来完成一些日常的任务,会不会比 GPT 5.5 还好用呢。

获取 Qwen3.7 Max

趁着现在各家都在推出一些 Token 优惠活动,阿里云也提供了 100 万 Token 的免费使用,可在阿里云百炼平台使用。

Qwen3.7 Max 的定价,在阿里云官网,目前是限时五折,输入 6 元/每百万 tokens,输出 18 元/每百万 tokens。新用户还可以 5 折充值节省计划,以 10 元每月的价格获得 20 元的 Token 额度,而 Token Plan 标准档目前是 198 元/月。

总体来说,根据大模型聚合平台 OpenRouter 显示的数据,Qwen3.7 Max 的价格属于中规中矩的一档,对比 DeepSeek 的骨折价肯定比不上,但和 Opus 4.7、GPT 5.5 相比还是优惠不少。

我们直接充值了「入门首选」这档全模型通用抵扣 20 元。但这里需要注意的是,五折优惠仅支持一个套餐,即购买了 10 元的,就不能再购买 50、250 的半价优惠计划了。

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

拿到了 API Key 和百万免费使用 Token,我们先是在阿里云百炼平台、以及千问官网,使用 Qwen3.7 Max 做了一些常见的前端网页设计来测试它的开发能力。

像是比较能直观的看到差别的物理模拟测试,我们就用一段简单的提示词「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画,拖动容器可以改变倾斜角度。」

▲ Qwen3.7-Max,千问官网生成

Qwen3.7 Max 的表现可以说是顺利完成了这个模拟挑战,同时还增加了颜色的自定义、摇晃、液体量调节等功能。

DeepSeek 就比较简单,但是也没出错。

▲ DeepSeek V4,官网生成

GPT-5.5 生成的液体有点奇怪,虽然做到了会随着角度的切换,流向对应的方向,但是整个波浪很出戏。

▲ GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 生成网页似乎是有点 Bug,那个瓶子一直会被隐藏到控制面板背后,必须得自己拖出来。但是同样一句提示词,它给的自定义东西是真的多,不仅提供了瓶子的类型,还有液体的颜色,各种设置都能自定义。

▲Gemini 3.5 Flash,官网生成,选择 Canvas 选项

Claude Opus 4.7 这个瓶子过于简陋了,而且模拟的液体晃动效果在剧烈状态下,很像是音波的跳动。

▲ Claude Opus 4.7,使用 Claude Code 应用生成

接着我们尝试让它生成一个小游戏试试,虽然游戏的测试已经是去年 Vibe Coding 的常见测试项目了。但这次我们要 AI 做一个六宫格的 2048 游戏,输入提示词「做一个可以玩的 2048,但格子是六边形的。」

Qwen3.7 Max 生成的页面还是很好看的,能看到它的参考来源 10 条信息里面,大部分都是来自 CSDN 的 2048 游戏生成教程。

最终的游戏也能玩,但还是偶尔有不按常理出牌的时刻,例如同一方向上,相同数字叠加,没有叠加在该有的位置。

▲ Qwen3.7 Max,官网生成

DeepSeek V4 的表现和上一轮差不多,但是明明是六边形,给出的键盘控制却只有 WASD 来滑动。

▲DeepSeek V4,官网生成

这一轮表现最好的大概就是 Claude 的 Opus 4.7,它真的理解了这个游戏应该怎么设置,格子的移动是符合这个蜂巢的规则,不会让人感觉找不着北。

▲ Claude Opus 4.7,使用 Claude Code 应用生成

GPT 5.5 依托 Codex 的能力,在生成了游戏之后还能自己打开浏览器预览是否有问题,抓取控制台的信息来修复项目代码。最后生成的网页也很优秀,不过对于监控鼠标在屏幕上的移动方向,还是没有 Opus 4.7 的表现出色。

▲GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 则是一如既往地给我加了很多东西。游戏的主题风格它就写了赛博、暗金和马卡三种背景,甚至还加上了「内置高品质合音器」。

游玩过程配有原生 Web Audio 生成的复古 8-bit 太空音效(合并、滑动、过关、死亡),体验感瞬间拉满。

▲Gemini 3.5 Flash,官网生成,选择 Canvas 选项

再回到一些普通网页的设计上,我们要求它做一个地铁博物馆的网站,输入的提示词也只有一句话「设计一个名为地铁博物馆的主题网站,要求沉浸感强。」

本意上我们希望这些大模型可以尽可能多地罗列不同城市的地铁信息,世界地铁的 Logo,以及整个网站的风格应该是艺术性的,有专门的风格和充分的特效来呈现。

先看Qwen3.7 Max,说实话有点难评,把文字竖排放着是很像地铁列车,但是整个网站给人的感觉是很乱。

▲ Qwen3.7-Max,千问官网生成

而 Gemini 继续做了很多,声效再次用上,比较有意思的是,它还做了一个地铁文创,定制纪念票根生成器。我们可以输入名字、选择车站,实时生成一张高颜值、复古风的地铁纪念乘车票。

▲ Gemini 3.5 Flash,官网生成,选择 Canvas 选项

DeepSeek 选择的项目和 Gemini 类似,一样有票务纪念和驾驶体验,但是它在最后交付的成果中,似乎并没有呈现这些功能。

▲ DeepSeek V4,官网生成

GPT 5.5 现在生成的网页风格很不错,虽然也有明显的套用模板,但是整体的设计是在线的,遗憾就是信息量太少了。它似乎没有理解地铁博物馆应该是一个介绍地铁信息的网站。

▲GPT-5.5 超高,使用 Codex 生成

继续用之前的提示词像是让它做一个 macOS/Windows 的操作系统,这次我们输入「用 HTML 构建一个完整的浏览器操作系统。」

DeepSeek V4 的表现很简单,同样简单的是 Qwen3.7 Max,不过这次 Qwen3.7 Max 额外给了一张不错的桌面风景图片。

▲ DeepSeek V4,官网生成

▲ Qwen3.7-Max,千问官网生成

但在这个测试中真正让我觉得表现不错的,还是 Gemini 3.5 Flash 和 GPT 5.5。

▲ Gemini 3.5 Flash,官网生成,选择 Canvas 选项

和 Gemini 3.5 Flash 一样,GPT 5.5 也对整个 OS 进行了详细的设计,有专门的风格。

▲ GPT-5.5 超高,使用 Codex 生成

在 Codex 里使用 Qwen3.7 Max

一轮测试下来,好像 Qwen3.7 Max 在通过对话生成小网页项目的测试表现上,很难说每一次都超越 Gemini、GPT 5.5,但对比前代,我相信是已经有了很大的提升。

我们在千问官网看到有一些给出的代码案例,像是 3D 地球,食物链排序,可视化,个人博客等内容,但是这些网页项目的提示词都比较长,而不是像我们所测试的简单一句话。

▲在输入提示词之后,千问也提供了「优化指令」的选项

我们把 3D 地球这个项目的提示词也扔给了 DeepSeek V4、Gemini 3.5 Flash,得到的效果几乎和 Qwen3.7 Max 是一样的。

这意味着提示词在当前阶段,对能否发挥 Qwen3.7 Max 的能力,还是起着相当重要的作用。

而减少用户优化提示词压力的方式,大概就是接入 Agent 产品,利用他们的 Skills 以及 Agents 协作等能力,来发挥模型的真正实力。

按照阿里云官方的教程,我们把 Qwen3.7 Max 成功接入到了 Codex 终端助手里。

不过这里容易出现 BUG,即 Codex 会不断提醒你「CODEX Missing environment variable」。

按照官方的教程,我们修改完 ~/.codex/config.toml 配置文件之后,还需要修改电脑的环境变量。

即模型的 API KEY 信息是保存在电脑的环境变量(需要查看自己电脑的 Shell 类型,修改对应的环境变量文件,如 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 配置文件里。

修改完成之后,在终端输入 Codex,我们就能看到 Qwen3.7 Max,重新打开 Codex App,主界面的模型也会从之前的 GPT-5.5 切换为自定义的 Custom。

用同样的方法,我们可以把 DeepSeek、MiniMax、Kimi、智谱等模型,都接入到 Codex 中。

前段时间在 GitHub 上有一个前端的 Skill 收获了两万多个 Star,它主打让 AI 生成的前端界面更好看,这和 Qwen3.7 Max 拿下第二名的榜单任务类似。

我们先安装这个 Skill 到 Codex 中,然后尝试结合 Skill 看看是否能有更好的效果。

▲ 地址:https://github.com/Leonxlnx/taste-skill

输入同样的提示词,Codex 会自动调用前端设计、头脑风暴等 Skill 来完成设计的定位和构思,并且严格按照 Codex 的流程控制来监控项目生成。

最后,同样一个模型,在 Codex 里面的表现要比直接在千问官网好上不少。

但是这里还是会容易遇到一个问题「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The “function.arguments” parameter of the code model must be in JSON format.」

当模型需要调用专门的工具时,就无法再和模型取得连接。我们在互联网上找到了相关的问题案例,原因可归结为「模型部署厂商针对流式输出格式有问题,不是标准 OpenAI 协议,所以不支持 API 调用,出现 400 报错。」

要求 Codex 解释这个问题时,Codex 也是说模型的问题。

不是你配置错了,而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex,长任务、改代码、频繁读文件时,切回 OpenAI 官方模型会稳定很多。

所以如果你也遇到了这个问题,大概只有等 Qwen 团队自己去修复,或者重新开一个会话试试。

▲ 阿里云官方有出现不同错误码的解决方案指南

去年我们还在说模型即产品,一个足够好的模型就是一个好产品,现在看来,单靠模型是远远不够的。

记忆、Harness、Agents 编排、验证、推理的可持续性等等,随着模型能力的增加,这套架构也在持续扩充,但只有都做好了,我们或许才愿意说「这是一个好模型」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测Claude史上最强模型Fable 5,普通人慎用

作者 莫崇宇
2026年6月10日 14:31

对普通人最坏的消息要来了。

就在刚刚,Anthropic 宣布推出 Claude Fable 5 和 Claude Mythos 5。

其中,Fable 5 是 Anthropic 首个面向公众开放的 Mythos 级模型,Mythos 5 则主要面向少数网络安全防御机构、关键基础设施提供方以及后续进入可信访问计划的生物医学研究者。

只是,鲜少有人注意的是,按照官方说明,Fable 5 从现在到 6 月 22 日,会包含在 Pro、Max、Team 和按席位计费的 Enterprise 计划里,不额外收费。到了 6 月 23 日,Fable 5 将从这些订阅计划中移出,继续使用就需要消耗 usage credits。

换句话说,过去那种一张「月卡」解锁最强 AI 的模式,或许将一去不复返。对于用户而言,未来需要考虑的可能不只是订阅价格,还有每一次调用、每一次长任务执行背后真实消耗的 token 成本。

欢迎进入 Token 计费时代。

Claude Fable 5 封神登场,但它也是最狠的「Token 刺客」

Anthropic 对 Fable 和 Mythos 的命名也给出了解释。Fable 源自拉丁语 fabula,意为「被讲述的小故事」,含义上接近希腊语 Mythos。

两个新名字看起来像两款模型,实际更接近同一底层模型的两个版本。Fable 5 目前面向公众开放,带有更严格的安全限制;
Mythos 5 目前只通过 Project Glasswing 计划提供给少数网络安全防御机构和关键基础设施合作方。

根据 Anthropic 官方博客的介绍,Fable 5 是该公司目前一般可用模型中能力最强的一款,在软件工程、知识工作、视觉理解、科学研究等方向都有明显提升。任务越长、越复杂,它相对此前 Claude 模型的优势越大。

Fable 5 的意义在于,Mythos 级能力第一次大规模面向普通用户开放。基准测试跑分图如下,主打一个遥遥领先。

不过,模型名字本身也引发了一些讨论。原 OpenAI Codex 相关负责人 Tibo都发文调侃道,Anthropic 用了 OpenAI 想用但没有用的 Fable 命名。

能力层面,软件工程是官方最强调的方向之一。

Anthropic 提到,Stripe 在早期测试中让 Fable 5 处理一个 5000 万行 Ruby 代码库的迁移任务。这个工作如果交给一个工程团队手动完成,原本需要两个多月,Fable 5 在一天内完成。

Cognition 的 FrontierCode 测试也显示,Fable 5 在复杂生产级代码任务中表现领先。这个评测关注的不是普通代码题,而是模型能否完成困难编程任务,并达到高质量生产代码库的要求。

Anthropic 还强调,Fable 5 比此前 Claude 模型更节省 token。当然,这话听听得了,以往每次 Claude 新模型的发布都有类似的表述,但几乎都成了一个个 Token 刺客,为偌大的互联网提供了相当多的笑话。

知识工作方面,Fable 5 在 Hebbia 的金融基准测试中拿到最高成绩,提升集中在文档推理、图表理解和复杂问题分析。IMC 的交易分析评测也显示,Fable 5 在事实检索、概念推理、原因分析和期望值分析上都有较强表现。

视觉能力也是发布重点。Anthropic 称,Fable 5 能从复杂科学图表中提取精确数字,也能根据网页截图重建应用源码。

官方还展示了一个更直观的案例:Fable 5 只依靠游戏画面完成《宝可梦火红》,没有使用额外地图、导航工具或游戏状态信息。此前的 Claude 模型做类似任务,还需要更复杂的辅助系统。

长上下文和记忆能力也有提升。Anthropic 在《杀戮尖塔》测试中发现,给模型提供持久化文件记忆后,Fable 5 的表现提升幅度达到 Opus 4.8 的三倍,进入最终章节的频率也提升三倍。

生命科学方向更敏感。Anthropic 称,内部蛋白质设计专家使用 Mythos 5,把部分药物设计流程加速约 10 倍。

在一个案例里,Mythos 5 借助蛋白质设计和生物信息学工具,在没有人工协助的情况下完成了科学家通常要处理的一整套流程,包括选择结合位点、调用设计工具、处理失败结果。14 个蛋白靶点中,有 9 个产生了值得继续研究的候选方案。

生命科学和网络安全能力的提升,也解释了 Anthropic 为什么没有把完整 Mythos 级能力直接放开。

Fable 5 面向公众开放时,配套了一套新的安全分类器。只要用户请求涉及网络安全、生物、化学或模型蒸馏等高风险方向,系统就会自动改由 Claude Opus 4.8 响应,并告知用户模型发生了变化。

Anthropic 表示,早期数据中,超过 95% 的 Fable 5 会话不会触发这种变化。普通写作、编程、分析、设计、数据处理等任务,大多数情况下仍能使用 Fable 5 本身。但只要进入高风险区域,模型能力就会受到限制。

网络安全是限制最严的方向。Anthropic 承认,Mythos 级模型擅长发现和利用软件漏洞,也具备较强的代理式攻击能力,可能覆盖侦察、发现、横向移动等环节。为了避免这种能力被滥用,Fable 5 的网络安全分类器覆盖范围很广。

生物和化学方向也类似。Anthropic 认为,模型已经具备完成真实科学任务的能力,过去只屏蔽少数生物武器相关问题已经不够。因此,Fable 5 暂时会在大多数生物和化学相关请求上回退到 Opus 4.8 处理。

值得一提的是,Anthropic 还为 Fable 5 加入了一层针对前沿大模型开发的隐藏保护。

它主要限制 Claude 协助构建预训练流水线、分布式训练基础设施或 ML 加速器设计等任务,避免模型反过来加速其他机构训练下一代前沿模型。

和触发后会切换到 Opus 4.8 的安全限制不同,这类保护不会直接提示用户,而是通过提示词修改、steering vectors 或 PEFT 等方式,降低 Fable 5 在相关任务上的性能。目前也已经有受害者现身说法。

截至目前,Claude Fable 5 现已面向全球用户开放。开发者可以通过 Claude API 调用 claude-fable-5。Claude API 和按需付费的 Enterprise 计划从发布日起已经全面可用。

Fable 5 和 Mythos 5 的价格相同,均为每百万输入 token 10 美元,每百万输出 token 50 美元。按照 Anthropic 的说法,这已经低于 Claude Mythos Preview 的一半,但对于高强度长任务来说,价格仍然不低。

AI 终于数清了 6 根手指

比起官方博客,实测更能说明 Fable 5 到底变强在哪里。根据我的实测,Fable 5 已经能够识别 6 根手指了。

恰逢高考结束,我们也拿了道全国高考一卷语文作文题,让它练练手,怎么说呢?整体文风表达比较流畅,并不「普通」。

更具体的对比可以参考@ Hypergent 的实测,在小行星可视化任务中,Fable 5 不仅完成数据提取,还设计了包含轨道轨迹和悬停详情的交互式展示,在保证性能的同时提升了信息表达能力。

在健身度假村规划任务中,Fable 5 借助 GPT-Image-2 和 Nano Banana 生成更符合实际使用逻辑的场地方案,能够考虑区域连接、功能分布和人流动线,而不仅是简单摆放建筑。

Fable 5 能够把天文现象与可视化表达结合起来,展示太阳耀斑对极光影响的模拟;而 Opus 4.8 甚至未能正常加载。

前特斯拉 AI 总监,OpenAI 联创 Andrej Karpathy(现已加入 Anthropic)的评价更能说明开发者的感受。

不过,在设计审美上,人类目前仍然略占上风。

沃顿商学院教授 Ethan Mollick 的实测更能体现 Fable 5 的变化。他拿到早期访问权限后,重点测试了游戏、地图和研究工具等复杂任务。

其中最有代表性的是一个等时线地图项目。Mollick 要求 Fable 5 构建一个基于真实交通数据的交互式地图,展示不同城市在一定时间内的可达范围。模型随后调用多个 Agent 收集航班、铁路和道路数据,同时完成代码编写和测试,并不断根据反馈修正结果。

Mollick 还让 Fable 5 开发了一款名为 Concord 的研究工具。模型先生成 19 页设计文档,又连续工作 9 个半小时,最终完成软件开发,用于分析开放式研究数据并校准人类与 AI 的判断结果。

实测也暴露出明显问题。Mollick 认为,Fable 5 仍然会出现错误和遗漏,需要人工检查和完善。同时,长任务带来的 token 消耗非常高,而 Fable 5 的价格又明显高于 Opus 4.8,真正投入生产环境后,成本可能成为最大的现实挑战。

高强度长任务能力,最终都会反映到使用成本上。作为 20 美元套餐的 Pro 用户,我甚至只是简单跑了几个任务,就用完了额度。

而 Claude 客户端也显示 Fable 5 「included until June 22」,如开头所述,由于算力限制,按照 Anthropic 的安排,免费包含窗口结束后,Fable 5 会从部分订阅计划中移出,继续使用需要消耗 usage credits。

过去用户付一笔不算贵的月费,就能在很大程度上享用世界上最强的一批智能。订阅制模糊了真实成本,也让普通个体在某些时刻和一些巨头站上了同一条起跑线。

Token 计费降临之后,一切都会发生变化。

AI 会从一种近似包月服务,变成一种按量消耗的生产资料。最强模型也正在变成一种更昂贵、更精细计价的生产工具。

有些人可以不太在乎成本,比如让 Fable 5 执行 24 小时长链任务,重构 5000 万行代码,独立开发一个完整应用,持续跑研究项目,反复测试和修改结果。

但更多普通用户则会在每一次调用前下意识地掂量:这个问题值不值得花 token?这个任务值不值得交给最强模型?这次尝试失败后,还要不要继续让它重来一遍?

最糟糕的消息莫过于此。AI 没有变弱。相反,它正以前所未有的速度变强,强到足以独立完成越来越多原本属于人类的脑力工作。

与此同时,获得这种能力的门票正在不断提高。普通人与先进生产力之间,刚刚被大模型拉近的信息差,可能会因为昂贵的 token 计费重新拉开。

Anthropic 如此,未来 OpenAI 等其它厂商也很难例外。前沿模型越强,训练和推理成本越高,尤其是这两家 AI 公司目前都在争取上市,都需要向资本市场证明自己不只是能训练更强模型,也能把模型能力变成持续收入。

因此,与其说 Fable 5 的发布是一次模型升级,倒不如说是一次彻底调整 AI 订阅体系的预热。如果 AI 的普惠窗口期开始进入倒计时,那这绝对不会是最好的消息。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌