LLM 救星?DeepSeek 推出 DeepSeek-OCR,Token 節省高達 90%
(硬是要學/手哥 HANDBRO 報導)
在處理長篇文本時,LLM 往往會因序列過長而消耗大量資源,DeepSeek-AI 最新發表的研究成果 —— D […]
本文 LLM 救星?DeepSeek 推出 DeepSeek-OCR,Token 節省高達 90% 最早出現於 硬是要學。

(硬是要學/手哥 HANDBRO 報導)
在處理長篇文本時,LLM 往往會因序列過長而消耗大量資源,DeepSeek-AI 最新發表的研究成果 —— D […]
本文 LLM 救星?DeepSeek 推出 DeepSeek-OCR,Token 節省高達 90% 最早出現於 硬是要學。

「阿正老師,AI 工具好多,我到底該用哪一個?」這是我這陣子最常收到的問題。老實說,光 2026 年就冒出幾百 […]
這篇文章 2026 免費 AI 工具懶人包:30 款工具依用途分類,找到你需要的那一款! 最早出現於 軟體玩家。

DeepSeek V4 终于发布了,带来了 1M 上下文,代码能力明显提升,推理进入第一梯队,但知识类能力仍落后于头部闭源模型。

最重要的是:「DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。」

右侧显示,单 token 计算量(FLOPs)对比:
也就是说,同样的显卡和显存,可以处理更多的请求了(利好大模型提供商)
| 指标 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | DeepSeek V4 Pro-Max |
|---|---|---|---|---|
| MMLU-Pro | 87.5 | 89.1 | 91.0 | 87.5 |
| SimpleQA | 45.3 | 46.2 | 75.6 | 57.9 |
| GPQA Diamond | 93.0 | 91.3 | 94.3 | 90.1 |
| HLE | 39.8 | 40.0 | 44.4 | 37.7 |
| LiveCodeBench | – | 88.8 | 91.7 | 93.5 |
| Codeforces | 3168 | – | 3052 | 3206 |
| Apex Shortlist | 78.1 | 85.9 | 89.1 | 90.2 |
另外,今天更新了 GPT-5.5,也是同一天啊,ChatGPT 中已经可用。
降了,也没降:
| 模型 | 输入(缓存命中) | 输入(未命中) | 输出 | 上下文 |
|---|---|---|---|---|
| V3.2 | 0.2 元 | 2 元 | 3 元 | 128K |
| V4 Flash | 0.2 元 | 1 元 | 2 元 | 1M |
| V4 Pro | 1 元 | 12 元 | 24 元 | 1M |
V4 Flash 降价,V4 Pro 全面涨价。
V4 Pro 比 V3.2 贵了这么多,值不值:
| 类别 | 指标 | V3.2 | V4-Pro | 提升情况(Pro) |
|---|---|---|---|---|
| 知识 | MMLU-Pro | 65.5 | 73.5 | ↑ +8.0 |
| 知识 | C-Eval | 90.4 | 93.1 | ↑ +2.7 |
| 知识 | MultiLoKo | 38.7 | 51.1 | ↑↑ +12.4 |
| 事实问答 | SimpleQA | 28.3 | 55.2 | ↑↑ +26.9 |
| 事实问答 | FACTS | 27.1 | 62.6 | ↑↑ +35.5 |
| 推理 | BBH | 87.6 | 87.5 | ≈ |
| 推理 | HellaSwag | 86.4 | 88.0 | ↑ +1.6 |
| 推理 | WinoGrande | 78.9 | 81.5 | ↑ +2.6 |
| 代码 | HumanEval | 62.8 | 76.8 | ↑↑ +14.0 |
| 数学 | MATH | 60.5 | 64.5 | ↑ +4.0 |
| 数学 | GSM8K | 91.1 | 92.6 | ↑ +1.5 |
| 长上下文 | LongBench-V2 | 40.2 | 51.5 | ↑↑ +11.3 |
目前 DeepSeek 官网以及 API 都上线了 V4。
原文:https://www.appinn.com/deepseek-v4/
应该是不能的,Flash 最低也要200GB内存往上了。
![]()
星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍,就在刚刚,正式发布并开源了 V4 系列模型预览版。
![]()
一上来就是王炸级别,而且双双标配百万 token 上下文:
即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务同步上线。
Agent 能力是此次升级最核心的方向。
V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。
员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距。
官方内部 R&D 编程基准测试也给出了类似的定位,约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。
![]()
参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。
模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成均有提升。
工具调用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误,比上一代更可靠。
![]()
知识与推理层面,V4-Pro 在世界知识测评中大幅领先其他开源模型。
SimpleQA-Verified 得分 57.9,比最接近的开源竞争者高出约 20 个百分点,只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。
基座模型层面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base(对应分别是 87.8、65.5、28.3、40.2)。
值得一提的是,参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base,说明架构层面的改进本身带来了相当可观的效率提升。
指令模型的横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。
![]()
在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。
Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平。
BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实,并非只在内部框架上表现良好。
![]()
长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。
从分段数据来看,128K 以内的检索能力相当稳定,128K 之后开始出现明显下滑,但 1M 时的表现依然超过大多数同类模型。
中文写作同样是 V4-Pro 的强项。
官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型,在包含 3170 条样本的功能性写作评测中,V4-Pro 的胜率为 62.7%,Gemini 为 34.1%。
创意写作方面,V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景,Claude Opus 4.5 仍有优势,胜率是 52.0% 对 45.9%。
很多人看到 Pro 和 Flash 两个档位,第一反应是「Flash 就是降配版」。
错,大错特错。 DeepSeek 的定位逻辑要更复杂,V4-Flash 的参数量和激活量都小得多,API 价格更有竞争力。推理能力和 Pro 很接近,世界知识储备稍逊,
简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务,以及思考模式的选择。
在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,和 Pro Max 的差距已相当有限。
![]()
日常任务用 Flash,遇到硬骨头开 Think Max,性价比很高。
模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务,选对思考强度,比纠结选哪个版本要重要得多。
两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换。
非思考模式响应速度快,适合日常轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,官方建议上下文窗口至少设置为 384K token,复杂 Agent 场景则直接设成 max。
Think Max 模式下还有一段额外注入到系统提示开头的指令,要求模型「以绝对最大力度推理,不允许走捷径」,并强制要求把每一步推理、每一个被否定的假设都显式写出来。
![]()
这种设计的效果从数据上看相当明显,也解释了为什么同一个模型在不同模式下的表现差距如此之大。
百万 token 上下文有不少模型都在宣传,但撑起这个规模的工程代价是完全不一样的。
DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长,上下文一长就成了最主要的计算瓶颈。
![]()
V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力只挑其中 k 条参与核心计算;HCA 则用更激进的压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。
![]()
CSA 里还有一个闪电索引器,用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,再挑出 top-k 个块参与后续注意力,进一步压缩计算量。为了避免压缩损失局部细节,两种注意力都额外引入了滑动窗口分支,让每个 token 能完整看到最近的若干个相邻 token。
效果是显著的,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进,同样场景下推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。
![]()
官方表示,百万上下文从现在起将是 DeepSeek 所有官方服务的标配。
真·就长长长长长长长长。
除注意力机制外,V4 还引入了流形约束超连接(mHC)来强化残差连接。
传统残差连接把层与层之间的信号直接相加,而 mHC 把残差流的宽度扩展若干倍,再通过三组可学习的线性映射动态控制信号的混合方式。
负责残差变换的矩阵被约束在双随机矩阵集合上,保证谱范数不超过 1,让跨层信号传播更加稳定。
训练层面采用 Muon 优化器,通过迭代正交化梯度矩阵来更新参数,加快收敛速度并提升稳定性,和 AdamW 混用:大多数模块用 Muon,嵌入层、预测头、RMSNorm 权重仍用 AdamW。
训练过程中遇到了 loss spike 问题。
DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」,在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。
第二个是对 SwiGLU 激活函数的线性分量做截断,把数值范围钳制在 [-10, 10] 以内,直接压制异常值的出现。补货,两种方法目前只知道有效,机理还不够清晰,DeepSeek 在论文中坦承这个问题留待后续研究。
![]()
此外,两款模型均在超过 32T token 的高质量数据上完成预训练,数据构成涵盖数学、代码、网页、长文档等多个类别,中期训练阶段还额外加入了 agentic 数据来强化代码能力。
训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习独立培养领域专家,涵盖数学、代码、Agent、指令跟随等多个方向,再经在线蒸馏(OPD)将各领域能力整合进单一模型。
OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计,梯度估计更稳定,知识迁移更完整,代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载,隐藏层状态也做了专门缓存以避免显存爆炸。
当然,源神,依然是那个源神!
目前四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。
Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8。
FP4 到 FP8 的反量化是无损的,因为 FP8(E4M3)比 FP4(E2M1)多两位指数位,动态范围更大,能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。
此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供了 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。
![]()
API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上,调用时 base_url 不变,model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。
旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式,开发者需在截止日期前完成迁移。看来这个周末有得忙了。
除了技术架构,DeepSeek V4 这次一个更值得关注的变化,是英伟达不再是唯一选项。
也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。
图片
DeepSeek 选择在 V4 这个节点上做这件事,时机很精准。
V4 的性能已经比肩顶级闭源模型,如果它只能跑在英伟达芯片上,那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾,这个叙事也有所完整:算法是自己的,代码是开源的,芯片是国产的。
巧合的是,黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示,DeepSeek不是一个无足轻重的进展。
![]()
他还假设了一个情况,那就是 DeepSeek 新模型在华为平台上首发,黄仁勋表示这一天对美国来说将是一个可怕的结果,因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。
DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理,这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度,V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。
一个顶级开源模型的芯片选择,正在撬动一整条产业链的洗牌。
DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
今天一大消息就是开源 AI 大模型圈的“卷王” DeepSeek,憋了 15 个月后,终于把全新系列模型 DeepSeek-V4 正式公布出来了,而且照惯例,同步开源!
一时间朋友圈、技术群各种消息满天飞。现在 DeepSeek 官网和 API 都直接能用 v4 了!包括众多第三方算力平台也陆续上线。之前 Claude、Gemini、ChatGPT、Qwen 等行业里各家一直在疯狂迭代。终于,终于轮到有着“国产 Ai 图腾”、价格屠夫之称的 DeepSeek 来炸一回场了……
「 前往查看原文.... 」
终于来了!时隔半年,DeepSeek 新一代模型 DeepSeek-V4 正式发布。这一次,它不仅在性能上大幅跃升,还直接把“开源大模型”的上限再次拉高。结合官方发布与实测,这篇文章带你系统看懂:DeepSeek-V4 到底强在哪?值不值得用?
![]()
DeepSeek-V4 延续了 DeepSeek 一贯的策略:
完全开源(含权重)+ 支持商业使用
这意味着:
本次一共发布了 4 个模型:
| 模型 | 参数规模 | 激活参数 | 类型 |
|---|---|---|---|
| DeepSeek-V4-Flash-Base | 284B | 13B | 基础模型 |
| DeepSeek-V4-Flash | 284B | 13B | 聊天模型 |
| DeepSeek-V4-Pro-Base | 1.6T | 49B | 基础模型 |
| DeepSeek-V4-Pro | 1.6T | 49B | 聊天模型 |
简单理解:
![]()
DeepSeek-V4 支持 百万级上下文窗口。
这是什么概念?
一次性可以处理:
这已经不是“长文本”,而是直接进入 “超长记忆模型”时代。
在 SWE-bench 测试中:
DeepSeek-V4-Pro 达到 80.6%
这意味着:
性能已经接近顶级闭源模型。
![]()
下面是几个核心能力的实测复现![]()
在《三体》90万字文本中插入一句隐藏密码:
DS-V4-PASSWORD-2026-ROCKS
提问:
请告诉我文档中隐藏的测试密码是什么?
模型精准命中:
写一个番茄钟 Web 应用(HTML/CSS/JS)
直接可运行!
一句话总结:
从需求到成品,只用了几十秒。
生成一个 Python 脚本:
功能:
例如:
--dry-run它不是“写代码”,而是:
像工程师一样思考代码
![]()
不足:
| 能力 | DeepSeek-V4 | 一些小模型 |
|---|---|---|
| 长文本 | ||
| 代码生成 | ||
| Agent能力 | ||
| 开源 |
尤其是在长文本和工程能力上,差距非常明显。
官方模型已发布在 Hugging Face:
(直接搜索 DeepSeek V4 即可)链接直达:https://huggingface.co/collections/deepseek-ai/deepseek-v4
DeepSeek-V4 这一代的关键词只有三个:
更长(百万上下文)
更强(Agent能力)
更开放(完全开源)
如果说上一代只是“强模型”,
那这一代已经是:
真正能干活的 AI 工程助手
如果你还在观望开源模型:
DeepSeek-V4,很可能就是当前最值得上手的一款。
![]()
你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?
它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:
等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。
尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:
「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」
然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。
接着,你深吸一口气,抬起头。
等等,刚才发生了什么?
窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」
如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。
在没有 AI 的年代,摸鱼是需要心理建设的。
你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。
但现在,形势逆转了。
当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。
这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。
低情商这叫偷懒,高情商这叫技术性调休。
于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」
这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。
其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。
把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。
那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。
后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。
历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。
很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。
紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。
包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。
最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。
你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。
爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。
理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。
等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。
最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。
恭喜你,新的半小时又开始了。
当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。
毕竟 Attention is all you need.(doge)
他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。
只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。
人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。
这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。
但即便如此,大家依然在努力维持着打工人的最后一丝体面。
在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。
哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。
甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。
鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。
今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。
屏幕常亮,心态常好。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
![]()
晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。
都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。
盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。
![]()
▲ChatGPT 的常用口癖
除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。
有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。
社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。
表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。
▲图片来源:小红书@Lijie_11
还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。
这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。
无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。
![]()
▲项目地址:https://not-a-devstudio.github.io/jiezhu/
举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」
OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。
![]()
漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」
自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。
我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。
用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。
在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。
一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。
但翻译成中文之后,它变得又长又戏剧化。
我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗
其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。
![]()
有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。
这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。
它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。
这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。
![]()
而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。
所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。
问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。
一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。
另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。
![]()
久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。
类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。
深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。
本以为换个模型,耳根就能清净清净。
![]()
事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。
Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。
![]()
前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。
![]()
但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」
将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。
![]()
没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。
之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。
情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。
![]()
在知乎上有一个类似的问题,底下有一条回答特别有意思。
他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。
确实,我想真正在场的人,从不需要宣告自己在场。
最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。
![]()
▲提示词来源:https://linux.do/t/topic/1924570
硬约束
– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构
沟通
– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节
中文输出规范
适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。
GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):
暴力倾向类(把技术操作比喻成暴力行为):
– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门
废话连篇类(无意义的开头、总结或过渡):
– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对
庸医问诊类(把代码问题比喻成看病/诊断):
– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型
不说人话类(生造的口语化/黑话表达):
– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的
单音节动词滥用(在技术语境中不自然的单字动词):
– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”
机械感/工业感比喻(把代码比喻成机械零件或物理操作):
– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实
过度主动/逼迫用户确认(制造虚假紧迫感):
– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…
谄媚/讨好类(过度吹捧用户或制造情感依赖):
– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗
虚假确定性(对自己的修复过度自信):
– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以
整句模式(典型 GPT 句式,正常人不会这么说):
– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”
正面锚点:
– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
![]()
OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。
在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。
![]()
事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。
在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。
当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」
当时,吴宇怀在信中写了一句话,颇为有趣:
「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」
为什么当时 xAI 的高层认为,开发自己的编码产品是关键?
![]()
后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:
上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI 模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元合作费用。
注意编程这个关键定语,后面还会 call back.
最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。
本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor 合作的,一个既另类却又极度合理的分析:
不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这 100 亿也值回票价了。」
![]()
我们和 AI 的对话是一来一回的,你提出问题/需求,他给你解答;coding agent 同理,只不过返回的是代码。
![]()
一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。
![]()
Cursor 有的,SpaceX 想要的,就是这些数据。
可这些数据从哪里来呢?
答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了:
没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。
虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。
大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。
用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding 模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。
但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。
![]()
强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。
而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。
在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。
蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏的老师模型内部的概率分布。
一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。
![]()
这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。
而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。
我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。
结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」
几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」
![]()
五天后,Cursor 放出了完整的 Composer 2 技术报告,显示底座的确是 Kimi K2.5,授权方则是 Firworks AI,大致流程是在 K2.5 上做训练,再继续做大规模强化学习(RL)。
但关键之处在于,Composer 2 的 RL 是运行在真实的 Cursor 会话当中,使用与生产部署完全相同的工具和 harness。
Cursor 将这套流程叫做「实时强化学习」(real-time RL),也即将模型的 checkpoint 直接部署到 Cursor 生产环境中,观察用户的响应,收集数据,聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本,然后继续部署到 Cursor 里,循环往复。
最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下 tab 即接受自动补全。
该功能采用的是在线强化学习,在行业内极具特色。Cursor 可以以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力给用户,直接在产品内收集 on-policy 数据进行训练。
这种高频、接近实时的反馈回路,让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露,这种方法让 Tab 建议的拒绝率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 员工也删掉了之前吐槽的的推文,Kimi 官方账号发表了祝贺。
一家估值 600 亿美元(基于马斯克给的数字),不做自己的模型基座的 coding agent 应用层公司,仍然可以通过产品自身的数据飞轮,RL 出超越基座模型的专有编程模型。
所以与其说 Cursor 翻了车,不如说这反而是 coding agent 产品重要性的绝佳例证。
![]()
Cursor 在另一篇关于实时 RL 的文章里写到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。」
这句话,现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价,会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。
我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己开发 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。
在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,没有开发自己的 coding agent。
不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排名第九,在 SWE-bench Pro 上分数却掉到了 15% 左右。
OpenRouter 的真实流量数据可以解释这种反差:该平台 2025 年报告显示,Claude token 消费 80% 以上用于编程和技术任务,而 DeepSeek token 消费主要集中于闲聊和角色扮演。
没有自家 coding 产品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会原形毕露。
不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确透露自己在做一模一样的事情:「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据,反哺给 Claude 模型用来训练。
![]()
在 AI 的演进历程中,生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现了严重的失衡。
今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx),让算力基建成为了当前舆论的主旋律。但实际上,特别是在编程范畴内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。
这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:
对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业路线,而是确保底层模型可以持续进化的核心生命线。
正如前面 APPSO 论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝对不是正确的成功学应该有的样子。在真实的编程环境中,知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值,远超于得到正确结果本身。
![]()
只有拥有自己的编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——
否则就不得不像 SpaceXAI 那样,花钱去跟 coding agent 产品公司去合作。
然而并不是所有模型厂商都跟马斯克一样有钱,以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈,当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候,恐怕已经没有足够的合作伙伴可以挑选,合作的价格也将水涨船高。
美国模型巨头的情况大家普遍比较熟悉了,在此不赘述。APPSO 也注意到,国内的主流模型厂商和 AI 巨头当中,绝大部分都已经在 coding agent 产品上有所布局。
国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做:字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。
AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过,在原生编程产品这件事上,CLI 不会是终局。
![]()
另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样,不论用户使用何种 AI 开发环境,模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。
但这也只是接近,并非完全相同。核心在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。
自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧是相对模糊的隐式推断。简单来说,API 侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签,从而无法实现最高质量的强化学习。
形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数的任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍的生产力。
只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding,势必将会掉出第一梯队。
当然,事实上每家模型厂商都不会不重视 coding——而是说,在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。
就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并且也让客户端显著改善了对 coding 任务的支持。
此前 MiniMax 只是推出了桌面端,但没有加入原生 coding 和 agent 功能。
![]()
![]()
紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品(阿里的官方叫法是智能体自主开发工作台)。
![]()
与此同时,xAI 的 Grok Build CLI,也终于正式推出了。
没错,就是 xAI 年初被 Anthropic 和 Cursor 封号之后,他们自己捣鼓出来的那个 coding agent.
![]()
这不,又多了好几个现成的案例。
看来,大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。
把话题从 coding 扩展到 agent 本身,情况也是一样的。
编码任务的轨迹数据,在公开语料中确实还是能找到一些的(比如 GitHub 的提交记录/PR,尽管质量并不高)。但是 agent 任务的轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。
所以我们会看到,即使在 agent 操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。
后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目,其实就是一个浏览器插件。
![]()
即便是在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对 Agent 的兴趣。
CEO 梁文锋此前接受采访时曾经提到这样的观点:数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。
这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当研究试验场,而非商业化方向。
但是在今年 3 月,DeepSeek 一次性放出了十几个 Agent 相关岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。
APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然,DeepSeek 要做独立、原生的 Coding/Agent 产品了。
![]()
此前资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来,靠合成的训练数据只能带 DeepSeek 走到这里了,剩下的是合成不出来的部分:真实用户在真实环境里的真实成功和失败,必须靠自家的 agent 产品才能拿到。
DeepSeek 以一种极度克制的方式做了三年模型以及模型产品(直到上个月才终于在官网加入了多模态能力)。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。
当主力依靠研究的路径支撑不住飞轮的时候,DeepSeek 终于行动了。
最后,我们回到开篇的故事。
根据 The Information 援引知情人士报道,在接受马斯克 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是仍将聚焦于优化自己的 Composer 模型。
这可能意味着,即便被马斯克买通甚至收购,Cursor 仍然要保留自己数据飞轮的主体性。
数据归属的本身,是最关键的隐藏博弈点。
当所有顶级模型厂商都做了自己的产品,所有顶级产品也都开始训练自己的模型,「模型公司」和「产品公司」之间本就不太清楚的界限,似乎越来越不存在了……
这场博弈也才刚刚开始。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
DeepSeek 進行 100 億美元融資談判,估值飆升至 450 億美元,創辦人梁文鋒個人出資 200 億人民幣,堅持開源與 AGI 路線不變現。
就在全球AI業者為大型語言模型軍備競賽瘋狂加碼之際,以開源策略與極高性價比震撼業界的中國AI新星DeepSeek (深度求索),正迎來一場史無前例的資本狂潮。根據彭博新聞最新報導,DeepSeek目前正在進行一輪高達100億美元 (約人民幣700億元)的融資談判,預計公司估值將一舉飆升至450億美元。
融資規模兩週內再放大,創辦人展現「底氣」
DeepSeek在資本市場的熱度正以驚人的速度攀升。短短兩週前,外媒曝光的融資規模仍停留在人民幣500億元 (約73.5億美元),如今這個數字已迅速膨脹至人民幣700億元。
這場資本盛宴中最具戲劇性的亮點,在於創辦人梁文鋒的個人押注。據知情人士透露,梁文鋒計畫親自出資高達人民幣200億元,意味其個人將吃下整輪融資總額的40%。在科技新創圈,創辦人在中後期融資中投入如此龐大比例的自有資金極為罕見。這不僅稀釋外部資本的控制權,更向市場傳遞出強烈的訊號:經營團隊對自家技術路線擁有絕對的自信,並且不願輕易妥協於資本的短期逐利要求。
拒絕短期變現,死守「開源」與「AGI」願景
知情人士指出,梁文峰已向投資方劃下明確的戰略紅線:
• 不急於商業化:公司將繼續優先推進突破性的人工智慧基礎研究,全力追求通用人工智慧 (AGI),「拒絕短期商業化變現」的誘惑。
• 堅持開源路線:面對OpenAI等閉源商業模式,DeepSeek承諾將繼續堅持開源路線,透過活躍的開發者社群與透明模型架構擴展生態影響力。
目前,這份強勢的募資企劃已經吸引重量級的投資方陣容。潛在參與者包含由中國政府支持的國家集成電路產業投資基金與國智投 (上海)私募基金管理有限公司共同出資設立的國家人工智能產業投資基金,加上騰訊、IDG資本與礪思資本等創投機構。不過,彭博新聞報導也強調,此談判仍在進行中,最終的投資金額與參與陣容仍存在調整空間。
是商業融資,更是「算力主權」的國家級戰略
從這輪融資的組成與規模來看,DeepSeek的定位已經徹底超越了一般科技新創。
高達100億美元的現金挹注,其核心目的只有一個:購買龐大的算力資源與頂尖人才。在規模法則仍主導AI發展的當下,要訓練出能匹敵甚至超越GPT-4、GPT-5級別的模型,算力成本依然是極度沉重的負擔。
此外,投資人名單中出現國家人工智能產業投資基金與騰訊,暗示DeepSeek已經成為中國在AI基礎設施佈局上的國家隊代表。在面臨美國高階AI晶片禁令 (如NVIDIA H100/B200限制出口)的地緣政治壓力下,DeepSeek必須具備極強的演算法最佳化能力,以及龐大的資金池來囤積與調度算力。
梁文鋒堅持的開源與不急於變現,實際上是一種高明的破壞性創新策略。透過開源免費提供逼近頂級閉源模型的能力,DeepSeek正在從根本上瓦解競爭對手的定價權與護城河。這場100億美元的融資若順利到位,未來全球AI產業的競爭格局,恐怕將從單純的中美角力,正式演變為「開源與閉源」的資本血戰。
由中國 AI 新創「深度求索」所推出號稱最強開源模型 Deepseek V4 系列自推出以來,讓世人最驚艷的除 […]
The post DeepSeek V4 API 價格為何如此便宜?KV Cache 極致壓縮的技術揭密 appeared first on 電腦王阿達.
【GameLook专稿,禁止转载!】
GameLook报道/DeepSeek这一轮融资的排队名单,已经不像是一份投资意向书,更像是一场AI时代的政治表态会。
国家队、腾讯、IDG、宁德时代、京东均在潜在投资者谈判名单中,据The Information和彭博社的报道,DeepSeek拟推进约700亿元人民币的融资,投前估值约450亿美元,各路资本竞相递上入场券。
![]()
而在这份名单里,网易的名字意外出现了。在GameLook看来,值得停下来想一想的,恰恰是这个”网易”。
不是因为它开出的支票会有多惊人,在这个谁都想送钱的局里,网易如果能真能谈妥、能拿到的份额也是有限的,毕竟僧多粥少。真正的问题是:网易这家中国游戏巨头,在过去几年里,在AI大模型这件事上,一直是游戏行业里最安静的那个。
腾讯投了,字节押了,阿里自己做;蔡浩宇从米哈游出走之后去硅谷搞AI创业,连他自己都下场了。网易呢?除了公司内部的伏羲AI,据公开资料能看到的,网易此前并没有外部AI大模型投资,没有公开站队,一直在旁边看着。
DeepSeek这次融资大戏,是网易第一次主动走到台前。
![]()
应用层全力进击,基座层长期克制
游戏行业看网易的AI,有两件事同时为真,但方向截然相反。
一件事是:网易在AI应用层大概是中国游戏公司里最早、最深、也最敢用的。伏羲是2019年就成立的游戏AI实验室,在大模型还不是主流词汇的时候,已经在做NPC智能、捏脸系统、AI配音。
2023年《逆水寒》手游上线,一口气塞了400多个AI驱动NPC进游戏,不预设台词,自由对话,有情绪有人设;”剧组模式”让玩家上传一段视频就能生成游戏画面大片,上线一个多月,玩家自制内容破数百万条,被人叫做”游戏版抖音”。
![]()
此外还有《永劫无间》手游的实时语音AI队友,《蛋仔派对》里被五千多万玩家用过的AIGC地图生成工具,这些东西不是演示,是真实在用的。
而且网易用AI的方式有自己的逻辑。《逆水寒》那些AI玩法生产出来的内容,大量流向抖音,成为游戏的天然广告素材。AI不只是服务玩家体验,它在同时往外拉新用户。
丁磊在2025年年报电话会上说,AI已经是网易”研发与运营的基础核心能力”,部分生产环节效率提升300%。这句话不是外交辞令。
另一件事是:面对大模型基座,网易非常谨慎地保持着无立场。
2024年,《逆水寒》手游推出了一个叫”AI大模型竞技场”的玩法,把阿里通义、百度文心、MiniMax、月之暗面Kimi、字节豆包五家模型同时接进游戏,让上亿玩家投票,评判哪家AI更像真人。
![]()
这个设计拆开来看,是一个典型的网易式操作:网易用五家AI模型公司做了技术验证,游戏借着AI话题收获了一波传播,而网易没有押任何一家。谁赢了都是我用过的。
在大模型基座层,网易更像是一个纯粹的买方。模型好用就调API,什么都试,就是不表态、不站队。
当然这也和游戏公司天然对AI基座绑定格外警惕有关,这件事需要放在游戏行业的生存语境里才好理解。
游戏公司对”平台依赖”这件事的恐惧是刻在基因里的。渠道买量要靠字节,用户分发要靠微信小程序,iOS和Android各拿走三成流水,每一条命脉都攥在别人手上,这是中国游戏公司的日常处境,不是新鲜事。
正因为如此,一旦涉及”把自己的核心技术底座交给谁”,游戏公司会比其他行业更本能地警觉。
![]()
对网易而言,选模型供应商不仅是技术选型,同时也是一道竞争题。腾讯是国内游戏市场最直接的对手,用腾讯混元意味着什么,网易的技术团队用脚趾头都能想出来。
字节是游戏的最大流量来源,如果再把AI基础设施也押进去,等于两条命脉同时落在同一家公司手里,网易即便与字节关系再铁、也要留一手。
阿里的情况则是另一个维度的竞争,虽然阿里很大、网易顾虑确实并不大,但在小小的游戏圈灵犀与网易的关系同行都看在眼里。
所以网易这几年在大模型上的姿态,不是因为不重视AI,而是因为它完全不想被这道选择题逼着站队。多模型并用,分散风险,保持独立。
但这个策略GameLook认为会越来越困难,而且原因比表面看起来更深。
以前游戏里的AI,更像是一个加分项。NPC能自由对话了,游戏多了个话题,多了些传播素材。
但接下来AI正在进入一个游戏行业以前从未经历过的阶段:它开始向游戏工业链的核心渗透。剧情生成、美术资产、关卡设计、玩家行为预测、运营决策。这些曾经完全掌握在游戏公司自己手里的能力,会越来越依赖底层模型。AI基座从”功能工具”变成了”工业底座”,这是一个性质上的变化。
![]()
Agora-1实现在AI生成游戏中四人联机
一旦这个底座被竞争对手的核心技术深度掌控,游戏公司将第一次在生产能力上失去独立性。不只是流量被卡、分成被抽,而是创作工具本身被卡。这比以前任何一种平台依赖都更难解脱,因为你可以换个买量渠道,但你不能轻易换掉已经深度集成进研发管线的底层模型。
“雨露均沾”的混用策略,在今天这种应用层探索阶段还能成立。但随着模型与工业流程的结合越来越深,网易”用哪家模型”会从一个可以随时切换的技术选型,变成一个越来越难逆转的长期绑定。
现在网易坐下来谈,是坐下来谈哪家。
为什么是DeepSeek?
DeepSeek之所以在这个名单里是一个特殊的选项,不只是因为它模型做得好。这个赛道里,模型做得好的公司不止一家。它的特殊性在于:它是目前中国为数不多技术站在第一梯队、但又不属于任何一个超级平台生态的独立玩家。
幻方量化孵化的DeepSeek,从一开始的定位就是研究机构而非商业机器。梁文锋在2025年多次拒绝大厂入股,说担心外部投资者干预决策,这段话放在游戏公司的语境里,对网易的说服力可能比任何技术参数都强。
一家AI公司声称不想被腾讯、阿里、字节绑定,对于同样不想被这三家绑定的网易来说,这是一个少见的利益对齐。
此外地理和人脉的因素不是噱头。DeepSeek在杭州,网易也在杭州。两家公司的技术圈和浙江大学都有深厚交集,研发团队里有大量共同的校友。在中国做生意,”在同一个城市,有共同的老师”,能解决的问题,有时比任何商务流程都快。
更关键的一点,是DeepSeek正在选择和谁一起走这条路。
DeepSeek V4这个版本原本计划2026年初发布,但为了深度适配华为昇腾芯片,推迟到了4月才上线。团队花了数月时间与华为协同,对底层代码进行了大量重写。V4正式发布时,官方技术报告里第一次写入了华为昇腾NPU,成为首个在主流国产算力上真正跑通的第一梯队大模型。
从技术圈的角度看,这是一个芯片适配问题。从产业格局的角度看,这是在宣布一套中国自主的独立路线的成型。美国出口管制使中国企业采购英伟达高端芯片越来越困难,DeepSeek与华为昇腾的深度绑定,代表的不只是”另一个模型搭上另一种芯片”,而是一条从训练到推理、从模型到算力可以相对自给的中国AI基础设施路线。它是不是最终的答案还很难说,但它是目前最认真的一次尝试。
这个方向对网易有直接的吸引力。游戏AI的算力需求会随着模型能力的增长持续攀升,把这条路线永远押在受出口管制约束的英伟达卡上,不是一个长期稳定的选项。
参股DeepSeek,如果同时意味着在这条国产算力路线上早早占据一个位置,那这张票的价值就不只是一个模型的使用权,而是一套可能代表中国AI基础设施未来方向的生态通行证。
AI和股价都很重要
就GameLook观察,或许外界长期以来对网易有一个不完全准确的印象:这家公司在AI大规模投入上确实有些保守了。
但这个判断混淆了两件事。在AI应用上,网易没有落后;在AI基座的资本竞争上,网易选择了不参与。这不是同一回事。
腾讯2025年全年资本开支792亿元,2026年仍在加码;阿里宣布未来三年投入超过3800亿元用于AI和云基础设施。这场算力军备竞赛,只有同时拥有超大规模用户流量、云计算变现通道和足够厚现金储备的公司才打得起。
要养AI吞金兽,国内这个条件网易不满足,米哈游也不满足。蔡浩宇喊着要下场做AI,但也是在卸任之后,用一支几十人的团队另起炉灶,而不是让米哈游本体去烧机房。
![]()
即便负债激增,甲骨文在过去一年的股价还是涨了近19%
还有一个背景不能忽略:同样是烧钱做AI,中美资本市场的反应截然不同。在美国,英伟达、微软、Meta宣布越来越高的资本支出,股价跟着涨,市场把这解读成”他们相信AI的长期回报”。
但在中国,腾讯加大AI投入之后,高盛下调了它2026年的盈利增长预期;阿里云大规模投入的那个季度,自由现金流同比下降超过50%,股价表现随之承压。两套叙事,两种定价逻辑,美国市场奖励烧钱,中国市场惩罚烧钱。
对一家以游戏为主业、没有庞大的云计算业务兜底的网易来说,这个资本市场环境是一道现实约束,不是可以忽视的背景噪音。大模型基座是个无底洞,GPU在几年内会迭代出数量级的算力提升,今天建的机房就是明天的折旧包袱。
网易的选择似乎一直是:不做算力玩家,但必须全面进入AI生态。
![]()
DeepSeek这次融资,恰好给了网易一个合适的入口:不需要赌技术路线的输赢,不需要押注某一家平台的整体生态,只需要用一笔有限的资本,换来与中国目前技术最强、立场最独立的AI公司之间的正式关系。
一旦谈成,双方未来在游戏AI落地上的合作,就有了不一样的基础。
这是网易在大模型这件事上,第一次认真地买票。
结语:
当然,这件事还没有定论。DeepSeek的最终股权花落谁家,梁文锋如何在保持独立性和接受外部资本之间找到平衡,网易最终能拿到多少份额、能建立多深的合作关系,这些都还是未知数。
在这一轮抢购DeepSeek的热潮里,网易并没有同多特别的优先权。
但有一件事已经发生了:网易出现在了这个名单上。对一家几年来在这个议题上始终保持沉默的公司来说,这本身就是一个信号。
中国游戏公司在AI生态里的站位,正在进入一个不可再拖的时间窗口。
网易想清楚了一件事:它要的那张票,可以叫DeepSeek。
中美科技角力持續升溫,中國政府對核心技術的保護已從限制半導體硬體出口,全面延伸至管控「人類大腦」。據《彭博》( […]
The post 中國擴大 AI 人才出境管制:傳阿里巴巴、DeepSeek 相關高層被要求上繳護照 appeared first on 電腦王阿達.