普通视图

发现新文章,点击刷新页面。
昨天以前首页

全网猜了一周 DeepSeek V4,结果是小米干的

作者 莫崇宇
2026年3月19日 16:12

上周,两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别是「Hunter Alpha」和「Healer Alpha」。它们没有任何宣传,调用量却开始以一种不寻常的速度持续攀升。

其中,Hunter Alpha 更是多天登顶日榜,累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek,认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听,进一步点燃了社区的猜测热情。

小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时,小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是,罗福莉正是 DeepSeek 的前研究员,换句话说,来自 DeepSeek 的她,在小米做了让全网以为是 DeepSeek 的模型。

划重点,小米此次一口气发布三款模型,虽各有侧重,但共同指向同一个方向:让 AI 从「会对话」进化为「能完成任务」:

  • MiMo-V2-Pro 是旗舰文本基座,专为高强度 Agent 工作场景而生,主打推理、规划与工具调用。
  • MiMo-V2-Omni 是全模态 Agent 基座,原生融合文本、视觉与音频感知,打通从理解到执行的完整链路。
  • MiMo-V2-TTS 是语音合成大模型,为 Agent 赋予有温度、有情感的声音表达能力,构成全栈的最后一环。

MiMo-V2-Pro:量大管饱,定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B,较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长,但推理效率并未因此下降,这得益于其创新的混合注意力架构(Hybrid Attention)。

该架构的混合比例从前代的 5:1 进一步提升至 7:1,轻量 MTP(Multi Token Prediction)层的引入也加快了实际生成速度。

同时,MiMo-V2-Pro 支持高达 1M 的超长上下文窗口,这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八,国内第二。

基准测评之外,小米更强调「实际体感」。在 Coding Agent、通用 Agent 和 Tool Use 等维度,MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中,MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6,拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间,调用量最高的几类应用多为编程专用工具,这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内,MiMo-V2-Pro 还展示了前端开发能力,能够一步生成设计精致、功能完备的网页,兼顾视觉质感与实际可用性。

定价层面,MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内,输入每百万 tokens 定价 1 美元,输出 3 美元;1M 上下文范围内,则为输入 2 美元,输出 6 美元。

这个定价策略的信号很明确:小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此,小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队,提供为期一周的限时免费接口支持,各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前,MiMo-V2-Pro 已正式开放 API 服务,开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能,支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni:能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑,MiMo-V2-Omni 的野心则更大,它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型,从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解,覆盖从环境声分类到多说话人分离的复杂场景,综合表现超越 Gemini 3 Pro。

图像理解方面,MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面,模型支持原生音视频联合输入,而非将音频和视频分开处理,在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中,MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架,它可以像真人一样操控浏览器:在小红书翻阅评测内容,整理购买建议,切换到京东跨店比价,联系客服争取优惠,直到完成下单,遇到多标签页切换、实时交互要求,均能见招拆招。

还有一个更具代表性的演示:用户只需说一句「做一个介绍视频,配上科技感音效,发到 TikTok 上」,模型就能完成全流程,包括自动修复渲染中的字体报错,最终确认视频审核通过、成功上线。

在纯文本智能体任务上,MiMo-V2-Omni 同样保持了高度竞争力,在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间,模型在 PinchBench 上拿下均分第一,社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面,MiMo-V2-Omni 已与金山办公展开合作,接入 WPS 灵犀,支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 四大主流格式,覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址:lingxi.wps.cn

MiMo-V2-Omni 已开放 API,支持 256K 上下文长度,输入定价每百万 tokens 0.4 美元,输出 2 美元,同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS:会打哈欠、会醉酒、还能唱歌

一个完整的 Agent,不应该只会思考和行动,它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构,经过上亿小时语音数据的大规模预训练。

「上亿小时」这个数据量级,意味着模型得以覆盖极为丰富的说话风格、口音与场景,这是泛化能力的基础。

多维度强化学习后训练阶段,模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构,强化学习阶段可以直接利用语音相关奖励信号对模型进行优化,而非依赖间接的文本侧反馈,这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制,能在同一句话内完成语气转折与情感递变,这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号,并将其自动转化为自然的语音表达,全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等,同时具备角色扮演式风格演绎与高质量歌声合成能力,让同一个模型既能说、能演、也能唱。

官方表示,未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合,让 Agent 不仅能看懂世界、理解世界,更能用富有表现力的声音去讲述这个世界。

AI,才是真正打通人车家全生态的那根线

三款模型集中发布,时间节点和产品组合都不是偶然。罗福莉在声明中坦言,从聊天范式到 Agent 范式的转变发生得太快,「连我们自己都难以置信」。

但小米 MiMo 团队其实早有布局。罗福莉披露,1T 基础模型在数月前就已开始训练,最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理,这些架构决策并非追随潮流,而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向,源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击,随即对团队下达强硬指令:MiMo 团队中,明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后,是她对 Agent 范式的坚定判断。结果是,团队的想象力被彻底激发,研究速度随之大幅提升。

这种研发节奏,叠加上小米本就拥有的生态基础,让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进「人车家全生态」战略,通过澎湃 OS 将手机、汽车(SU7 系列)与智能家居设备全面打通。这套生态的物理层面早已互联,但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在,MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音表达,三者叠加,构成了驱动整个生态运转的完整 AI 能力栈。

miclaw(小米手机端 AI 智能体)已接入 MiMo 大模型,具备系统级执行能力与「人车家全生态」的深度集成,是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入,也在说明同一件事:MiMo 不只是一个对话产品,而是正在被嵌入进各类应用场景的基础能力层。

多年来,各大科技公司都在描述「AI 将打通一切」的愿景,而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米,显然已经做好了准备。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

删掉小字,放下套路,小米学会了真诚造车

作者 李华
2026年3月21日 10:48

在新一代小米 SU7 的发布会上,雷军少了几分过去常有的「秒天秒地」的激昂,多了一份肉眼可见的克制。

在随后的媒体采访中,他略带感慨地吐露了心声:

两年前刚入场时觉得没那么难,但这两年干下来,觉得还是越干越难……造车是一场马拉松,大家可以从新一代 SU7 的上市环节中感受到,小米最大的变化就是从容。

「从容」二字,构成了理解这场发布会、这款新车,以及小米汽车现阶段走向的一条最核心的线索。

两年前初代 SU7 登场时,身上裹挟着消费电子巨头跨界造车的野心与锐气;两年后的今天,新一代 SU7 传递出的核心价值,已不再是冗长华丽的配置单。在经历市场博弈后,雷军和小米都完成一次认知上的迭代。

营销话术已经消失,那些隐匿在海报角落、用于规避合规风险的「小字」也被抹去。取而代之的,是一种更符合大宗工业品叙事的逻辑。

从依仗流量红利的跨界者,到遵循产业周期的长跑选手,小米用两年的时间、高昂的试错成本以及舆论的反复捶打,换来了一场不得不经历的启蒙。

「流量打法」撞上汽车工业的南墙

在聊新一代 SU7 到底有多「从容」之前,我们得先回头看看,小米汽车在过去这一年里,到底挨了多少骂、踩了多少坑。

雷军带着几百亿资金和数以亿计的粉丝冲进车圈时,小米确实打得很顺手——手机圈的参数内卷加上顶流老板的个人 IP,热度来得轻而易举。

但互联网基因是把双刃剑。当这家习惯了快速迭代的公司开始造车,聚光灯不仅照亮了它的高光时刻,也让它的每一个问题都无处遁形。

举个例子,「小字游戏」。

客观而言,「大字吸睛、小字免责」这套把戏,小米不是第一个玩的,算是车圈积弊已久的潜规则。在这个圈子里,几百块随时可退的「小订」常被包装成首发战报,「准冬测」可以堂而皇之地在 10 摄氏度下进行。

小米初入车圈,顺应并放大了这种被行业默许的生存法则。于是就有了这些名场面:「1.98 秒破百」旁边藏着一行小字——「不含起步时间」;「16.8 亿种驾驶模式」说白了是几个参数的排列组合;SU7 Ultra 那个风味机盖,除了轻点也没什么用。

▲最近小米开始为 SU7 Ultra 提供免费的机盖改装服务了

放在手机圈,玩这种「小字游戏」,大家笑笑也就过去了,但汽车不一样。手机死机,重启一下,或者换台新的。汽车要是失控、起火、撞了门打不开,可没有「凑合用」这个选项。

当一个品牌习惯了在营销话术上做文章,大家自然会怀疑它是否会在看不见的安全底线上打折扣。这种不信任,最终在几起交通事故中被引爆。包括铜陵、成都在内的几起严重事故,点燃了大家的焦虑。事故发酵后,雷军微博半个月掉粉 30 万,小米汽车的直播间,弹幕里骂声刷到看不见人。

2025 年 11 月,雷军罕见地急了。他翻出几年前的微博截图,想证明自己从没说过「好看比安全重要」,还公开喊话说要抵制「黑公关」。

不可否认,黑水军是必然存在的,但这种大规模的舆情,全推给水军,说不过去。大家的疑问是很具体的,车门到底怎么解锁?事故到底怎么发生的?没人想听你说谁在黑你。

那些投入真金白银的消费者,难以接受一家被寄予厚望的科技公司,遇到安全问题,不正面回应,只会急眼和甩锅。造车是重资产、高门槛的买卖,用户最后看的不是你发布会多煽情、微博多会吵,而是出事了你扛不扛得住。

现在的小米很清楚,想要翻身,嘴上得收敛点,手里得扎实点。

营销上,雷军直播的时候就认了:「小字那套是行业陋习,一定改正。」

能用大字说明用大字说明、能写完整写完整、能写准确的写准确。

这一次,我们翻遍了小米新一代 SU7 发布会的每一页 PPT,全都没带小字。

产品端的变化看得更清楚。

面对此前争议最大的车门隐患,雷军这次没有再发长文辩论,而是拿出了一套「三重冗余车门把手」:

除了车外的机械拉手,和车内四门均配备应急机械拉手之外,小米还专门为门锁增加了一套独立的冗余备份电源,哪怕撞到大电池、小电池全断,这套备用电源还能让车门打开。

雷军在发布会上强调:这套车门设计 100% 符合要到 2027 年才正式生效的新国标。

这种回归工程本质的踏实,比发十条骂「黑公关」的微博管用得多。新一代 SU7 的「从容」,从这儿开始有了底气。

告别百米冲刺,小米跑起了马拉松

不只是门把手,被舆论狠狠教育过后,小米在版型规划上,也不搞以前那套刀法了。

21.99 万元的标准版,和 30 多万的 Max 版一样,激光雷达、700TOPS 的 Thor 芯片、端到端的 Xiaomi HAD 辅助驾驶——全都有。由 2200 MPa 超强钢打造的内嵌式防滚架、9 个安全气囊,也都是全系标配。

在新一代 SU7 上,主被动安全和高阶辅助驾驶不再是阶级划分的筹码。

和配置平权同步发生的,是宣发上的收敛。

过去的汽车发布会,为了便于传播,厂商们往往乐于使用 800V,甚至「准 800V」等词来包裹参数,但这一次,雷军把数据精确到了个位:752V、897V,不搞模糊话术。

为了证明三电系统的稳定性,小米拿量产车连续跑了 24 个小时,历经 44 次快充,干了 4264 公里;为了打消大家对于制动衰减的顾虑,小米给出了 100km/h 时速下连续 40 次全力重刹的测试数据;即便是三元锂电池包,小米也选择在 55°C 且满电状态下进行针刺实验。

在这些确凿的数据面前,修饰性的文案失去了存在的必要。

产品理念上,这次 SU7 难得地克制和务实。新势力总爱「教育用户」,小米差点也掉进这个坑。

初代 SU7 是运动轿跑底子,底盘硬、座椅硬。雷军解释说:「我们小米里面有赛车执照的大概有小 1000 人,他们非常喜欢开车。」这群人主导了 SU7 早期的调校逻辑——轮胎压过小石子、小坑,都要迅速捕捉到。「要『人车合一』,座椅必须硬」。

但小米发现,对于想买家用车的用户来说,这样的驾乘感受会给他们带来很大的落差。所以在新一代 SU7 上,雷军选择听用户的。

第一代我们觉得调得不错,但是还是有很多车主不满意,所以这一次我们是下了决心全部推倒重来。

为了让驾驶员舒适,小米新一代 SU7 标配了百万级豪车才有的 18 向调节,主动侧翼支撑更为灵敏,座椅柔软度也有所提升;为了让后排的乘客长途更舒适,增加了后排睡眠头枕和可独立调节透光度的双分区智能天幕,还有 121°的靠背角度调节。

「天幕前后分开调透光,带娃出门,能睡个好觉了。」雷军说。

产品上的「听劝」是面子,运营和体系建设的收敛,才是小米真正告别「互联网造车」的标志。

初代 SU7 的核心基本盘,是一群追求极致性能的年轻极客与数码发烧友。为了迎合这群用户,小米早期的运营策略带着浓厚的「性能崇拜」,从高调挑战纽北赛道,到组建专职销售 SU7 Ultra 的精英团队,小米一直在极力渲染零百加速的推背感。

但当交付量跨过一定量级,小米意识到,单纯的极客圈层已经撑不起 2026 年的 55 万辆交付目标。为此,小米在运营上开始主动向大众市场倾斜,在整体的产品包装上进行了柔化。

配合考究的卡布里蓝车漆和「闻献」联名香氛,这款车的受众画像,正在向注重质感的中产家庭延伸。双代言人的选择也暗合了这一逻辑:苏炳添稳固性能与速度的品牌基本盘,而舒淇则为其注入了松弛与高净值的生活方式内涵。

往远看,小米整个销售体系都在变。SU7 Ultra 专属销售团队散了,不赚钱的买卖不硬撑,向精细化运营低头;服务网点悄悄铺到 159 个城市,为长周期的售后维保补课;五年砸 2000 亿搞 AI 和芯片,则是交长期主义的投名状。

在卖车之外,经历了阵痛和觉醒的小米也在为中国汽车,建立属于自己的底层文化认同。

今年 1 月底,SU7 Ultra 成功登陆全球顶级的赛车模拟游戏《GT 赛车 7》,打破了该系列自 1997 年诞生以来长期被欧美和日系性能车垄断的格局,成为首款入驻的中国品牌车型。随后在 2 月底的巴塞罗那 MWC 展上,小米完成了纯电超跑概念车 Xiaomi Vision GT 的全球首秀。

显然,所有的这些动作,短期内都无法直接转化为交付量,但他们都释放出了一个信号:小米的视线,已经从互联网维度的「如何上热搜」,转向了产业维度的「如何赢得尊重」。

这种视角的改变,最终反哺到了具体的产品上。

新一代 SU7 褪去了新人的锋芒,也剥离了那些博眼球的营销套路。当一家车企不再靠角落里的小字找安全感,它就真正具备了留在牌桌上的资格。

带轮子的都关注,欢迎交流。 邮箱:[email protected]

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌