阅读视图

发现新文章,点击刷新页面。

“又来一刀”?AI世界模型实现4人联机对战,AI实时生成游戏画面

【GameLook专稿,禁止转载!】

GameLook报道/1997年,《黄金眼007》在N64上发售,把分屏多人对战带进了客厅。近三十年后,同一张地图重新出现在屏幕上——这次,连关卡本身都是AI实时生成的。

今年5月,AI初创公司Odyssey在48小时内接连发布两款世界模型:Starchild-1和Agora-1。

Agora-1介绍: https://odyssey.ml/introducing-agora-1

Starchild-1介绍:https://odyssey.ml/introducing-starchild-1

Agora-1实现在AI生成游戏中四人联机

Starchild-1将实时音视频生成首次整合进单一世界模型;Agora-1让最多四名玩家同时进入同一个AI生成的对战场景,每人看到的第一人称画面均由模型按需渲染。尽管画面粗糙,代价高昂,且尚未经过独立验证,但某种意义上,这是AI世界模型领域首次实现真正意义上的多人共享状态。

根据官方资料,Starchild-1要解决的,是音频与视频在时间维度上天然不匹配的问题。

音频和视频在基础时间频率与信息密度上存在本质差异,在长时序生成中,任何一个模态的误差都可能迅速拉垮另一个。

主流视频生成模型(如Veo 3、Sora)的通行做法,是把声音作为后期附加的soundtrack而非参与推理的独立信号。Starchild-1选择了一条不同的路:通过因果蒸馏管道,将一个双向音视频基础模型(Ovi)改造为实时自回归模型,同时引入异步KV缓存架构,让两种模态在保持同步的前提下各自按节奏运行。

这意味着当用户实时输入语音或文字时,模型不会等到音频完整帧之后才更新视频,而是音视频各自推进、彼此感知,实现毫秒级的跨模态响应。

该模型支持四种交互模式:交互式世界探索、脚本化对话控制、会话式互动,以及旁白式陪伴。

但Odyssey团队也坦承了它的局限:场景的视觉身份与声学特征在长时序中仍会漂移,而交互式因果音视频生成目前也缺乏可量化的基准指标。换言之,如果你和模型持续交互十分钟以上,场景可能会悄悄”走样”,而研究者目前还没有统一的方式去测量这件事到底有多严重。


Agora-1面对的则是更复杂的工程问题:如何让多个身处世界不同位置的玩家,共享同一份地图状态而不产生分歧?

传统世界模型的做法是把仿真动态和画面渲染压进一个模型。Agora-1学习的是两种截然不同的功能:首先,它训练一个状态模型,直接从游戏的内部状态数据中学习玩家交互下的世界状态演化规律;其次,由一个DiT渲染模型读取这一共享状态,为每名玩家生成各自的独立视角画面。

包括物理逻辑(谁在哪里、血量是多少、弹道从何而来)交由状态模型统一裁决,渲染模型只负责把这份事实翻译成可见像素。在这个框架下,真实性的定义不再只是视觉保真度,而是当两个玩家从不同方向同时推动这个世界时,它能否保持一致。

并且由于底层游戏状态可以被直接操控,据悉Agora-1可以在保留原始游戏机制的前提下,生成全新的关卡。这意味着世界模型”学会了规则”,而非只是记住了原始场景。

尽管Odyssey也承认,”今天Agora-1的状态模型相对简单”,并非架构上的根本瓶颈,但确实是当前的实际能力边界。


Odyssey 创始人和研究人员 Jeff Hawke, Jenny Seidenschwarz, Vighnesh Birodkar

而在技术之上,理解Agora-1的意义,对于游戏行业而言,谷歌的Genie 3或许是此前更广为人知的对比对象。

作为目前世界模型领域视觉表现领先的系统之一,该模型可生成720p、每秒24帧的交互环境。并且能够在数分钟的探索时间内维持连续性和逻辑一致性,是对此前短时序场景生成系统的重要超越。

但Genie 3的体验设计仍以单用户为前提,画面更精致,但世界是”你一个人的”。Odyssey的优先级与此相反:用粗糙的渲染质量换取多人共享架构的成立。

从目前行业的现状来看,对于多人体验的兼容,显然更具有实际意义。

不过Odyssey并非孤军奋战。世界模型赛道目前已相当拥挤:DeepMind的Genie 3及面向消费者的Project Genie、李飞飞创办的World Labs及其Marble产品、英伟达面向机器人场景的Cosmos,以及Meta的V-JEPA,都在从不同维度逼近同一个目标:一个能够模拟物理世界、响应多主体行为、支持长时序推理的通用仿真系统。

Project Genie公开首日,Unity股价下跌约24%,Roblox下跌约15%,Take-Two和CD Projekt也出现了明显跌幅。

市场的反应说明,资本已经开始用价格来表达一个判断:如果世界模型能够成为下一代游戏引擎,那么现有的游戏引擎公司面临的不是竞争,而是替代。


好在这家由两位自动驾驶老兵创立、目前员工约55人的公司,用2700万美元的融资,在竞争对手的重兵合围中,押注在了架构选择而非规模堆砌上。毕竟多人世界模型一大核心难点就在于维持跨玩家的一致同步状态,同时驾驭生成模型固有的概率性和动态性。

而根据LightSpeed等知名机构的观察,服务器端权威模型、将生成AI与确定性物理引擎相结合的混合方案,以及高效数据流等技术路径,都可能有助于缓解这些问题。

而Agora-1选择的”状态模型+渲染模型”解耦架构,正是这类混合思路的一种具体实现。

世界模型赛道,VAST 选了一条还没有人走过的路

今年除了 Agent 赛道,世界模型也成为 AI 行业新的必争之地,前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资,世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派,它们有着不同的技术路线,如杨立昆的 JEPA 派,是做抽象表征预测;李飞飞的空间智能派,用 World Labs 的 Marble 在做显式 3D 重建;DeepMind 的学习型仿真派,推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者,甚至是 AI 教父/教母,都在说大语言模型的文本训练范式已到瓶颈,AI 要理解物理世界必须靠世界模型,但到底要做什么样的「世界模型」,没有一个达成共识的定义

这几天,AI 公司 VAST 完成了 A+ 及 A++ 轮的融资,合计金额近 2 亿美元。而在今年三月初,VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST,可能会有点陌生,但是 Tripo 3D 生成是不是很耳熟?我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法,就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片,转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示,从第一天开始,VAST 真正在做的,就是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。

这件事被拆成了两步,第一步完成 「造万物」;第二步实现动态 「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用 AI 3D 生成那些符合管线标准的资产;造世界,才是世界模型要干的事,理解空间尺度、状态演化,从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界,曹炎培认为,资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于,过去的世界模型把状态和画面压在一个模型里一起预测,VAST 把这两件事拆开,底层单独维护一个世界状态,上层按需渲染画面

这样做的好处是,状态独立存在,物体离开镜头不会消失;一个状态可以同时给多个人渲染不同视角,多人交互并发自然成立;用户对世界的改变会真实留在状态里,下一个进来的人看到同样的结果。

VAST 推出的 Project Eden,正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是 VAST 先采取这样的方式?

画面流畅不等于世界在运转

视频生成做得更流畅,可以叫世界模型。静态 3D 场景能走动,叫世界模型。能控制视角,也能叫世界模型。

世界模型这个词,似乎什么都能往里装了。

Google Genie 的演示视频里,玩家在里面操控一个角色,往前走,画面跟着生成。但可能一转身,背后的场景就改变了,或者出现从没存在过的东西,因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派,在他们的技术实现里,世界模型就是预测下一帧,给模型喂动作输入,让它生成接下来的画面,反复接龙,就能模拟一个世界。

曹炎培管这种叫「一镜到底」,空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开,那个位置的状态没人保管,等你回头,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了,它记住的不是世界,是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World,可以被称为空间智能派,能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来,让 AI 真正理解几何和物理关系,再谈其他。

例如,World Labs 的 Marble 能生成一段有限范围的世界,我们可以在里面自由游览。在这个生成的固定世界里,视角一致性解决了,因为 3D 资产是静态的。但同时,这个世界也丢失了时间维度,场景永远停在生成那一刻,没有物理变化,没有事件发生,没有因果关系。

▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮

我们能走进去,但什么都改变不了,也没有什么会因为我们的行为而变化。

对 VAST 来说,世界模型不能只是去生成像素,也不能只是一个静态空间。

一个可交互的世界模型,必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态,而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里,那就彻底把它们拆开。

就像我们玩的大世界游戏一样,游戏的服务器会维护着一套世界状态,谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态,结合本地文件夹里上百 G 的游戏文件,做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统,有人进入我们的大世界,大家还是共享同一个静态文件的底层世界,各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的,就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑,设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作,系统首先更新的就是这套底层状态。

中间是转换层,它会根据「当前是谁在观察、从哪个视角观察」,把世界状态转换成一组局部条件信息。像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染,基于这些条件,把画面真正「画」出来,补足光照、材质、动态细节。

这么一分拆,视频模型的职责就只剩一件事:当一个高质量的渲染器。它不用记住整个世界,也不用猜某个物体还在不在,那些都交给底层状态。它擅长的本来就是画得好看,现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后,训练数据也跟着变了。

在 Project Eden 的定义里,真正适合训练世界模型的数据,得同时包含两层信息:底层的推演状态,和高质量的视觉画面。两层对不齐,就不算「原生数据」。

数据从哪来?

VAST 利用 Tripo 长期积累的 3D 基础模型能力,对海量的互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,重新还原背后的空间状态。

曹炎培直言,如果没有这套 3D 理解和生成能力,「我们可能都没法开始做世界模型」。

另一方面,从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据,形成「状态-结果」的完全对应数据,模型便能学到,一个动作发生之后,世界状态会如何演化。

互联网视频负责泛化和广度,引擎数据负责精准和控制,缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后,这种架构层面的差异,在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景,往前走或是做出其他动作,都是在原有的场景上进行活动。底层状态一直在那里,从没消失过,不需要从历史帧重建。

这件事听起来平淡,对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界,也是同样的道理。两个玩家进入同一个底层状态,玩家 A 推动箱子到达了点位,玩家 B 看到的也是同步的箱子位置。在这套解耦架构里,多个玩家共享的是同一个世界底座,状态只有一份,渲染各算各的。

根据一些 Demo 的表现,VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速(不同屏幕)的场景。在纯视频框架下,几乎没有办法做这件事,它必须依靠一个唯一的全局状态。

打靶的例子更能说明问题。当玩家用水枪发射,系统可以确定性地判断当前朝向和靶子的相对位置,精确计算是否击中,记录得分,这个结果永久留在状态里。

同样一件事丢给视频生成,它能生成一段「水柱击中靶子」的画面,却无法把这个结果可靠地存下来。

视频生成模型擅长的是像不像,不是对不对。世界模型要的恰恰是后者,曹炎培说,一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。

还有动作类型的泛化。以往大多数世界模型能支持的动作,说白了就是上下左右加跳跃,方向键能做的那几种。

在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势,状态推演只需要学「给定这个动作,下一个状态是什么」,不用同时学「这个过程看起来怎样」,比搅在一起学省力得多。

这些能力拼在一起,才像一个真正在运转的世界,而不是一段画质很高的动态视频。

Eden 的架构,为世界模型提供了新可能

虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览,但其背后的架构选择,为行业提供了一条值得长期关注的探索方向。

世界模型这个词现在人人都在说,但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展,除了有算力和融资量的因素,路线本身也在筛选玩家。

纯视频路线的世界模型,消耗的算力可能是生成一段 Sora 视频的成百倍,结局可能会像 Sora 一样在商业上此路不通。

但如果状态维护放云端,画面渲染做到端侧,像本地图形渲染一样,用户不必为每一帧付费,事情就不一样了。

VAST 提到他们现有的 3D 生成技术积累,恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构,提取深度和几何轨迹,把普通视频转化成带状态标注的训练数据。

而随着 Project Eden 的推进,在未来,随着多人并发问题在工程层面进一步解决,它或许还将颠覆现有的传统 DCC 工具,如 Blender,与类似 UE、Unity 等游戏引擎。

世界模型将不再按单次生成收费,是作为基础设施在内容分发、运行时进行,类似游戏引擎或云服务商的座席模式。

一方面,它是一个 AI 原生的沙盒平台,用户只需要通过自然语言或简易动作,就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界,极大地降低了内容创作的门槛。

VAST 想做的,是把造世界这件事的门槛,压到拍照那么低。类似于 UGC 互动内容平台,生成的世界也可能像短视频一样进入我们的生活,成为新的互动娱乐生态。

另一方面针对科研和产业,它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境,能成为适配具身智能训练与性能评测的高质量仿真基座。

世界模型,就这样越来越接近一个真正持续运转的世界底座。

曹炎培在内部把路线划成三个里程碑:

第一步,验证状态推演和画面呈现真能完美解耦,Project Eden 放出的 Demo 就是在交这份答卷;

第二步,攻克状态预测的泛化,让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果;

第三步,才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化,他预计是一件非常中长期的事。

与最早人们还会争论 AI 生成的图片/视频像不像,到现在 AI 可以一次性直出,海报、宣传视频,AI 都能搞定这件事一样,世界模型大概也在这条路上,从谁的画面更真实,变成谁的世界能够持续运转、更稳定承载多人交互,以及沉淀越来越多用户创造的内容。

从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

新乐道 L60 上市发布,换电 13.58 万元起,不再做「Model Y 杀手」,要做蔚来的旗舰技术普及者

两年前,乐道 L60 第一次站到台前时,身边总有一个绕不开的影子:Model Y。

先是在 2024 年 5 月 15 日,乐道品牌正式发布,L60 亮出 21.99 万元预售价,比当时的 Model Y 便宜 3 万元。那场发布会选在了一个并不被多数人知道的节日–国际家庭日,几个月后,L60 正式上市,价格又往下走了一步。标准版 20.69 万元,长续航版 23.59 万元;如果采用电池租用方式购买,车价来到 14.99 万元起。那时外界看乐道,最容易记住两个标签:比 Model Y 便宜,以及背靠蔚来的换电体系。

到了 2026 年 6 月 11 日,新乐道 L60 上市并开启全国交付,随着蔚来公司整体经营状况向好,L60 取代 Model Y 的野心也不再那么赤裸,但产品力革新并未收着,因为市场竞争的焦点已经不是定点围殴特斯拉了,而是从一超多强的局面,变成了群雄混战。

高配版比前代入门版还便宜,新 L60 搭载 ES9 同款辅助驾驶技术

新乐道 L60 整车购买 19.28 万元起,采用 BaaS 电池租用方式购买的话,车价 13.58 万元起。新车提供 Pro、Max+ 和 Ultra+ 三个版型,围绕外观内饰、智能驾驶、二排舒适、能耗、补能和个性化配置做了六大维度 106 项升级。

先看价格和版型。

Pro 版指导价 19.28 万元起,BaaS 方式 13.58 万元起,标配全域 900V 高压架构、外后视镜辅助驾驶小蓝灯、高通骁龙 8295P 座舱芯片、29 个高感知智能硬件和女王副驾座椅,继续搭载英伟达 Orin X 芯片,采用纯视觉智驾方案。

Max+ 版整车购买 20.28 万元起,BaaS 方式 14.58 万元起。它在 Pro 版基础上,标配蔚来自研神玑 NX9031 智驾芯片、高精度激光雷达,并搭载最新蔚来世界模型 NWM。

Ultra+ 版整车购买 22.28 万元起,BaaS 方式 16.58 万元起,进一步加入 20 英寸轮圈、高性能四驱系统、Nappa 主题豪华内饰和后排舒享娱乐套装。

在 2026 年 6 月 30 日(含)前大定并锁单的用户,还可享至高价值 53000 元的首发权益,包括限时选装 6 折、5000 元选装基金、0 首付起 3 年免息金融方案、乐道智能辅助驾驶 5 年免费使用权和 3000 提车积分等。

3 个款车型分工明确:Pro 负责把门槛压低,Max+ 负责把「蔚来旗舰智能」放进 20 万出头,Ultra+ 负责给那些想一步到位的人一个相对完整的答案。

对于真正有选购需求的人群来说,新乐道 L60 Max+ 版本毫无疑问是最具性价比的。这个版本 20.28 万元的售价,比初代 L60 入门版的售价,还便宜 4100 元。

增配降价不是最重要的,因为它新增的配置,本质上是把蔚来过去旗舰叙事的几样东西下放到了 20 万级中型 SUV 上:神玑 NX9031、激光雷达、蔚来世界模型 NWM,以及 SkyOS·天枢。

上代乐道 L60 全系都采用纯视觉系统,而且均采用英伟达 Orin X 芯片,在传感器配置和算力上都不算顶尖。不过对用户来说,芯片不是信仰,激光雷达也不是车头上的荣誉勋章。用户在乎一些实际的场景:比如夜晚能不能看得清,窄路会不会慌,城市路口是不是像新手司机一样犹豫,泊车能不能不折腾,高速领航能不能少让人精神紧绷。

而在新乐道 L60 发布会现场,李斌宣布新乐道 L60 智能辅助驾驶完成极窄溶洞隧道 0 接管挑战。按照官方描述,这条隧道全程 540 米,最窄处限宽 2.5 米,并且有连续急弯。这是一个极端且集大成的场景,能解释暗光感知、也可以直接提现环境理解和推理能力的价值。

L60 不再做「Model Y 杀手了」,它更应该成为一个五座爆款

再看空间和舒适。

两年前乐道 L60 亮相的时候,有个细节是横跨整个后排的大桌板,因为它不只是一个配件,更多的是在展示一件事:如果后排不够大,你连这种略显夸张的家庭场景都没法成立。此外还有 52L 后备箱冰箱、70 多个原生配件、磁吸式遮阳帘、后备箱收纳组合。

这些东西听起来不如芯片高级,却很像真正的家庭车。因为家庭用车的现实,本来就不是高概念,而是一堆具体麻烦。孩子要看动画,老人怕晒,路上要放水和零食,露营要带食材,过年要装海鲜,宠物、行李和人的情绪都要被安排好。车企讲家庭时很容易讲成温柔滤镜,但用户每天面对的,其实是这些鸡零狗碎的具体场景。

新乐道 L60 继续把这个方向往前推。它在中型 SUV 尺寸里强调越级空间,同时加入 17.3 英寸 3K 影院级天空娱乐屏、前后两段式车顶遮阳帘、6L 智能冷暖箱、二排右侧折叠小桌板。官方称 Pro、Max+ 用户可通过限时权益价选装后排舒享娱乐套装,Ultra+ 则直接标配。

这不是豪华最传统的样子,却是 20 万级家庭 SUV 里越来越重要的豪华:木纹、皮革和香氛这些固然可以告诉你这车很贵,但是让后排的人少抱怨一点多舒服一些,才是家庭车的豪华感。

纯电底子上,新乐道 L60 延续全域 900V 高压架构。官方披露,后驱版 CLTC 能耗低至 11.9kWh/100km,85kWh 长续航电池 CLTC 续航可达 740km;整车轻量化系数低至 2.22,后驱版整备质量 1885kg,相比同级纯电车型普遍轻 300kg 以上。

在电动车早期,用户最关心续航;后来关心充电;再后来,越来越多人开始关心能耗。因为续航解决的是焦虑,能耗解决的是日常算账。它不像百公里加速那么好传播,却会在每一次高速、每一次开空调、每一次补能时慢慢体现出来。

而换电,依然是乐道最特殊的牌。

2024 年正式上市时,乐道可用换电站数量还是 304 座,并计划到当年年底超过 1000 座。到了这次新乐道 L60 发布,官方给出的数据是:截至 6 月 11 日,蔚来能源已在全国建成 8968 座充换电站,其中高速公路换电站超过 1043 座,平均 180km 就有一座换电站。

蔚来过去几年做了很多重的事:换电网络、服务体系、自研芯片、整车操作系统、销售服务网络。这些投入在高端市场可以变成品牌体验,在资本市场也可能变成成本压力。乐道的任务,就是把这些重资产翻译成主流市场里的效率。

如果蔚来的旗舰技术和补能体系只服务 30 万、40 万以上车型,它们是高端品牌的壁垒;但如果这些能力能进入 20 万级家庭 SUV,并被更多用户高频使用,它们才有机会从成本变成规模。

所以,新乐道 L60 从来都不是更便宜的蔚来,而是蔚来公司整个体系里让商业模式正常运转起来的重要部分。

这也是它和 Model Y 之间真正有意思的差异化地方。

两年前,乐道对标 Model Y,重点还是价格、空间、能耗、补能和家庭定位。Model Y 是电动车时代最成功的中型 SUV,它证明了一个基本事实:家庭用户愿意为电动化、智能化和品牌确定性付钱。

但今天的竞争已经变了。

20 万级纯电 SUV 的问题,不再是谁更像 Model Y,而是谁能给出 Model Y 之后的新答案。这个答案可能包括更完整的后排体验、更本地化的辅助驾驶、更灵活的补能方式、更低的五年使用成本,也包括一个用户看不见但每天都在受益的公司体系。

蔚来这家公司有趣的地方在于,车越贵卖得越好,ES8 连续大半年都是公司内部的销冠车型,乐道品牌内也是 L90 比 L60 卖得更好。新乐道 L60 凭借较低的 BaaS 价格,以及满血级别的蔚来辅助驾驶能力,有希望扭转一下这种局面,虽然大六座 SUV 是车企进行品牌和技术升级的必经之路,但五座 SUV 仍是市场主流。

蔚来想要跻身主流车企行列,把年销量做到百万级,那么新乐道 L60 的战略意义就比想象中更重要了。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

对话蔚来高级副总裁任少卿:一个世界模型,如何适配两套芯片、四个平台和十几款车?

因为「万物皆可 OTA」的概念被讲了太多,所以在很多人的想象里,辅助驾驶升级应该是一件很像手机系统更新的事情。

厂商开一场发布会,给出一个更大的模型,几个更漂亮的 Demo,几个更顺滑的城区 NOA 视频,然后用户等着 OTA。在某一天晚上,车机屏幕上弹出更新提示,进度条从 0 跑到 99%,接着是满屏的更新成功动画,第二天早上开车出门,车就应该突然变得更像老司机。

但驾驶是一件安全为先,需要严肃对待的行为,OTA 本身并不复杂,复杂的是背后智能辅助驾驶技术,需要解决的问题太多了。

2022 年量产的车,2026 年还能不能跑最新的智驾模型?Orin 平台和自研芯片平台,能不能用同一套模型?蔚来和乐道,两套品牌、不同车型、不同传感器组合,能不能在同一个时间点获得相似的世界模型能力?工程团队手里有十几款车、四个平台、两套芯片、不同摄像头 ISP、不同雷达组合,如何让一个模型一次推送全部真的上车,而不是停留在云端训练集里?

这是任少卿在一场小范围智驾系统工程能力沟通会上想要回答的问题。任少卿是蔚来高级副总裁,负责自动驾驶研发,在此之前是 Momenta 研发总监兼联合创始人,同时他也在中国科学技术大学担任讲席教授、博士生导师,中国科学技术大学通用人工智能研究所所长。

表面上看,这次沟通会的背景是 2026 年 6 月蔚来世界模型迎来一次比较大的升级,并且会跨蔚来、乐道两个品牌,覆盖 Banyan、Cedar、Cedar S、Coconut+ 等四个平台,从 2022 年最早的 ET7,一直延伸到乐道 L60 的激光雷达版本,核心能力保持一致。

但这场沟通会的主要目的不是讲蔚来最近的世界模型有多厉害,而是讲如何把新的世界模型一次性部署到时间跨度四五年,车型、芯片和硬件都不尽相同的十几款车型上。

就像《天龙八部》里的段誉一样,身怀六脉神剑,凌波微步,北冥神功等顶尖武功配置(模型能力),但因为经验匮乏心性软弱(工程能力),所以实战水平相当不稳定。

▲ 蔚来高级副总裁 任少卿

任少卿的开场是这样的:

除了我们平时所说的算法层面,原来有端到端,现在可能还有世界模型、VLA,在这些算法层面的事情底下,关于整套 AD 系统,数据、硬件、传感器是怎么构建的,整体的解决方案,最终呈现给大家的 NT2 车、NT3 车以及乐道的状态,为什么是现在这个样子。

这句话其实是整场沟通会的提纲,也就是:模型怎么上车,数据怎么回来,老车怎么更新,测试怎么做,安全怎么验证。

先把车造得足够「耐老」

今天再看 ET7 车顶的瞭望塔式激光雷达,很多人可能已经习惯了。甚至在今天的中国新能源车市场,车顶凸起一个激光雷达,已经不算什么特别激进的事情。

但时间回到 2021 年,这件事的争议要大得多。

激光雷达放在哪里,本来有几个选择。放在保险杠位置,对造型和风阻最友好,也最符合传统汽车工程师的习惯;放在座舱内,对外观影响更小,但要透过玻璃,会有性能损失和额外成本;放在车顶,从感知性能和维修成本看更有优势,因为站得高、看得远,但对风阻、造型和整车设计都是挑战。

任少卿回忆说,当时内部讨论非常激烈,尤其对电动车来说,风阻和造型都是命门。但李斌当时给过一个判断:如果技术路线就是会往这个方向走,如果这种方式对性能最好,那它不只是 AD 团队的挑战,也是设计团队的机会。

很多设计在刚出现的时候,都会让人不适应。因为它不属于过去的汽车语法。早期的封闭式前脸、贯穿式灯带、大屏座舱、车顶传感器,刚出现时都多少有些突兀。但只有当功能价值最终被验证,新的美学才会被行业慢慢接受。

任少卿最后总结这件事时说,当他们决定一件事是对的,看到了它接下来五年、十年的发展方向,即使今天有问题、有冲突,也应该去做,然后时间会证明一切。

蔚来在 NT2 上不只是选择了车顶高线数激光雷达,也坚持用了 800 万像素摄像头、四颗 Orin 的大算力平台。当时这些配置看上去都有「超前」甚至「昂贵」的一面,蔚来现在给出的解释是:车不是手机,不能一年一换。

智能电动车的问题在于,机械部分可能用五年、十年,电子件的迭代速度却越来越像消费电子。

这就产生了一个矛盾:一台车的身体还年轻,它的大脑会不会先老?

任少卿提到,蔚来内部希望硬件部署能够坚持更长时间,最好能撑过两代车型。现在车的更新周期大概三年一代,已经比传统汽车快很多,但蔚来希望芯片和传感器在更长周期里还能承接软件升级。

这也是为什么蔚来一直强调订阅模式。订阅不只是一个商业收费方式,它背后其实有一个长期维护老车的成本逻辑。让一台已经不量产的旧平台继续吃到新版本,是一件很贵的事情。车企需要找到一种商业闭环,用户也希望五年以上的车还能持续更新,这两者之间需要一个平衡点。

所以,NT2 平台当年的激进硬件,今天可以被重新解释成一种「智能生命周期」的预埋。

当然,硬件超前只能解决一部分问题,即使蔚来一开始尽量统一传感器基线,几年下来,平台仍然会发生差异。NT2 和 NT3 的摄像头不同,因为 Orin 和神玑芯片里的 ISP 不同;NT2 用 3D 毫米波雷达,NT3 开始上 4D 毫米波雷达;后续车型的激光雷达版本也不一样;蔚来和乐道也有不同车型组合。

如果每一个平台都要单独开发一套智驾模型,这件事很快就会变成工程灾难。

蔚来的解法,是让同一个神经网络接入不同传感器。不同摄像头可以进入同一个网络,靠神经网络把性能拉平;激光雷达和毫米波雷达则更像「热插拔」接口:有这个传感器,就输入对应信息;没有这个传感器,网络也能正常跑。

它意味着蔚来并不把不同车型简单视为高低配,而是在模型架构上允许传感器组合存在差异。只有这样,同一套代码和网络才可能同时推给四个平台、十几款车型。

在沟通会上,有媒体问到 ET9 等车型上的两个侧向激光雷达,以及多激光雷达是否存在边际效应递减。

蔚来自动驾驶团队解释说,蔚来目前侧向激光雷达和前向激光雷达拼在一起,可以达到 350 度以上的周视,在高速、城区、泊车场景都有作用。侧向激光雷达的探测距离可以做到 70、80 米,尤其在高速快速变道时,对侧后方来车、小目标物有更好的监测。

但蔚来智能驾驶研发产品系统负责人佘晓丽补充了一个判断:

从用户的日常体感来说,我认为几乎是看不出来差别的。如果我(多)一颗激光日常用户就可以看出来差别,只能说这个做得太差了。

任少卿接了一句更形象的话:

侧向激光雷达就是蔚来多装了两个(智能)气囊。

这可能是理解多传感器路线最合适的方式,它的价值不一定体现在每天上下班都让你觉得「哇,今天变道好像更丝滑了」,而是在长尾风险里托住边界。

自研芯片的重点,不只是 TOPS

过去几年,智能驾驶芯片有一个很常见的传播方式:比 TOPS。谁的算力更大,谁的芯片更多,谁的域控更豪华,很容易变成一句发布会金句。蔚来这次讲自研的神玑 NX9031,重点放在内存带宽上。

任少卿提到,2022 年左右,神经网络还主要是卷积神经网络,也就是 CNN。但后来的趋势越来越明显,模型会走向 Transformer。和 CNN 相比,Transformer 对内存带宽的要求会高很多。在同样计算量下,Transformer 对内存带宽的要求大约是 CNN 的 8 到 70 倍。

所以当初在设计神玑的时候,蔚来做了一个判断:下一代神经网络大概率会往纯 Transformer 方向走。

为了实现更高内存带宽,需要用更新的内存制程、多通道部署,这会占用芯片面积,也带来成本压力。任少卿举了一个更容易理解的例子:如果拿一个 7B 模型来算,30Hz,每赫兹解码五次,它需要的内存带宽就是 500GB/s。也就是说,当智驾模型越来越接近多模态大模型架构时,芯片的瓶颈不只是算力数字,而是模型能不能顺畅地在端侧跑起来。

按照蔚来的说法,一颗神玑芯片可以产生和四颗 Orin-X 类似的性能。如果说 NT2 的四颗 Orin 是在 2020 年为未来几年预埋算力,那么神玑的高内存带宽,就是蔚来在 2022 年押注 Transformer 时代。

如果说芯片和传感器是智能辅助驾驶的身体,那么 AI Infra 就像它的消化系统。

云端训练出一个模型,只是第一步。接下来是如何把这个模型部署到车端芯片上,并且在 Orin、神玑、不同车型、不同品牌之间保持一致的效果。

任少卿说,很多行业当前的做法是,不同芯片有完全不同的两套代码,只是在云端训练模型层面共享一部分。但蔚来从 2020 年底开始做新架构时,就假设未来一定会有不同芯片,需要统一部署。

所以他们没有完全沿用英伟达标准工具链,而是只用到 CUDA 这一层。CUDA 之上的部署框架、推理引擎、AI 编译器,蔚来自己做。

传统做法里,神经网络一层一层,每一层算子都需要工程师手写优化。算法工程师在前面改模型,后面工程师就要跟着改部署。任少卿开玩笑说,这会变成「算法工程师在前面改得很开心,后面一堆工程的兄弟跑断腿」。

蔚来自研 AI 编译器后,核心变化是自动算子优化和图优化。原来一层算子可能要工程师写三天,现在大部分可以自动生成;原来基于标准工具链,模型架构改动后部署可能要一到两周,现在可以缩短到一到两天;推理效率比通用工具链提升 20% 以上。

如果一个模型在云端效果很好,但每次部署都要等一两周,它就很难支撑快速迭代。反过来,如果工程系统能让模型快速上车、快速验证、快速回收数据,算法团队就能更高频地试错。

更符合这个时代叙事的是,蔚来还把 AI Agent 用进了智驾研发流程。

任少卿提到,一个模型部署上车,需要量化、开发集成、Pipeline、CI/CD 流水线、多芯片误差校验、发版、部署到测试车等一系列流程。过去需要工程师守在电脑前,一个环节一个环节地看。最近一年多,蔚来把这套流程改成了 AI Agent 自动执行。

结果是,原来模型上车需要一天级时间,现在可以压到两个小时以内。

在用户侧,AI Agent 是帮你查天气、订餐、写邮件;在车企研发侧,AI Agent 是把模型部署流程自动化,把工程师从重复流程里解放出来。前者决定用户感知,后者决定研发效率。

把几十万辆车组织成一张验证网络

过去讲智能驾驶,大家经常说数据闭环。主机厂有用户车队,有海量行车数据;供应商希望拿到主机厂数据;行业也常常把数据想象成一个巨大的素材库,似乎只要把视频和传感器信息存下来,就拥有了金矿。

但任少卿的判断是:数据的本质是算力。

因为真正有价值的数据,不是随便一段用户行车视频,而是针对某一个模型的 Corner case。要找到这个模型的 Corner case,必须让模型在大量真实场景里跑起来,观察它在哪里犯错、哪里犹豫、哪里偏离分布。

这就需要车端算力和云端算力。

所以,数据不是零成本拷贝的文件,而是模型、车端算力、云端算力共同筛出来的结果。你的模型和我的模型不同,你需要的 Corner case 也不同。于是,各家的数据最终只能在各家的系统里产生价值。

任少卿用一个很形象的例子解释 Corner case。比如一个路口,左侧是左转道,中间几个直行道,右侧是右转道。专家驾驶数据里,几乎不会出现一辆车离路口只剩 30 米,还待在最右侧车道却想左转的情况。因为专家不会这么开,正常用户大多数时候也不会这么开。

但智能辅助驾驶系统可能会犯这个错误,一旦它开到了训练数据没有覆盖的位置,就可能「回不来」。

所以蔚来要专门制造一些奇怪的 Case:比如离白线只有三米远时还要变道,或者故意开到错误车道,让模型自己学习怎么纠回来。这些 Case 对人类来说一年也未必遇到一次,但对智能辅助驾驶系统来说,必须学会处理。

这也是为什么任少卿说,AI 性能提升对数据的需求是指数级的。性能再提升几个点,数据可能要翻十倍。全量采集和训练所有数据,成本不可接受。真正可行的做法,是把最有价值的 Corner case 精细筛出来,让数据量变小,但数据价值变大。

这时候,数据闭环就变成了一套算力调度系统。

智能驾驶测试有一个悖论:能力越强,测试越难。

几年前做城区 NOA,测试车出门很容易遇到问题,因为系统会在普通场景里犯错。今天很多主流智驾系统已经能处理大量常规场景,测试工程师开一天,可能也只遇到几个有价值的 Case。

任少卿说:

测试越来越「肝」,比打游戏还「肝」。

靠测试车堆里程,已经不够了。蔚来的解决方式,是把量产车用起来。通过云端下发验证系统,让一些版本在大量真实车辆上做验证,当然前提是不影响用户正常使用和安全。这个验证池已经跨代际,NT2 和 NT3 的车都可以进入同一个池子。

这意味着,NT3 的很多模型,实际上也在 NT2 车辆上做共享验证。所以任少卿还开玩笑说,NT3 车主要感谢 NT2 车主。

主动安全是最典型的例子。蔚来表示,主动安全每周测试里程超过 4000 万公里,整体每周验证里程超过 1 亿公里。如果把这些里程换成测试同事和测试车,一周的里程需要 1000 辆车跑一年。

这已经不是传统意义上的车队测试,更像一个分布式验证网络。因为这套系统打通了 NT2、NT3、乐道平台,同一个算法可以跨四个平台验证,产生类似四倍验证效果。每一个版本都可以在不同车型、不同硬件组合里快速得到反馈。

过去大家常说 Tesla 的优势在于有庞大的量产车队。中国车企也在逐渐走向类似逻辑,但单纯「车卖得多」还不够。关键是能不能把这些车组织起来,变成一个可调度、可验证、可筛选 Corner case 的算力网络。

如果不能调度,车队只是销量。如果能调度,车队才是智能驾驶的数据基础设施。

工程系统、AI 编译器、神玑芯片、量产车算力调度,这一切需要收束到了一个更朴素的目标上:减少事故。

任少卿提到,蔚来主动安全的大里程安全里程目前是 679 万公里,并希望今年下半年的版本继续往上走,到 800 万公里以上。内部监控的保险出险赔付数据,从 2023 年到现在也在每年下降,目前相比 2023 年降低了约 40%,后续还会和保险公司验证后再发布具体数字。

他甚至提到,希望未来安全里程能从接近 700 万公里,继续做到 800 万、1000 万,甚至有一天再加一个零,达到一亿公里一次严重事故。

自动驾驶的终局当然令人兴奋,但智能辅助驾驶作为一项量产技术,真正的价值点是在今天、明天、后天持续降低用户风险。

如果说早期智驾竞争看的是谁开城快,后来比的是谁体验更拟人,那么接下来会越来越多地回到一个更硬的指标:它有没有真的减少事故。

在 AI 时代,模型会越来越重要。

但在汽车上,模型永远不能独自存在。它需要硬件承载,需要工具链部署,需要真实道路验证,需要安全系统兜底,也需要商业模式支撑老车继续更新。这可能也是智能驾驶和手机 AI、电脑 AI 最大的区别。

电脑上的 AI 回答错了,大不了重新问一次;手机里的 AI 总结错了,大不了删掉重来。车上的 AI 没有这么多重来的机会,它要面对真实道路、真实速度、真实风险,以及每一个坐在车里的人。

一个更聪明的模型,当然会让车开得更好,一套更扎实的系统,才决定这辆车能不能持续变聪明。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌