普通视图

发现新文章，点击刷新页面。

昨天以前首页

“又来一刀”？AI世界模型实现4人联机对战，AI实时生成游戏画面

GameLook

作者韩

2026年5月22日 10:03

【GameLook专稿，禁止转载！】

GameLook报道/1997年，《黄金眼007》在N64上发售，把分屏多人对战带进了客厅。近三十年后，同一张地图重新出现在屏幕上——这次，连关卡本身都是AI实时生成的。

今年5月，AI初创公司Odyssey在48小时内接连发布两款世界模型：Starchild-1和Agora-1。

Agora-1介绍： https://odyssey.ml/introducing-agora-1

Starchild-1介绍：https://odyssey.ml/introducing-starchild-1

Agora-1实现在AI生成游戏中四人联机

Starchild-1将实时音视频生成首次整合进单一世界模型；Agora-1让最多四名玩家同时进入同一个AI生成的对战场景，每人看到的第一人称画面均由模型按需渲染。尽管画面粗糙，代价高昂，且尚未经过独立验证，但某种意义上，这是AI世界模型领域首次实现真正意义上的多人共享状态。

根据官方资料，Starchild-1要解决的，是音频与视频在时间维度上天然不匹配的问题。

音频和视频在基础时间频率与信息密度上存在本质差异，在长时序生成中，任何一个模态的误差都可能迅速拉垮另一个。

主流视频生成模型（如Veo 3、Sora）的通行做法，是把声音作为后期附加的soundtrack而非参与推理的独立信号。Starchild-1选择了一条不同的路：通过因果蒸馏管道，将一个双向音视频基础模型（Ovi）改造为实时自回归模型，同时引入异步KV缓存架构，让两种模态在保持同步的前提下各自按节奏运行。

这意味着当用户实时输入语音或文字时，模型不会等到音频完整帧之后才更新视频，而是音视频各自推进、彼此感知，实现毫秒级的跨模态响应。

该模型支持四种交互模式：交互式世界探索、脚本化对话控制、会话式互动，以及旁白式陪伴。

但Odyssey团队也坦承了它的局限：场景的视觉身份与声学特征在长时序中仍会漂移，而交互式因果音视频生成目前也缺乏可量化的基准指标。换言之，如果你和模型持续交互十分钟以上，场景可能会悄悄”走样”，而研究者目前还没有统一的方式去测量这件事到底有多严重。

Agora-1面对的则是更复杂的工程问题：如何让多个身处世界不同位置的玩家，共享同一份地图状态而不产生分歧？

传统世界模型的做法是把仿真动态和画面渲染压进一个模型。Agora-1学习的是两种截然不同的功能：首先，它训练一个状态模型，直接从游戏的内部状态数据中学习玩家交互下的世界状态演化规律；其次，由一个DiT渲染模型读取这一共享状态，为每名玩家生成各自的独立视角画面。

包括物理逻辑（谁在哪里、血量是多少、弹道从何而来）交由状态模型统一裁决，渲染模型只负责把这份事实翻译成可见像素。在这个框架下，真实性的定义不再只是视觉保真度，而是当两个玩家从不同方向同时推动这个世界时，它能否保持一致。

并且由于底层游戏状态可以被直接操控，据悉Agora-1可以在保留原始游戏机制的前提下，生成全新的关卡。这意味着世界模型”学会了规则”，而非只是记住了原始场景。

尽管Odyssey也承认，”今天Agora-1的状态模型相对简单”，并非架构上的根本瓶颈，但确实是当前的实际能力边界。

Odyssey 创始人和研究人员 Jeff Hawke, Jenny Seidenschwarz, Vighnesh Birodkar

而在技术之上，理解Agora-1的意义，对于游戏行业而言，谷歌的Genie 3或许是此前更广为人知的对比对象。

作为目前世界模型领域视觉表现领先的系统之一，该模型可生成720p、每秒24帧的交互环境。并且能够在数分钟的探索时间内维持连续性和逻辑一致性，是对此前短时序场景生成系统的重要超越。

但Genie 3的体验设计仍以单用户为前提，画面更精致，但世界是”你一个人的”。Odyssey的优先级与此相反：用粗糙的渲染质量换取多人共享架构的成立。

从目前行业的现状来看，对于多人体验的兼容，显然更具有实际意义。

不过Odyssey并非孤军奋战。世界模型赛道目前已相当拥挤：DeepMind的Genie 3及面向消费者的Project Genie、李飞飞创办的World Labs及其Marble产品、英伟达面向机器人场景的Cosmos，以及Meta的V-JEPA，都在从不同维度逼近同一个目标：一个能够模拟物理世界、响应多主体行为、支持长时序推理的通用仿真系统。

Project Genie公开首日，Unity股价下跌约24%，Roblox下跌约15%，Take-Two和CD Projekt也出现了明显跌幅。

市场的反应说明，资本已经开始用价格来表达一个判断：如果世界模型能够成为下一代游戏引擎，那么现有的游戏引擎公司面临的不是竞争，而是替代。

好在这家由两位自动驾驶老兵创立、目前员工约55人的公司，用2700万美元的融资，在竞争对手的重兵合围中，押注在了架构选择而非规模堆砌上。毕竟多人世界模型一大核心难点就在于维持跨玩家的一致同步状态，同时驾驭生成模型固有的概率性和动态性。

而根据LightSpeed等知名机构的观察，服务器端权威模型、将生成AI与确定性物理引擎相结合的混合方案，以及高效数据流等技术路径，都可能有助于缓解这些问题。

而Agora-1选择的”状态模型+渲染模型”解耦架构，正是这类混合思路的一种具体实现。

世界模型赛道，VAST 选了一条还没有人走过的路

爱范儿

作者张子豪

2026年6月1日 17:05

今年除了 Agent 赛道，世界模型也成为 AI 行业新的必争之地，前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资，世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派，它们有着不同的技术路线，如杨立昆的 JEPA 派，是做抽象表征预测；李飞飞的空间智能派，用 World Labs 的 Marble 在做显式 3D 重建；DeepMind 的学习型仿真派，推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者，甚至是 AI 教父/教母，都在说大语言模型的文本训练范式已到瓶颈，AI 要理解物理世界必须靠世界模型，但到底要做什么样的「世界模型」，没有一个达成共识的定义。

这几天，AI 公司 VAST 完成了 A+ 及 A++ 轮的融资，合计金额近 2 亿美元。而在今年三月初，VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST，可能会有点陌生，但是 Tripo 3D 生成是不是很耳熟？我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法，就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片，转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示，从第一天开始，VAST 真正在做的，就是解锁下一代互动内容的底层基础设施，也是为通用人工智能打造专属世界底座。

这件事被拆成了两步，第一步完成「造万物」；第二步实现动态「造世界」，为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物，是用 AI 3D 生成那些符合管线标准的资产；造世界，才是世界模型要干的事，理解空间尺度、状态演化，从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界，曹炎培认为，资产只是「世界底层的状态」，离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于，过去的世界模型把状态和画面压在一个模型里一起预测，VAST 把这两件事拆开，底层单独维护一个世界状态，上层按需渲染画面。

这样做的好处是，状态独立存在，物体离开镜头不会消失；一个状态可以同时给多个人渲染不同视角，多人交互并发自然成立；用户对世界的改变会真实留在状态里，下一个进来的人看到同样的结果。

VAST 推出的 Project Eden，正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了，世界模型的状态和画面为什么要拆开，又为什么是 VAST 先采取这样的方式？

画面流畅不等于世界在运转

视频生成做得更流畅，可以叫世界模型。静态 3D 场景能走动，叫世界模型。能控制视角，也能叫世界模型。

世界模型这个词，似乎什么都能往里装了。

Google Genie 的演示视频里，玩家在里面操控一个角色，往前走，画面跟着生成。但可能一转身，背后的场景就改变了，或者出现从没存在过的东西，因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型，本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派，在他们的技术实现里，世界模型就是预测下一帧，给模型喂动作输入，让它生成接下来的画面，反复接龙，就能模拟一个世界。

曹炎培管这种叫「一镜到底」，空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开，那个位置的状态没人保管，等你回头，模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了，它记住的不是世界，是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World，可以被称为空间智能派，能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来，让 AI 真正理解几何和物理关系，再谈其他。

例如，World Labs 的 Marble 能生成一段有限范围的世界，我们可以在里面自由游览。在这个生成的固定世界里，视角一致性解决了，因为 3D 资产是静态的。但同时，这个世界也丢失了时间维度，场景永远停在生成那一刻，没有物理变化，没有事件发生，没有因果关系。

▲ 生成的世界是固定的，灯不会随着时间的流逝熄灭，天也不会亮

我们能走进去，但什么都改变不了，也没有什么会因为我们的行为而变化。

对 VAST 来说，世界模型不能只是去生成像素，也不能只是一个静态空间。

一个可交互的世界模型，必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态，而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里，那就彻底把它们拆开。

就像我们玩的大世界游戏一样，游戏的服务器会维护着一套世界状态，谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态，结合本地文件夹里上百 G 的游戏文件，做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统，有人进入我们的大世界，大家还是共享同一个静态文件的底层世界，各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的，就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑，设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态，管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑，完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作，系统首先更新的就是这套底层状态。

中间是转换层，它会根据「当前是谁在观察、从哪个视角观察」，把世界状态转换成一组局部条件信息。像是做了这个动作之后，这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染，基于这些条件，把画面真正「画」出来，补足光照、材质、动态细节。

这么一分拆，视频模型的职责就只剩一件事：当一个高质量的渲染器。它不用记住整个世界，也不用猜某个物体还在不在，那些都交给底层状态。它擅长的本来就是画得好看，现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后，训练数据也跟着变了。

在 Project Eden 的定义里，真正适合训练世界模型的数据，得同时包含两层信息：底层的推演状态，和高质量的视觉画面。两层对不齐，就不算「原生数据」。

数据从哪来？

VAST 利用 Tripo 长期积累的 3D 基础模型能力，对海量的互联网 2D 视频进行反向解构，恢复深度、相机位姿、几何轨迹等信息，重新还原背后的空间状态。

曹炎培直言，如果没有这套 3D 理解和生成能力，「我们可能都没法开始做世界模型」。

另一方面，从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据，形成「状态-结果」的完全对应数据，模型便能学到，一个动作发生之后，世界状态会如何演化。

互联网视频负责泛化和广度，引擎数据负责精准和控制，缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后，这种架构层面的差异，在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景，往前走或是做出其他动作，都是在原有的场景上进行活动。底层状态一直在那里，从没消失过，不需要从历史帧重建。

这件事听起来平淡，对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界，也是同样的道理。两个玩家进入同一个底层状态，玩家 A 推动箱子到达了点位，玩家 B 看到的也是同步的箱子位置。在这套解耦架构里，多个玩家共享的是同一个世界底座，状态只有一份，渲染各算各的。

根据一些 Demo 的表现，VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速（不同屏幕）的场景。在纯视频框架下，几乎没有办法做这件事，它必须依靠一个唯一的全局状态。

打靶的例子更能说明问题。当玩家用水枪发射，系统可以确定性地判断当前朝向和靶子的相对位置，精确计算是否击中，记录得分，这个结果永久留在状态里。

同样一件事丢给视频生成，它能生成一段「水柱击中靶子」的画面，却无法把这个结果可靠地存下来。

视频生成模型擅长的是像不像，不是对不对。世界模型要的恰恰是后者，曹炎培说，一个模型如果没法对动作做出正确的预测和推演，「也很难叫它世界模型」。

还有动作类型的泛化。以往大多数世界模型能支持的动作，说白了就是上下左右加跳跃，方向键能做的那几种。

在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势，状态推演只需要学「给定这个动作，下一个状态是什么」，不用同时学「这个过程看起来怎样」，比搅在一起学省力得多。

这些能力拼在一起，才像一个真正在运转的世界，而不是一段画质很高的动态视频。

Eden 的架构，为世界模型提供了新可能

虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览，但其背后的架构选择，为行业提供了一条值得长期关注的探索方向。

世界模型这个词现在人人都在说，但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展，除了有算力和融资量的因素，路线本身也在筛选玩家。

纯视频路线的世界模型，消耗的算力可能是生成一段 Sora 视频的成百倍，结局可能会像 Sora 一样在商业上此路不通。

但如果状态维护放云端，画面渲染做到端侧，像本地图形渲染一样，用户不必为每一帧付费，事情就不一样了。

VAST 提到他们现有的 3D 生成技术积累，恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构，提取深度和几何轨迹，把普通视频转化成带状态标注的训练数据。

而随着 Project Eden 的推进，在未来，随着多人并发问题在工程层面进一步解决，它或许还将颠覆现有的传统 DCC 工具，如 Blender，与类似 UE、Unity 等游戏引擎。

世界模型将不再按单次生成收费，是作为基础设施在内容分发、运行时进行，类似游戏引擎或云服务商的座席模式。

一方面，它是一个 AI 原生的沙盒平台，用户只需要通过自然语言或简易动作，就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界，极大地降低了内容创作的门槛。

VAST 想做的，是把造世界这件事的门槛，压到拍照那么低。类似于 UGC 互动内容平台，生成的世界也可能像短视频一样进入我们的生活，成为新的互动娱乐生态。

另一方面针对科研和产业，它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境，能成为适配具身智能训练与性能评测的高质量仿真基座。

世界模型，就这样越来越接近一个真正持续运转的世界底座。

曹炎培在内部把路线划成三个里程碑：

第一步，验证状态推演和画面呈现真能完美解耦，Project Eden 放出的 Demo 就是在交这份答卷；

第二步，攻克状态预测的泛化，让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果；

第三步，才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化，他预计是一件非常中长期的事。

与最早人们还会争论 AI 生成的图片/视频像不像，到现在 AI 可以一次性直出，海报、宣传视频，AI 都能搞定这件事一样，世界模型大概也在这条路上，从谁的画面更真实，变成谁的世界能够持续运转、更稳定承载多人交互，以及沉淀越来越多用户创造的内容。

从预测下一帧像素，到推演下一个状态，世界模型的终点开始清晰了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。