阅读视图

发现新文章,点击刷新页面。

腾讯AI让游戏圈“惊悚”:一键生成3D世界、可导出3D模型,无缝对接游戏工作流

【GameLook专稿,禁止转载!】

GameLook报道/4月15日,李飞飞与她的联合创始人们共同创立的空间智能公司World Labs,开源了新一代3D高斯泼溅渲染引擎Spark 2.0。

Spark 2.0

这个工具说起来并不复杂:它让任何一部手机或者浏览器,都能流畅渲染超过一亿个高斯点构成的超大规模3D场景,而此前这件事需要专业工作站才能完成。

换句话说,Spark 2.0不是在生成3D世界,而是在解决生成之后”怎么让所有人都能看到”的问题。李飞飞在发布当天评论说,自己”为能为基于网页的3DGS渲染开源生态做贡献感到无比自豪”。

她没有着重强调技术本身,而是把重点放在开源对整个生态的意义上。这个表述耐人寻味。

因为仅仅24小时之后,腾讯混元团队在4月16日发布并开源了混元3D世界模型2.0(HY-World 2.0)。这种”集体冲刺”的节奏,已经不再让GameLook感到惊讶,但依然令人不安。

混元今日表示:“此前主流的世界模型,例如谷歌Genie 3和混元世界模型1.5,仅能生成视频文件,本次发布的混元世界模型2.0的实用性更进一步——它可以直接生成可二次编辑的3D资产文件,并且,这些生成的3D资产可以直接导入到游戏制作或者具身仿真引擎,实现真正可玩、可用。”

这些技术,不是在改进游戏里的某一块贴图,或者加速某一道渲染管线,它们在尝试直接”生成3D游戏世界、且是可编辑的”。

模型已开放申请体验,链接:https://3d.hunyuan.tencent.com/sceneTo3D

HY-World 2.0是什么,它做到了什么

要理解这件事对游戏行业意味着什么,有必要先看清楚这个模型究竟能做什么、做到了什么程度,以及还差在哪里。

HY-World 2.0的官方定位是一个多模态世界模型框架,支持文字、单张图片、多视角图片乃至视频等多种输入,并能够输出可探索的3D高斯泼溅场景(3DGS)、Mesh网格和点云等多种格式,明确兼容现有游戏工作流。

在技术架构上,它采用四阶段生成流程:首先通过HY-Pano 2.0生成全景图,再经由WorldNav进行轨迹规划,接着用WorldStereo 2.0完成世界扩展,最后通过WorldMirror 2.0进行世界合成,完成从视觉生成到3D重建的全流程闭环。

这套流程的核心突破在于它第一次把”生成”和”重建”统一在同一个框架里。

过去,生成类模型擅长从稀疏输入(一句话、一张图)想象出一个场景,但往往无法保证几何一致性;重建类模型则善于从密集多视角输入还原精确的3D结构,但不具备填充未知区域的想象力。

HY-World 2.0将两种能力融合在一个系统中,并在多个开源基准上达到了与闭源商业系统Marble相近的水准。值得一提的是,Marble正是李飞飞World Labs的主力产品,而腾讯选择用开源的方式在性能上直接与之对标,这本身就是一个信号。

技术报告中还特别介绍了WorldLens,这是一个高性能3DGS渲染平台,支持自动光照、碰撞检测以及角色接入,能够让生成的3D场景支持实时交互探索。这意味着从生成到可玩,HY-World 2.0构建了一条相对完整的技术链路。

但”相对完整”和”商用就绪”之间,仍然有一道很宽的鸿沟。

当前生成的3D场景,整体空间构成已经相当可观,但在物件层面的几何精度上仍然粗糙,更关键的是整个场景以统一的3DGS形式输出,缺乏对内部不同物件的语义分割与独立可操作性。

这意味着设计师无法从一个AI生成的森林场景中单独提取一棵树进行调整,更无法为其中一栋建筑单独添加碰撞体积或触发逻辑。游戏引擎需要的是一张可以拆解操作的对象图,而不是一张精美但无从下刀的全景合影。

3DGS在视觉效果上出色,但其底层的高斯椭球表达对精确碰撞检测并不友好,从3DGS到可用Mesh的转换,目前仍然是一个信息损耗严重的步骤。除此之外,当世界模型尝试扩展大范围场景时,边界区域容易出现”幻觉接缝”,即AI在填充未知区域时产生的视觉不一致。

在一个要求逻辑自洽的游戏关卡里,这会造成玩家明显的迷惑与出戏。

简单来说,HY-World 2.0不是一款已经可以一键出图发布的游戏关卡生成器。它是一套强大的3D世界原型生成框架,是一把已经造好的枪,但子弹和瞄准,仍然需要人来完成。

世界模型与大语言模型:一个必要的区分

不过在进一步讨论游戏行业之前,GameLook认为有必要先厘清一个常见的混淆:世界模型究竟是什么?它是GPT这类大语言模型的升级版,还是一种本质上不同的东西?

事实上,两者既有联系,又有根本性的区别,这个区别直接关系到它在游戏行业能做什么、做不到什么。

以GPT、Claude为代表的大语言模型,核心架构是Transformer,即通过海量文本数据的统计学习,捕捉词语之间的概率关联。它们对世界的”理解”,本质上是语言符号的统计关联,而非真实物理规律的建模。

大模型”知道”重力的存在,是因为它在大量文本中读到过”苹果落地””自由落体”等表述,而非真的理解物理定律。这也是为什么大模型在逻辑推理、因果推断和空间关系理解上仍然频繁出错。

而世界模型的目标是对物理世界的空间结构、运动规律和因果关系进行建模。HY-World 2.0生成的3D高斯泼溅场景,并不是在”描述”一个3D世界,而是在构建一个可探索、有内在几何一致性的空间表达,摄像机可以在其中移动,视角可以变换,几何关系在物理层面是自洽的。这种能力依赖的不仅是数据的统计分布,还有深度估计、法线预测、空间轨迹规划等对物理规律的显式建模。

从技术实现来看,HY-World 2.0确实大量使用了Transformer架构和扩散模型,但这并非”换汤不换药”,而更像是在Transformer提供的强大感知与生成能力之上,叠加了对物理空间结构的约束与理解。

技术报告中四阶段生成流程的设计思路,特别是WorldNav的障碍规避轨迹规划和WorldMirror的几何一致性重建,体现的正是”物理规律引导下的生成”逻辑。

这也是为什么当下大语言模型与世界模型的结合,被视作通向AGI的关键路径。

对于游戏行业而言,这也意味着一个真正能够生成”可玩”而非仅仅”可看”世界的系统,需要两种能力的深度整合,这是包括HY-World 2.0在内的所有当前系统都还在追赶的目标。

游戏行业的震颤:从关卡设计到存在之问

而当如今疙瘩团队在世界模型的一步步集中冲刺,也正在让AI生成3D内容对游戏行业的冲击,正在从”概念讨论”演变为”真实部署”。

今年3月在旧金山举行的2026年游戏开发者大会(GDC 2026)是一个标志性的观察窗口:与往届相比,今年大会的AI相关会议展示的已是投入使用并产生可衡量价值的制作系统,而非停留于概念阶段的技术展望。

在GDC数百场会议中,相当多都与AI相关,行业共识已从”是否使用AI”转向”如何有效使用AI”。

在这一背景下,HY-World 2.0这类世界模型对游戏开发流程最直接的价值,体现在概念验证阶段。

一个典型的独立游戏团队,从一个场景概念到可供体验的初步Demo,往往需要数周乃至数月的建模、材质制作和关卡搭建工作。而现在,只需要一段文字描述或一张参考图,就能生成一个具备空间深度、可自由探索的3D场景原型,并直接导出为游戏引擎兼容的格式。

这意味着设计师可以在一天之内迭代十个场景方案,而不再受制于美术资产生产的瓶颈。对于小型独立工作室而言,这是”以小博大”的杠杆;对于需要快速试错、验证市场反应的小游戏和Web游戏赛道,价值尤为突出。

但这并不意味着小游戏赛道就此高枕无忧。围绕3D内容生成,已经形成了一个竞争激烈的工具生态。Meshy3D、Tripo3D等专注于单体3D资产生成的平台,在物件级别的几何精度上有所侧重;HY-World 2.0则聚焦于场景级别的整体空间生成。目前,这些工具生成的内容距离直接商用仍有距离——几何不够精确、物件不可分割、细节粗糙,大量人工后处理依然不可避免。

但技术的成长速度足够快,在一两年内就从”辅助工具”演变为”核心管线组件”,是完全可以预期的事情。

对于游戏从业者而言,这场演变最深远的影响,不在于今天这些工具的能力极限在哪里,而在于它重新定义了团队的分工逻辑。

场景美术、关卡搭建工程师、3D场景建模师,工作内容的重心正在从”生产”迁移到”审核与修正”,从”从零创作”变为”对AI生成内容进行艺术指导与后处理”。这对于有经验、有审美判断力的资深从业者意味着工作方式的升级;但对于刚进入行业、靠大量重复性劳动换取学习机会的初级美术,意味着入行门槛的压缩和职业发展路径的收窄。

简单的勤奋不再足够,审美判断、设计能力、以及驾驭AI工具的工作流素养,正在成为游戏从业者新的核心竞争力。技术美术和AI工具整合工程师,则可能是近期需求增长最快的岗位,他们负责将AI生成内容接入现有游戏流程、构建AI辅助工作流,是人与机器之间不可或缺的衔接者。

甚至于在这场浪潮中,2D游戏的发展路径可能是相对不受影响的。

要知道AI图像生成在2D领域早已成熟,但2D游戏的核心竞争力往往不在资产数量,而在叙事深度、玩法设计与情感共鸣,这些维度,恰恰是当前AI最难胜任的部分。从这个意义上说,2D游戏的”人”的价值反而在相对凸显。

但这同样意味着:无法在AI工具浪潮中找到自己应用方式的2D开发者,很可能在效率竞争中落败于那些已经将AI作为基础设施的团队。

腾讯的算盘:混元战略与版号制度的夹缝

回到国内市场,就在HY-World 2.0发布前一周,摩根大通于4月8日发布了一份研究报告,提出了一个被市场普遍忽视的关键观点:AI对中国游戏行业的影响,在结构上根本不同于对欧美开放市场的影响,而关键变量正是游戏版号制度。

在欧美PC及主机市场,任何开发商均可在Steam等平台自由发布游戏,AI驱动的制作门槛降低直接导致内容供给激增、竞争加剧、利润率承压。

但在中国,每款可以合法变现的游戏均须获得版号,这一审批流程对特定时期内可进入市场的游戏数量构成硬性上限。

数据显示,2025年国产游戏版号审批总量约为1676款,同比增长约19%,但AI进一步压低制作成本后,将有更多游戏达到可提交质量,审批缺口可能进一步扩大。

摩根大通的结论是:版号制度为可合法变现的游戏数量设定了硬性上限,AI压低制作门槛所催生的大量新游戏,无法绕过这一监管瓶颈触达消费者,而已持有版号的大型运营商将不成比例地享受AI带来的效率红利。

换言之,AI时代,版号反而成了中国头部游戏公司的护城河。

腾讯显然对此心知肚明。作为全球规模最大的游戏公司,腾讯的处境比任何人都要复杂:一方面,从《王者荣耀》到《英雄联盟》,从《三角洲行动》到微信小游戏生态,是需要捍卫的存量资产;另一方面,AI对开发效率的颠覆,同时也是削减成本、缩短内容生产周期的利器。

今年GDC 2026上,腾讯一家就出席了多场会议,涵盖AI驱动的渲染、资产生成、反作弊系统及玩家体验工具,全面展示了AI与其整个生产和运营堆栈的深度集成。

在GameLook看来,混元项目正是腾讯面对AI冲击的主动出击。面向游戏行业,腾讯想要的不仅仅是AI辅助的内容工具,它想要一条从场景生成到可编辑世界资产的完整技术链路,一个能够持续用AI刷新和扩展其庞大存量游戏内容的基础设施。

腾讯已公开表示其AI模型训练完全基于经过商业验证的自有资产并采用”数据闭环”,这一策略不仅规避了监管部门可能审核的合规风险,也让其AI系统随着用户数据的积累形成自我强化的飞轮。

而开源HY-World 2.0,则是通过吸引开发者社区贡献来建立技术生态标准,在AI游戏工具链上占据先发位置,开源的代码是桌面上的牌,算力基础设施、私有数据规模与平台生态,才是袖中的底牌。

如果说同行都在担忧AI对游戏行业的冲击,腾讯的姿态则是:既然浪潮不可阻挡,那就比所有人都更积极地成为这股浪潮本身。

结语:

当我们把目光推得更远,当算力足够强大、物理规律的建模足够精确,未来的游戏世界可能不再需要”提前做好”的静态场景资产,游戏引擎可以在运行时动态生成并模拟整个世界,玩家每一次探索都是独一无二的。

当然这种愿景要求两件事:一是真正理解并模拟物理规律的世界模型,而非仅仅擅长”看起来像”的视觉生成;二是足以支撑实时大规模3D场景动态生成的算力基础设施。

目前这两件事都只存在于雏形阶段,但方向已经清晰。

HY-World 2.0的技术报告引用了威廉·布莱克的诗句:”今日之证明,昨日不过是幻想”。这句话放在游戏行业同样成立,几年前,”输入一句话生成一个可探索的3D关卡”是幻想;今天,它是开源代码。

那么,那些今天听起来像幻想的东西,又是什么?或许是没有关卡设计师的游戏公司,用世界模型生成无尽的探索空间,每一个世界都是物理自洽的、视觉精美的、叙事连贯的。或许是一款小游戏,由玩家用自然语言实时扩展自己专属的世界,而不是在开发者预制的盒子里打转。

这一天不会明天到来,但也不再遥远。

游戏行业的从业者、腾讯的员工、独立开发者,都需要在这场技术加速中完成自我定位的重新校准。

不是恐惧,而是诚实:AI正在学习构建世界,而我们正在学习与AI共同构建。谁先完成这一学习,谁就站在下一个起点上。

一句话,AI 直接给我建了个能跑能跳的「吉卜力」3D小镇

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7,世界模型成了另一块角力的阵地。

短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲腾讯混元 3D 世界模型 2.0 体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图:https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」

▲英伟达研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙,资本市场也给出了强烈的回应。

今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。

而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。

目前,腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波,试图从中找到一个答案:这些被认为是 AI 下一阶段的世界模型,到底能解决真实世界的哪些问题?

从看电影到开始游戏

此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。

在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。

点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片,原图约 20MB。

在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边,所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物/人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。

而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通/写实/油画风格等)。

混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产,混元 2.0 真正让我感到「世界」属性的,是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验,确实在模糊了 AI 生成与游戏引擎之间的边界,随着能生成世界的范围不断扩大,角色的探索或许会更有意思。

实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。

对比之前的混元 3D 模型,这次的 2.0 版本在一句话/一张图生世界任务上,不仅支持下载 3D 资产文件,推出了全新的角色模式,而且在画面精细度和真实感方面,也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构|https://3d-models.hunyuan.tencent.com/world/

新的模型架构,打通了「理解、生成、重建」的闭环。

  • HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360° 全景。
  • 空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。
  • HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。

在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。

在过去,我们想要构建/重建一个可互动的 3D 世界,需要成体系的团队和数月的打磨;而现在,通过混元 2.0 这样的工具,只需要一个创意。

并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。

疯狂的世界模型周,疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。

▲World Lab 生成界面,提示词:吉卜力风格的山间小镇,黄昏

看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。

在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌