普通视图

发现新文章,点击刷新页面。
昨天以前首页

游戏动画师喜获“AI神器”:制作提速100倍,视频直接转动画,告别动捕?

作者
2026年3月2日 10:04

【GameLook专稿,禁止转载!】

GameLook报道/在生成式AI快速渗透内容行业的当下,动画制作这一“既昂贵又耗时”的环节,正在成为创业公司最想撬动的一块硬骨头。

由前OpenAI科学家Andrew Carr与前谷歌Creative Lab创始成员Jonathan Jarvis联合创立的Cartwheel,近日在接受Games Beat采访时再次强调:其工具链能够让3D动画制作流程“最高快100倍”,并透露将“很快”发布API,以便把能力更深地接入外部工作流与生产管线。

这并不是Cartwheel第一次把“100倍”摆到台前。

早在2025年5月15日,Cartwheel就通过官方新闻稿宣布产品从封闭测试走向公开可用,并给出了一个极具“工业工具”意味的定位:它要做的不是生成一段不可编辑的视频成片,而是把文本、视频参考与动作库转化为“可直接进入现有工作流”的3D角色动画数据,让动画师能在Cartwheel或Maya、Blender等熟悉的软件里继续大幅优化与精修,而无需对既有流程做“破坏性变更”。

而基于该技术,商业层面,成立于2023年的Cartwheel在2024年6月便获得了由Accel领投的560万美元种子轮融资,2025年5月便又披露了一笔总金额达到1000万美元的投资,该轮由CraftVentures领投,WndrCo、TirtaVentures与AI视频生成工具Runway等参与。

专做“可控的动作数据”

具体来看,Cartwheel的核心思路,是把AI放在“控制rig(绑定)”这一层:用文本提示让系统驱动专业级骨架与控制器产出动作,再把这份动作数据交回给传统DCC/引擎继续打磨。

官方在采访中表示,Cartwheel并非生成最终帧画面,而是通过提示词让AI去“操控绑定”,并把数据发送到用户选择的3D软件进一步完善。

因此,Cartwheel的目标用户也并不只有“会做动画的人”。从官方叙事与投资方材料看,它更像是把动作资产的生产门槛整体下拉:专业动画师可以把它当作快速原型工具,把时间从“找参考、做blocking、反复试错”挪到真正决定质量的表演与节奏上。

经验较少的创作者则可以更快做出可用片段;而设计师与开发者也能把角色动画导出到既有项目里,用于交互演示、玩法验证或内容迭代。

而为了让“动作”像素材一样可检索、可复用,Cartwheel还把动作库作为重要产品组件。目前官方已经构建了一个拥有超过2.7万个可以投入生产的动作片段的精选库,用户可以面向动画、游戏等场景的快速取用与二次组合。

当然除了现有的动作库,以及AI的传统艺能「文本生成」,在输入侧,Cartwheel还支持使用视频参考,该工具可以从录制或上传的视频中提取3D动作,然后输出可编辑的动作数据。

根据官方介绍,产品在封闭测试阶段等待名单曾超过6万名创作者,并称测试用户来自DreamWorks、Duolingo、Sony、Roblox等公司。

值得注意的是,除了网页端,Cartwheel还发布了官方API。而API则意味着产品正在从“网页工具”走向“可嵌入式能力”,对游戏和互动内容行业来说,是否能通过API、插件或标准化导出格式进入现有生产线,往往比“网页端好不好用”更决定它能落地到多深。

与其配套的,从其定价页信息看,Cartwheel也在为“规模化使用”预留空间。

官方既提供面向个人创作者的免费起步方案,免费用户每月可进行150 Spin,39美元每月的订阅挡位则支持1500Spin,而最高每月95美元的订阅则支持不限次数的使用,也明确给出了API的入口,其中价格透明的标准挡,每月定价为300美元,适合4-8人的小团队,和有限的项目。

向Maya导出一次就需要100Spin

这意味着它很可能会沿着“低门槛获客—用量计费—企业/API方案”的路径,逐步把工具渗透到更重的生产场景里。

先别急着神化,它解决的不是“一键电影级成片”

而把Cartwheel放回到动画工业的真实语境里,在GameLook看来,它更像“加速器”而不是“替代者”。

首先,Cartwheel自己就承认生成动作仍处于早期阶段:在采访中,当被问到生成结果偶尔“很怪”时,Andrew Carr直言这是“幻觉”,并表示运动生成系统“还在婴儿期”,需要通过更密的标注与描述来持续改进。

目前网页上能够生成的也只有两个大类的内容

其次,Cartwheel目前公开强调的交付核心,是“基于rig的可编辑运动数据”。这类能力天然更擅长把人体大关节、重心、节奏等“主体动作”做快、做成型;但对于手指、面部表演、布料与毛发等高度依赖绑定细节、二级运动、物理约束与镜头级审美的部分,至少从其公开材料的重点来看,并未被呈现为当前主交付范围。

更现实的结果是:即便主体动作能快速产出,项目仍需要在Maya/Blender/引擎侧用传统动画、动捕清洗或物理模拟系统去补齐细节,才能达到“大制作关键镜头”的稳定标准——这也是为什么头部影视与3A级项目在关键节点上仍离不开动捕棚、成熟的动画团队与严格的质量控制。

此外,根据外媒此前的报道,Cartwheel短期内会优先聚焦“人类动画”,非人形角色仍在规划中。

对游戏行业而言,这个限制并不小:大量产品的核心卖点恰恰来自非人形角色、夸张比例、拟兽、怪物与超写实肌肉/盔甲等复杂体型,如何在不同骨架结构上保持可控与一致,决定了工具的通用性边界。

尽管如此,如果把视角从“顶级叙事过场”移到“真实产能结构”,Cartwheel这类工具对游戏行业的意义反而更清晰。

游戏项目里,动作资产的消耗往往是持续性的:战斗招式、受击与硬直、NPC日常行为、节日活动演出、版本更新带来的新动作与新镜头……其中相当一部分并不是“决定口碑的关键节点”,但又必须做、量还很大。

对这类需求,Cartwheel的价值不一定体现在“做出史诗级动作”,而在于把从“想法”到“可跑起来的动作雏形”这一步压到更短,让团队更早验证手感、节奏与镜头,然后把有限的人力集中到少数真正需要精修的片段上。

这与中国游戏行业的组织现实存在天然契合点。国内大量大型厂商与核心团队集中在一线与新一线城市,动捕资源往往以“自建少数核心能力+外部租用/外包”的方式配置;而对于中小团队来说,动作捕捉与高质量动画更是典型的“做得起和做不起”的分水岭。

只要工具在可用率上站稳,它就可能显著降低两类成本:一是把大量“够用即可”的日常动作从手工制作转为“生成+编辑”的组合;二是让缺乏动捕条件的团队也能更频繁地尝试复杂演出与过场表达,把原本只属于头部项目的“动作密度”带到更广的产品带宽里。

更进一步,配合API,Cartwheel对游戏行业的渗透方式可能不止是“动画师多了一个网页工具”,而会朝着“生产线的一环”演进:从策划/关卡对动作需求的文本化描述开始,到自动检索动作库、生成候选动作、按项目骨架导出到引擎,再由动画师进行关键帧修正与风格统一,最后进入版本构建与测试。

对于长线运营产品而言,这种“动作生产的半自动化流水线”一旦跑通,边际成本下降会非常明显。

不必立刻赢下“电影级镜头”,但可能先赢下“多数工作量”

在GameLook看来,Cartwheel其实把自己放在了一个相当明确的位置:用AI去解决动画工作里最耗时、最重复的部分,让“动作”像素材一样可生成、可检索、可编辑、可导出。

它离顶级项目在关键节点上所要求的极致表演与细节稳定性,显然还有距离;但对游戏行业而言,真正可被改写的往往不是那一小段“最重要的镜头”,而是占据绝大多数工期与预算的“日常内容”。

如果未来一两年Cartwheel能在稳定性、骨骼适配、风格一致性与工程化接入上持续推进,那么它更可能带来的不是“动捕棚消失”。

而是一个更现实的变化:更多团队可以把时间从“把动作做出来”转移到“把动作做得更好、更有表达”,并在相同预算下做出更密、更丰富、更具演出感的内容。

这或许才是“100倍”叙事真正值得被检验的地方。

令人担忧!《PUBG》游戏开发商将帮助韩国军工巨头,研发AI人工智能武器

作者
2026年3月18日 10:00

【GameLook专稿,禁止转载!】

GameLook报道/在《绝地求生》的世界里,一百名玩家降落孤岛,用枪械、策略与反应速度决定生死。这套围绕”模拟对抗”构建的游戏逻辑,如今正被其开发商Krafton以一种全然不同的方式移植到现实战场。

近日,韩国媒体报道,Krafton与韩国军工巨头韩华集团正式宣布展开深度合作,将人工智能与虚拟仿真技术应用于军工领域。

根据双方计划,这项合作的核心在于:利用Krafton在游戏引擎、仿真环境及海量对抗数据方面的积累,为韩华的武器系统提供AI训练平台,在高度接近现实的虚拟战场中,测试、训练并优化武器系统对真实战况的判断与响应能力。

这不是一次普通的跨界合作公告。它标志着一家游戏公司,正式迈入了一个此前鲜有民间科技企业涉足的领域——自主武器系统的开发。

要理解这次合作的逻辑,需要先了解双方的背景。

韩华集团是韩国十大财阀之一,旗下韩华航空航天公司是其军工业务的核心载体,目标是打造”韩国的洛克希德·马丁”。2024年,韩华航空航天营收已达77.4亿美元,海外销售额首次超越韩国国内,其产品线涵盖K9自行榴弹炮、K-NIFV步兵战车、M-SAM/L-SAM防空系统,乃至F414航空发动机。

在北约加速军备采购、俄乌、美伊冲突持续刺激全球防务需求的背景下,韩华正以”西方体系兼容、高性价比、快速交付”的定位,在国际军火市场高速扩张。2025年,韩华集团军工业务营收预计达113至117亿美元,约占集团总营收的16%。

然而,武器系统的AI化升级,需要的不只是硬件制造能力,更需要海量的仿真数据与智能决策算法。这正是Krafton的价值所在。

作为《绝地求生》的缔造者,Krafton多年来积累了极为丰富的实时对抗数据、物理仿真引擎和AI行为建模经验,这些技术在训练”能够自主判断并响应动态战场情况的AI系统”时,具有令人警觉的高度适配性。

虽然Krafton的选择,在科技圈并非孤例,但作为一家知名游戏公司却太过罕见。它发生在一个科技巨头与军事工业加速融合的时代背景下。

微软向乌克兰提供云服务与AI支持,并持续向美国国防部出售Azure军事云服务;Palantir的数据分析系统已被证实深度嵌入多个现实军事行动。

而最具争议的,是近期OpenAI与美国国防部展开合作的消息——这一决定与OpenAI创始宗旨中关于”不将AI用于军事用途”的承诺形成了直接矛盾,并在其内部及AI伦理社区引发了激烈讨论。

更令人不安的,是AI军事应用已经开始出现真实世界的致命误差。据多家媒体报道,美军使用的AI目标识别系统曾因过时地图、训练数据偏差,将学校等伊朗平民设施误判为军事目标。

甚至有报道称,系统甚至将地面上绘制的武器图案识别为真实威胁,导致错误的打击判断。

这些案例揭示的,是AI军事化进程中一个根本性的脆弱性:在游戏中,误判意味着重新开始;在战场上,误判意味着无法挽回的死亡。

然而,从游戏媒体的视角来看,这场合作最敏感的外部变量,或许并不来自技术层面,而来自一个绕不开的Krafton大股东名字:腾讯。

一个关键问题随之而来:腾讯是否知情,或参与了Krafton与韩华这次军工领域合作的决策?

目前,双方均未就此发表公开声明。但这一问题的重要性不容忽视。不仅因为中韩之间复杂的地缘政治关系,更因为在美国、欧盟等西方国家日益强化对华科技出口管制的背景下,一家有中资持股的公司参与或知晓西方阵营武器系统AI研发,本身就可能触发监管层面的高度敏感。

《绝地求生》系列在中国拥有庞大的玩家群体,腾讯自研的移动版《和平精英》是中国手游市场的顶级产品之一、海外发行的《PUBG Mobile》也是全球爆款。游戏的IP授权许可、渠道分发、本地化合规,乃至与腾讯之间的商业关系。任何一个环节,都可能成为监管机构施加压力的抓手。

而对于Krafton的玩家社区而言,这次合作带来的不只是商业上的担忧,更是一种深层的身份困惑。

《绝地求生》长期以”还原真实战场感”为卖点,其核心玩法本身就是对战争的高度仿真。但在游戏语境下,这种仿真是娱乐;当同样的技术被用于训练真实武器,这道边界就变得极为模糊。

最直接的问题就是,玩家在《绝地求生》中积累的对抗数据,是否已经在某种程度上成为训练武器系统的素材?

虽然游戏产业从诞生之初,就与军事技术存在着隐秘的渊源——早期的飞行模拟器本就是军方训练工具,互联网本身也脱胎于美国军事网络。但多年来,两个行业之间始终维持着一道可辨认的边界。

Krafton与韩华的合作,正在侵蚀这道边界。

这未必是一个纯粹的坏消息——军事仿真技术的民间化,也可能带来灾难应对、应急训练等非军事领域的积极应用。

但在当下这个AI识别系统已经开始在真实战场造成误伤、科技公司的军事参与尚无完善监管框架的时代,对这种融合保持清醒的审视,是值得思考的。

毕竟与游戏不同,在真实的战场上,没有复活币。

3A游戏“一键变AI脸”,英伟达DLSS 5被玩家和游戏开发者吐槽!

作者
2026年3月18日 10:08

【GameLook专稿,禁止转载!】

GameLook报道/在GTC 2026上,NVIDIA端出了一项颇具野心的新技术——DLSS 5。

如果只看官方演示,这项技术几乎可以用“惊艳”来形容:在两张RTX 5090的驱动下,画面中的光照更加自然,材质细节显著提升,整体观感甚至隐约逼近离线渲染的质感。

按照英伟达的说法,DLSS 5通过“神经渲染”(Neural Rendering),可以让AI直接参与到光照、材质乃至细节生成的过程中,从而突破传统实时渲染的性能与精度瓶颈。

英伟达CEO黄仁勋在GTC 2026的主题演讲上将其定性为:”DLSS 5 是图形领域的 GPT 时刻——将手工渲染与生成式AI融合,在保留艺术家创作控制权的前提下,实现视觉真实感的质的飞跃。”

同时英伟达表示,DLSS 5正式发布版本将支持单GPU运行,预计于2026年秋季推出。

但与以往DLSS版本发布时“性能提升多少”“画面更清晰了吗”的讨论不同,这一次,围绕DLSS 5的舆论,从一开始就显得有些微妙。

在国内外社区讨论中,不少人对这套技术的第一反应并不是单纯的认可,反而集中在一个颇为情绪化的评价上“AI味太重”。

从已经流传的演示片段来看,这种观感并非空穴来风。一方面,DLSS 5确实让画面变得更加“精致”:反射更丰富、阴影更柔和、材质更细腻。

但另一方面,这种精致又带着一种明显的“统一感”。不同材质之间的差异被抹平,光照趋向某种固定的审美范式,整体画面像是被覆盖了一层风格强烈的后处理滤镜。

就比如这张《生化危机9》女主角格蕾丝的前后对比图,且不说角色容貌像是整容了一样,朝着“只有风扇”博主变化,请问为什么在一个下雨的街道上,女主会突然有了类似在工作室拍硬照的多点打光?

更关键的是,在官方演示的个别镜头中,还出现了明显的技术瑕疵,例如角色手部细节在运动过程中出现缺失、结构不稳定等问题。

这类问题,与当前生成式AI图像和视频中常见的“细节漂移”“结构错误”高度相似,也进一步加重了玩家对其“AI生成感”的直观印象。

如果说这些问题只是技术尚未成熟的阶段性表现,那么真正引发争议的,其实是DLSS 5在技术定位上的变化。

回顾DLSS的发展路径,从最初的超分辨率重建,到后来的插帧技术,其核心始终围绕一个目标:在有限性能下,尽可能接近开发者原本的画面输出。换句话说,它是一个“补偿工具”,服务于既定的视觉结果。

但到了DLSS 5,这一逻辑开始发生变化。所谓“神经渲染”的引入,意味着AI不再只是还原已有信息,而是开始根据训练数据,对画面进行推测与补全。在这个过程中,部分视觉结果不再直接来源于游戏引擎,而是来自模型的预测。

这也就带来了一个此前很少被讨论的问题:当AI参与到最终画面的生成中时,开发者对于画面的控制权,是否会被削弱?

对于强调美术风格与视觉表达的游戏来说,这并不是一个无关紧要的技术细节。当前主流3A项目中,美术团队往往需要在高精度显示设备上,对色彩、材质和光照进行反复调校,以确保最终呈现符合设计预期。

而如果在最终输出阶段,DLSS 5对这些内容进行再加工,那么原本细致打磨的视觉表达,就有可能被一种更“通用”的算法结果所覆盖。对于那些依赖独特美术风格作为卖点的作品而言,这种变化甚至可能削弱其辨识度。

从玩家的反馈来看,这种担忧已经开始显现。

豆包元宝遭受连带伤害

Meta AI无辜被骂

批评不只来自普通玩家,也来自行业内部。Respawn的渲染工程师Steve Karolewics直言:”DLSS 5看起来像是一个过度的对比度、锐化和磨皮滤镜的叠加,与其宣称的’真实光照’相差甚远。”

更进一步来看,这种争议也反映出一个更宏观的趋势:随着生成式AI技术的发展,图形渲染正在从“确定性计算”逐步转向“概率性生成”。在这一过程中,画面不再完全由开发者定义,而是由算法在一定范围内进行“再创作”。

问题在于,这种“再创作”是否应该成为默认选项。

从目前公开的信息来看,DLSS 5是否允许开发者对神经渲染部分进行精细控制,仍然不够明确。

目前只有Bethesda公开回应称,艺术团队将拥有对DLSS 5光照效果的最终控制权。 官方文档也表明开发者可以调整DLSS 5的影响强度、色彩校正,并可以对特定元素使用遮罩排除其影响——例如卡通风格或手绘风格的游戏,可以根据需要进行定制化调整。

这一点至关重要。如果开发者确实拥有足够细粒度的控制权,比如可以选择性关闭AI对角色面部的处理,可以调校光照强度,可以为风格化游戏单独建立AI训练配置。那么DLSS 5依然有可能成为一项对玩家和开发者都有益的工具:用来提升环境真实感、改善光照质量,同时不触碰那些精心设计的艺术风格。

但如果这种控制权只是停留在官方公关层面的表态,那结果将会是另一个故事了。而可能演变为一种对游戏视觉风格的“统一化处理”。

从GTC 2026的展示来看,DLSS 5无疑代表了当前图形技术的一条重要方向。只是相比以往,这一次人们讨论的不再只是“它能让游戏跑得更快吗”,而是一个更基础的问题:

当画面的一部分开始由AI决定时,一款游戏最终呈现出的样子,究竟还在多大程度上属于开发者本身?

对于一个高度依赖风格与表达的内容产业来说,这或许才是DLSS 5真正引发关注的原因。

米哈游腾讯叠纸的“声优供应商”发公告:反对AI音频侵权!

作者
2026年3月19日 09:54

【GameLook专稿,禁止转载!】

GameLook报道/在生成式AI快速渗透内容产业的当下,如何保护上游创作者的权益这一问题,其实早在已成为焦点,并爆发过多轮的或舆论或法律的争锋。

在当下如何相关领域尚没有成熟的体系时,越来越多公司则选择主动出击,发布声明明确自己的立场。

而在最近,参与了《原神》《崩坏3》《王者荣耀》《无限暖暖》等项目的国内配音公司奇响天外便公开发布了反AI侵权声明,态度鲜明地指出,未经授权采集、训练或使用声优声音的行为,已经触及侵权边界,并明确将通过法律手段追责。

表面上看,这是一家公司的维权动作,但放在当下语音合成技术的语境中,它更像是一个行业在“被动应战”后的集中表达。当AI已经可以用极低成本复刻声音,甚至达到足以混淆的拟真程度,原本隐性的风险开始大规模显性化。

这种紧张感并非奇响天外独有,甚至并非国内独有。

几乎在同一时间,国内另一家配音机构,参与了《狐妖小红娘》《全职高手》《魔道祖师》《剑网3》等项目的729声工场的多位声优也陆续发声,强调未经许可的AI语音内容已经在多个平台传播,并对个人权益构成实质侵害。

配音行业长期以来以“人”为核心资产,声音既是技能,也是人格的一部分,但在AI技术介入之后,这种资产第一次具备了被批量复制、低成本分发的可能性。问题不再是“是否会被使用”,而是“在什么规则下被使用”。

而将视角拉向海外,以美国为例,围绕AI与表演者权益的博弈,已经从舆论层面进入制度层面。以 SAG-AFTRA 为代表的行业工会,在近年的谈判中反复强调“数字人格”的边界问题,要求所有AI生成的声音或形象必须获得演员授权,并建立单独的付费机制。

相比之下,日本声优产业的反应则更为敏感。由于声优与角色之间高度绑定,声音往往直接构成IP的一部分,一旦被AI复制,其影响远不止于单次作品使用,而可能动摇整个角色体系的稳定性。

因此,日本多家事务所已经开始收紧语音素材的管理,同时探索“官方AI声库”的商业化路径,即由公司主导、在授权框架内提供可控的AI声音服务。这种模式的潜台词非常明确:既然技术无法阻挡,那就尽可能把入口掌握在自己手中。

而这一切其实是在试图解决一个核心问题:当技术可以脱离“人”本身完成表演时,演员的价值如何被重新计价。

对此,目前其实音乐行业正在探索一种路径。像华纳和索尼这样的传统版权巨头,最初对AI生成音乐持强硬抵制态度,但很快调整策略,转而推动授权合作,将AI纳入既有版权体系之中。

从结果来看,这种转向并不意味着妥协,而是试图把技术纳入可控框架,即AI可以使用,但必须付费、必须授权、必须可追溯。换句话说,问题不在于AI是否存在,而在于它是否“无主”。

回到游戏行业,这一领域的矛盾之所以更为尖锐,与其内容生产方式密切相关。以《原神》为代表的长线运营产品,需要持续输出海量文本与语音内容,多语言版本叠加之后,配音成本呈指数级上升。

在这种压力之下,AI天然具备“降本增效”的吸引力。但问题在于,游戏角色的声音并非简单的信息载体,它同时承载着情感表达与玩家认同。

也正因为如此,据GameLook观察,目前游戏行业内部逐渐形成了一种更为现实的共识:AI可以成为工具,但很难成为主体。它适合被用于那些对“表演”要求相对较低、但对效率要求极高的环节,例如多语言快速适配、临时占位配音,或后期的音频修正。甚至很多AI生成的内容在情况允许的情况下,部分游戏厂商会选择在后续更新中替换成人工的内容。

在一些更细分的场景中,例如角色需要演唱但声优本身并不具备专业歌唱能力时,AI甚至可以作为一种补足手段,对音准或音色进行优化,使最终效果更符合角色设定。

这类应用,本质上更接近于音乐制作中的技术辅助,而非对创作者的替代。

真正难以被替代的,仍然是声音背后的“表演能力”。情绪的层次、语气的节奏、角色的塑造,这些并不是单纯通过声纹建模就可以完全复现的。AI可以模仿声音,却很难在缺乏语境理解与创作意图的前提下,稳定地完成复杂情感的表达。

因此,奇响天外的声明,与其说是在反对AI,不如说是在为一个尚未成型的行业秩序划线。在规则尚未建立之前,唯一可行的方式往往是通过强硬立场来明确边界:哪些行为不可接受,哪些权利必须被承认。

这种“先划线、再谈合作”的策略,在当前阶段几乎是所有内容行业的共同选择。

可以预见的是,随着判例、合同与行业规范逐步完善,声音将像图像、音乐一样,成为可以被明确确权和交易的资产。届时,AI不会消失,反而会更深入地参与生产流程,但其使用方式将更加依赖授权体系与收益分配机制。

这或许才是当前这场争议的真正核心:不是AI是否会取代人,而是当AI成为常态之后,人类创作的价值将如何被重新定义。

融资成功!“AI潮玩”元年,“天赋异禀”的游戏公司下场么?

作者
2026年3月20日 09:54

【GameLook专稿,禁止转载!】

GameLook报道/据媒体报道,AI虚拟角色交互团队CODE27宣布已连续完成天使轮及天使+轮融资,总融资额超过千万美元。投资方包括红杉中国种子基金与启明创投,独家财务驾问由高鹄资本担任。这是AI伴侣赛道迄今为止信号最强的一次头部资金背书。

CODE 27 是一家专注于全链路定制化 AI 陪伴硬件与虚拟内容生态的公司。该公司的核心团队背景十分硬核,汇聚了来自大疆、正浩、拓竹、字节跳动和腾讯等企业的人员。

其创始人 Brandon 曾历任雷鸟产品负责人及大疆 Simulation 团队负责人,具备深厚的硬件产品定义与落地经验。

其目前主打的核心产品是 CODE27 Character Livehouse(粉丝常昵称其硬件设备为“Codie”)。这是一款桌面级的AI 实体陪伴硬件,形态类似于3D全息显示舱或空间画框。根据官方宣称,该产品通过高质量的 3D 模型渲染、官方授权的声库以及大语言模型,让用户最喜爱的二次元角色、科幻机甲或原创数字人“活”在真实的物理空间中,并提供全天候的情绪陪伴。

简而言之,如果说泡泡玛特证明了“没有故事的玩具也可以成为情感容器”,那么CODE27正在投注的是:有灵魂的AI玩具,情感溢价将是泡泡玛特的十倍。

泡泡玛特的商业模式本质是将视觉IP的情感价值凝固成实体,通过盲盒机制放大稀缺感,最终让用户为“情绪”买单。2023年,泡泡玛特全球收入突破60亿人民币,出海业务以超过100%的速度增长,验证了全球范围内用户愿意为“可爱的、有情感联结的物件”大额消费的底层逻辑。

AI潮玩模式则是基于动态AI角色,实现可对话、有记忆的双向情感互动,试图与消费者建立真实情感链接,并基于双方的“关系深化”推动消费者订阅,实现复购以及IP价值随用户使用时长自我强化。

两种模式的本质差异在于“情感的主动性”。泡泡玛特的Molly不会认识你,但你养了三年的AI伴侣,有你设定的名字、记得你上次讲的故事、用你喜欢的语气说话。这种情感的不可替代性,才是AI潮玩相较传统潮玩商业价值的核心放大器。

市场规模方面,据公开数据,全球潮玩市场预计到2026年将突破500亿美元。而AI伴侣应用(以Character.AI、Replika为代表)的付费用户已证明每月10-20美元的订阅意愿普遍存在。这意味着,若将实体产品溢价与内容订阅组合,AI潮玩的用户终身价值将数倍于传统玩具品类。

毕竟AI潮玩不是卖完就结束的一次性生意。真正有竞争力的商业模型,必然是硬件作为入口、软件构成护城河、内容生态完成飞轮闭环的三层结构。

实体形象是用户与AI角色建立“物理性情感联结”的关键触媒。硬件的设计感与做工决定了品牌溢价的上限,就如同苹果的Logo,AI玩具的外观将成为新一代数字原住民的“桌面图腾”。

而用户越使用,AI角色的人格与记忆越丰富,迁移成本呈指数级增长,这是比任何专利都更坚固的用户壁垒。

最后参考泡泡玛特的IP运营逻辑,AI玩具公司可孵化或签约原创AI角色IP,与游戏、动漫、影视进行联动。用户创作的角色故事、互动记录甚至“AI日记”可形成UGC社区,进一步强化用户粘性。

随着技术演进,AI玩具或许也可以逐步接入智家协议,成为真正意义上的“家庭 AI大脑”,这一阶段将使AI玩具从消费品升维至生活设施,ARPU值随之大幅提升。

相较于依赖“平台生态流量”盈利,硬件几乎不赚钱的亚马Echo/天猫精灵等AI音筒;AI玩具的逻辑完全相反——硬件本身承载高溢价,情感属性使其脱离价格战。

这更接近任天堂Switch的逻辑:硬件不只是硬件,而是“进入一个世界的门票”。

图片来源:任天堂官网

而在所有可能跑入AI玩具赛道的行业玩家中,游戏公司拥有一项几乎无法被复制的结构性优势:他们已经拥有一批为虚拟角色产生真实情感的用户。

想象一下:一个在《原神》里为角色养成了三年的玩家,一个在《崩坏:星稹铁道》里追完了完整故事线的用户,一个在《Blue Archive》里和学生们建立了深厚“关系”的二次元爱好者,他们早已完成了“为虚拟角色付费”的心智教育。

对他们而言,花费一千元购买一个可以开口说话、记得自己生日的“星稹铁道联名AI伴侣”,几乎是显而易见的消费决策。

在此基础之上,游戏公司拥有丰富的世界观设定、角色背景故事与配音资源,可以直接为AI玩具的“角色人格”提供高质量训练素材,大幅降低AI角色冷启动的内容成本。

在GameLook看来,基于AI的这场虚拟角色与现实的融合正在重写人与虚拟内容互动的底层逻辑。过去,玩家与游戏角色的关系是单向的:角色按剧本说话,玩家被动接受。AI的介入让这一关系变为双向。

这种从“内容消费”到“关系建立”的转变,意味着用户的时间投入从“娱乐消耗”升级为“情感投资”,粘性与付费意愿都将产生质的跃升。

更深远的影响在于内容生产范式的颠覆:传统游戏IP的内容更新依赖大量人力与周期;AI驱动的角色可以实现近乎实时的个性化内容生成,每个用户都拥有“专属于自己的那一版”角色。这将游戏产业从“广播式内容”推向“对话式关系”的范式转移。

就创业公司而言,米哈游、腾讯、网易、Cygames等头部游戏公司一旦决定进入AI玩具领域,将携带现成IP、庞大玩家基础与充沛弹药形成降维打击。

创业团队的窗口期在于建立技术壁垒与用户心智,并在大厂行动之前完成品类定义。与游戏公司的IP授权合作或战略投资,或许是创业玩家最聪明的共存路径。

泡泡玛特用了十年证明,“没有功能、只有情感”的产品可以支撑数百亿市值。

而AI玩具携带着真实的对话能力、记忆系统与角色成长,它的情感溢价上限,只会比那个数字更大。

“游戏打脸AGI”!顶尖AI大模型通关率不足1%,人类结果满分

作者
2026年3月30日 09:55

【GameLook专稿,禁止转载!】

GameLook报道/当下AI似乎成为了一切的答案吗,前不久英伟达创始人黄仁勋还在采访中振臂高呼,AGI(通用人工智能)已经触手可及;各大AI实验室的新闻稿言辞凿凿,描绘着机器超越人类的历史节点。

但近日一份来自ARC Prize基金会的技术报告悄然向AI界投入了一枚深水炸弹。

报告的核心结论只有一句话:在全新的ARC-AGI-3基准测试中,人类参与者的解题成功率为100%,而截至2026年3月,包括谷歌Gemini、OpenAI GPT-5、Anthropic Claude等在内的全球顶尖大模型,得分均低于1%。

而所谓的ARC-AGI-3测试的内容,是一系列专门为人类设计、普通人平均花费不到10分钟就能通关的互动益智小游戏。

AI究竟到了哪一步?这场测试,或许给出了迄今为止最诚实的答案。

AI基准测试:衡量机器智能的尺子

要理解ARC-AGI-3为何重要,先要理解AI基准测试这件事本身。

所谓基准测试(Benchmark)是评估AI系统能力的标准化测量工具。它通过一组预先定义好的题目或任务,为不同的AI系统提供统一的评分标准,使得研究者和公众可以横向比较、纵向追踪AI能力的进步。

目前AI基准测试按照评估维度,大致可以分为语言理解类(测试模型对自然语言的理解、推理和问答能力)、代码能力类(测试模型编写、调试代码的能力)、数学推理类(测试模型解决数学问题的能)、多模态理解类(测试模型结合图像和文字进行理解、问答的能力)、智能体(Agentic)评估类以及通用推理与智能类。

但是AI基准测试有一个根本性的悖论:一旦一个基准测试被广泛使用,它本身就会被”攻克”,但攻克它,并不意味着AI真的变聪明了。

这种现象叫做”基准饱和”(benchmark saturation)或”古德哈特定律”效应:当一个指标变成目标,它就不再是好指标。AI公司会针对性地用测试题数据训练模型,使其在特定基准上表现出色,但这种”表现”往往无法泛化到真实场景。

谷歌刷分刷到在博主自己制作的“内鬼”测试中也荣获了双满分的成绩

就比如谷歌的Gemini 3.1 Pro,就是名副其实的刷分大师,虽然在各项测试中分数都名列前茅,但上线后不久就曝露了真身。

正是在这一背景下,ARC-AGI系列基准测试应运而生,并以其独特的设计哲学,成为AI圈最难被”刷分”的测试之一。

从归类来看,ARC-AGI系列测试应该属与智能体(Agentic)评估类以及通用推理与智能类。简单来说,它们不测具体知识,而是测试模型面对全新问题时的泛化推理能力、测试AI在复杂、多步骤、交互式环境中自主完成任务的能力。

ARC-AGI系列:专为抵抗”作弊”而生

ARC-AGI系列的设计者是AI研究者François Chollet。2019年,他发表了一篇题为《论智能的度量》(On the Measure of Intelligence)的论文,提出了一个与主流AI评估截然不同的框架:

真正的智能,不是在你擅长的领域表现好,而是面对全新任务时,以尽可能少的资源和数据,快速习得解决该任务的能力。
创始人Mike Knoop & François Chollet 图片来源:ARC-AGI官网

这就是”技能习得效率”(skill-acquisition efficiency)的核心思想。换言之,智能的本质不是你知道多少,而是你在面对未知时学习得有多快、多高效。

这一定义,直接催生了ARC-AGI的设计逻辑:测试必须对所有人(无论是人类还是AI)都是全新的、未曾见过的;而且必须能区分”真正理解”和”记忆检索”这两种截然不同的能力。

而基于该逻辑,2019年推出的ARC-AGI-1的形式直观而优雅:给出若干对”输入→输出”的二维彩色网格示例,让测试者推断其中的变换规则,然后对一个新的输入网格应用该规则,输出正确答案。

整个测试严格遵守以下原则:

● 不依赖语言:没有文字,没有数字,只有颜色和图案。

● 只基于核心知识:仅使用人类天生具备的直觉——对物体、几何、基本物理和意图的感知。这些是婴儿期就已具备的认知,而非后天学习。

● 每道题都是独一无二的:杜绝通过背题或统计模式来作答。

在2019至2024年间,ARC-AGI-1对AI系统构成了极大的挑战。基于预训练数据扩大规模的基础大语言模型(base LLMs)在其上几乎得零分。

直到2024年,OpenAI的o1、o3系列模型凭借测试时推理(test-time reasoning)的突破,才开始在ARC-AGI-1上取得非零分数。这也是该测试第一次精准捕捉到大模型”流体智能”出现的历史信号。

而随着大模型在1代测试中取得成绩,2025年3月,ARC-AGI-2发布。它保持了相同的网格形式,但大幅提升了推理复杂度,引入了多步骤推理、顺序规则应用和符号解读等更高难度的任务。

与ARC-AGI-1相比,ARC-AGI-2的人类解题时间从平均30秒增加到300秒。

然而,ARC-AGI-2也面临一个新的威胁:随着AI能力的提升,前沿大模型已经展现出非零的流体智能,开始能够适应距离训练分布较远的任务。这意味着,只要公开训练集和私有测试集分布足够相似,模型便可以通过大规模生成合成题目、自动验证、循环训练的方式,变相”背下”整个题库,即使没有直接看过测试题本身。

ARC Prize基金会甚至发现,在对Gemini 3的验证过程中,模型的推理链里主动使用了ARC-AGI的整数-颜色映射(如”3对应绿色”),而测试提示词中从未提及这一信息。这强烈暗示:ARC-AGI的数据已经渗入了模型训练集。

静态测试的时代,正在终结。

ARC-AGI-3:当AI遭遇会动的世界

而ARC-AGI-3的核心转变,便是从静态推理转向交互式智能体推理(agentic intelligence)。

它的基本形式是:一系列完全原创的、基于回合制的益智小游戏。测试者需要在没有任何规则说明的情况下,独立探索游戏机制、推断胜利条件、制定策略、执行计划并最终通关。

这一转变意义深远。静态题目可以被大量合成数据”淹没”——只要题目空间是有限且可枚举的,AI就可以用暴力覆盖的方式绕过真正的推理。但一个动态交互环境中,每一次行动都会改变环境状态,信息必须通过主动探索才能获取,而目标本身也需要从无到有地被推断出来。

这是一种质的跃迁:从”我知道答案”到”我能在陌生世界中生存并取胜”。

根据官方温带和,ARC-AGI-3将智能体能力拆解为四个相互依存的核心维度:

1. 探索(Exploration) 在真实环境中,信息不会主动呈现给你,必须通过与环境的交互主动获取。AI必须学会在不知道规则的情况下,有策略地”探路”——而不是茫然地随机点击。

2. 建模(Modeling) 继承自前两代ARC-AGI,这是将原始观察转化为可泛化世界模型的能力。AI需要从若干次交互中,归纳出环境运行的内在逻辑,并能预测未来的状态。

3. 目标设定(Goal-Setting) 这是ARC-AGI-3最具挑战性的一环:AI从未被告知游戏目标是什么。它必须从环境线索中自主推断”胜利”意味着什么,而不是等待外部指令。这是自主性的核心,知道”要做什么”,而不仅仅是”怎么做”。

4. 规划与执行(Planning and Execution) 在明确目标后,AI需要规划从当前状态到目标状态的最优行动路径,并在执行过程中根据反馈实时修正。

简单来看,ARC-AGI-3的游戏设计遵循严格的约束,每一条都指向同一个目的,即让AI无法作弊:

● 仅使用核心知识(Core Knowledge):物体感知、基础几何与拓扑、直觉物理(重力、碰撞)、意图感知。没有数字、字母、文字,没有任何文化符号(比如”绿色代表通行”)。

● 强制原创性:每个游戏必须与已有游戏有足够的差异,且不能与市面上现存的任何视频游戏相似。

● 难度通过组合而非复杂度实现:后期关卡的难度来自于对前期所学机制的综合运用,而非单纯增加规模或引入晦涩规则。

● 至少六关,首关作为教程:第一关用于建立基本交互认知,不计入主要评分;后续关卡逐步叠加机制复杂度。

● 人类可解:所有游戏必须经过真实人类验证,确保普通人能在约20分钟内通关。毕竟一个人类都无法解决的测试,对衡量AI与人类的差距毫无意义。
观察空间与行动空间的极简设计

从官方展示的内容来看,ARC-AGI-3的界面设计刻意保持简单:一个64×64的彩色网格,每个格子可以是16种颜色之一。每一帧就是游戏的当前状态快照。

行动空间极为有限:五个方向键、一个撤销键,加上通过坐标选择格子的点击操作。

游戏之一:操纵左边的方块,右边的黄色方块会以镜面的方向移动,将黄色方块移动到灰色的阴影处即可

这种极简设计的背后逻辑是:难度必须来自逻辑,而非操作。排除了手眼协调、反应速度等因素,ARC-AGI-3专注于测试纯粹的推理与适应能力。

而在游戏设计之上,ARC-AGI-3最独特的评分设计,是以行动效率而非”通关与否”来衡量智能。核心指标叫做RHAE(Relative Human Action Efficiency,相对人类行动效率),发音为”Ray”。

评分逻辑如下:

1. 对每一关,统计AI通关所用的行动步数;

2. 将AI的步数与人类基准(定义为10名真实测试者中成绩第二好的那位)进行比较;

3. 效率比值取平方,以更重地惩罚低效行为(例如,AI用了人类10倍的步数,得分仅为1%,而非10%);

4. 每一关的得分按权重汇总为环境得分(后期关卡权重更高);

5. 所有环境的平均分即为总分。

当且仅当AI的行动效率达到或超过人类水平时,才算”击败”ARC-AGI-3。

这一设计背后的理念深刻而有力:一个需要随机试错1000次才能通关的系统,和一个凭借理解3步搞定的人类,不应该得到相同的分数。 效率本身就是智能的一种体现。

而为防止AI专门针对测试集进行训练,ARC-AGI-3对数据集进行了精心的分层设计。

其中25个公开演示集面向公众开放,用于展示格式和基本机制,难度相对较低。但公开集的机制刻意设计为与私有集不重叠,以防止过拟合。官方明确声明,公开集的成绩不会出现在正式排行榜上。

55个半私有集吗,用于通过API测试前沿模型,存在少量数据泄露风险。

另外55个完全私有集,仅供年度ARC Prize比赛使用,严格保密。

值得注意的是,与ARC-AGI-2维持约10:1的公私比例不同,ARC-AGI-3倒转了这一比例——私有集成为主要评估基础,公开集仅作为展示窗口。这是基准测试设计在”军备竞赛”压力下的主动进化。

人类几乎100%可解,大模型集体交白卷

而在内部测试中,最终统计数据:486名测试者参与,覆盖414个候选环境,共产生2893次尝试记录,累计游戏时长427.9小时。

成功通关的中位用时为8.1分钟;未通关的中位用时为5.9分钟,可见大多数人并非因为”没有努力”,而是真的理解了游戏并顺利通关。

至于当前沿大模型在ARC-AGI-3半私有集上接受测试,结果则触目惊心:

要知道,这些模型,每一个都在传统基准测试上创造了令人瞠目的成绩:MMLU超过90%,代码生成近乎完美,数学推理令研究生汗颜。然而,面对一个普通人10分钟内就能通关的益智游戏,它们的综合表现不足1%。

值得一提的是,为了尽可能避免大模型作弊刷分的情况出现,ARC-AGI-3对官方排行榜的规则制定极为严格,明确拒绝两种”成绩虚高”的情况:

● 任务特定过拟合:直接在公开环境上训练、或使用专门为特定环境设计的解题框架,得分不计入官方榜。

● 领域特定过拟合:针对ARC-AGI-3风格批量合成训练数据、或专为ARC-AGI-3设计解题策略,同样不计入官方榜。

在报告中,官方还点名批评,表示此前有研究者为特定公开环境构建了专门的”脚手架”(harness),使Claude Opus 4.6在该环境中的得分从0%跃升至97.1%,但同样的脚手架在另一个不同的环境中,得分依然是0%。

对此官方表示,专门工程化的外部辅助,不是通用智能,只是针对特定任务的特殊技巧。 而AGI的定义,恰恰是不依赖这类任务专属辅助的系统。

互动游戏,为何成了AI最大的拦路虎?

ARC-AGI-3的测试结果,揭示了当前AI智能的一道根本性边界:静态知识的超级存储器,和能够在动态未知世界中自主导航的智能体之间,存在着巨大的鸿沟。

首当其冲就是,当前大模型的运作方式是”给我输入,我给输出”。但ARC-AGI-3要求AI主动与环境互动,通过行动来获取信息。这种”探索性学习”对于基于静态语料训练的模型来说,是范式层面的陌生领域。

目前AI已经可以玩《杀戮尖塔2》了,但还是要通过MCP等手段让AI理解、操作游戏

而相较于大模型,人类面对一个新游戏,会自然地观察哪些元素在变化、哪些行为会触发反馈,并从中推断出”赢”的条件。大模型缺乏这种从零开始推断目标本身的能力,它们擅长执行被告知的目标,而非自主发现目标。

更为重要的是,目前大模型的”推理”能力,在很大程度上仍然依附于训练数据中的领域知识。正如报告所指出的:AI的推理能力是绑定在知识上的,而人类的推理能力并不依赖领域知识。

面对ARC-AGI-3这种刻意清空了所有已知知识符号的”白板”环境,AI失去了知识拐杖,推理能力随之大打折扣。

当然也有思维上的不同,人类在游戏中会快速建立假设、检验假设、推翻错误假设并更新模型。这种”主动调试思维”在人类看来再自然不过,但对AI来说却极为困难,它们倾向于维持一个初始假设,而不善于在探索过程中高效修正。

简单来说,益智游戏之所以成为AI最难逾越的拦路虎,在于它完美地剥离了AI目前擅长的所有东西:没有语言,不能依靠词语理解;没有已知知识,不能靠记忆检索;没有明确目标,不能靠执行指令;没有大量样本,不能靠统计模式;必须实时交互,不能靠一次性推断。

而面对陌生,快速学习,高效适应。这恰恰是人类在进化中磨砺出的最强能力,也是AI至今仍然极度欠缺的能力。

其实综合ARC-AGI-3的测试结果和报告中的分析,也能看出当前大模型的能力边界,在知识密集型任务、需要深度垂直知识的专业推理、存在精确验证机制的可确认领域,大模型通过庞大的数据量,其实可以做到相当不错的表现。

但一旦是与知识无关的纯逻辑推理,从交互中自主建构世界模型,在无指令情况下推断目标,多轮探索中的高效假设修正,以及跨越完全陌生领域的快速泛化。

对此,ARC-AGI-3报告中的表述极为精准:

“AI的推理能力与领域知识深度绑定。停下来想想这有多奇怪:人类的推理能力并不受领域知识限制。这导致人们用’参差不齐的智能’来描述LLM,但本质上LLM仍然是任务特定训练的产物,只不过现在是在任务特定的推理链上,而不是直接在任务数据上。”

换言之:大模型拥有超人的”知识存储”和越来越强的”领域内推理”,但缺乏跨越未知领域的真正流体智能。而后者,才是AGI的核心。

ARC-AGI-1花了五年时间实现了0到50%,3代目前尚不清楚需要花费各大企业多长时间

当然,指出AI的局限,并不意味着否定它的成就。

过去五年,AI的进步是真实且巨大的。ARC-AGI-1的历史表明,大模型在这一测试上从接近零分到突破50%,所花费的时间比任何人预期的都短。代码生成、科学研究辅助、药物发现等领域,AI已经带来了实质性的生产力革命。

但这些进步的本质,是在人类已经充分理解并可以大量生产训练数据的领域内,AI完成了效率的极大提升。这与”通用智能”之间,依然存在本质差异。

作为AI浪潮下最大的获益者,黄仁勋口中“AGI已至”的含金量有多少或许还是个谜,至少ARC-AGI-3给出的信号是:”AGI已至”的宣言,需要更严格的标准。

只有当AI能够像普通人一样,面对一个全新的、从未见过的任务,几分钟内自主摸索规律、推断目标、高效通关,才算真正触及了AGI的门槛。

结语:

ARC-AGI-3报告的最后,官方写道:

“据我们所知,截至2026年3月,ARC-AGI-3是唯一一个尚未被饱和的通用智能体基准测试。”

这句话里,既有对现状的清醒,也有对未来的开放。

一款普通人8分钟通关的益智游戏,正在守住人类智能与机器智能之间最后的一道防线。AI不是不够强大。但”强大”和”通用”之间,还有一段需要新范式、新突破才能跨越的距离。

超越人类的象棋水平,不代表具备人类的棋类学习能力;超越人类的代码生成速度,不代表具备人类的编程理解能力。

游戏还在继续。而规则,至少当下还是由人类制定的。

❌
❌