普通视图

发现新文章,点击刷新页面。
昨天以前首页

谷歌 Antigravity 编辑器 - 免费无限用 Gemini 3 Pro / Claude 4.5,效果炸裂 (替代 Cursor)

作者 X-Force
2025年11月21日 08:34

最近 AI 圈又迎来新一轮大战,OpenAI GPT 5.1Claude 4.5Grok 4.1 接踵而来,紧接着谷歌也放出重磅炸弹:不仅 Gemini 3.0 Pro 能力堪称炸裂,还推出全新的 AI 编程工具 Antigravity

通过 Antigravity 你可以完全免费使用 Gemini 3.0 Pro 和 Claude Sonnet 4.5 等高端模型!作为新一代 AI 编程工具,Antigravity 不仅支持代码补全,还提供类似 Cluade Code / CodeX 的智能体 (Agent) 驱动开发的模式,对标并超越 Cursor、TraeVSCode + Copilot 等 IDE 代码编辑器……

前往查看原文....


异次元还有这些值得一看:

异次元首页  |  微信公众号  |  关注微博  |  软件精选  |  软件激活码折扣

分析:测试了400多款独立游戏,这10大错误最常见!

作者 Cristian 钱
2026年3月10日 09:28

【GameLook专稿,禁止转载!】

GameLook报道/独立游戏开发者最大的特点之一,就是对自己的游戏十分热爱,他们既是游戏的架构师,又是游戏的第一个玩家,投入大量的时间打磨细节。但是,最近的一项独立游戏调查显示,大部分(超七成)独立游戏最容易出现的问题之一,恰好是因为开发者太熟悉自己的游戏。

前不久,海外社区一名从事独立游戏测试服务的同行表示,通过对400多款独立游戏的测试结果发现,有十大问题在测试过程中反复出现,其中最大的一个问题,就是开发者对自己的游戏太熟悉,结果导致游戏的新手引导很难懂,甚至一些游戏根本没有新手教程。

图片来源:Pixabay

独立游戏常见的10个坑

基于测试结果,这位同行总结了10个最容易出现的缺陷,而且其中绝大多数问题在开发团队的内部测试环节中未能被有效识别与纠正。它们并非生僻的技术难题,而是涉及游戏可用性、稳定性与用户体验的基础组成部分。

1. 新手引导失效(发生率:68%)

数据显示,这是占比最高的问题。具体表现为游戏的新手引导阶段存在设计缺陷。主要问题形式包括:完全缺失引导流程;采用非交互性的大段文本进行说明;或是将核心游戏机制的教学安排得过晚,导致用户在游戏初期即产生困惑。理想的引导流程应当是简短、互动性强,并通过实践操作而非纯文本阅读来传授游戏基本操作。

2. 导致体验中断的bug(发生率:39%)

在超过三分之一的测试案例中,测试者遭遇了足以阻止游戏进程继续的严重错误。此类错误包括但不限于:应用程序崩溃、用户输入控制无响应,以及导致游戏角色或状态无法推进的“软锁定”情况。其中,与存档系统相关的错误,如存档失败或存档文件损坏,对用户体验的负面影响尤为严重。这些问题通常在用户执行了非标准操作序列时出现,例如快速连续重启游戏、频繁切换应用程序窗口或尝试非常规的交互动作。

3. 高显示分辨率下的用户界面适配问题

一个常见的现象是,游戏在1920×1080分辨率下表现正常,但在更高分辨率(如2K、4K)的显示设备上会出现可用性问题。典型问题包括:文本字体过小难以阅读;用户界面元素模糊或像素化;界面控件错位或点击区域偏移。这通常源于用户界面未进行动态缩放或未在多分辨率环境下进行充分测试。

4. 音频问题(发生率:21%)

约五分之一的产品存在明显的音频问题。最常见的情况是游戏初始音量设置过高。其他问题包括:关键游戏事件缺少对应的音效反馈、背景音乐或环境音缺失。此外,在切换系统音频输出设备或快速重启游戏后,可能出现音频播放异常。音频反馈是营造沉浸感的重要部分,此类缺陷会直接降低产品的整体质感。

5. 用户操作反馈缺失

相当数量的游戏未能向用户提供明确的操作结果反馈。例如:角色拾取物品时,无视觉高亮、无音效提示、无物品栏界面更新;攻击命中敌人时,敌人缺乏受击反应动画或音效;技能施放时,无清晰的技能生效指示。清晰及时的反馈是建立用户操作与游戏世界响应之间认知关联的关键。

6. 操作方案设计不符合用户直觉(发生率:约20%)

约20%的游戏其控制键位映射或操作逻辑被用户评价为“笨拙”或“不直观”。这可能表现为:自定义了一套与行业通用习惯完全相悖的键位布局;将重要功能映射在非常规按键上;或未提供自定义键位功能。迫使用户改变其已形成的操作肌肉记忆,将增加不必要的学习成本并引发挫败感。

7. 游戏难度曲线设计不合理

一种常见的模式是,在相对简单的教程阶段结束后,游戏难度骤然提升。开发者可能一次性引入多种新机制、新敌人类型或复杂的场景挑战,导致玩家准备不足。平滑的学习曲线应遵循逐步引入新元素并缓慢提升挑战难度的原则。

8. 游戏内导航与目标指引缺失

许多测试者在游戏中花费大量时间用于寻找前进路径或下一个任务目标。在多个案例中,游戏明显需要但并未提供以下一种或多种导航辅助:全景地图、区域地图、视觉路标系统、或明确的任务目标标记。缺乏有效指引将导致用户在游戏世界中无意义地徘徊,并可能误认为游戏存在故障。

9. 游戏设置菜单功能不全或存在故障

一个基础但常被忽视的问题是游戏设置选项的缺失或失效。部分游戏根本不提供图形、音频或控制设置菜单。另一些游戏虽提供设置界面,但用户调整的设置无法被正确保存或应用。设置菜单是用户根据自身硬件和偏好定制体验的基础入口,其重要性不容忽视。

10. 摄像机(镜头)控制逻辑缺陷(发生率:约10%)

约一成的游戏,其场景摄像机的行为逻辑存在问题,主动干扰了用户的正常游玩。具体问题包括:摄像机视角卡入场景几何体内;镜头自动调整至不合理的观察角度(如对准天花板);镜头与角色距离过近,导致视野受限。作为玩家观察虚拟世界的主要窗口,摄像机的任何不当行为都会严重影响游戏体验。

分析表明,上述问题普遍存在于那些已被开发团队内部反复测试过的游戏中。其根本原因在于,开发者与项目长期密切接触,导致其难以从初次接触该产品的新用户视角出发,去感知和发现这些问题。

社区反馈:新手反馈确实很难做,自己对游戏太熟了

导致这些常见问题在开发后期才被外部测试发现,其中一个很重要的原因,就是开发者固有的认知偏差。

即开发者本身已经玩了无数次游戏,对游戏内各种知识滚瓜烂熟,很难想象不具备这种知识时该怎么玩。开发者对游戏机制、关卡布局、解谜思路了如指掌,因此无法准确评估一个新用户在不具备这些知识时会遇到的困惑。这使得教程设计、指引放置、难度平衡等工作极易偏离真实的新手需求。

网友jduartedj表示,“我为我的手机游戏做了三个月的教程,但当我终于让一些朋友试玩时,他们仍然对核心玩法感到困惑……原来我教了他们所有东西,但却没告诉他们那个让游戏真正有趣的核心机制。还有音频问题,很多游戏在首次启动时都会以最大音量播放,这给玩家留下了非常糟糕的第一印象。”

此外,独游研发硬件也是个问题。开发过程中的测试通常在固定、单一的硬件与软件环境下进行,测试路径也往往是预设的、线性的。这与真实用户多样化的硬件配置、复杂的多任务操作习惯以及非线性的探索行为之间存在巨大差异。因此,高分辨率适配问题、特定操作序列触发的bug、以及因频繁切换应用导致的状态错误,在开发环境中难以复现。

另外,测试者群体同质化也是导致很多独立游戏难以上手的原因。比如,绝大多数的独游往往只是熟悉的圈子内部测试,或者早期外部测试者均由核心游戏爱好者、资深玩家构成,其所提供的反馈将无法代表更广泛的目标用户群体。硬核玩家能轻松克服的难度或不直观的操作,对休闲玩家而言可能是不可逾越的障碍。测试者样本若不能反映目标用户画像,反馈结果将存在偏差。

开发者cheat-master30指出,开发者过于习惯自己的游戏确实是个问题,有时这会导致一个自我强化的循环,即游戏变得越来越难,因为你迫切地想要创造出一些你个人认为“有趣”或“令人愉快”的东西,却没有意识到,作为游戏的创作者,你永远无法像普通玩家那样享受游戏。

他说,“一个较少被讨论的问题是,你需要谨慎选择你的游戏测试者。这并非出于剧透的原因,而是因为不同的玩家在游戏中的技能水平和喜好各不相同,必须确保这些测试者能在一定程度上反映你的游戏的目标用户。”

还有同行补充说,还有一个比较普遍的问题,是独立开发者并不愿意把自己的游戏提前告诉别人,也并不会对自己的游戏提前测试。

独立游戏开发中反复出现的用户体验缺陷,并非单纯的技术疏漏,而更多地揭示了开发过程中视角的局限与方法论的缺失。对自身作品的过度熟悉,使开发者群体处于一个系统的“信息茧房”之中,难以察觉那些对新用户而言显而易见的障碍。

毕竟,一款游戏的成功,不仅取决于其创意与技术的实现深度,更取决于其能否在创作者与广大用户之间,构建一条平滑、无障碍的体验通道。最后,除了本文列举的10大问题,还有哪些是你认为需要注意的?

VMRack 打折!高速低价 CN2 GIA 三网精品优化线路 VPS 服务器 (美国原生 IP)

作者 X-Force
2026年3月29日 23:18

随着现在 AI 的快速发展,无论是出于编程学习、还是自己搭建 Agent、网盘、跑各类 Docker 应用,或是搞外贸建网站,我们都非常需要一些海外线路的 VPS 服务器。 很多人都想找从国内连接速度快、稳定、IP 质量好的美国 VPS,特别是优化线路主机。我们推荐过“白菜价” RackNerd,高端 CN2 GIA 线路的 DMIT……

前往查看原文....


异次元首页  |  微信公众号  |  关注微博  |  软件精选  |  软件激活码折扣

“游戏打脸AGI”!顶尖AI大模型通关率不足1%,人类结果满分

作者
2026年3月30日 09:55

【GameLook专稿,禁止转载!】

GameLook报道/当下AI似乎成为了一切的答案吗,前不久英伟达创始人黄仁勋还在采访中振臂高呼,AGI(通用人工智能)已经触手可及;各大AI实验室的新闻稿言辞凿凿,描绘着机器超越人类的历史节点。

但近日一份来自ARC Prize基金会的技术报告悄然向AI界投入了一枚深水炸弹。

报告的核心结论只有一句话:在全新的ARC-AGI-3基准测试中,人类参与者的解题成功率为100%,而截至2026年3月,包括谷歌Gemini、OpenAI GPT-5、Anthropic Claude等在内的全球顶尖大模型,得分均低于1%。

而所谓的ARC-AGI-3测试的内容,是一系列专门为人类设计、普通人平均花费不到10分钟就能通关的互动益智小游戏。

AI究竟到了哪一步?这场测试,或许给出了迄今为止最诚实的答案。

AI基准测试:衡量机器智能的尺子

要理解ARC-AGI-3为何重要,先要理解AI基准测试这件事本身。

所谓基准测试(Benchmark)是评估AI系统能力的标准化测量工具。它通过一组预先定义好的题目或任务,为不同的AI系统提供统一的评分标准,使得研究者和公众可以横向比较、纵向追踪AI能力的进步。

目前AI基准测试按照评估维度,大致可以分为语言理解类(测试模型对自然语言的理解、推理和问答能力)、代码能力类(测试模型编写、调试代码的能力)、数学推理类(测试模型解决数学问题的能)、多模态理解类(测试模型结合图像和文字进行理解、问答的能力)、智能体(Agentic)评估类以及通用推理与智能类。

但是AI基准测试有一个根本性的悖论:一旦一个基准测试被广泛使用,它本身就会被”攻克”,但攻克它,并不意味着AI真的变聪明了。

这种现象叫做”基准饱和”(benchmark saturation)或”古德哈特定律”效应:当一个指标变成目标,它就不再是好指标。AI公司会针对性地用测试题数据训练模型,使其在特定基准上表现出色,但这种”表现”往往无法泛化到真实场景。

谷歌刷分刷到在博主自己制作的“内鬼”测试中也荣获了双满分的成绩

就比如谷歌的Gemini 3.1 Pro,就是名副其实的刷分大师,虽然在各项测试中分数都名列前茅,但上线后不久就曝露了真身。

正是在这一背景下,ARC-AGI系列基准测试应运而生,并以其独特的设计哲学,成为AI圈最难被”刷分”的测试之一。

从归类来看,ARC-AGI系列测试应该属与智能体(Agentic)评估类以及通用推理与智能类。简单来说,它们不测具体知识,而是测试模型面对全新问题时的泛化推理能力、测试AI在复杂、多步骤、交互式环境中自主完成任务的能力。

ARC-AGI系列:专为抵抗”作弊”而生

ARC-AGI系列的设计者是AI研究者François Chollet。2019年,他发表了一篇题为《论智能的度量》(On the Measure of Intelligence)的论文,提出了一个与主流AI评估截然不同的框架:

真正的智能,不是在你擅长的领域表现好,而是面对全新任务时,以尽可能少的资源和数据,快速习得解决该任务的能力。
创始人Mike Knoop & François Chollet 图片来源:ARC-AGI官网

这就是”技能习得效率”(skill-acquisition efficiency)的核心思想。换言之,智能的本质不是你知道多少,而是你在面对未知时学习得有多快、多高效。

这一定义,直接催生了ARC-AGI的设计逻辑:测试必须对所有人(无论是人类还是AI)都是全新的、未曾见过的;而且必须能区分”真正理解”和”记忆检索”这两种截然不同的能力。

而基于该逻辑,2019年推出的ARC-AGI-1的形式直观而优雅:给出若干对”输入→输出”的二维彩色网格示例,让测试者推断其中的变换规则,然后对一个新的输入网格应用该规则,输出正确答案。

整个测试严格遵守以下原则:

● 不依赖语言:没有文字,没有数字,只有颜色和图案。

● 只基于核心知识:仅使用人类天生具备的直觉——对物体、几何、基本物理和意图的感知。这些是婴儿期就已具备的认知,而非后天学习。

● 每道题都是独一无二的:杜绝通过背题或统计模式来作答。

在2019至2024年间,ARC-AGI-1对AI系统构成了极大的挑战。基于预训练数据扩大规模的基础大语言模型(base LLMs)在其上几乎得零分。

直到2024年,OpenAI的o1、o3系列模型凭借测试时推理(test-time reasoning)的突破,才开始在ARC-AGI-1上取得非零分数。这也是该测试第一次精准捕捉到大模型”流体智能”出现的历史信号。

而随着大模型在1代测试中取得成绩,2025年3月,ARC-AGI-2发布。它保持了相同的网格形式,但大幅提升了推理复杂度,引入了多步骤推理、顺序规则应用和符号解读等更高难度的任务。

与ARC-AGI-1相比,ARC-AGI-2的人类解题时间从平均30秒增加到300秒。

然而,ARC-AGI-2也面临一个新的威胁:随着AI能力的提升,前沿大模型已经展现出非零的流体智能,开始能够适应距离训练分布较远的任务。这意味着,只要公开训练集和私有测试集分布足够相似,模型便可以通过大规模生成合成题目、自动验证、循环训练的方式,变相”背下”整个题库,即使没有直接看过测试题本身。

ARC Prize基金会甚至发现,在对Gemini 3的验证过程中,模型的推理链里主动使用了ARC-AGI的整数-颜色映射(如”3对应绿色”),而测试提示词中从未提及这一信息。这强烈暗示:ARC-AGI的数据已经渗入了模型训练集。

静态测试的时代,正在终结。

ARC-AGI-3:当AI遭遇会动的世界

而ARC-AGI-3的核心转变,便是从静态推理转向交互式智能体推理(agentic intelligence)。

它的基本形式是:一系列完全原创的、基于回合制的益智小游戏。测试者需要在没有任何规则说明的情况下,独立探索游戏机制、推断胜利条件、制定策略、执行计划并最终通关。

这一转变意义深远。静态题目可以被大量合成数据”淹没”——只要题目空间是有限且可枚举的,AI就可以用暴力覆盖的方式绕过真正的推理。但一个动态交互环境中,每一次行动都会改变环境状态,信息必须通过主动探索才能获取,而目标本身也需要从无到有地被推断出来。

这是一种质的跃迁:从”我知道答案”到”我能在陌生世界中生存并取胜”。

根据官方温带和,ARC-AGI-3将智能体能力拆解为四个相互依存的核心维度:

1. 探索(Exploration) 在真实环境中,信息不会主动呈现给你,必须通过与环境的交互主动获取。AI必须学会在不知道规则的情况下,有策略地”探路”——而不是茫然地随机点击。

2. 建模(Modeling) 继承自前两代ARC-AGI,这是将原始观察转化为可泛化世界模型的能力。AI需要从若干次交互中,归纳出环境运行的内在逻辑,并能预测未来的状态。

3. 目标设定(Goal-Setting) 这是ARC-AGI-3最具挑战性的一环:AI从未被告知游戏目标是什么。它必须从环境线索中自主推断”胜利”意味着什么,而不是等待外部指令。这是自主性的核心,知道”要做什么”,而不仅仅是”怎么做”。

4. 规划与执行(Planning and Execution) 在明确目标后,AI需要规划从当前状态到目标状态的最优行动路径,并在执行过程中根据反馈实时修正。

简单来看,ARC-AGI-3的游戏设计遵循严格的约束,每一条都指向同一个目的,即让AI无法作弊:

● 仅使用核心知识(Core Knowledge):物体感知、基础几何与拓扑、直觉物理(重力、碰撞)、意图感知。没有数字、字母、文字,没有任何文化符号(比如”绿色代表通行”)。

● 强制原创性:每个游戏必须与已有游戏有足够的差异,且不能与市面上现存的任何视频游戏相似。

● 难度通过组合而非复杂度实现:后期关卡的难度来自于对前期所学机制的综合运用,而非单纯增加规模或引入晦涩规则。

● 至少六关,首关作为教程:第一关用于建立基本交互认知,不计入主要评分;后续关卡逐步叠加机制复杂度。

● 人类可解:所有游戏必须经过真实人类验证,确保普通人能在约20分钟内通关。毕竟一个人类都无法解决的测试,对衡量AI与人类的差距毫无意义。
观察空间与行动空间的极简设计

从官方展示的内容来看,ARC-AGI-3的界面设计刻意保持简单:一个64×64的彩色网格,每个格子可以是16种颜色之一。每一帧就是游戏的当前状态快照。

行动空间极为有限:五个方向键、一个撤销键,加上通过坐标选择格子的点击操作。

游戏之一:操纵左边的方块,右边的黄色方块会以镜面的方向移动,将黄色方块移动到灰色的阴影处即可

这种极简设计的背后逻辑是:难度必须来自逻辑,而非操作。排除了手眼协调、反应速度等因素,ARC-AGI-3专注于测试纯粹的推理与适应能力。

而在游戏设计之上,ARC-AGI-3最独特的评分设计,是以行动效率而非”通关与否”来衡量智能。核心指标叫做RHAE(Relative Human Action Efficiency,相对人类行动效率),发音为”Ray”。

评分逻辑如下:

1. 对每一关,统计AI通关所用的行动步数;

2. 将AI的步数与人类基准(定义为10名真实测试者中成绩第二好的那位)进行比较;

3. 效率比值取平方,以更重地惩罚低效行为(例如,AI用了人类10倍的步数,得分仅为1%,而非10%);

4. 每一关的得分按权重汇总为环境得分(后期关卡权重更高);

5. 所有环境的平均分即为总分。

当且仅当AI的行动效率达到或超过人类水平时,才算”击败”ARC-AGI-3。

这一设计背后的理念深刻而有力:一个需要随机试错1000次才能通关的系统,和一个凭借理解3步搞定的人类,不应该得到相同的分数。 效率本身就是智能的一种体现。

而为防止AI专门针对测试集进行训练,ARC-AGI-3对数据集进行了精心的分层设计。

其中25个公开演示集面向公众开放,用于展示格式和基本机制,难度相对较低。但公开集的机制刻意设计为与私有集不重叠,以防止过拟合。官方明确声明,公开集的成绩不会出现在正式排行榜上。

55个半私有集吗,用于通过API测试前沿模型,存在少量数据泄露风险。

另外55个完全私有集,仅供年度ARC Prize比赛使用,严格保密。

值得注意的是,与ARC-AGI-2维持约10:1的公私比例不同,ARC-AGI-3倒转了这一比例——私有集成为主要评估基础,公开集仅作为展示窗口。这是基准测试设计在”军备竞赛”压力下的主动进化。

人类几乎100%可解,大模型集体交白卷

而在内部测试中,最终统计数据:486名测试者参与,覆盖414个候选环境,共产生2893次尝试记录,累计游戏时长427.9小时。

成功通关的中位用时为8.1分钟;未通关的中位用时为5.9分钟,可见大多数人并非因为”没有努力”,而是真的理解了游戏并顺利通关。

至于当前沿大模型在ARC-AGI-3半私有集上接受测试,结果则触目惊心:

要知道,这些模型,每一个都在传统基准测试上创造了令人瞠目的成绩:MMLU超过90%,代码生成近乎完美,数学推理令研究生汗颜。然而,面对一个普通人10分钟内就能通关的益智游戏,它们的综合表现不足1%。

值得一提的是,为了尽可能避免大模型作弊刷分的情况出现,ARC-AGI-3对官方排行榜的规则制定极为严格,明确拒绝两种”成绩虚高”的情况:

● 任务特定过拟合:直接在公开环境上训练、或使用专门为特定环境设计的解题框架,得分不计入官方榜。

● 领域特定过拟合:针对ARC-AGI-3风格批量合成训练数据、或专为ARC-AGI-3设计解题策略,同样不计入官方榜。

在报告中,官方还点名批评,表示此前有研究者为特定公开环境构建了专门的”脚手架”(harness),使Claude Opus 4.6在该环境中的得分从0%跃升至97.1%,但同样的脚手架在另一个不同的环境中,得分依然是0%。

对此官方表示,专门工程化的外部辅助,不是通用智能,只是针对特定任务的特殊技巧。 而AGI的定义,恰恰是不依赖这类任务专属辅助的系统。

互动游戏,为何成了AI最大的拦路虎?

ARC-AGI-3的测试结果,揭示了当前AI智能的一道根本性边界:静态知识的超级存储器,和能够在动态未知世界中自主导航的智能体之间,存在着巨大的鸿沟。

首当其冲就是,当前大模型的运作方式是”给我输入,我给输出”。但ARC-AGI-3要求AI主动与环境互动,通过行动来获取信息。这种”探索性学习”对于基于静态语料训练的模型来说,是范式层面的陌生领域。

目前AI已经可以玩《杀戮尖塔2》了,但还是要通过MCP等手段让AI理解、操作游戏

而相较于大模型,人类面对一个新游戏,会自然地观察哪些元素在变化、哪些行为会触发反馈,并从中推断出”赢”的条件。大模型缺乏这种从零开始推断目标本身的能力,它们擅长执行被告知的目标,而非自主发现目标。

更为重要的是,目前大模型的”推理”能力,在很大程度上仍然依附于训练数据中的领域知识。正如报告所指出的:AI的推理能力是绑定在知识上的,而人类的推理能力并不依赖领域知识。

面对ARC-AGI-3这种刻意清空了所有已知知识符号的”白板”环境,AI失去了知识拐杖,推理能力随之大打折扣。

当然也有思维上的不同,人类在游戏中会快速建立假设、检验假设、推翻错误假设并更新模型。这种”主动调试思维”在人类看来再自然不过,但对AI来说却极为困难,它们倾向于维持一个初始假设,而不善于在探索过程中高效修正。

简单来说,益智游戏之所以成为AI最难逾越的拦路虎,在于它完美地剥离了AI目前擅长的所有东西:没有语言,不能依靠词语理解;没有已知知识,不能靠记忆检索;没有明确目标,不能靠执行指令;没有大量样本,不能靠统计模式;必须实时交互,不能靠一次性推断。

而面对陌生,快速学习,高效适应。这恰恰是人类在进化中磨砺出的最强能力,也是AI至今仍然极度欠缺的能力。

其实综合ARC-AGI-3的测试结果和报告中的分析,也能看出当前大模型的能力边界,在知识密集型任务、需要深度垂直知识的专业推理、存在精确验证机制的可确认领域,大模型通过庞大的数据量,其实可以做到相当不错的表现。

但一旦是与知识无关的纯逻辑推理,从交互中自主建构世界模型,在无指令情况下推断目标,多轮探索中的高效假设修正,以及跨越完全陌生领域的快速泛化。

对此,ARC-AGI-3报告中的表述极为精准:

“AI的推理能力与领域知识深度绑定。停下来想想这有多奇怪:人类的推理能力并不受领域知识限制。这导致人们用’参差不齐的智能’来描述LLM,但本质上LLM仍然是任务特定训练的产物,只不过现在是在任务特定的推理链上,而不是直接在任务数据上。”

换言之:大模型拥有超人的”知识存储”和越来越强的”领域内推理”,但缺乏跨越未知领域的真正流体智能。而后者,才是AGI的核心。

ARC-AGI-1花了五年时间实现了0到50%,3代目前尚不清楚需要花费各大企业多长时间

当然,指出AI的局限,并不意味着否定它的成就。

过去五年,AI的进步是真实且巨大的。ARC-AGI-1的历史表明,大模型在这一测试上从接近零分到突破50%,所花费的时间比任何人预期的都短。代码生成、科学研究辅助、药物发现等领域,AI已经带来了实质性的生产力革命。

但这些进步的本质,是在人类已经充分理解并可以大量生产训练数据的领域内,AI完成了效率的极大提升。这与”通用智能”之间,依然存在本质差异。

作为AI浪潮下最大的获益者,黄仁勋口中“AGI已至”的含金量有多少或许还是个谜,至少ARC-AGI-3给出的信号是:”AGI已至”的宣言,需要更严格的标准。

只有当AI能够像普通人一样,面对一个全新的、从未见过的任务,几分钟内自主摸索规律、推断目标、高效通关,才算真正触及了AGI的门槛。

结语:

ARC-AGI-3报告的最后,官方写道:

“据我们所知,截至2026年3月,ARC-AGI-3是唯一一个尚未被饱和的通用智能体基准测试。”

这句话里,既有对现状的清醒,也有对未来的开放。

一款普通人8分钟通关的益智游戏,正在守住人类智能与机器智能之间最后的一道防线。AI不是不够强大。但”强大”和”通用”之间,还有一段需要新范式、新突破才能跨越的距离。

超越人类的象棋水平,不代表具备人类的棋类学习能力;超越人类的代码生成速度,不代表具备人类的编程理解能力。

游戏还在继续。而规则,至少当下还是由人类制定的。

❌
❌