阅读视图

发现新文章，点击刷新页面。

OpenAI GPT-5.4「原生操控电脑」实测封神：OpenClaw 天选模型来了

零度解说

admin

2026年3月7日 17:06

就在昨晚凌晨两点，OpenAI 毫无预兆地丢出了一个重磅更新——GPT-5.4。毫无疑问，这个模型正在改写 2026 年 AI Agent 的主线剧情。这一次，大家等了很久的核心能力终于真正落地：原生操控电脑。

1772735578 openai gpt 5.4 model

而在我第一时间实测之后，可以非常直接地说一句：GPT-5.4 很可能是目前最适合跑 OpenClaw 的模型，甚至没有之一。尤其是在原生操控电脑方面，达到前所未有的水平。

原生操控电脑，真正的 Agent 分水岭

Agent 能力，是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面，而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令，更能真正操控电脑环境。

屏幕截图 2026 03 07 194029

只要是打工人日常在电脑上能做的事情，它几乎都能完成。这已经不是简单的“聊天机器人”，而是一个具备完整操作链条的数字执行者。 070cb7f3 993b 478d 9ac6 c23b33eb6417

Web 版 + Codex 同步上线，Windows 用户也能用

目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。

昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端，这对 Windows 用户来说意义重大。

https://cdn.thenewstack.io/media/2026/02/20c44d85-codex-dark-scaled.png

Codex Windows 版下载：【点击前往】

这意味着，即使你不部署复杂环境，也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。

为什么说 GPT-5.4 是 OpenClaw 的“天选模型”

我们都知道，OpenClaw 这只“龙虾”之所以爆火，核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw，几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次，是在模型层面就实现了原生电脑操控能力。

194a6818 25e9 400f 80c3 155afdecf9a4

也就是说，它不再是“外挂式控制”，而是“内生式理解 + 执行”。两者结合，几乎是 2026 年 Agent 形态的最优解。

完整的 OpenClaw + GPT-5.4 部署与实测流程：

1、安装并升级到最新版的 OpenClaw，一键安装命令如下：

iwr -useb https://openclaw.ai/install.ps1 | iex

模型的服务提供商选择OpenAI

2026 03 07 16 16 22.00 05 22 14.Still003 scaled

模型登入方式选择OpenAI API key

2026 03 07 16 16 22.00 05 28 17.Still004 scaled

创建 OpenAI API key：【点击前往】

屏幕截图 2026 03 07 203006

然后在命令输入框输入密钥确认

在选择模型的时候，请选择GPT-5.3 codex，因为目前OpenClaw还没内置到GPT-5.4模型，但是一会我们可以通过命令进行切换过去。

屏幕截图 2026 03 07 194659

切换模型需要重新开一个新的power shell窗口，并输入第1个切换模型的命令：

openclaw onboard --auth-choice openai-codex

执行命令以后，在配置选项里Config handling 选择 Update values：

屏幕截图 2026 03 07 194935

确认以后会自动弹窗登入窗口，只需输入你的openAI账号登入即可

屏幕截图 2026 03 07 195231

登入以后，再开一个新的power shell窗口，执行第2个切换模型的命令：

openclaw config set agents.defaults.model.primary "openai-codex/gpt-5.4"

就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了

屏幕截图 2026 03 07 195415

注意：由于通过网页端授权登入的方式，只有Plus、Pro及以上的会员才可以调用GPT-5.4模型，所以要确保你当前登入的OpenAI账号是开通会员的才可以，否则会提示你找不到模型！

Mac 电脑

将 OpenClaw 默认模型切换到 GPT-5.4 的命令：

openclaw onboard--auth-choiceopenai-codex

执行命令后登入OpenAI账号

v2 ee3588d7237589fb35af4941e81cfc13 1440w

授权登入以后再开新的命令窗口执行下方命令：

openclaw configsetagents.defaults.model.primary"openai-codex/gpt-5.4"

重启 OpenClaw 后，问它“你是什么模型”，就会回复gpt-5.4：

v2 356e309ed4e0eced0b2debd6b3ae4dbd 1440w

当然如果你不想开通会员，也想使用最新的GPT-5.4模型，那么你可以通过刚才说的Open Codex 客户端进行安装使用！亲测即使是免费账户，登入以后照样可以使用GPT-5.4模型

屏幕截图 2026 03 07 200404

核心能力全面升级：

这次升级，不只是“能操作电脑”这么简单。不仅会操作，还更聪明

屏幕截图 2026 03 07 230515

知识型工作能力提升

在 GDPval 测试中（覆盖 44 个职业的知识工作能力评估），GPT-5.4 在 83% 的案例中达到持平或更优水平，而 GPT-5.2 为 71%。

在投行级电子表格建模内部测试中：

GPT-5.4：87.5%
GPT-5.2：68.4%

屏幕截图 2026 03 07 230556

在演示文稿评测中，人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品，原因是：

更好的审美
更丰富的视觉元素
更有效的图像生成配合

对于内容创作者、分析师、咨询顾问来说，这是生产力的实质跃迁。

浏览器与网页操控能力

在 WebArena-Verified 测试中：

GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%

同时使用的token数量也大幅减少

屏幕截图 2026 03 07 230629

在 Online-Mind2Web 测试中，仅凭截图观察成功率达到 92.8%，明显领先早期系统。

这意味着它在真实网页环境中的操作稳定性进一步提升。

视觉理解能力强化

在 MMMU-Pro 测试中，无需外部工具即可达到 81.2% 成功率。

在 OmniDocBench 文档解析测试中，平均误差下降至 0.109。

这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。

屏幕截图 2026 03 07 230726

编程与长任务执行

GPT-5.4 融合了 GPT-5.3-Codex 的编程能力，同时强化了长时间自主执行任务的能力。

在 SWE-Bench Pro 测试中，与 GPT-5.3-Codex 持平或更强，同时整体推理延迟更低。

屏幕截图 2026 03 07 230749

它可以：

自己调用工具
多轮迭代优化
减少人工干预

这已经是半自动工程师级别的能力。

工具调用与多步任务

在 Toolathlon 测试中，它用更少轮次完成复杂真实任务，比如：

读取邮件
处理附件
评分
记录到表格

准确率更高，执行更稳定。

屏幕截图 2026 03 07 230813

联网搜索能力

在 BrowseComp 测试中，GPT-5.4 相比 5.2 提升 17 个百分点。

GPT-5.4 Pro 更是达到 89.3%。

这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。

BrowseComp

可控性：真正的“Thinking”升级

GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路，并支持在生成过程中实时追加指令。

这对高阶用户来说意义巨大。

智能体工具调用

GPT‑5.4 同样优化了工具调用能力，使其在推理过程中能更准确、更高效地判断调用工具的时机与方式，这在 API 环境下尤为突出。相比 GPT‑5.2，它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如，智能体需要读取邮件、提取作业附件、上传并评分，最后将结果记录到电子表格中。

屏幕截图 2026 03 07 230837

你可以在任务进行中微调方向，而不需要推倒重来。

在长流程任务中，它对上下文记忆更加稳定，推理更深入。

这才是 Agent 真正可控、可用、可扩展的关键。

最后总结：打工人真的悬了？

实测之后，我只有一个感受：

这不是一次小升级，而是一次形态级进化。

GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型，而是一个可以真正执行工作的智能体核心。

当它与 OpenClaw 这样的 Agent 框架结合，2026 年的工作方式，很可能会被重新定义。

GPT-5.4 mini、nano 正式登場！速度翻倍，寫程式、工具調用、電腦操作全面進化

電腦王阿達

Rocky

2026年3月18日 07:54

不意外的，OpenAI 推出 GPT-5.4 旗艦模型後沒多久，小模型版本 GPT-5.4 mini 和 GPT-5.4 nano 稍早也接著登場，跟過往一樣，定位分別在「更快更有效率」和「最小最便宜」，針對需要大量、高速處理的使用情境而設計。而跟前一代版本相比，不僅速度快上 2 倍，這次在寫程式、工具調用和電腦操作能力都獲得相當有感提升，特別是電腦操作已經逼近人類水準，測試數據也僅落後 GPT-5.4 不到 3%。

The post GPT-5.4 mini、nano 正式登場！速度翻倍，寫程式、工具調用、電腦操作全面進化 appeared first on 電腦王阿達.

实测 MiniMax M2.7：AI 狠起来，连自己都卷

爱范儿

张子豪

2026年3月20日 11:13

龙虾爆火之后，全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题：驱动龙虾的那颗「大脑」，够不够聪明？

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型，清一色都是 Mini、Flash 款，官方潜台词几乎写在脸上：专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界，反而成了最不被讨论的话题。

一个真正适配龙虾的模型，除了 Token 要量大管饱还实惠，更多的是模型要足够聪明、动手能力和学习能力足够强。

最近，MiniMax 正式推出了全新的 MiniMax M2.7 模型，主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」，既能处理代码工作、常见的 Office 任务，还能主动学习构建稳定的 Agent 系统。

具体来说，它能做好的工作比大多数模型要更宽。对于写代码，M2.7 能真正理解一个系统在运行时发生了什么，做到了 SRE（网站可靠性工程）级别的系统推理，看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%，几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改，M2.7 在这块有明显提升，金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士，但是真正进入工作流，作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。这是 M2.7 专项打磨的能力，多角色场景下边界清晰，面对包含 50+ Skills 的复杂环境，依然能保持极高的指令遵循能力。

然后是这次更新的重点，它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型，不只是「辅助迭代」，是「深度参与迭代自己」。能够自我进化，M2.7 可以自主迭代 Agent Harness（智能体脚手架）来胜任大部分的工作流。

实战能力的提升，也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升，来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准，它测试的是大模型在 OpenClaw 真实业务场景下的表现，图中为任务成功率指标，MiniMax M2.7 排名第四，在 Claude Opus 4.6 之后｜https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里，都接入了 MiniMax M2.7 模型，以及 MiniMax 提供的 MaxClaw，然后把真实的开发过程中遇到的 Bug、枯燥的金融数据，还有大量的长流程任务统统交给它。

两天的测试下来，我们发现不仅软件要为了 AI 重做，就连 AI 模型本身，除了要理解人类的用意和产出人类满意的结果，模型更需要懂得 AI 的工作方式和工作流，还得学会自己优化自己。

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后，真正的「AI 时代工作流」应该是，AI 作为核心运转枢纽，去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前，我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型，还是说拿去跑个 benchmark 好看，实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据，然后按照比赛的要求，告诉 MiniMax M2.7 帮我实现对应的需求，即根据给定的数据，进行合适的数据处理和特征工程，为我生成一份可视化的分析报告。

整个数据集的内容相当庞大，有超过 3000 行的表格数据，整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后，我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析，需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型，最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务，MiniMax M2.7 充分利用了我已经安装的各种 Skills，它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取，接着开始编写 Python 代码，自动安装 Pandas 库（常用来处理表格数据），一步一步进行。

最后，MiniMax M2.7 也交出了一份完整的可视化方案，它同时生成了多张图片用来展示收益率分布，不同特征的重要性和类别排名，以及综合仪表盘。

而在可视化的网页里，它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统，所有的信息都可以直接动态查看。

这种大型的项目任务，MiniMax 能够顺利完成，我们日常工作中的办公和编程任务，就更不用说了。

我们先是在手机上操作龙虾，让它帮我总结我放在电脑上的文件，然后要求 MiniMax M2.7 根据这份文件，帮我写一个研究计划 Word 文件，再整理一份相关论文的 Excel 文档，最后是一个用来组会做汇报的 PPT 文档，直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势，也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中，ELO 得分达到了 1495，国产模型最高。

前段时间，AI 工作助手的可视化面板很火，把龙虾放到了真实的二次元风格办公室里，用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家，但是如果我想要修改二次元房间布局，可以怎么做呢？交给 MiniMax。

在 OpenClaw 的可视化本地界面里，我们直接发送「我想修改这个小房子的风格该怎么做？」，MiniMax M2.7 会自动阅读项目的代码，然后告诉我们哪些地方是可以修改的，如何修改。

由于我输入的要求是科技编辑部办公室的风格，然后它就帮我修改成了有星球大战的海报，还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key，所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天，我们还能根据这个风格设计一个编辑部大亨的游戏，谁做的任务多，谁的办公室就大，就能升级。

如果是 MiniMax 官方的 MaxClaw，是直接支持多模态的生成，可以一步到位生成视频、音频、图片等，不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全，但是它不允许我们像操作本地电脑一样，任意安装不同的库文件。

最后在将视频转成 GIF 时，MaxClaw 提醒我，它没有足够的权限将 ffmpeg（一个开源的多媒体处理库）安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7，它会自动调用海螺等视频、音频和图片生成模型，为我们生成多媒体文件，而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能，我们就能看到所有安装在 MaxClaw 的 Skills 详情，并且点击「问问 MaxClaw」，它会自动编辑一条消息「告诉我 frontend-dev 能做什么，并告诉我如何使用它」，引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill，MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库，我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」，龙虾会自动获取 Skill 文档完成安装。

▲下载链接：https://github.com/MiniMax-AI/skills

AI 狠起来，连自己都卷

除了在日常工作和办公领域上表现出的完整工作流，以及实际的交付能力，MiniMax M2.7 最让我们感到特别的，还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向，把构建系统的任务交给模型，它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考，harness 负责把这个「会想」的东西，变成一个能稳定干活的系统。这个系统像是运行层，负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限，MiniMax 让它去优化某个内部脚手架的软件工程表现。结果，M2.7 全程零人工干预，硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹，自己规划改动，改完脚手架代码再去跑评测，最后对比结果决定是保留还是回退。在不停歇自我互搏中，它自己发现了最优解，最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证，MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题，M2.7 依靠内部的短时记忆文件和自反馈机制，每跑完一轮就给自己提优化建议。

24 小时内，它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌，得牌率 66.6%。

这个成绩，仅次于 Opus-4.6（75.7%）和 GPT-5.4（71.2%），与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份，仅用 1 人 4 天时间，零人工编码就搭出一套包含测试和代码审查的 Agent 系统时，AI 研发的齿轮，大概已经换上了自动挡。

在极其硬核的生产力之外，MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商，这让它在互动角色扮演（Roleplay）上，比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom，一个万物皆可互动的 Web GUI 空间，可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」，这件事比写好代码更重要

体验下来，MiniMax M2.7 真正让我们在意的，不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率，也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事：让 AI 真正理解工作流，并且参与到工作流的演化里。

过去，软件是人写的、人用的。现在，AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下，自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮，某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」，我想很快就不再是一个问题——因为决定这一切的，不再是我们。

而是那个，开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。