OpenAI GPT-5.4「原生操控电脑」实测封神:OpenClaw 天选模型来了
就在昨晚凌晨两点,OpenAI 毫无预兆地丢出了一个重磅更新——GPT-5.4。毫无疑问,这个模型正在改写 2026 年 AI Agent 的主线剧情。这一次,大家等了很久的核心能力终于真正落地:原生操控电脑。

而在我第一时间实测之后,可以非常直接地说一句:GPT-5.4 很可能是目前最适合跑 OpenClaw 的模型,甚至没有之一。尤其是在原生操控电脑方面,达到前所未有的水平。
原生操控电脑,真正的 Agent 分水岭
Agent 能力,是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面,而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令,更能真正操控电脑环境。

只要是打工人日常在电脑上能做的事情,它几乎都能完成。这已经不是简单的“聊天机器人”,而是一个具备完整操作链条的数字执行者。
Web 版 + Codex 同步上线,Windows 用户也能用
目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。
昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端,这对 Windows 用户来说意义重大。
这意味着,即使你不部署复杂环境,也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。
为什么说 GPT-5.4 是 OpenClaw 的“天选模型”
我们都知道,OpenClaw 这只“龙虾”之所以爆火,核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw,几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次,是在模型层面就实现了原生电脑操控能力。

也就是说,它不再是“外挂式控制”,而是“内生式理解 + 执行”。两者结合,几乎是 2026 年 Agent 形态的最优解。
完整的 OpenClaw + GPT-5.4 部署与实测流程:
1、安装并升级到最新版的 OpenClaw,一键安装命令如下:
iwr -useb https://openclaw.ai/install.ps1 | iex
模型的服务提供商选择OpenAI

模型登入方式选择OpenAI API key

创建 OpenAI API key:【点击前往】

然后在命令输入框输入密钥确认
在选择模型的时候,请选择GPT-5.3 codex,因为目前OpenClaw还没内置到GPT-5.4模型,但是一会我们可以通过命令进行切换过去。

切换模型需要重新开一个新的power shell窗口,并输入第1个切换模型的命令:
openclaw onboard --auth-choice openai-codex
执行命令以后,在配置选项里Config handling 选择 Update values:

确认以后会自动弹窗登入窗口,只需输入你的openAI账号登入即可

登入以后,再开一个新的power shell窗口,执行第2个切换模型的命令:
openclaw config set agents.defaults.model.primary "openai-codex/gpt-5.4"
就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了

注意:由于通过网页端授权登入的方式,只有Plus、Pro及以上的会员才可以调用GPT-5.4模型,所以要确保你当前登入的OpenAI账号是开通会员的才可以,否则会提示你找不到模型!
Mac 电脑
将 OpenClaw 默认模型切换到 GPT-5.4 的命令:
openclaw onboard--auth-choiceopenai-codex
执行命令后登入OpenAI账号

授权登入以后再开新的命令窗口执行下方命令:
openclaw configsetagents.defaults.model.primary"openai-codex/gpt-5.4"
重启 OpenClaw 后,问它“你是什么模型”,就会回复gpt-5.4:

当然如果你不想开通会员,也想使用最新的GPT-5.4模型,那么你可以通过刚才说的Open Codex 客户端进行安装使用!亲测即使是免费账户,登入以后照样可以使用GPT-5.4模型

核心能力全面升级:
这次升级,不只是“能操作电脑”这么简单。不仅会操作,还更聪明

知识型工作能力提升
在 GDPval 测试中(覆盖 44 个职业的知识工作能力评估),GPT-5.4 在 83% 的案例中达到持平或更优水平,而 GPT-5.2 为 71%。
在投行级电子表格建模内部测试中:
GPT-5.4:87.5%
GPT-5.2:68.4%

在演示文稿评测中,人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品,原因是:
更好的审美
更丰富的视觉元素
更有效的图像生成配合
对于内容创作者、分析师、咨询顾问来说,这是生产力的实质跃迁。
浏览器与网页操控能力
在 WebArena-Verified 测试中:
GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%
同时使用的token数量也大幅减少

在 Online-Mind2Web 测试中,仅凭截图观察成功率达到 92.8%,明显领先早期系统。
这意味着它在真实网页环境中的操作稳定性进一步提升。
视觉理解能力强化
在 MMMU-Pro 测试中,无需外部工具即可达到 81.2% 成功率。
在 OmniDocBench 文档解析测试中,平均误差下降至 0.109。
这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。

编程与长任务执行
GPT-5.4 融合了 GPT-5.3-Codex 的编程能力,同时强化了长时间自主执行任务的能力。
在 SWE-Bench Pro 测试中,与 GPT-5.3-Codex 持平或更强,同时整体推理延迟更低。

它可以:
自己调用工具
多轮迭代优化
减少人工干预
这已经是半自动工程师级别的能力。
工具调用与多步任务
在 Toolathlon 测试中,它用更少轮次完成复杂真实任务,比如:
读取邮件
处理附件
评分
记录到表格
准确率更高,执行更稳定。

联网搜索能力
在 BrowseComp 测试中,GPT-5.4 相比 5.2 提升 17 个百分点。
GPT-5.4 Pro 更是达到 89.3%。
这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。

可控性:真正的“Thinking”升级
GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路,并支持在生成过程中实时追加指令。
这对高阶用户来说意义巨大。
智能体工具调用
GPT‑5.4 同样优化了工具调用能力,使其在推理过程中能更准确、更高效地判断调用工具的时机与方式,这在 API 环境下尤为突出。相比 GPT‑5.2,它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如,智能体需要读取邮件、提取作业附件、上传并评分,最后将结果记录到电子表格中。

你可以在任务进行中微调方向,而不需要推倒重来。
在长流程任务中,它对上下文记忆更加稳定,推理更深入。
这才是 Agent 真正可控、可用、可扩展的关键。
最后总结:打工人真的悬了?
实测之后,我只有一个感受:
这不是一次小升级,而是一次形态级进化。
GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型,而是一个可以真正执行工作的智能体核心。
当它与 OpenClaw 这样的 Agent 框架结合,2026 年的工作方式,很可能会被重新定义。




















