普通视图

发现新文章,点击刷新页面。
昨天以前首页

OpenAI Atlas 浏览器使用体验:AI 原生浏览器来了!附下载地址

作者 兔哥
2025年10月22日 15:23
OpenAI 于 10 月 21 日推出首款 AI 原生浏览器——ChatGPT Atlas,它将 ChatGPT 无缝集成至网页浏览,实现 AI 代劳上网的新体验。本文详细介绍 Atlas 浏览器的安装步骤、主要功能与使用测试,并分享真实使用感受:虽然概念前卫,但功能仍显稚嫩,与 Google 浏览器相比缺乏插件支持。

GPT-5.3 Instant 正式发布:速度更快、推理更强,免费开放使用(实测体验)

作者 admin
2026年3月5日 19:26

就在今天,OpenAI 正式推出了新一代模型 GPT‑5.3 Instant。这是 GPT-5 系列中的 低延迟高速版本(Instant),主打 更快响应、更强推理、更稳定代码能力

5.3 Instant Hero SEO 1

更重要的是:

目前 GPT-5.3 Instant 已经向所有用户开放,包括免费用户。

 

免费体验入口:

只要打开网页即可直接使用,无需复杂配置。

接下来我们通过 真实测试 来看看 GPT-5.3 的能力到底提升了多少。

一、GPT-5.3 Instant 到底升级了什么

相比上一代 GPT‑5.2,GPT-5.3 的核心升级主要体现在五个方面。

1 推理能力明显增强

GPT-5.3 在 复杂逻辑问题、多步骤分析任务上明显更强。

例如:

  • 逻辑推理

  • 数学问题

  • 编程思路分析

  • 数据分析

它不仅能给出答案,还会 完整展示推理过程

2 代码能力大幅提升

现在 GPT-5.3 不仅可以写代码,还可以:

  • Debug 调试代码

  • 优化代码结构

  • 自动重构程序

  • 生成完整项目

很多情况下,它更像一个 真正的程序员助手

3 多模态能力更加成熟

GPT-5.3 不仅能处理文本,还可以理解:

  • 图片

  • 文件

  • 数据表格

  • 复杂图表

未来 AI 的交互方式将越来越接近 真正的智能助手

4 响应速度明显更快

“Instant”版本最大的特点就是 低延迟

实际测试中:

  • 基本 1~2 秒就开始生成答案

  • 输出过程更加稳定

  • 几乎不会卡顿

这对日常使用体验来说非常重要。

5 明显减少“过度防御式回答”

很多用户在使用 GPT-5.2 时都会遇到一个问题:

模型有时会 过度保守,甚至拒绝回答一些本来可以安全回答的问题。

GPT-5.3 在这一点上进行了明显优化:

  • 减少不必要的免责声明

  • 减少说教式回答

  • 更直接给出有用信息

整体交流体验更加自然。

二、测试一:解释复杂概念(量子计算)

我们首先让 GPT-5.3 解释一个比较复杂的概念:

“用最简单的方式解释什么是量子计算”

https://images.openai.com/static-rsc-3/3AADVWOA0NIMDPhJRzHascUqD3pO92sdK2ivyIxz55nwFb_ZjYmyId8NpH2VzcZPsocv9wVXvnlQvQdVVYWyxhWHS3juPJut22hDS_Cc8hU?purpose=fullsize&v=1
https://images.openai.com/static-rsc-3/DJ-IZZ7ex_CDxQ6G5xZ8vxXvtvGevNvH2Q9N80cciSC_26s0mUUdnusL6wgEiLDdJLIH7ARq20jJpO6WCDabYaLEZTkdBuFo--P4FnRu1TQ?purpose=fullsize&v=1
https://images.openai.com/static-rsc-3/VjalMehXqDASgKgfiGuTyyN878naFrkYJPgLsyGB0hsF5cLWzTGEaJfrF_NEO8aS5mxX3ptWVdbCMs2GjaGXweNRqJyyrPVXDAZhJecw1Qs?purpose=fullsize&v=1
GPT-5.3 的回答结构非常清晰:
  1. 先解释传统计算机

  2. 再解释量子比特

  3. 为什么量子计算更强

  4. 实际应用场景

最重要的是:

普通人也能看懂。

很多 AI 在解释技术概念时会非常专业,但普通用户很难理解,而 GPT-5.3 在 表达清晰度上明显更好。

甚至还能进一步要求:

“用小学生也能听懂的方式解释。”

它也能轻松完成。

三、测试二:代码能力实测

接下来我们测试开发者最关心的部分:代码能力

我们给 GPT-5.3 一个需求:

写一个 Python 程序
扫描电脑已安装软件
支持搜索下载软件
带简单 UI 界面

https://media.licdn.com/dms/image/v2/D4D12AQGwaSl4rfv3uA/article-cover_image-shrink_720_1280/article-cover_image-shrink_720_1280/0/1692094783736?e=2147483647&t=imK7pTuZb3O6lxgbpLbV9Nk7tOPJM97Fh6RsvX__vqE&v=beta
https://miro.medium.com/1%2AV5wAUEogqGEnHml6fVL0eQ.jpeg
https://miro.medium.com/1%2A_epwtdTO50G4mwXrcRG0QA.png
GPT-5.3 生成的结果包括:
  • 完整 Python 代码

  • 模块化结构

  • UI 界面

  • 运行方法

  • 环境安装步骤

项目结构类似:

project/
 ├ main.py
 ├ core/
 │   ├ scan.py
 │   ├ download.py
 │   └ clean.py
 ├ ui/
 │   └ main_window.py
 ├ requirements.txt
 └ build.bat

更厉害的是:

代码一次运行成功,没有报错。

甚至可以让 GPT-5.3 自动打包成 EXE 软件

只需要几分钟,就可以生成一个完整软件。

四、测试三:经典逻辑推理题

我们再测试一个经典逻辑题:

三个开关控制三个灯泡
只能进入房间一次
如何判断哪个开关控制哪个灯?

https://codingnconcepts.com/img/puzzle/three-switch-one-bulb-puzzle.png
https://i.pinimg.com/736x/a1/3f/8b/a13f8b0b1039cf0335f2cf19e6199530.jpg
https://i.guim.co.uk/img/media/d6f6e52e0b7fd227bcaa31216a293715e63b1dfe/0_0_1854_1494/master/1854.jpg?crop=none&dpr=1&s=none&width=445

GPT-5.3 的解题步骤:

第一步

打开 A 开关 3~5 分钟,让灯泡变热。

第二步

关闭 A,打开 B。

第三步

进入房间观察:

  • 亮着的灯 → B

  • 不亮但热 → A

  • 不亮且冷 → C

不仅给出答案,还提供了 完整推理过程和图示

这对:

  • 学习

  • 教学

  • 科普

非常有帮助。

五、测试四:生成 YouTube 视频脚本

我们再模拟一个真实工作场景。

要求 GPT-5.3:

写一篇 8 分钟科技视频脚本
结构清晰
有吸引力

结果它直接生成:

  • 视频标题

  • 开场钩子

  • 内容结构

  • 总结

甚至还模仿了 “零度解说” 的风格。

对于内容创作者来说,这非常实用:

  • YouTube

  • B站

  • 博客

  • 自媒体

都可以直接用作内容框架。

六、GPT-5.3 适合哪些人

如果你经常使用 AI,那么 GPT-5.3 非常适合以下人群:

1 开发者

  • 写代码

  • Debug

  • 学习新技术

2 内容创作者

(比如做 YouTube、博客)

  • 写脚本

  • 写文章

  • 内容规划

3 学生和研究人员

  • 学习复杂知识

  • 辅助研究

4 普通用户

任何人只要有:

  • 手机

  • 电脑

都可以用它提高效率。


七、免费使用 GPT-5.3

目前 GPT-5.3 Instant 已经免费开放

直接通过以下入口即可使用:

👉 免费体验 GPT-5.3:

打开即可开始使用。


总结

整体体验下来,GPT-5.3 带来的并不是简单升级,而是一次 整体能力进化

主要提升体现在:

  • 推理能力

  • 代码能力

  • 表达清晰度

  • 响应速度

当然 AI 仍然不完美,有时也会出错。

但可以确定的是:

AI 正在越来越接近真正的智能助手。

未来几年,AI 的发展速度可能会 远远超出大多数人的想象。

OpenAI GPT-5.4「原生操控电脑」实测封神:OpenClaw 天选模型来了

作者 admin
2026年3月7日 17:06

就在昨晚凌晨两点,OpenAI 毫无预兆地丢出了一个重磅更新——GPT-5.4。毫无疑问,这个模型正在改写 2026 年 AI Agent 的主线剧情。这一次,大家等了很久的核心能力终于真正落地:原生操控电脑。

1772735578 openai gpt 5.4 model

而在我第一时间实测之后,可以非常直接地说一句:GPT-5.4 很可能是目前最适合跑 OpenClaw 的模型,甚至没有之一。尤其是在原生操控电脑方面,达到前所未有的水平。

原生操控电脑,真正的 Agent 分水岭

Agent 能力,是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面,而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令,更能真正操控电脑环境。

屏幕截图 2026 03 07 194029

只要是打工人日常在电脑上能做的事情,它几乎都能完成。这已经不是简单的“聊天机器人”,而是一个具备完整操作链条的数字执行者。070cb7f3 993b 478d 9ac6 c23b33eb6417

Web 版 + Codex 同步上线,Windows 用户也能用

目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。

昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端,这对 Windows 用户来说意义重大。

https://cdn.thenewstack.io/media/2026/02/20c44d85-codex-dark-scaled.png

Codex Windows 版下载: 【点击前往

这意味着,即使你不部署复杂环境,也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。

为什么说 GPT-5.4 是 OpenClaw 的“天选模型”

我们都知道,OpenClaw 这只“龙虾”之所以爆火,核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw,几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次,是在模型层面就实现了原生电脑操控能力。

194a6818 25e9 400f 80c3 155afdecf9a4

也就是说,它不再是“外挂式控制”,而是“内生式理解 + 执行”。两者结合,几乎是 2026 年 Agent 形态的最优解。

完整的 OpenClaw + GPT-5.4 部署与实测流程:

 

1、安装并升级到最新版的 OpenClaw,一键安装命令如下:

iwr -useb https://openclaw.ai/install.ps1 | iex

模型的服务提供商选择OpenAI

2026 03 07 16 16 22.00 05 22 14.Still003 scaled

 

模型登入方式选择OpenAI API key

2026 03 07 16 16 22.00 05 28 17.Still004 scaled

 

创建 OpenAI API key:【点击前往

 

屏幕截图 2026 03 07 203006

然后在命令输入框输入密钥确认

在选择模型的时候,请选择GPT-5.3 codex,因为目前OpenClaw还没内置到GPT-5.4模型,但是一会我们可以通过命令进行切换过去。

屏幕截图 2026 03 07 194659

 

切换模型需要重新开一个新的power shell窗口,并输入第1个切换模型的命令:

openclaw onboard --auth-choice openai-codex

 

执行命令以后,在配置选项里Config handling 选择 Update values:

屏幕截图 2026 03 07 194935

确认以后会自动弹窗登入窗口,只需输入你的openAI账号登入即可

 

屏幕截图 2026 03 07 195231

 

登入以后,再开一个新的power shell窗口,执行第2个切换模型的命令:

 

openclaw config set agents.defaults.model.primary "openai-codex/gpt-5.4"

 

就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了

屏幕截图 2026 03 07 195415

屏幕截图 2026 03 07 195618

注意:由于通过网页端授权登入的方式,只有Plus、Pro及以上的会员才可以调用GPT-5.4模型,所以要确保你当前登入的OpenAI账号是开通会员的才可以,否则会提示你找不到模型!

 

Mac 电脑

将 OpenClaw 默认模型切换到 GPT-5.4 的命令:

openclaw onboard--auth-choiceopenai-codex

执行命令后登入OpenAI账号

v2 ee3588d7237589fb35af4941e81cfc13 1440w

 

授权登入以后再开新的命令窗口执行下方命令:

openclaw configsetagents.defaults.model.primary"openai-codex/gpt-5.4"

重启 OpenClaw 后,问它“你是什么模型”,就会回复gpt-5.4

v2 356e309ed4e0eced0b2debd6b3ae4dbd 1440w

 

 

当然如果你不想开通会员,也想使用最新的GPT-5.4模型,那么你可以通过刚才说的Open Codex 客户端进行安装使用!亲测即使是免费账户,登入以后照样可以使用GPT-5.4模型

屏幕截图 2026 03 07 200404

屏幕截图 2026 03 07 200532

核心能力全面升级:

这次升级,不只是“能操作电脑”这么简单。不仅会操作,还更聪明

屏幕截图 2026 03 07 230515

知识型工作能力提升

在 GDPval 测试中(覆盖 44 个职业的知识工作能力评估),GPT-5.4 在 83% 的案例中达到持平或更优水平,而 GPT-5.2 为 71%。

在投行级电子表格建模内部测试中:

GPT-5.4:87.5%
GPT-5.2:68.4%

屏幕截图 2026 03 07 230556

在演示文稿评测中,人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品,原因是:

更好的审美
更丰富的视觉元素
更有效的图像生成配合

对于内容创作者、分析师、咨询顾问来说,这是生产力的实质跃迁。

浏览器与网页操控能力

在 WebArena-Verified 测试中:

GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%

同时使用的token数量也大幅减少

屏幕截图 2026 03 07 230629

在 Online-Mind2Web 测试中,仅凭截图观察成功率达到 92.8%,明显领先早期系统。

这意味着它在真实网页环境中的操作稳定性进一步提升。

视觉理解能力强化

在 MMMU-Pro 测试中,无需外部工具即可达到 81.2% 成功率。

在 OmniDocBench 文档解析测试中,平均误差下降至 0.109。

这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。

屏幕截图 2026 03 07 230726

编程与长任务执行

GPT-5.4 融合了 GPT-5.3-Codex 的编程能力,同时强化了长时间自主执行任务的能力。

在 SWE-Bench Pro 测试中,与 GPT-5.3-Codex 持平或更强,同时整体推理延迟更低。

屏幕截图 2026 03 07 230749

它可以:

自己调用工具
多轮迭代优化
减少人工干预

这已经是半自动工程师级别的能力。

工具调用与多步任务

在 Toolathlon 测试中,它用更少轮次完成复杂真实任务,比如:

读取邮件
处理附件
评分
记录到表格

准确率更高,执行更稳定。

屏幕截图 2026 03 07 230813

联网搜索能力

在 BrowseComp 测试中,GPT-5.4 相比 5.2 提升 17 个百分点。

GPT-5.4 Pro 更是达到 89.3%。

这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。

BrowseComp

可控性:真正的“Thinking”升级

GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路,并支持在生成过程中实时追加指令。

这对高阶用户来说意义巨大。

智能体工具调用

GPT‑5.4 同样优化了工具调用能力,使其在推理过程中能更准确、更高效地判断调用工具的时机与方式,这在 API 环境下尤为突出。相比 GPT‑5.2,它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如,智能体需要读取邮件、提取作业附件、上传并评分,最后将结果记录到电子表格中。

屏幕截图 2026 03 07 230837

你可以在任务进行中微调方向,而不需要推倒重来。

在长流程任务中,它对上下文记忆更加稳定,推理更深入。

这才是 Agent 真正可控、可用、可扩展的关键。

最后总结:打工人真的悬了?

实测之后,我只有一个感受:

这不是一次小升级,而是一次形态级进化。

GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型,而是一个可以真正执行工作的智能体核心。

当它与 OpenClaw 这样的 Agent 框架结合,2026 年的工作方式,很可能会被重新定义。

上市半年,用户留存仅1%!! OpenAI 宣布下架 Sora

作者 東哥
2026年3月26日 01:45
文章來源:Qooah.com

OpenAI 推出獨立影片生成應用 Sora 僅半年後,便決定將其下線,以集中精力優化核心產品線。

官方公告顯示,Sora 的消費者版本、開發接口以及 ChatGPT 相關功能將全部停止服務。開發團隊在社交平台上發文告別,表示會盡快公佈用戶作品的導出方式和服務終止的具體時間。團隊在致謝用戶的創作熱情之余,也坦言此舉讓人遺憾,但並未解釋背後的原因。

行業普遍認為,這次調整與多重壓力有關。從外部看,OpenAI 正面臨 Google Gemini-3 和 Anthropic 等對手的緊追不捨,內部已啓動「Code Red」應急狀態,全力押注 ChatGPT 的核心能力提升。公司近期將產品部門重組為「AGI部署」團隊,暫停邊緣項目,將重心轉移到 GPT-5.2 的研發上。

從產品本身來看,Sora 的表現並不理想。用戶使用 30天後還在活躍的比例僅為 1%,生成的影片中真正可用的只有 5% 至 10%。再加上算力成本偏高、推薦機制存在短板,產品運營的可持續性受到明顯制約。雖然 Sora 上線初期一度衝上 App Store 免費榜榜首,但隨著 IP 訪問限制收緊,用戶熱度迅速降溫。

據瞭解,OpenAI 後續將不再單獨保留影片生成產品線,而是計劃將相關能力整合到桌面端的「超級應用」中,與 ChatGPT、Codex 等工具合併為一。這一策略調整,可能讓 AI 影片生成賽道的競爭格局迎來新的變數。

This article originally appeared on Qooah.com at https://hk.news.yahoo.com/%E4%B8%8A%E5%B8%82%E5%8D%8A%E5%B9%B4-%E7%94%A8%E6%88%B7%E7%95%99%E5%AD%98%E4%BB%851-openai-%E5%AE%A3%E5%B8%83%E4%B8%8B%E6%9E%B6-sora-174558441.html

Claude 封号限流砍权益,OpenAI 趁机用 Codex 稳稳接住你

作者 张子豪
2026年4月22日 17:01

天下苦 A 社久矣。

这是前段时间 Anthropic 持续推出各种功能,但是一边又不断加强使用限制,读者在评论区最普遍的反应。

本身就是御三家(OpenAI、Google、Anthropic)里对使用限制最严格的一个,另一边又加码推出身份验证,实名制才能使用。今天凌晨,再把 Pro(20 美元/月)用户的 Claude Code 使用权给砍了。

Anthropic 的增长负责人出来回应,提到他们正在对约 2% 的新专业用户注册者进行小规模测试,现有 Pro 和 Max 用户不受影响;并表示目前的订阅计划无法应对用户大量的 Token 消耗,他们在研究新的付费方案。

▲来源:https://x.com/TheAmolAvasare/status/2046724659039932830

OpenAI 这边也立马回应了 Claude Code 踢掉 Pro 会员的争议,一位 Codex 负责人 Rohan Varma 直接怼脸和 Claude Code 竞争,连发文格式都和 Claude Code 一样。

▲来源:https://x.com/rohanvarma/status/2046769635350241292

Anthropic 为 2% 的用户测试更贵的计划,而 Codex 给 100% 用户测试,让免费和付费套餐都能使用 Codex。还特别调皮的加了一句「Claude Code 用户不受影响。」

▲Claude Code 用户 PAY(付钱),Codex 用户 PLAY(玩)

另一位 Codex 负责人 Tibo,也在 X 发文说 Codex 将继续提供免费版和 PLUS 版(20 美元/月),还提到 OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作

奥特曼也转发了这条推文,表示 「我们希望你们可以有大量的 AI。

▲来源:https://x.com/sama/status/2046752492093165708

Codex 口碑在社交媒体上一直不算太差,尤其是前段时间 OpenAI「大撒币」,先是说为了让每个人都能体验到 Codex 推出的相关插件,给所有订阅计划都重置了使用限制

4 月初,Codex 发现用户达到使用限制的频率增加,且未找到背后的原因,干脆就重置了所有用户的额度限制。几天前,为了庆祝 Codex 周年庆和新功能上线,又一次重置了所有套餐的用量限制

今天,Codex 负责人和奥特曼再发推文,表示不到两周 Codex 增加了 100 万新用户,为了庆祝这件事,Codex 的速率限制又又又重置了。

▲来源:https://x.com/sama/status/2046604989527912590

早在上周 Anthropic 发布 Opus 4.7 的那天,Codex 就更新了一大堆重要功能,Computer Use、内置浏览器、持久记忆,以及 90 多项插件。

这些更新几乎是直接对标 Claude Cowork 的功能,把 Codex 从一个听着就像是给开发者用的工具,重新变成了一个适用于电脑所有场景的效率助手工具。

昨天,Codex 在此前推出记忆功能的基础上,又上线了一项名叫「Chronicle」的研究预览功能,让 AI 能读我们的屏幕,把我们最近做过的事整理成记忆。

Codex 不再只依赖聊天记录来理解上下文,结合它读取的近期屏幕内容,我们给它发送「这个」、「那个」,Codex 能知道我们到底指的是什么。

今天刚刚发布的 GPT Image 2 也已经集成到了 Codex 里。我们可以在 Codex 生成并迭代图像,在一套工作流里,从产品原型、前端设计,到视觉效果图和游戏开发等任务,使用 GPT Image 2 快速生成视觉元素。

如果你的 Claude 账号总是被封,用不了官方的 Claude Cowork、Claude Code 桌面版,又或者是那 2% 的新用户,开通了 20 美元/月的 Pro 会员也用不了 Claude Code,不妨来试试 OpenAI 出品的 Codex。

从代码工具到全能助手

Codex 最近这段时间的更新,最重要的莫过于上周发布的 Computer Use。这项能力并不算新鲜,之前是模型有 Computer Use 的能力,现在是需要工具也要有配套的支持,才能发挥模型能力。

它本质上就是 Agent 工具可以像人类操作电脑一样,通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。

之前的 Codex 操作电脑上的软件,是通过一些命令来执行不同的应用任务,整体更像是我们喊「Siri,明天的天气怎么样」,做这些比较简单的任务。

有了 Computer Use 的能力之后,不仅支持一些调用 API 或者终端命令的工具,还能真的能帮我们完成一些电脑上的实际操作,尤其适合前端调试、应用测试、操作没有开放 API 的软件。

而且支持多个智能体并行在 Mac 上工作,不会影响我们正常使用其他应用。

需要注意的是,Computer Use 的能力只支持 macOS 15 以上的版本,我们的电脑(macOS 14.6.1)在测试 Codex 时,会自动弹出一个 SkyComputerUseClient 的问题报告。

另外,现在 Codex 支持内置浏览器,能更好地处理 Web 场景。我们在 Codex 里生成的网页,可以直接在网页上标注,给 Codex 更精准的操作指令,对一些前端、应用和游戏开发的快速迭代非常有用。

▲从 Coding、设计、生活方式、生产力到研究,Codex 现在有丰富的插件系统来处理各项任务

这次的更新还新增了 90 多个插件和更丰富的工具集成,让 Codex 能接入更多工具、获取更多上下文,并跨平台执行操作,提到的热门插件包括 Atlassian Rovo(JIRA)、Microsoft 套件、Neon by Databricks、Remotion、Render、Superpowers 等。

在 Codex 应用里,我们只需要输入斜线就能快速进入一些关于 Codex 的配置,输入 $,则可以选择不同的 Skills,包括我们安装在本地的各种 Skills。

同时,在自动化任务上,Codex 的 Automation 功能升级后,可以复用之前的对话线程,保留已有上下文。新的自动化还支持 Codex 自主规划后续工作、自动在未来某个时间继续执行任务,以及支持持续数天甚至数周的长期任务。

官方提到这项更新主要用于代码的提交合并、跟进日常工作生活的待办事项,以及跨越不同平台和工具的信息追踪等任务。

还有一些对于桌面应用交互的小更新,像是增加了多标签页的终端窗口,侧边栏可以直接打开文件,预览 PDF、表格、PPT 等文档。

新的摘要面板,也可以持续跟踪当前执行任务的计划和进度、参考信息来源,和输出结果等。这些应用上的增强,也让 Codex 在整体上更像是一个统一的工作台,而不再是单一的对话窗口。

用定时截屏的方式来维护 Agent 记忆

个性化的记忆功能向来就是 AI 的一大难题,虽然 AI 博古通今能记住所有的知识,但是对于每个用户的私人记忆处理,工作记忆等,AI 需要用不会占据大量的 Token,同时又能记清楚的方式来处理日复一日的对话。

尤其是现在到了 Agent 这类巨消耗 Token 的任务上,每个用户每天产生的上下文,如果 Agent 要全部记住,估计再来一百万 Token 上下文也难顶住。

上周 OpenAI 就已经为 Codex 带来了记忆功能,它可以记住我们的个人偏好、之前做过的修正,以及一些不容易获取但很重要的信息。

而为了获取更多的记忆,更快地处理我们的工作流。Codex 这次推出的 Chronicle 功能,说白了就是看我们的屏幕,记住我们的工作,再把这些记忆喂给 AI。

具体来说,在 Codex 设置>个性化里面,开了 Chronicle 功能之后,会自动执行这些操作:屏幕上下文捕获 → 本地临时截图 → 后台代理分析 → 临时 Codex 会话总结 → 生成本地 Markdown 记忆 → 后续会话中作为上下文使用。

Codex 获取了屏幕录制和无障碍权限之后,Chronicle 会在后台运行一个沙箱 Agent,这些 Agents 使用默认模型 GPT-5.4-mini,基于捕获到的屏幕图像,周期性地启动一个临时的 Codex 会话,把最近的屏幕上下文整理出记忆。

屏幕截图只会临时保存在本地,Codex 提到运行期间,超过 6 个小时截图会被自动删除。

▲GPT Image 2 生成的信息图

以后我们和 Codex 对话,它会自动检索这些记忆文件,作为上下文来使用,减少我们重复描述背景的需要。

OpenAI 官方也给了多个案例,像是如果不开启 Chronicle,Codex 不知道我们说的「这里会失败」,是指的什么。

以及针对一些个人任务中出现的人名、项目名等,在通用知识外的内容,Codex 也会根据 Chronicle 获取的信息,自动补充上下文。

能够捕获屏幕图像,也意味着使用 Codex 处理任务的全流程,Chronicle 都能记住。包括我们的工作流,常用的工具。像下面的例子里,使用了 Chronicle 的 Codex 会知道这份宣传材料使用何种格式,以及何种工具,是 Google 文档还是 Markdown 文档。

不过这项功能也面临着一些争议,例如视觉识别的方法会消耗大量的 token,更严重的是这些截图可能包含我们屏幕上可见的敏感信息。

虽然 OpenAI 说所有保存的记忆都会存放在本地的 markdwon 文档里,用户可以随时查看,Codex 根据这些截屏获取到了哪些信息。但是他们也提醒用户,当 Chronicle 截屏到一些有风险的网站时,网站可能通过提示词注入的方式,在屏幕上隐藏一些恶意指令,让 Codex 执行。

Chronicle 这项功能目前仅向 ChatGPT Pro(200 美元/月)用户开放,支持 macOS 版本的 Codex 应用,作为研究预览版推出。待 Chronicle 正式上线之后,相信 Codex 会把它开放给更多用户使用。

手机遥控、电子宠物、「Hermes Agent」都有机会上线

这段时间,Codex 被网友们称作是一款正在用力追赶 Claude 的产品。虽然一方面是在说 OpenAI 没有主见,随大流。但另一方面,能看到好的产品之间展开你追我赶的竞争,对我们用户来说未尝不是一件好事。

Codex 开发者在 X 上问大家对 Codex 有何意见,网友们非常积极的表示,要加上手机控制功能,还有人说 Codex 也应该从 ChatGPT App 里面进入。而这些都是 Claude 目前已经做到的功能。

也有网友在下面反馈 Codex 存在的各种 Bug,像是内存泄露、会话只能存档不能删除等问题。

最新的 Codex 更新爆料里还提到,Codex 也打算做一个小小电子宠物,放在 Codex 桌面上,来提示用户目前会话的各种状态。

这个电子宠物共有 8 种预设形象,用户还可以创建使用自己的虚拟形象。

▲来源:https://x.com/testingcatalog/status/2046366630528143827

另一个爆料则提到 OpenAI 正在为 ChatGPT 开发智能体(代号 Hermes),其中包括智能体构建器、模板、日程安排、在 Slack 中使用智能体的选项、添加应用程序、技能、文件、内存、指令等功能。

▲来源:https://x.com/btibor91/status/2046545878538961304/

眼下的 Codex 是一个活跃开发的产品,OpenAI 必然不会把本地 Agent 产品这一块的市场拱手让给 Claude。

别说 OpenAI 这位 AI 界的老大哥,前几天,Gemini 也不声不响地发布了桌面版应用,但是被一众网友评价「拉爆了」。

只能鼓励一下 OpenAI 和 Gemini,赶快结束 Claude 在本地 Agent 助手和代码这块的领先地位。

天下苦 A 社久矣。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT Images 2.0 正式发布!免费可用,OpenAI 最强图片模型!效果到底有多强?| 零度解说

作者 admin
2026年4月24日 11:27

就在今天,OpenAI 正式发布了全新一代图像生成模型——ChatGPT Images 2.0。这一版本可以说是目前最先进的 AI 图片生成工具之一,不仅在画质、速度、控制力上全面升级,还真正开始迈向“以假乱真”的阶段。

这篇文章,我会带你完整了解它的核心能力、实际体验,以及它到底强在哪。

一、AI 图像生成,进入“以假乱真”时代

https://images.openai.com/static-rsc-4/I4crjdw2U5R24_oBrPYaQcJyGFEHfMxaNnkJLFnLtP05Z2Zsq1obb1eWxdh_9cYKLAk5m_npoFVQ_EOOkk--5_ahGvOcDI1JO1ZHHa905fSoyLTeqY1IZFnqCXJjDdsNePruFQp0_vmoOu1sfkh9yp5bU-Szj_loc7hcTIsj6C-ZyR5-SP32AQnc0IxlMMcS?purpose=fullsize
https://images.openai.com/static-rsc-4/WWAvBTetygklw09qYw8pVvbeJRxqZxTxm_ZwJdJuPk76f2I5YyXqX15jDTHaL6uLgBlqvvMv4keqSc2MeXGw_OMUh_7DZQMHXPSbV7-IOsOHv7rVCAkLrJrFVdcKgLfza2XoY2kQ_9oZvqO1lQWj2nreH7U-b6fRUh-qsUCNArw-Y3uyXmMF6pyCyqBk29pZ?purpose=fullsize

ChatGPT Images 2.0 最大的变化只有一个关键词:真实感

只需要一句简单提示词,它就能生成高质量图像,而且很多时候——你已经分辨不出这是不是 AI 生成的。

比如:

  • 类似手机抓拍的照片
  • 电影级光影的人像
  • 街头摄影风格
  • 时尚杂志封面

这些过去需要摄影+后期团队完成的内容,现在一句话就能搞定。

二、核心升级:不仅更强,而且更“可控”

相比上一代模型,这一版本的提升是全方位的:

1. 更复杂的视觉理解能力

它可以处理:

  • 多元素复杂构图
  • UI / 图标 / 小文本
  • 高密度信息排版

而且生成结果几乎可以直接商用

2. 分辨率与细节全面提升

  • 最高支持 2K 输出
  • 微小元素(文字、按钮、细节纹理)更加清晰
  • 光影表现更加自然

3. 文本生成能力大幅增强(重点)

https://images.openai.com/static-rsc-4/LVe5vD2AXNMN_iHX8B5JNtWmb5-77J7q8xryWyDnkaHRyWkl_hXpUGZBA0c3RYGeNz3g9P8RHIrKruN9tqGKjGBWDT7zSlLhnqXLDqVToyBOUeR0jt_Qn4qkWmG5TmL3R_uAoxUKFI12mXXX3zNbboVdbMaOj5nU4E8ep0yIcxM8mrK8BN_ToKDsuTP75uIi?purpose=fullsize

这是一个巨大突破。

以前 AI 生成图片最大的问题就是——文字会乱码

而现在:

  • 中文 / 日语 / 韩语 / 印地语等都能正确生成
  • 文本语义通顺
  • 几乎没有错别字

 这意味着:AI 可以直接做电商图、海报、广告素材了

4. 精准编辑能力(接近 Photoshop)

你可以做到:

  • 局部修改(例如只改表带颜色)
  • 替换背景
  • 修改服装
  • 调整光影

而且——其他元素完全不变

这已经非常接近
 Photoshop + AI 的组合能力

三、风格能力全面进化(几乎无上限)

https://images.openai.com/static-rsc-4/TMLY4HBnBDweRIPa6mcwR30AEsV-f1waOu5219Hen0FzmbcseesaYKAmmd6eijLFlmuO94bjbhIVzRwxwmisRtiwxnF6YINtsZ3E1JB1NOhHoXkYpmqy6jI5wP6TubIYWkAVGTf1ExZ-SwIj4fadHsZ8NaFLBmNA2DBAby5rds8oAuTkfX1EHfVJK_eeJ2J7?purpose=fullsize
https://images.openai.com/static-rsc-4/rjqVnA9kIJ5BPGBC7P8n05PA9cmgvXA01p01El_d4j5Hzin2abwUCWaub-Q3JD7oFti3RhJZB_uZpI5jQTayULIuQz0PXlBgO440KLFVpPH3XZOxoAEltdZZnkaguW3xrxHDdc67Clj-82sQXBvc78UoV7UdMf-voIeTOUg9hMMc5TKrqaSyg4CbYPYi4YV1?purpose=fullsize
6

ChatGPT Images 2.0 在风格上的表现非常夸张:

支持类型包括但不限于:

  • 赛博朋克
  • 日本漫画 / 独立漫画
  • 电影海报风格
  • 复古胶片摄影
  • 超现实主义
  • 故事绘本

甚至可以:
直接生成完整故事分镜 + 文本剧情

而且逻辑是连贯的,不是拼凑的。

四、真实案例测试:从“玩具”到“生产力工具”

1. 一句话生成商业海报

输入:

极简科技产品海报 + 黑色背景 + 发光边缘

结果:

  • 自动补全设计逻辑
  • 构图合理
  • 视觉高级感直接拉满

2. 电商主图生成(可直接使用)

输入:

白底 + 产品居中 + 阴影 + 文案“限时优惠50%”

结果:

  • 排版专业
  • 文案正确
  • 无乱码

 可以直接用于电商平台

3. 真人照片 → 商业大片

https://images.openai.com/static-rsc-4/C189VaJJJr5f4zefq6jfNqp4YCfg7H8VE_hltdIPFuMtGMpLRIPrTnuUIfBklln_ClDUuS5dcDhCl11jzETl468iJ2XDt3oKbWUOLEzuNAoJiO5tK0Na-XcAJkxstRodEkt--Ms7hCZ_zF0yp4it0o33ceF_SgMMJuvPYUEnFj1-OaaDdYnEzVwuyhqUMSL8?purpose=fullsize
https://images.openai.com/static-rsc-4/CGLG463DnXdCfRotNeArzaYQF9ZB7eWoxr7PMf1M4BamSag3gIv5OPP0pT3Z_dT7ws11k5x7P5C101bvhhmVBEyUXwlRg92FlCHV6jyB6i3io3X2t56B7HNbDEIMAsXG4TU_qGHzCZ5I2sK_CEMZ_BkEFgvqs96zLgsJH4XfzufxEiDnrBtIpzBUbYKt9rad?purpose=fullsize
https://images.openai.com/static-rsc-4/h06DuVxMFm-AQDfhDJzKGZ7DymTt8hYr-vhVSPCOyAOLIBI_Qw76JWyrM6DbU9PyZclCaJMVJEakTnWixKUPiJ1ClLBgC5TG3bDYJ1u01F1kS6bsNlyRvLM1tBtdvWGoZc1prZVeWzXRKlm65q4IvRwO65GG0VkDBdLXUwKRJDcvU9UkpETBbNS7fnP4hJxv?purpose=fullsize

只需:

  • 上传一张普通照片
  • 输入一句话

就可以:

  • 换背景(高级工作室)
  • 换服装(西装)
  • 加电影级灯光

直接变商业摄影作品

4. 批量风格转换(效率爆炸)

比如:

  • 3张照片 → 漫画风
  • 多图统一风格
  • 保留内容 + 重做视觉

 对内容创作者来说:降维打击

五、提示词万能结构(重点干货)

如果你想稳定出图,可以用这个公式:

主体 + 风格 + 场景 + 光影 + 细节 + 用途

例如:

  • 主体:智能眼镜
  • 风格:未来科技
  • 场景:深色背景
  • 光影:霓虹灯
  • 用途:电商广告

 基本不会翻车

六、AI 对“现实世界”的理解更自然了

这一代模型还有一个隐性升级:

 视觉认知能力

它可以:

  • 做教育图表
  • 信息可视化
  • 视觉摘要
  • 故事结构设计

而且:

  • 排版清晰
  • 留白合理
  • 信息结构自然

这已经不仅是“生成图片”,而是——
在做视觉表达

七、一些真实体验总结(优缺点)

优点

  • 真实感极强
  • 中文文本几乎完美
  • 可控性高
  • 可直接商用
  • 风格极其丰富

不足

  • 某些人像仍有“AI味”
  • 需要优化提示词才能达到最佳效果

八、结论:这已经不是玩具,而是生产力革命

ChatGPT Images 2.0 的意义在于:

它把“设计门槛”几乎降到了零

你不再需要:

  • 摄影师
  • 设计师
  • 后期团队

只需要:
一句话 + 一点想象力

最后

目前 ChatGPT Images 2.0 已经向所有用户开放(包括免费用户),你可以直接上手体验。

更多玩法、素材和提示词,我会持续更新在零度博客。

如果你是:

  • 内容创作者
  • 电商从业者
  • 自媒体
  • 设计师

 这个工具,建议你一定要尽快上手。

刚刚,OpenAI 手机曝光!2028 年量产

作者 李超凡
2026年4月27日 11:31

我们之前提过,接下来两年苹果的新 iPhone 数量,要赶上小米了。而在苹果 AI Siri 在今年 WWDC 上线后,AI 手机也会成为苹果新的主线。

不过很快 AI 手机很快就会迎来一个新的搅局者,那就是 OpenAI。

天风国际证券分析师郭明錤今天发布最新产业调查称,OpenAI 正在与联发科、高通合作开发手机处理器,立讯精密拿下独家系统协力设计与制造合同,预计 2028 年量产。

音箱、眼镜、耳机、台灯、笔……OpenAI 的硬件全家桶还嫌不够,这次直接把手伸向了手机。

先看看 OpenAI 手机目前为数不多的产品信息,处理器方面,联发科和高通同时参与合作开发,预计 2026 年底或 2027 年一季度敲定最终规格和供应商。制造端,立讯精密拿到了独家协力设计与制造的位置。

郭明錤还给了一组数据参考:以联发科和 Google 合作的 TPU Zebrafish 为例,单颗 AI 芯片的营收大约相当于 30 到 40 颗 AI agent 手机处理器。而 OpenAI 初期瞄准的是全球每年 3 到 4 亿台高端手机市场,换机潮带来的增量会是实打实的营收动能。

对立讯来说,这个项目的战略意义可能比短期营收更大。在苹果供应链里,立讯的组装地位很难超越鸿海,但 OpenAI 手机给了它一张「下一代手机主力制造商」的入场券。

为什么 OpenAI 非要自己做手机?

Sam Altman 可能终于想通了一件事:光做软件,AI 永远是别人家的客人。

郭明錤在分析中给出了三条理由,条条都指向同一个结论。

只有完全掌控操作系统和硬件,AI agent 才能做到真正的「全面服务」。 现在 ChatGPT 跑在 iPhone 上,受限于苹果的权限沙箱,想帮你订个外卖都得绕好几道弯。自己做手机意味着从底层开始,AI 想调用什么就调用什么,没人拦着。

手机是唯一一个随时拥有用户全部当下状态的设备。 你的位置、日程、聊天记录、身体数据、支付习惯,这些实时信息是 AI agent 推理服务最关键的输入。没有这些 input,AI 就像一个只能听但看不见摸不着的助手,聪明但使不上劲。

可预见的未来里,手机仍然是数量最大的终端设备。 音箱再好卖也是家里的事,眼镜再酷也还在早期用户圈里转,但全球每年十几亿台手机出货量摆在那里,谁拿下手机,谁就拿下了 AI 的最大分发渠道。

OpenAI 手机长什么样?

郭明錤做了一张概念设计图:把它和现在的 iPhone 主屏放在一起对比,差异一目了然。

传统手机的主屏是一堆 App 图标的「货架」,你得自己找、自己点、自己操作。而 OpenAI 手机的逻辑完全反过来,用户的目的不再是打开某个 App,而是直接告诉手机「我要干什么」,剩下的事情由 AI agent 去调度完成。

换句话说,App 还在,但你可能再也不用亲手点开它们了。

技术实现上,OpenAI 的方案是云端和端侧 AI 高度整合。手机处理器需要持续理解用户的上下文信息,耗电管理、内存分层、小模型本地运行,这些都是芯片设计的关键考量。复杂或高强度的任务则交给云端 AI 来跑。

商业模式方面,郭明錤预测 OpenAI 可能会把订阅制和硬件捆绑销售。买手机送 ChatGPT Plus?或者反过来,ChatGPT 订阅用户享受硬件补贴?具体方案未知,但方向很清晰:围绕 AI agent 建立一个全新的生态系统,拉开发者进来一起玩。

音箱、眼镜、耳机,手机才是最后一块拼图

其实 OpenAI 的硬件野心早就不是秘密了。

今年早些时候,据 The Information 爆料,OpenAI 内部已经组建了一支 200 人的硬件团队,由前苹果首席设计官 Jony Ive 的 LoveFrom 工作室操刀产品设计。团队「含果量」极高:Tang Tan 是苹果 25 年老将,曾主管 iPhone 和 Apple Watch 的产品设计;Evans Hankey 是苹果前工业设计负责人,Jony Ive 离开后曾接管整个设计团队。

这支豪华班底交出的第一份作业是一台智能音箱,定价 200 到 300 美元,内置摄像头,支持 Face ID 级别的人脸识别,最早 2027 年 2 月出货。后面排队的还有 AI 耳机(代号「甜豌豆」)、智能眼镜(2028 年量产)、智能台灯,甚至还有 Sam Altman 多次暗示的「AI 笔」。

但仔细看这个产品矩阵就会发现,音箱管的是家庭场景,眼镜管的是出行场景,耳机管的是碎片时间,每一个品类都在覆盖手机「不方便掏出来」的空隙。而手机本身,作为用户身上信息密度最高、使用时间最长的设备,一直是这张拼图里缺失的那块。

现在 OpenAI 把这块补上了。

Sam Altman 之前接受采访时说过一句话:「智能手机是时代广场,信息轰炸、注意力粉碎。OpenAI 要做的是一间湖畔小屋,让你在需要专注时能关上门。」

从音箱到手机,OpenAI 的硬件逻辑逐渐清晰:它不想在苹果的地盘上做一个寄人篱下的 App,而是要从头搭建一整套 AI 原生的硬件生态。音箱是客厅里的中枢,手机是随身的入口,眼镜和耳机是延伸的触角。每一个设备都在收集数据、理解用户、执行任务。

为此 OpenAI 也没少挖苹果墙角。据 The Information 报道,仅去年一年 OpenAI 就从苹果挖走了 20 多位硬件大牛。苹果被挖得有点急眼,甚至因此取消了原定在中国举办的年度闭门会议,理由是「防止更多高管跳槽到 OpenAI」。

供应链端同样在加速绑定。立讯精密已拿下至少一款 OpenAI 设备的组装合同,歌尔股份也在接洽中,可能会为未来产品提供扬声器模组等零部件。这两家,一个是 iPhone 和 AirPods 的主力代工厂,一个组装过 AirPods、HomePod 和 Apple Watch。OpenAI 等于在用苹果的人、苹果的供应链,造自己的东西。

豆包手机和 OpenAI 手机,殊途同归

OpenAI 手机估计要 2028 年才会面世,但在中国,AI 厂商和手机厂商的联姻已经先跑了一步。

去年底,字节跳动与中兴合作推出了豆包手机第一代(努比亚 M153),工程样机上线即秒空,原价 3499 元一度被炒到 3.6 万元,带动中兴股价涨停。它的玩法很激进,大模型通过 GUI Agent 直接识别屏幕内容、模拟人手操作,绕开了传统 API 的限制,让 AI 真正能替你点外卖、发消息、订机票。

代价也很直接,微信、支付宝、淘宝、银行 App 先后对豆包手机进行了安全封堵。毕竟 AI 绕过了 App 沙箱和权限控制,等于在安全机制上开了个口子,主流平台不可能坐视不管。

眼下豆包手机 2.0 已启动研发,有望今年二季度中后期发布。更值得关注的是,这场合作正在向更多手机厂商蔓延。

据蓝鲸新闻援引知情人士透露,字节跳动最早接触的手机厂商其实是荣耀,但荣耀态度谨慎。一位知情人士的说法颇有代表性:「豆包手机作为探索性工程机可以更激进,但荣耀拥有亿级用户体量,一旦新服务在稳定性、兼容性或安全性上出问题,极有可能引发大规模功能异常与用户投诉。」

此前有报道称荣耀正与字节就豆包手机合作展开接洽,但荣耀方面予以否认,回应称「经内部确认,相关传闻并不属实。荣耀始终致力于通过技术创新为消费者提供优质产品,如有任何战略合作进展,将第一时间通过官方渠道同步。」

不过据博主「数码闲聊站」消息,vivo 目前也在接洽豆包,还有其他国产 TOP5 厂商在排队。用他的话说,「一大波 AI OS,一大波豆包 AI 手机靠拢中」。

就像一位知情人士说的:「对于主流手机厂商来说,AI 手机的推进只能循序渐进,无法一步到位。」

回头看 OpenAI 和豆包走的其实是两条完全不同的路。

豆包选择和现有手机厂商合作,在安卓体系上做底层服务方案,好处是速度快,去年底就已经有了可以上手的产品;代价是受制于别人的系统和生态,安全性和兼容性问题不断。

OpenAI 则选择了更慢但更彻底的方路线,自研操作系统、自研处理器规格、自建供应链,2028 年才量产。慢是慢了点,但一旦做出来,从芯片到系统到 AI 模型全部自己说了算,不用看任何人脸色。

两条路殊途同归,指向的是同一个判断:AI 如果只停留在 App 层面,永远只是手机上的「新功能」。要想让 AI 成为灵魂,要么改造现有手机,要么从头造一台新的。

2028 年,当 OpenAI 手机真正面世的时候,你的手机主屏上可能已经没有那一排排整齐的 App 图标了。

取而代之的,是一个安静等待你开口的 AI。你会让它替你「刷手机」了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

谁才是编程王者?ChatGPT5.5、Claude 4.7、Deepseek V4、Qwen 3.6 实测见真章!

作者 admin
2026年4月27日 21:25

今天我们不看宣传,不看跑分,也不看官方榜单,而是直接来一场真正的实战对决。这次参赛的模型包括:ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1。另外,我们还加入一个旁观者,也可以理解为替补选手:Gemini 3.1 Pro。

ChatGPT19 58 18

这几款模型,基本代表了目前国内外最强的一批 AI 编程能力。国外代表是 ChatGPT5.5 和 Claude 4.7,国内代表是 DeepSeek V4 和 GLM 5.1,再加上 Gemini 3.1 Pro 作为额外参考。

这次测试的规则非常简单:不给二次提示,不给修改机会,不做人工修正。每一道任务,每个模型只有一次提交机会。

谁写出来的效果最好,谁的成功率最高,谁的代码最稳定,谁就更接近真正的“编程王者”。

今天我们要看的,不只是哪个 AI 更聪明,而是哪个 AI 更像真的在工作,哪个 AI 能把需求理解清楚,并且一次性做出可运行、可展示、可交付的作品。

2026 04 27 232453

本期测试的核心思路

很多人测试 AI 编程能力,喜欢看跑分、看 benchmark,或者让 AI 写一些算法题。

但对普通用户来说,真正重要的不是模型在榜单上排第几,而是它能不能把你的一句话需求,变成一个真的能运行、真的有体验、真的像产品的东西。

所以今天我们不测理论,只测实战。

这次测试会围绕几个方向展开:

第一,视觉效果。

一个网页小游戏或者演示页面,不只是能打开就行,还要有动画、有节奏、有冲击力。

第二,交互逻辑。

有些模型看起来会写页面,但一旦涉及按钮、状态、倒计时、本地存储、拖拽排序,就很容易翻车。

第三,剧情和节奏控制。

AI 生成的不只是代码,也包括文案、剧情和用户体验。能不能让一个页面有铺垫、有变化、有高潮,这是非常考验模型综合能力的。

第四,约束执行能力。

有些模型看似很强,但会偷偷忽略你的要求。比如你要求不使用外部资源,它可能还是引入了外部库;你要求只用黑白两种颜色,它可能偷偷加渐变色。

第五,真实性判断。

AI 可以生成很多“看起来很真实”的东西,但这并不代表它真的正确。今天最后一个测试,我会专门用天气页面来做一个反转,让大家看到 AI 最危险的一面:它可以让假的东西看起来像真的。

第一题:黑客入侵终端

开场我们先来一道视觉冲击力很强的题目:模拟黑客入侵终端。

提示词

生成一个完整可运行的HTML网页(包含HTML+CSS+JS,所有资源内嵌,无需外部依赖)。
模拟黑客入侵终端界面:黑色背景+绿色字符雨效果,自动滚动显示“正在破解密码”“已入侵服务器”等动态文本,并带进度条。
要求:页面加载后自动播放,3秒内进入高潮动画,最后弹出“Access Granted”提示,并提供音效开关按钮。

2026 04 28 000049

这道题本身没有什么业务价值,但非常适合做开场,因为它能快速看出模型的动效组合能力。

差一点的模型,可能只会生成一个静态页面,放几行绿色文字,看起来像终端,但没有节奏,没有推进,也没有真正的动画。

强一点的模型,会知道怎么让画面一步一步升级:先出现终端文字,再增加滚动日志,然后进度条推进,最后弹出 Access Granted,整个过程有明显的情绪递进。

2026 04 28 000200

这道题主要看三个点:页面是否能直接运行。动画是否有节奏。最后是否有高潮效果。

如果一个模型连这种偏展示型页面都做不出效果,那后面的复杂任务基本就更危险了。

2026 04 27 15 31 29.00 03 20 07.Still009 scaled

第二题:恐怖惊吓页面

第二题我们测试的是节奏控制能力。

提示词:

生成一个完整 HTML 网页,页面一开始是安静的风景或者日记内容,并带有轻微背景动画。至少 5 秒平静铺垫之后,突然出现惊吓画面,比如鬼脸和音效,然后恢复正常,并提示“你被吓到了吗?”

 

这题的重点不是鬼脸,而是铺垫。很多模型会犯一个错误:页面一打开就直接吓人。这就不成立了。真正的惊吓效果,关键在于前面要足够平静,让观众放松警惕。至少 5 秒的安静铺垫非常重要。

所以这道题主要看:

模型有没有理解“至少 5 秒平静铺垫”。

惊吓画面是否突然。

惊吓后是否能恢复正常。

有没有音效控制。

差的模型只会堆效果,好的模型会控制节奏。

这也是 AI 生成交互内容时很重要的一点:它不仅要会写代码,还要懂体验。

2026 04 27 15 31 29.00 05 19 04.Still010 scaled

第三题:读心术互动页面

第五题稍微放松一点,做一个互动型页面:读心术。

要求用户在心里想一个 1 到 100 的数字,通过 3 到 5 步点击引导,逐步缩小范围。每一步都有动画反馈和提示语,比如“越来越接近了”,最后用动画展示“AI猜你想的是 XX”。

提示词:

生成一个HTML互动页面,让用户在心里想一个1-100的数字,通过3-5步点击引导逐步缩小范围。
要求:每一步都有动画反馈和提示语(如“越来越接近了”),最后用动画展示“AI猜你想的是XX”。

 

这题其实并不是真的 AI 读心,而是经典的交互设计和算法包装。它的重点在于:模型能不能把一个简单逻辑包装成一个有趣的体验。

有些模型会做得很粗糙,只是几个按钮加一行结果。

2026 04 27 15 31 29.00 08 14 07.Still011 scaled

好的模型会设计流程,比如让用户选择数字范围、奇偶、大小区间,然后逐步缩小范围,最后给出一个看似神奇的结果。

这道题可以很好地说明一点:

观众体验不等于技术难度。

有些东西技术上不复杂,但只要包装得好,就会显得很高级。

这也是 AI 生成内容时非常常见的现象:它很会“装懂”,也很会“制造感觉”。

2026 04 27 15 31 29.00 10 02 24.Still012 scaled

第四题:股票市场 K 线图

第六题测试数据和动画结合能力。

要求生成一个 HTML 网页,模拟股票市场 K 线图动态变化。需要自动波动动画、涨跌颜色变化,并提供按钮触发“暴涨”和“崩盘”。动画要夸张、有冲击力。

提示词:

生成一个HTML网页,模拟股票市场K线图动态变化。
要求:

自动波动动画
涨跌颜色变化
提供按钮触发“暴涨”和“崩盘”
动画夸张、有冲击力

 

这道题重点看的是动态效果。差的模型可能会画一个静态图,或者用几个柱子假装 K 线,但不会真正变化。好的模型会生成动态数据,让图表持续波动,并且点击“暴涨”或“崩盘”按钮后,能明显看到趋势变化。

2026 04 27 15 31 29.00 11 04 21.Still013 scaled

这题主要看:

K 线是否真的动态变化。

涨跌颜色是否清晰。

暴涨和崩盘按钮是否有效。

动画是否有冲击力。

如果模型只是做了一个看起来像股票图的静态页面,那它其实没有完成任务。

2026 04 27 15 31 29.00 12 10 23.Still014 scaled

第五题:拆弹小游戏

第八题是综合能力测试:拆弹游戏。

要求生成一个 HTML 小游戏,场景是拆弹。页面需要有 30 秒倒计时,多根电线可选,不同选择触发不同结局。倒计时音效逐渐加快,最后 3 秒要有明显紧张提示。

提示词:

生成一个HTML小游戏:拆弹场景。
要求:

30秒倒计时
多根电线可选
不同选择触发不同结局
倒计时音效逐渐加快,最后3秒明显紧张提示

 

它同时考验逻辑、UI、状态管理和氛围营造。模型必须处理倒计时、用户选择、成功分支、失败分支、音效节奏、最后 3 秒提示等多个状态。

差的模型可能只是做几个按钮,点哪个都显示同一个结果。

2026 04 27 15 31 29.00 15 29 20.Still015 scaled

好的模型会让不同电线对应不同结局,比如剪红线成功、剪蓝线爆炸、剪黄线倒计时加速、剪绿线进入隐藏结局。这类小游戏最能看出模型写交互逻辑的能力。

第六题:天气查询页面打假

最后一题是本期最重要的收尾反转:天气查询页面。

要求生成一个 HTML 天气查询页面,默认显示一个城市天气,要调用真实 API,UI 要精美,并提供“刷新数据”按钮。多次刷新后,数据会出现明显不一致甚至荒谬,比如温度突然大幅变化,

提示词:

生成一个HTML天气查询页面。
要求:

默认显示一个城市天气
要调用真实的API
UI画面要精美

 

这题的重点不只是做天气页面,而是打假。因为 AI 很容易生成一个“看起来像真实 API”的页面。它会写接口地址,会写加载状态,会写天气卡片,会显示温度、湿度、风速。

2026 04 27 15 31 29.00 16 41 22.Still016 scaled

但问题是:这些数据是真的吗?很多时候并不是。所以这道题的价值在于告诉我们:AI 可以生成看起来很真的东西。但看起来真,不代表它就是真的。你必须有判断能力。

AI 编程能力越来越强,但它最大的风险也在这里:它能把假的东西包装得非常真实。

2026 04 28 001630 scaled

最终总结:谁才是真正的编程王者?

通过这组测试,我们看的不只是哪个模型会写代码,而是哪个模型更接近真实开发中的可靠助手。

一个真正强的编程 AI,应该具备几个能力:

能理解需求。

能一次性生成可运行代码。

能处理交互逻辑。

能控制动画节奏。

能遵守限制条件。

能保持长逻辑一致。

能把解释和代码对应起来。

不会用看似真实的内容糊弄用户

今天这些测试从视觉效果、剧情节奏、状态管理、交互逻辑、推理一致性、UI 审美,到最后的真实性判断,基本覆盖了 AI 编程应用中非常关键的几个场景。

最后我们会发现,AI 最厉害的地方,不一定是它真的知道答案,而是它可以让一个答案看起来非常像正确答案。

这也是我们使用 AI 时最需要警惕的地方。

它可以让页面看起来像产品。

它可以让动画看起来很高级。

它可以让推理看起来很严谨。

它甚至可以让假的数据看起来像真的。

所以今天这期测试,表面上是在看 ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1 和 Gemini 3.1 Pro 谁的编程能力更强。

但更深一层,其实是在看:

哪个 AI 更会“演”。

哪个 AI 更像真的在工作。

以及我们自己有多容易被 AI 说服。

这才是这场编程王者对决真正值得关注的地方。

如果你也想亲自测试,可以用同样的提示词,把它们分别丢给不同模型,然后看它们生成的代码是否能直接运行,效果是否符合要求,逻辑是否稳定。

记住一句话:

AI 最可怕的不是不会写代码,而是它写错了,你却看不出来。

OpenAI 和微软官宣「分手」,七年 CP 终成塑料

作者 莫崇宇
2026年4月28日 16:12

就在刚刚,微软与 OpenAI 联合宣布,双方完成了合作协议的新一轮修订:云合作独家限制正式解除,知识产权授权从独家变为非独家,收入分成也重新划定了天花板。

这段始于 2019 年的强绑定关系,走到今天,终于松开了彼此的手。

而这一切的起点,要从比尔·盖茨说出「震撼」这个词说起。

2022 年 8 月,他亲自给 OpenAI 团队挑选了一道 AP 生物考试真题。他曾断言,语言模型要在这类考试中拿到高分,至少还需要三年。结果 OpenAI 只用了两个月,就交出了满分答卷。

「这是我人生中最震撼的技术演示。」他后来在播客中这样回忆。

迟到的分手

在外界眼中,微软精准押中 OpenAI,被视为纳德拉任期内最精准的一次豪赌。他一手促成的合作,直接让微软跻身 AI 战略核心,从基础设施到终端产品全面升级,一举甩开了 Google 和 Meta 半个身位。

但真正写下这份剧本的人,并不是纳德拉。

据外媒 Business Insider 披露,早在 2016 年,比尔·盖茨就已经开始定期与 OpenAI 管理层会面。第二年,他亲自给纳德拉和微软高层发去一封备忘录,预言一种名为「AI agents」的新型数字个人助手将带来全新的时代。

「agent 不仅会彻底改变人们与计算机的互动方式,它们还将颠覆整个软件行业,引发自从人们从命令行转向图形界面以来最大的一次计算革命。」

打过工的朋友都知道,来自创始人的肯定,通常比任何市场报告都更具分量。这封备忘录不仅直接点燃了微软全面押注 AI 的信心,也精准对齐了纳德拉上任后一直坚持的「移动为先,云为先」战略。

2019 年 7 月,微软正式宣布对 OpenAI 投资 10 亿美元。2023 年 1 月,微软承诺投资 100 亿美元,并获得 OpenAI 知识产权独家使用权直至 2030 年,同时享有 OpenAI 20% 收入的分成。Azure 成为全球唯一托管 GPT 系列的云平台,微软旗下各条产品线,也全都搭上了 OpenAI 的顺风车。

只是,蜜月期总会过去。ChatGPT 爆红后,OpenAI 从幕后模型供应商摇身一变,成了顶级产品公司。它不再只是给微软供血,而是直接面对终端市场:卖 API,推企业版,推出 GPTs Store,甚至开发协作文档和浏览器,大有自立门户的架势。

这也意味着,它开始伸手进了微软腹地。

两家公司的摩擦其实早有苗头。作为对 OpenAI 投资协议的一部分,微软握有通过 Azure 销售 OpenAI 模型的权利,OpenAI 也能直接卖给客户。这种「双线销售」意味着两家公司有时会向同一客户推销几乎相同的产品,让微软销售人员陷入尴尬的处境:一边宣传的是 OpenAI 的技术,另一边却要从 OpenAI 手中「抢客户」。

一份微软内部文件显示,微软要求 Azure 销售人员告诉潜在客户,OpenAI 自营的服务适合用于实验,但缺乏企业级能力,安全与隐私功能也相对欠缺。OpenAI 也不甘示弱,比如率先销售微软 Azure 尚未提供的语音识别模型 Whisper,由此签下了不少大客户,甚至包括微软对手 Salesforce,以及 Jane Street 这样的金融巨头。

但如果你以为这种别扭只是近年才有的,那就低估了这段关系的复杂程度。

早在 2018 年,也就是双方正式签约的前一年,微软 CTO Kevin Scott 就在一封内部邮件里写道:「OpenAI 把我们当成一桶毫无差异的 GPU,这对我们来说毫无吸引力。」那时候 OpenAI 还小,微软还是金主,但嫌弃已经是双向的——OpenAI 嫌微软不够纯粹、限制太多;微软嫌 OpenAI 太理想主义、商业化太慢。

这种互相嫌弃的底色,在 ChatGPT 爆红之后,被成倍放大。

到了 2025 年,双方在算力分配上的分歧彻底公开化。Altman 一方认为,微软提供的顶级芯片和云资源完全跟不上 OpenAI 的模型训练需求;微软则表示已「提供所能提供的一切」,言下之意,是 OpenAI 的胃口已经超出了任何一个合作伙伴所能承受的范围。

算力,成了这段关系里最难绕过的关键点。

鸡蛋不能放在同一个篮子里,微软早早开启了「去 OpenAI 化」的备胎计划:内部训练轻量模型 Phi 系列;收购 Inflection AI 的大模型团队,交由 Mustafa Suleyman 掌舵;推进自有企业模型 MAI,在部分 Copilot 场景中替代 OpenAI 模型;与 Hugging Face、Cohere、Mistral 等模型厂商建立分销关系。

虽然合作协议白纸黑字要求 OpenAI 和微软共享知识产权,但 Suleyman 和不少高管对 OpenAI 模型运作的透明度颇有怨言。据悉,他曾因 OpenAI 没提交 o1 模型的「链式思维」技术文档当场发火,在会议中对包括时任 OpenAI 首席技术官 Mira Murati 在内的人员直接开炮,会议最终不欢而散。

去年初,当奥特曼宣布与软银、Oracle 等合作伙伴共同启动星门计划时,这场排面十足的合作声明里,唯独缺了一个名字:微软。

微软并不是彻底被排除在外。OpenAI 的很多服务还跑在 Azure 上,微软也仍然是重要合作方。但这次星门计划释放出的信号很清楚:OpenAI 不想再把算力来源押在微软一家身上。

过去几年,微软几乎是 OpenAI 最重要的算力入口。现在,OpenAI 开始把软银、Oracle、英伟达等伙伴拉进来,自己搭一张更大的算力网。微软随后也调整了双方协议,允许 OpenAI 去建设额外算力,只保留优先选择权。

这意味着,两家的合作还会继续,但独家绑定的阶段已经过去了。

AGI 的「开关」究竟掌握在谁手里?

2019 年那份合作协议中,有一个几乎未被高调讨论的条款:如果 OpenAI 董事会认定其模型实现了 AGI,那么它有权单方面终止微软的独家使用权。

根据外媒 The Information 披露的文件,AGI 的定义被描绘得颇为具象:OpenAI 非营利董事会「在合理裁量权下」认定,AGI「已经被创造出来,具备为盈利单位的投资者带来最大可分利润的能力」,且 OpenAI 有能力和权限指挥 AGI 去实现这些利润。

当时,这更像是一个「理念性」补丁,用来安抚 OpenAI 对大型科技公司掌控的担忧。「一开始大家都觉得这事可笑。」一位参与合同谈判的人士回忆道。

但所有人都低估了技术进化的速度。Altman 先后公开表示 OpenAI 有信心构建 AGI,并称 AGI 已经显露踪迹。

纳德拉对此不买账:「我们自己宣布实现了某个 AGI 里程碑,这对我来说只是荒谬的基准作弊。真正的基准是全球经济每年增长 10%。」

微软担心 OpenAI 把 AGI 当成了脱钩的按钮。而这场拉锯战,今天终究有了结果。

2026 年 4 月,双方正式完成协议修订,各退一步,各取所需。

在云合作上,微软仍是 OpenAI 的主要云合作伙伴,OpenAI 新产品依然优先在 Azure 发布,但独家限制正式解除——OpenAI 现在可以通过任何云提供商向客户提供服务。此前已与亚马逊 AWS 签署的七年协议,从此有了明确的名分。

在知识产权上,微软对 OpenAI IP 的授权期限延长至 2032 年,但性质从独家变为非独家。微软依然拿着一张长期饭票,只是不再是桌上唯一的食客。

在收入分成上,微软不再向 OpenAI 支付分成;OpenAI 向微软的分成延续至 2030 年,比例不变,但设有总额上限,与 OpenAI 的技术进展脱钩。当初那个可能价值数百亿美元的无限分成条款,就此画上了天花板。

在 AGI 问题上,微软明确获得了独立追求 AGI 的权利,不再受制于 OpenAI 的技术路线。

与此同时,微软并未坐等谈判结果。2026 年 4 月,其内部「MAI 超级智能团队」正式推出自研的 MAI 系列模型,覆盖语音、图像、转录等多个方向,目标是在两到三年内实现 AI 能力的完全独立。

对 OpenAI 而言,这场谈判同样意义重大。重组之路已然打通,上市前景更加清晰,算力来源也完成了多元化布局。依存度或许让双方不得不坐回谈判桌,但那个由比尔·盖茨亲自促成、在 Azure 上展开的 AI 蜜月时代,已经翻篇了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我一点也不想要 OpenAI 手机|AI 器物志

作者 马扶摇
2026年4月29日 10:30

智能手机统治了过去十几年的数字生态,它是注意力的黑洞,是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑,都止于屏幕。

AI 的需求却恰恰相反:它需要持续感知物理世界——见你所见,听你所闻,随时在场,而非等你解锁屏幕才醒来。

当 AI 真正成为一种基础能力,它迟早要从屏幕里破壳而出,寻找属于它自己的形状。这将是一个漫长的探索和演化过程。

「AI 器物志」栏目由此而来,爱范儿想和你一起持续观察:AI 如何改变硬件设计,如何重塑人机交互,以及更重要的——AI 将以怎样的形态进入我们的日常生活?

这是「AI 器物志」的第 10 篇文章。

全世界体量最大的人工智能厂商之一 OpenAI,要脱离虚拟领域,开始造手机了。

根据天风国际证券著名分析师郭明錤发布的调研报告:OpenAI 正与联发科和高通接洽生产手机处理器的事宜,拟由立讯精密协助设计和生产,预计 2028 年正式量产。

这款手机最大的不同在于:OpenAI 意图将它打造成一个为 AI Agent 模式特化的产品,郭明錤是这样介绍的:

用戶的目的不是使用一堆 App,而是透過手機執行任務並滿足各種需求,這從根本上推翻現在對手機的認知。

基于已经掌握的信息,郭明錤还设计了一张这种 AI Agent 手机可能的用户界面:

图|X @mingchikuo

在郭明錤的设想图中我们可以看到,在 AI Agent 的操作逻辑中,原本熟悉的「桌面 – App」模式会被一种「Agent 任务流」所取代——

不同功能的 App 图标会变成不同功能的 Agent、软件入口会变成更加具体的任务信息(比如从微信图标变成「发送一条朋友圈」按钮)、网格化排列的桌面 UI 也会直接变成任务信息的瀑布流。

就像 Niagara Launcher 一样|Android Authority

实话说,OpenAI 要造 AI 手机这件事本身并不稀奇。

它设想的很多场景我们其实在曾经的豆包手机上都体验得七七八八了,两者的本质都是希望给 AI 更高的自由度和自主权,以拓宽使用场景。

只不过相比「O 包手机」,反而是郭明錤提到的那个「纯粹基于 AI Agent 交互模式的手机 UI 」更加令我们感到不安。

在过去一段的 AI 产品中,无论是传统大模型,还是不同形状的 OpenClaw,我们都观察到了一种趋势:

现在 AI 的用户界面(UI)越来越向着以 Agent 为主导的方向发展,最激进的形态就是启动后只显示一个对话框。

图|Google

这种交互模式看上去人畜无害,但背后却暗含着一个汇聚了所有 AI 工具使用场景的「思维模式陷阱」——

AI 正在将人类异化成为机器。

正因如此,爱范儿在这里邀请你与我们共同进行一场小小的思想实验,来尝试理解 AI 将人异化的危险性。

Agent UI 最终会消灭 UI

OpenAI 手机所期望的那种纯粹的「Agent 使用模式」最表层的问题,是 Agent UI 对于「用户界面」中「用户」部分的忽视。

而这种忽视最明显的表征,就是上面所展示的那种任务瀑布流 UI,以及很多预制式 OpenClaw 客户端的裸露对话框。

更具体的说,任务瀑布流实际上是将交互界面从我们熟悉的「以应用为中心」(app-centric)转向了「以意图为中心」(intent-centric):

这些 AI 建议就是以意图为中心的

这就导致了一个问题:UI 全部由不停更新的任务信息构成,某个特定的界面没有一个固定的入口。

比如打开顺丰 app,映入眼帘的只有每秒不停更新的在途快递进度,却找不到「修改寄件地址」的按钮。

这在心理学上被称为「客体恒常性」的缺失,相当于「我知道这个开关是做什么用的」—— Agent UI 的界面只会让人感觉到在面对一堵随时变化的墙,没有一个可以熟悉的落脚点。

另一方面,纯粹目的性导向的 Agent UI 在实质上剥夺了用户的「主动探索」空间,将使用过程变成了一种纯粹的 AI 对于用户的预判。

最简单的例子就是:在淘宝 app 上买东西的时候,我们经常是边逛边选、偶尔刷到一些没见过的好货;而 Agent UI 直接帮你跳过了「淘」宝的过程,你只是那个控制支付宝付款的人肉 ATM 而已。

更退一步说,这相当于无论用户想要做什么,AI 手机始终在催促着用户进入「赶快完成任务」的生产模式——这种粗暴的接管,本质上是对于用户权利的消解。

归根结底,Agent UI 的逻辑,其实是将人给「零件化」。

它粗暴地假设用户是一个理性的、追求效率最大化的任务处理机,打开手机的唯一目的就是要解决任务列表里面的工作。

同时,它又忽略了人作为感性的、需要审美愉悦和情感缓冲的生命体的本质。

AI 最终会促成更多 AI

除了 Agent UI 本身对于「人」的基本需求的蔑视,我们同时也要理解:是什么样的环境促成了这种「唯效率论」的 UI 设计趋势的出现——

将人的一切使用行为,压缩成一条看不到尽头的任务列表,人与机器的唯一主动交互方式被简化进一个闪烁的对话框,背后的 AI 不可见、不可知、不可碰触。

这不是 AI 辅助生活,这是向克苏鲁献祭 token。

仅就上面提到的 Agent UI 来说,这种现象其实很像是一种从 GUI 到 CLI 的倒退:

我们花了几十年完善图形技术,又在一夜间回归到了最原始的用嘴发布命令。

这种由 Agent UI 所代表的「GUI 倒车」,深深根植于幕后的技术效率至上主义。

其中一个最简单的例子,就是游戏。

虽然如今本地计算仍然是主流,花钱买显卡就能享受到精美的画面,但我们完全可以想象这样的场景:

未来,云端计算成为主流之后,更有可能出现的情况是厂商根本不再出售图形算力,因为它们赚得没有文字/代码模型多。

甚至不只是手机和电脑的 GUI、以及游戏画面,我们消费的一切内容本身都会在这种对于效率的追逐中,退化成一种湮灭美学、纯粹的精神刺激工具。

图|网络

更讽刺的是,我们对于 AI 原本的愿景是「让 AI 处理琐事,让人类去作诗」。

但如今我们看到的却是 AI 工具泛化导致了效率主义极权的泛滥,人类对「美」的感知退化只是其中的附带伤害而已。

最让人无法接受的是,Agent UI、AI 手机、Agent 行为模式的设计背后,都存在着一种先入为主式的傲慢。

这些 AI 工具的生产者认为人类只关心「结果」,所以用生成式 AI、Agentic AI 将人从「过程」中去除,却忽略了人类的「存在感」本身就来源于我们对于行为过程的认知。

用更惨淡一点的说法就是:如果我不需要参与 AI 的一切决策,只是看个结果,那还需要我做什么?

最需要警惕人变成 AI

进行到这一步,很多人会有疑问:

这不就是个想象中的手机界面嘛,至于上升到存在主义哲学的高度吗?

这句话本身并没有问题,上面提到的所谓 Agent UI 的设想图,仅仅是郭明錤基于 OpenAI 手机的产品思路,给出的一种设想方案。

⚠ 图片使用 AI 技术生成|X @birdabo

但现代社会——尤其是 AI 加速过的现代社会——的危险性就在于:如果你自己不考虑存在主义哲学,就会有很多人乐于帮你考虑,然后再朝你收钱。

前面提到的 AI Agent 的确在非常多的层面上都可以帮助人们在工作中实现更高的效率,问题在于没有人一天 24 小时都在工作,但我们一天 24 小时都会带着手机。

这种纯粹基于待办任务流的 Agent UI、纯粹由执行效率驱动的 AI 产品,会借助「手机」这个不离身的媒介,从工作侵入到你的生活,让你的生活节奏、思维节奏去习惯 AI 的步调——

不太好理解?想想那些每天黑白颠倒抓紧时间抢 Token「谷电」时间的程序员们吧。

这还只是现阶段 AI 对人类作息的初步影响。长此以往下去,用户无论在工作时间还是非工作时间,都不再是一个具有主观意志的「人」——

当我们下班累瘫在沙发上,喊 AI 手机随便帮我们点个外卖当晚饭的时候,就相当于放弃了主动思考的权利,当这种放弃成为习惯,生活的每一个环节就都会成为一个别人的商机。

换句话说,AI 手机、Agent UI 现在看上去或许人畜无害,可一旦人类习惯跟随了 AI 的节奏和方式,就会暴露出巨大的危险性。

图|Futurama

德国哲学家马丁·海德格尔在《对技术的追问》中提到了一种观点,即现代技术有一种「促迫」(challenging-forth)的特性,指的是现代技术不仅制造机器,技术本身也拥有越来越强的主体性、会「强迫」自然界交出能量和资源。

同时,促迫也可以被看作一种人看待世界的方式,海德格尔认为:当人类用「促迫」的眼光看待自然时,人类最终也会把自己看作一种可以被技术索取的资源。

是不是很耳熟,没错,人力资源(Human Resources)就是这个意思。放到现在的 AI 环境里,则是简单的一句话:

去叫人力,给这个 Opus 4.7 账号配个员工。

糟糕的是,现在的 AI 技术,以及全世界的 AI FOMO(错失恐惧症),就是这种模式的完美复现。

Agent UI 那种瀑布流式待办任务界面不仅是帮你,同时也是在 PUA 你:

这种互相加速的现象(海德格尔称之为座架 Gestell),最终会导致人类调整自己的思维模式去适配机器的吞吐速率——

为了让 Agent 更好地工作,你会下意识地让自己的需求变得更明确、更单一、更具逻辑性,相当于人类主动将自己异化(alienation)成了机器。

这就是我们在现代技术中,最需要警惕的一点:人的机器化。

伴随着 AI 越来越侵入我们工作之外的生活,我们也在潜移默化地将自己降格为一种适配机器的存在。当人为了适配 AI 的高效而放弃了「临时起意」和「无目的漫游」时,你已经从逻辑上被机器同化了。

这种机器化的下一步,就是软性淘汰——

人不会像《黑客帝国》那样变成生物电池(暂时不会),只会被炼成一个 skill。

毕竟现实证明:生物机器在效率上永远无法媲美金属机器。

人在追求效率的同时,主动或被动地将自己异化成一种生物机器,最终的结局必然是被金属的或者硅基的机器淘汰。

人类的社会生产持续追求「0 摩擦」的完美效率时,本质上是在追求一个「去人化」的过程。

而无论 Agent UI、Agent AI 还是通用智能,都只是这个过程中的加速剂而已。

当我们在参与社会生产的过程中,主动切除了所有属于人的部分,好让自己在这个以 AI 为出发点、为工具、为最终目的的系统中跑得更顺滑。

直到切除剩下的那些部分,可以被另一段代码完美地替代。

图|Youtube @Moviefone

当然,在这个小小的思想实验之外,我们都知道郭明錤的预测只是一种预测,没人说 OpenAI 手机的交互方式真的就是一个纯粹的任务瀑布流。

但人作为感性动物,我们的思维模式就是在与客体世界的不断交互中形成的。

如果一个占据我们每天 24 个小时的工具正在走向纯粹机器性的交互,那我们距离被异化成机器后淘汰的结局,也的确不远了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenClaw 小龙虾免费接入 ChatGPT Images 2.0 教程:无需 API Key,无需消耗 Token

作者 admin
2026年4月29日 20:55

今天我们主要来说一下,如何利用最新版的 OpenClaw 小龙虾,免费接入 ChatGPT 最新、最强的 AI 图片模型 ChatGPT Images 2.0

这套方案最大的优势就是:无需 API Key、无需消耗 API Token、支持 AI 生图、支持看图分析

hero


甚至还能用来做一些趣味玩法,比如看图看手相、图片理解、图片创作等

如果你之前用过 AI 图片生成工具,应该知道很多平台都需要 API Key,或者需要绑定余额、消耗 Token。而这次我们要演示的方式,整体门槛更低,非常适合普通用户、AI 爱好者,以及想做教程演示的朋友。

下面我们就一步一步来看具体的安装和使用流程。

一、准备工作

在正式开始之前,我们需要先准备好基础环境。

建议大家先安装两个必备工具:

1、Git【点击下载

2、Python【点击下载

这两个工具是运行 OpenClaw 的基础环境,后面安装和调用都可能会用到。

Git 直接下载默认安装即可,Python 也同样可以使用默认安装方式。不过这里要特别注意一点:

安装 Python 的时候,一定要勾选 Add Python to PATH 这个选项。

2026 04 29 225106

这个选项非常重要,如果没有勾选,后面在命令行里运行 Python 或相关工具时,就可能出现命令无法识别的问题。

如果你已经安装过 Python,但不确定有没有勾选 PATH,可以重新运行安装包进行修改,或者在命令行输入:

python --version

 

如果能够正常显示 Python 版本号,就说明环境基本没问题。

环境准备好以后,大家可以直接复制里面的安装命令,这样可以避免手动输入出错。

三、安装 OpenClaw 小龙虾

以 Windows 为例,我们打开 PowerShell。

建议直接使用普通 PowerShell 即可,如果遇到权限问题,也可以右键选择“以管理员身份运行”。

然后粘贴刚才复制的安装命令:

powershell -c "irm https://openclaw.ai/install.ps1 | iex"

 

回车后,系统会自动下载并安装 OpenClaw。

安装过程中,如果提示确认,按照默认选项继续即可。

等待安装完成后,可以输入下面的命令检查是否安装成功:

openclaw --version

 

如果能够正常显示 OpenClaw 的版本号,就说明安装成功了。

四、启动 OpenClaw

安装完成以后,我们就可以启动 OpenClaw。

在命令行里输入:

openclaw tui

 

运行后,会进入 OpenClaw 的本地交互界面。

第一次启动时,可能会提示你选择启动方式。一般选择推荐的方式即可,比如:

Hatch in Terminal

 

进入界面后,如果看到 OpenClaw 的欢迎信息,就说明本地环境已经正常启动。

五、接入 ChatGPT Images 2.0

这次我们重点演示的是通过 OpenClaw 接入 ChatGPT Images 2.0。如果你之前已经安装过OpenClaw,那么你可以通过下方的命令进行对接:

openclaw onboard --auth-choice openai-codex

 

这个模型可以用来生成高质量图片,也可以结合图片理解能力,对上传的图片进行分析。

它适合做很多场景,比如:

AI 海报生成
电商主图设计
视频封面设计
人物写真风格化
图片内容分析
看图解读
趣味看手相
创意插画生成

最关键的是,这种方式不需要手动填写 API Key,也不需要额外消耗 API Token,对于普通用户来说非常方便。

六、测试 AI 图片生成

接入完成以后,我们可以先测试一个简单的图片生成任务。

例如输入:

一幅等距视角的迷宫图,展现了一个极其复杂、埃舍尔风格的迷宫,漂浮在宁静的暮色天空中。迷宫由光滑的白色大理石和金色装饰构成。微缩发光的人物在倒置的楼梯上行走。极简主义与超现实主义的建筑风格,柔和的环境光遮蔽,营造出一种舒缓的美感。

 

“你的工作有着落了”!OpenAI发布研究报告“惊人结论”:AI能增加就业

作者 Cristian 钱
2026年4月30日 09:58

【GameLook专稿,禁止转载!】

GameLook报道/与国内同行普遍拥抱AI不同,海外游戏从业者对AIGC的抵触与焦虑几乎从未消退——美术、QA、配音演员乃至程序员,这些岗位始终是裁员浪潮的重灾区。

但就在这种悲观情绪蔓延之际,OpenAI却发布了一份出人意料的就业研究报告——结论颇具颠覆性:AI非但不会引发失业潮,反而可能创造更多工作岗位。

报告英文原文链接:

https://cdn.openai.com/pdf/the-ai-jobs-transition-framework_report.pdf

这份覆盖900余种职业的研究显示,AI对就业市场的冲击远比想象中复杂。虽然部分岗位面临被替代的高风险,但这些领域的从业者已经在用AI承接更大的工作量,失业率反而低于其他职业。

报告还指出:46%的职业(如教师、家政人员)受AI影响极小;24%的岗位虽可能缩减规模,但核心环节仍需人工主导;而12%的职业(如软件开发)则将因AI普及迎来明显的岗位扩张。


报告指出:“当AI让某项任务(如写代码)的产出变得更廉价、更快捷,市场对该服务的总需求往往会呈指数级增长,足以抵消效率提升带来的减员压力。目前,高风险职业的从业者实际发挥出的AI潜力,还不到理论值的四分之一。”

以下是Gamelook整理编译的报告内容:

AI正在重塑我们的工作与生活,其渗透速度之快已超出许多人的预期。随着个人与组织的能力边界被持续拓展,一系列紧迫的问题也随之浮现:AI对劳动力市场的真实影响究竟是什么?冲击将首先降临在哪里,又将在何时到来?我们又该如何确保这场AI转型能够惠及每一个人?

AI能力正以前所未有的速度跃升,早期采用者已率先尝到红利。多项研究将工作任务与AI现有能力逐一比对,指向了立竿见影且波及广泛的经济影响。但与此同时,整体劳动力市场的实际反应依然参差不齐,有时甚至相互矛盾,折射出新技术普及过程中惯有的摩擦与阻力。这并不意味着我们可以掉以轻心——AI能力推进之猛,更大范围的冲击随时可能到来。

面对持续涌现的更强大模型,OpenAI希望帮助个人和组织理解并提前应对这场转型。为此,本报告提出了一套超越传统”AI暴露度”测量的分析框架,并以来自ChatGPT的真实使用数据加以验证。这一框架融合了四个维度:AI在哪里具备能力;人类在哪里仍不可替代;成本降低后需求会如何变化;以及AI实际上正被用于哪些任务。四个维度叠加,勾勒出一幅更清晰的近期图景——哪些工作最可能率先承压,哪些更可能被重新设计,哪些则有望迎来增长。

引言

现有的大多数AI劳动力市场分析,都从同一个问题出发:哪些工作最容易受到AI冲击?这是一个重要的起点,但远不够用。”暴露度”只能告诉我们AI在技术上触及了哪些领域,却无法单独判断哪些工作在近期最有可能被自动化取代、被重新设计,或因此得到扩张。

三年前,OpenAI研究人员发表了那篇研究AI潜在劳动力市场影响的标志性论文。此后,AI能力的跃升已大幅提速,且随着更强模型的持续推出,这一势头只会加剧。然而,AI对劳动力市场的实际影响依然不均衡,难以准确量化——即便是在AI已能胜任大量任务的岗位上,人类至今仍是主导者。

本报告提出的”AI就业转型框架”,将三个维度融合在一起:技术暴露度、人类必要性与需求弹性,并以ChatGPT的实际使用数据加以验证。研究覆盖900余个职业、约1.537亿个岗位(占美国就业总量的99.7%),为我们呈现出更清晰的近期图景。当然,从长远来看,许多职业的边界本身是可变的,技术的进一步演进也将持续重新定义”人类必要性”的内涵。

运用这一框架,我们将工作分为四类:

高自动化风险工作(18%):面临更高的短期自动化风险

近期变化较少的工作(46%):不太可能经历近期明显变化

因AI增长的工作(12%):可能因AI而扩大规模

将要重组的工作(24%):任务构成转变,但仍需人工参与关键环节,整体就业规模可能收缩

换言之,许多高度暴露的工作,与其说面临”即将被取代”的风险,不如说更可能走向重组或扩张。值得注意的是,实际AI使用情况在各类别之间差异悬殊——被框架识别为最具自动化风险的职业,ChatGPT使用频率约是受冲击较小工作的3倍。即便AI在受影响较小的岗位同样具备相当能力,这一差距依然存在。能力与使用之间的落差,恰恰揭示了单纯依赖暴露度测量的局限:有能力,不等于正在改变。

强大AI时代,人类的关键角色

即便AI承担的底层认知工作越来越多,许多职业的核心仍由人类把持。这往往是客观现实所决定的——体力劳动、人际关系或受监管的责任,都有硬性的人工需求。我们用”人类必要性”衡量这种需求强度,并将每个职业归入三类:

监管与问责必要性:工作要求持证者批准或做出决策,或必须由人对结果负责;

关系必要性:服务的价值依赖于信任、关怀、说服、教育或人际连接(主要取决于当下人们的偏好,可能随时间演变);

物理必要性:职业要求在现实世界中从事体力劳动,包括上门护理、现场检验或体力操作。

这正好解释了为何暴露度无法直接对应自动化风险。教师在课程规划或内容生成上或许面临高暴露,但关系与制度的双重锚定依然强大——孩子们需要真实的老师。护士在文档整理和信息综合上可能同样高度暴露,但物理操作与问责责任仍是核心——患者需要护士亲身在场。

不过,人类留在岗位上并不等于劳动力市场一成不变。即便是”人类必要性”很高的职业,若AI大幅提升了工人生产力,而商品或服务的整体需求无法同步扩大,就业压力依然会来。这些”必要性”本身也会随时间演变:机器人技术的进步会松动体力必要性,社会偏好的转移则会影响关系必要性。

需求弹性,即价格变动时需求随之变化的幅度,是连接生产力与就业的关键纽带。若AI降低了某种商品或服务的供给成本,相关职业的就业走向并非一目了然。价格下降往往带动消费上升,有时甚至会推动受影响行业整体扩大招聘规模。OpenAI认为,这是AI长期影响劳动力市场的潜在关键变量——尽管其展开速度目前尚不明朗。

AI就业转型框架:四类职业命运

综合上述维度,框架围绕四个核心问题展开:

AI能够承担该工作中有意义的任务比重吗?

若AI降低了提供服务的有效成本,需求是否能够扩大到足以吸收生产力提升带来的增量?

在剩余任务中,人类是否仍然是工作交付、判断、问责或体力执行的核心?

AI是否已经在这些任务中被有意义地实际使用?

依据这一框架,职业被划入四种可能的转型前景:

高自动化风险工作:暴露度高、人类必要性弱、需求扩张不足或不确定,无法抵消就业减少效应(约占18%)。

将要重组的工作:暴露度高且人类必要性强,但需求弹性不足以吸收生产力增量。工人仍不可或缺,但整体人数可能减少(约占24%)。

因AI增长的工作:暴露度高,且需求反应足够强烈,更低的有效成本可能提升使用率、可及性或质量调整后产出(约占12%)。

近期变化较少的工作:当前暴露度、必要性与弹性的组合,尚未明确指向某种主导的近期结果(约占46%)。

这一框架的价值在于,它能够还原那些在单纯暴露度测量中被淹没的差异。即便在暴露度最高的职业内部,工作之间在人类必要性和需求弹性上也存在显著差异。因此,许多高度暴露的工作,更适合被理解为重新设计和规模扩张的机会,而非即将到来的自动化替代;而另一些则更像是”未来风险”,技术潜力还未被实际采用追上。

此前关于”能力悬垂”的研究(以及Massenkoff和McCrory 2026年的最新研究)已经揭示,AI的实际使用明显落后于AI的实际能力。通过汇总匿名化的消费者工作相关ChatGPT使用数据,我们在职业层面进一步印证了这一判断。

在每一个职业大类中,当前实际使用均落后于理论潜力。部分领域的AI应用正在加速渗透,尤其是法律、教育和办公/行政类工作;而餐饮准备与服务等领域,由于AI现有能力与工作内容本身关联度较低,即便是理论上AI能够胜任的任务,实际使用率也依然偏低。

各类别的”能力悬垂”(AI理论潜力与实际使用之间的差距)如下所示:

高自动化风险工作:实际暴露23.8%,理论暴露90.0%,差距66.2个百分点;

因AI增长的工作:实际暴露22.7%,理论暴露72.4%,差距49.7个百分点;

将要重组的工作:实际暴露14.9%,理论暴露67.1%,差距52.3个百分点;

近期变化较少的工作:实际暴露6.4%,理论暴露27.4%,差距21.0个百分点。

值得关注的是,从2024年第一季度到2026年第一季度,在被预测为”近期变化较少”职业中就业的人群,失业率上升幅度反而最大,达+0.6个百分点;而”高自动化风险”和”将要重组”两类群体的失业率仅各上升了+0.3个百分点。这说明,尽管AI与就业变化之间存在某种关联,但要在宏观劳动力市场层面清晰地建立这种因果联系,目前仍十分困难。局面可能随时骤变,这正是为何这些职业值得持续密切追踪,也是为何政府应当投入资源改善职业测量体系——唯有如此,公众才能真正理解、评估并有效回应AI对劳动力市场的冲击。

结语

暴露度只是分析的起点。真正有行动价值的信号,来自暴露度与人类必要性、需求弹性的交叉组合。正是这三者之间的相互作用,决定了AI究竟是会压缩劳动需求、改变工作内容,还是推动经济活动的整体扩张。

在这一框架中,职业暴露度帮助我们识别哪些岗位与AI能力存在交集,但它目前与就业变化的相关性并不强。实际使用与理论暴露之间的差距,区分了真正的”免疫”与尚未扩散的”迟滞”。人类必要性与需求弹性则有助于解释:为何某些职业可能长期以人类为主导;为何另一些可能出现编制压缩;以及为何还有一些会随成本下降、服务扩大而实现增长。

我们对未来的预测能力是有限的,长远的劳动力市场走向尤其难以推断。但在较短的时间维度上,这一框架应当有助于描绘劳动力市场可能的演进路径,并为政策制定提供参考——推动一场更平顺、更以人为本的AI转型,或许正是当下最值得着力的方向。

OpenAI「复活」了 QQ宠物,网友直接玩疯,把奥特曼和他死对头都养在了电脑里

作者 张子豪
2026年5月3日 16:22

谁不想在自己的电脑上养一只小宠物,打开电脑,它就坐在那里看着你工作。

OpenAI 最近在 Codex 上的更新,引入了类似电子宠物 Tamagotchi 的桌面悬浮伴侣。

我们可以在摸鱼的时候,把鼠标悬浮到小宠物上逗它,还能拖着它在屏幕的各个位置游走;而在工作的时候,这只悬浮宠物还会实时显示 Codex 的工作状态。

和之前 Anthropic 在 Claude Code 终端里推出的像素宠物不太一样,Codex 的这只会全局地在我们的电脑上呈现。无论切换到哪个 App,它都在那个角落。

以前是人与人的聊天软件里,像是 QQ,需要一个 QQ 宠物从桌面右下角蹦出来,给它取一个名字,建立情感的联系,而它会告诉我们消息来了。

现在这件事,来到了人与 AI 的故事里。

从微软大眼夹到 Mac 访达笑脸,万物皆可宠物化

Codex 官方内置了 8 款像素风的基础宠物,包括默认原始的经典 Codex 形象,还有一只整洁的小鸭子 Dewey、适合快速迭代项目的火球 Fireball,以及一只小小的蓝屏捣蛋鬼 BAOD(Blue Screen of Death) 等。

我们可以在 Codex 设置>外观 最下面的宠物部分找到配置的相关信息。

▲Codex:最初的 Codex 伙伴。|Dewey:一只整洁的小鸭,适合平静工作的日子。|Fireball:热路径能量,适合快速迭代。|Rocky:当 diff 变得很大时,它是一块稳稳的石头。|Seedy:为新想法冒出的小绿芽。|Stacky:一个平衡的堆叠,适合深度工作。|BSOD:一只小小的蓝屏捣蛋鬼。|Null Signal:来自虚空的安静信号。

但真正有意思的是,Codex 的自定义宠物功能。

通过使用 Codex 自带的 /hatch 指令,我们可以上传任何图片,Codex 会自动把它孵化成一个动画宠物,并保存在本地文件夹中,方便我们打包分享给其他人。

使用 /hatch 指令之前,我们还需要输入命名 $Skill Installer hatch-pet 来安装自定义宠物的 Skill。它会自动从 OpenAI 的官方 GitHub 仓库里面,下载对应的 Skill 文档。

▲Skill 文档链接:https://github.com/openai/skills/tree/main/skills/.curated/hatch-pet

准备就绪,我们使用 hatch pet Skill 输入 $hatch-pet 做一个 labubu 的桌面宠物

Codex 会自动按照 Skill 里的流程,先生成一张主图,根据这张主图再生成 idle、running-right、running-left、waving、jumping、failed、waiting、running、review 等多种不同状态图片。

每一种状态,Codex 都会生成 4-8 帧的图片。

等待它生成全部状态的图片,合成为动画,我们就能得到一个自定义的桌面电子宠物。

社交网络和开发者社区也利用这一功能,创作了大量能提升 vibe coding 幸福感的桌面宠物。

像是恶搞 Anthropic CEO,做了一个愤怒的达里奥,还有奥特曼,「一个有趣的像素风格 Sama 灵感宠物,带着焦虑的斜视眼睛,头上戴着太阳镜,穿着灰色T恤和牛仔裤,散发出混乱会议室的能量。」

▲Codex 宠物大全,PetShare 平台:https://codex-pet-share.pages.dev/

一些怀旧党立刻复刻了微软经典的大眼夹(Clippy),那个在我们新建文件、打开文件夹,都会跳出来,多两句嘴的桌面宠物,用 Codex 获得了新生。

苹果粉丝,就用 Codex 这套 Skill 做了一个相当生动的 Mac Finder(访达)笑脸小人 Lil Finder Guy,让它悬浮在程序坞上方,仿佛系统原生的一部分。

甚至还有人做出了乔布斯版本的宠物,以及像是 DeepSeek 的那只鲸鱼等。

▲另一个宠物社区,Petdex:https://petdex.crafter.run/

▲ 来源:https://x.com/GOROman/status/2050343893921923145

在极短的时间内,PetShare 和 PetDex 这样的社区驱动型宠物图鉴网站,如雨后春笋般涌现。

多邻国的那只猫头鹰、经典动漫角色龙珠里的悟空、神探福尔摩斯、旅行青蛙、哈利波特、哆啦 A 梦等等,都成了 Codex 的热门宠物选择。

▲电影《拯救计划》里的 Rocky

为了给这波热潮添把火,OpenAI 甚至官方下场举办了比赛:只要你生成的宠物被官方选入「最喜爱的 Top 10」,就能获得 30 天的 ChatGPT Pro(200 美元/月)奖励。

我们也在 Codex 里生成了一些小宠物,都是通过简单的两三个字的提示词。像是「做一个原神里旅行者荧的桌面宠物」,不过需要注意的是,生成自定义宠物需要的时间较长,同时消耗的额度也比较大。

▲ 在生成第二个桌面宠物时,直接提示 5 小时内额度用完了。

更多 Codex 桌面宠物案例:

PetShare:
https://codex-pet-share.pages.dev/#/?sort=popular

PetDex:
https://petdex.crafter.run/

电子宠物是 AI 的灵动岛

把这些自定义的宠物放到 Codex 里面也非常简单,可以直接下载文件压缩包,复制到对应的文件夹,然后在设置里进行选择。

直接在 Codex 中输入简单的 /pet 指令,我们的桌面上也能快速召唤出一个活蹦乱跳的电子宠物。

这个电子宠物,除了可爱,还确实有一点用处。

它不写代码,不 debug,唯一的工作是偶尔弹出对话气泡,告诉我们 Codex 正在后台做什么——「思考中」「任务完成」「需要你来决定一件事」。

任务完成了,点它一下,直接回复,继续。

▲ 一边刷 X,一边提醒我 Codex 进度

以往我们无论是用 Claude Code、OpenClaw,还是就在 DeepSeek 里面聊天,把一个任务交给他们,总是时不时需要切回对应的窗口,看看它是不是卡住了,是不是还在思考。

现在,这只悬浮在屏幕最顶层的宠物,会通过气泡和动作告诉我们 Codex 的后台状态。

基于生成的多种状态,这只桌面宠物,如果开始在挠头了,就说明它正在「思考」;它弹出气泡,就说明它完成了任务,或者需要我们提供进一步的输入。

更有意思的是,如果我们在它发消息时点击它,就可以直接开启一条回复 AI Agent 的双向通道。它就像是 macOS 桌面上的一个跨应用灵动岛,让我们在专注当前工作流的同时,对 AI 的进度了如指掌。

一直在更新的 Codex

电子宠物的功能在社交媒体上给 Codex 带来了又一波的好评,网友们都在说,这也太可爱了,情绪价值非常到位。

看着自己喜欢的小宠物在桌面上跳动,要比看着进度条转圈要心情好上不少。

但 Codex 这次在更新桌面宠物的同时,还悄悄放了两个新功能。

Codex 现在能够自动检测我们的电脑上,是否有其他 AI 编程工具,比如 Claude Code 留下的配置文件。

一旦检测到类似如 CLAUDE.md 的文档,它会主动建议并一键导入所有的插件、项目约定和自定义规则。

如果你也是为了避开不同平台的使用频率限制,让在多个 AI 之间反复横跳,这项更新降低了一定的切换成本。

另一项更新是在 Codex 内新增了「听写词典」,允许我们预先录入个人的常用缩略语和短语。

对于习惯用语音让 AI 写代码的用户来说,专有名词和缩写经常会被错误识别,导致反复修改。现在通过添加对应的条目,可以让减少我们纠错的麻烦。

OpenAI 也开始用最频繁的更新,把用户留在自己的生态里。

配置文件的跨端迁移、更懂用户的语音工具,加上那些在屏幕上挥手、打盹、偶尔还会抖动一下的悬浮宠物……

奥特曼在 X 发文说,感觉 Codex 正在经历 ChatGPT 时刻。

虽然事后奥特曼解释是 Goblin 时刻,但是 Codex 这接二连三的更新,也能看到 Codex 确实正在向一个更完整的、具备极高粘性的桌面「超级应用」进化。

在 AI 能力逐渐同质化的今天,产品的魅力和情绪价值,变得和代码生成能力一样重要

就像那位做出 Lil Finder Guy 宠物的网友,分享了一段 AI 发给他的话,宠物用乔布斯的腔调说:

致敬那些小小的存在,那些悬在 Dock 上摇摇晃晃、时不时打个盹的小帮手,它们让工作变得轻一点。致敬 Codex 宠物。

好了,看着桌面上那个正冲我挥手的像素小怪物,我可能也得出门去溜达一圈了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI总裁的私密日记,被马斯克律师当庭念出:让我赚到10亿美元

作者 张子豪
2026年5月6日 14:24

OpenAI 成立前夜,核心大脑 Ilya 差点反悔留在谷歌。

马斯克的律师举着一本被强制公开的私密日记,当着所有人的面,一字一句地读出了 OpenAI 总裁 Greg Brockman 在夜深人静时的盘算
「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元。」

暴怒的马斯克摔门离去,Greg Brockman 在座位上瑟瑟发抖,「真以为他要动手打人」。

这场 AI 世纪庭审现场的走向,比任何一部美剧都要荒诞。

54 岁的马斯克和 41 岁的奥特曼,在 X 上多年以来的互相指责,到了刺刀见红、对簿公堂的这天。

马斯克在第一周的庭审上作证三天,重复最多的一句话是:「你们不能偷一个慈善机构。」

2015 年他出钱出力出名气,帮奥特曼和 Greg Brockman 创办了 OpenAI,承诺 OpenAI 是一个非营利的 AI 研究机构,目标是对抗 Google 的 AI 垄断。

他总共捐了约 3800 万美元。结果 ChatGPT 出来了,公司估值 8500 亿美元,Brockman 个人持股价值 300 亿美元,而他什么都没拿到,还在 2018 年被踢出了董事会。

他说:「是我想出了这个主意,是我起的名字,是我招募了核心人才,把我知道的都教给了他们,提供了所有初始资金。」

马斯克对 OpenAI 及其主要合作伙伴微软提出了超过 1500亿美元 的索赔。他不仅要求赔偿,还要求法院罢免奥特曼的董事会职务,并撤销 OpenAI 转向营利性公司的决定。

OpenAI 则认为,马斯克的诉讼主要是为了打压竞争对手,因为马斯克目前拥有自己的 AI 公司 xAI。

他们提到,在 2017-2018 年间,马斯克本人也曾试图推动 OpenAI 转向营利性结构并寻求绝对控制权。

OpenAI 律师在交叉质询中出示了 2017 年的文件,显示马斯克自己的助理 Jared Birchall 注册了一家名为「Open Artificial Intelligence Technologies」的公司,一个营利性的 OpenAI 替代版本,是马斯克自己主导的。

他也想要那个营利性结构。只是他没能掌控它。

在马斯克作为证人开庭的前两天,他给 Greg Brockman 发了条短信,试探和解可能性。

Brockman 回复:要不双方各撤诉吧。马斯克主动求和没有得到想要的结果,决绝地回应:「本周末结束前,你和奥特曼将成为美国最被痛恨的人。如果你们坚持,就这样吧。」

你根本不懂 AI

在外界看来,马斯克是那个高瞻远瞩、为 OpenAI 注入灵魂和早期资金(约 3800 万美元)的教父;但在 OpenAI 的核心团队眼里,这位亿万富翁缺乏对底层技术的敬畏。

新一轮的庭审坐在证人席的是 OpenAI 的 Greg Brockman,他也毫不留情地揭开了马斯克打造的叙事。

当被问及为何当初不愿意让马斯克担任 OpenAI 营利性实体的 CEO 时,Greg Brockman 的回答极其直白:「他懂火箭,他懂电动车。但他以前不懂,我相信他现在也不懂 AI。」

他继续补充了更多细节,研究员 Alec Radford 曾向马斯克展示过一个极其早期的语言大模型,即 ChatGPT 的雏形。

马斯克输入提示词后,对生成的答案极不满意。他当着研究员的面抱怨「这东西太蠢了」,在第二次尝试依然未能如愿后,马斯克留下一句极其刺耳的嘲讽:「这系统蠢到连网上的小屁孩都能做得比它好。」

在算力成本从 2017 年的 3000 万美元狂飙至 2026 年 500 亿美元的今天,大模型的暴力美学已经被证明是成功的王道。但在当时,马斯克的急躁与轻视,让 Greg Brockman 等人坚定了不能将 AGI 交给他的决心。

可以要他的钱,但绝不能让这个人当 CEO,掌控人类未来的 AGI。

我以为他当时就要揍我

当时,为了筹集巨额的算力资金,双方都在试探成立「营利性结构」的可能性。

马斯克给出的方案极其霸道:要么给我绝对控制权,要么把 OpenAI 直接并入特斯拉,用特斯拉的超算来对抗谷歌。

Greg Brockman 表示当时他们感到了深切的恐惧。

时任 OpenAI 的首席科学家 Ilya Sutskever 在给马斯克的邮件中写下了一段话:「我们的目标是避免 AGI 被垄断。如果创造一个结构,让你想绝对控制就能控制,那一定是个坏主意。」

为了安抚马斯克,会议当天,Ilya 甚至亲自画了一幅特斯拉的画作为「善意的信物」送给他,团队还接受了马斯克赠送的几辆特斯拉汽车。但这种近乎讨好的举动,在马斯克对 OpenAI 权力的核心诉求面前不堪一击。

在这场会议上,当 Greg Brockman 委婉地表达团队拒绝交出单方面控制权时,马斯克一言不发地坐了几分钟,随后突然站起,暴怒地绕着桌子走。

Brockman 在证词中说,那一刻他「真以为马斯克要动手打人」。结果,马斯克一把抓起那幅特斯拉的画,摔门而出,并留下最后通牒:「我会停止提供资金,直到你们决定到底要干什么。」

画被拿走了,资金断了,昔日的盟友正式走向决裂。

硅谷的城府和一本日记

明面上的资金断了,暗地里的互相防备却开始了。

Brockman 在法庭上还提到,马斯克曾满脸「负罪感」地把他叫进办公室,坦白自己暗中挖走了 OpenAI 的核心大将 Andrej Karpathy,去给特斯拉搞自动驾驶。他还强硬地要求 OpenAI 团队裁掉那些「没有重大贡献」的员工。

而在 OpenAI 这边,高管们也明明知道董事会成员 Shivon Zilis 与马斯克有着极其特殊的私人关系,却隐忍不发,利用这层关系维持着脆弱的平衡,直到马斯克彻底亮出 xAI 这个竞品,才将 Shivon Zilis 清理出局。

但比这些权衡更有意思的是,一本 Brockman 写了十年的私密日记。

这本原本藏在电脑深处的日记,在法律程序的强制要求下被公之于众。

马斯克的律师在法庭上,当着所有人的面,一字一句地读出了这位 OpenAI 总裁在夜深人静时的内心盘算:「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元」,以及「如果三个月后我们做共益企业(b-corp),那就是在撒谎。」

OpenAI 律师团队的辩护是:日记是私人思考的真实流露,里面充满自我怀疑和未经过滤的想法,被断章取义了。

OpenAI 上线前一秒,网站还在修改

「如果不是马斯克领导,根本没人会加入 OpenAI。而且他们收了他的钱之后又把他踢了出去。这其实挺不公平的。」

Greg Brockman 还分享了 OpenAI 在发布前差点失去 Ilya Sutskever 的完整故事。

Ilya Sutskever 当时在 Google,已经写好了告别邮件,准备跳槽过来。结果当天晚上,他发了一封标题叫「sad news」的邮件给 Brockman:「我太遗憾了。我实在无法离开 Google。」

与此同时,DeepMind 的员工在一场行业会议上挨个找 OpenAI 的潜在招募对象,告诉他们:「没有人会加入 OpenAI 那个实验室。它是一艘沉船。」

Brockman 为 OpenAI 的官网准备了两个版本,一个有 Sutskever,一个没有。他在最后截止时间发出一条消息,只问了一个字:来还是不来。然后他看着消息框里出现了输入提示符,一直跳,一直跳。然后是一个字:「Alright。」

Brockman 给 Altman 发短信:「他来了。」

马斯克说没有他 OpenAI 就不会存在,这话也许不假。但如果 Sutskever 那天晚上没有改变主意,OpenAI 也不会存在。

面对谷歌的财大气粗,奥特曼原本只敢对外宣布 1 亿美元的融资。

但马斯克极力反对,他明白在硅谷,声量就是生命线。他强硬地表示:必须宣布 10 亿美元,否则显得毫无希望。别人不出的钱,我全包了。

尽管后来马斯克实际上只掏了约 3800 万美元,但这句 10 亿美元的虚张声势,也算是帮初生的 OpenAI 稳住了阵脚。

控辩双方争了很多细节,但 Brockman 证词最后归结到一个问题:非营利结构的承诺,究竟是 OpenAI 对外界的法律义务,还是创始人对自己的道德期许?

马斯克律师 Gerrada 在庭上出示了 OpenAI 2015 年向特拉华州提交的注册文件,里面明确写道,

「本公司的具体目的是为人工智能相关技术的研究、开发和分发提供资金……所产生的技术将造福公众,并在适用时寻求开源……本公司不以任何个人的私利为目的。」

然后他问 Brockman:2017 年到 2018 年之间关于营利性结构的讨论,是不是和这份文件的精神相违背?如今你通过营利性实体,坐拥潜在 300 亿美元财富。

Brockman 的回答是:使命本身没有变,只是结构变了。非营利性的使命可以在营利性的结构下继续实现。

Brockman 的证词预计在 5 月底结束,与马斯克育有四个孩子的 Shivon Zilis、OpenAI 前联合创始人,以及奥特曼随后都将出庭作证。

案件的结果会直接影响当前的 AI 军备竞赛。如果马斯克胜诉,正在筹备史上最大规模 IPO 之一、估值高达 7300 亿美元的 OpenAI 可能会遭到毁灭性打击。

如果 OpenAI 胜诉,奥特曼将彻底巩固对这家拥有 4000 多名员工的巨头的控制权。

参考信息
https://www.theverge.com/tech/917225/sam-altman-elon-musk-openai-lawsuit

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT,别再「稳稳接住我」了|附指南

作者 张子豪
2026年5月8日 17:42

晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。

都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。

盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。

▲ChatGPT 的常用口癖

除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。

有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。

社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。

表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。

▲图片来源:小红书@Lijie_11

还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。

这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。

无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。

▲项目地址:https://not-a-devstudio.github.io/jiezhu/

举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」

OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。

漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」

自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。

我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。

用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。

AI 第一句被全民模仿的中文台词

在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。

一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。

但翻译成中文之后,它变得又长又戏剧化。

我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗

其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。

有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。

这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。

它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。

这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。

而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。

所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。

问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。

一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。

另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。

久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。

类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。

深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。

每个「人」都有自己的口癖

本以为换个模型,耳根就能清净清净。

事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。

Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。

前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。

但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」

将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。

没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。

之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。

情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。

在知乎上有一个类似的问题,底下有一条回答特别有意思。

他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。

确实,我想真正在场的人,从不需要宣告自己在场。

最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。

▲提示词来源:https://linux.do/t/topic/1924570

硬约束

– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构

沟通

– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节

中文输出规范

适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。

GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):

暴力倾向类(把技术操作比喻成暴力行为):

– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门

废话连篇类(无意义的开头、总结或过渡):

– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对

庸医问诊类(把代码问题比喻成看病/诊断):

– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型

不说人话类(生造的口语化/黑话表达):

– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的

单音节动词滥用(在技术语境中不自然的单字动词):

– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”

机械感/工业感比喻(把代码比喻成机械零件或物理操作):

– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实

过度主动/逼迫用户确认(制造虚假紧迫感):

– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…

谄媚/讨好类(过度吹捧用户或制造情感依赖):

– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗

虚假确定性(对自己的修复过度自信):

– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以

整句模式(典型 GPT 句式,正常人不会这么说):

– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”

正面锚点:

– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

GPT-5.5 Instant 正式上线:免费用户也能用,ChatGPT 终于越来越像“真人”了

作者 admin
2026年5月8日 23:23

如果你最近还在用 ChatGPT,那么这次升级你一定要注意。就在昨天,OpenAI 正式发布了全新的 GPT-5.5 Instant,并直接替换上一代模型,成为 ChatGPT 的默认模型。但真正让人意外的,并不是性能参数。而是免费用户现在也能直接使用 GPT-5.5 Instant

过去很多新模型,往往只有 Plus 或 Pro 用户才能第一时间体验,而这次 OpenAI 的策略明显变了:不再只服务少数高付费用户,而是让普通用户也能直接体验最新 AI。

只要你有 ChatGPT 账号,现在就已经可以使用 GPT-5.5 Instant。

而且除了网页端之外,目前很多主流 AI Agent 工具,也已经可以通过网页授权或 API 的方式,直接接入 GPT-5.5 Instant。

这次升级,重点不是“更强”

很多人看到新模型,第一反应就是:

  • 参数更大?
  • Benchmark 分数更高?
  • 推理能力更强?

但实际上,这次 OpenAI 的重点非常明显:

不是让 AI 更会“炫技”,而是让它更像一个真正能长期使用的 AI 助手。

相比过去一味追求“高分”,GPT-5.5 Instant 更像是在解决真实用户每天都会遇到的问题:

  • AI 太爱废话
  • 容易一本正经胡说八道
  • 回答机械
  • 不够自然
  • 不懂上下文
  • 不知道什么时候该联网搜索

而这些,恰恰才是普通用户最在意的地方。

第一大变化:幻觉率明显下降,回答更靠谱了

过去大模型最容易被吐槽的一点,就是:

“一本正经地胡说八道。”

尤其是医疗、金融、法律、数据分析等高风险领域。

很多模型看起来说得头头是道,但实际上逻辑已经错了。

而 GPT-5.5 Instant 这次明显加强了复杂问题中的稳定性。

它不只是“继续回答”,而是更容易发现用户问题里的错误,并主动重新推导。

举个很典型的例子。

以前很多模型在数学题里,如果用户前面的计算过程已经错了,它会顺着错误继续往下算。

但 GPT-5.5 Instant 更容易发现:

  • 原逻辑不成立
  • 中间步骤有问题
  • 代入后结果不对

然后重新开始计算。

这其实代表 AI 的发展方向已经开始变化:

不再只是“更会说”,而是“更少说错”。

这一点,对普通用户来说,比 Benchmark 分数更重要。

第二个变化:AI 味终于没那么重了

很多人应该都有同感:

以前 AI 的回答,真的太“像 AI”了。

动不动就是:

  • “这是一个非常好的问题”
  • “下面我将从三个方面为你分析”
  • “如果你需要,我还可以继续帮你……”

刚开始觉得礼貌,用久了真的会累。

而 GPT-5.5 Instant 这次最大的感受之一,就是:

“终于没那么像客服机器人了。”

它明显减少了:

  • 过度奉承
  • 机械化条列
  • 无意义前言
  • 重复废话
  • 疯狂追问

回答会更加直接、简洁,也更像真人交流。

这一点其实非常重要。

因为大多数时候,用户真正想要的并不是一篇论文。

而是:

  • 一个清楚的答案
  • 一个能直接用的结果
  • 一个不浪费时间的回复

这次升级,在“体感”上会非常明显。

第三个变化:越来越像个人 AI 助手

这次 ChatGPT 的另一个方向也非常明显:

它正在从“问答工具”,变成“长期陪伴型 AI”。

GPT-5.5 Instant 在上下文理解和历史聊天参考能力上,比上一代更强。

简单来说:

它会更懂你。

包括:

  • 你的使用习惯
  • 你的兴趣方向
  • 你的内容偏好
  • 你过去问过的问题

这样它给出的建议,也会更贴近个人需求。

例如:

同样是推荐内容,它不再只是给你一个泛泛答案,而是会结合你之前的聊天记录、使用场景、所在地等信息,给出更精准的建议。

这意味着:

ChatGPT 已经不只是聊天工具。

而是在往“个人 AI 助理”的方向发展。

第四个变化:多模态能力继续增强

虽然这次 OpenAI 更强调“体验升级”,但 GPT-5.5 Instant 的硬实力其实也在提升。

包括:

  • 数学推理
  • 科学分析
  • 图表理解
  • 图片识别
  • 文件总结
  • 多模态能力

相比上一代模型,都更加稳定。

尤其是图片理解。

现在它不仅能“看图”,而且更容易抓住重点。

例如:

上传一张 Windows 更新失败截图,它不只是重复错误代码,而是会直接告诉你:

  • 最关键的问题是什么
  • 为什么会发生
  • 应该优先处理什么
  • 具体命令怎么执行

这点对于普通用户来说,实用价值非常高。

以前很多报错:

你需要自己去网上搜索半天。

现在直接把截图丢给 ChatGPT,它就能帮你分析问题。

这种体验一旦习惯以后,真的很难回去。

第五个变化:联网搜索终于更聪明了

AI 最大的问题之一,其实一直都是:

“资料可能已经过时。”

而 GPT-5.5 Instant 现在明显更会判断:

什么时候需要联网搜索,
什么时候直接回答即可。

比如你问:

  • 最新显卡价格
  • OpenAI 最新政策
  • 免费用户额度限制
  • 产品是否更新

它会主动联网核对官方信息,而不是凭记忆乱答。

这一点其实非常关键。

因为很多时候:

模型不一定“不聪明”,而是“信息已经过期”。

而现在 GPT-5.5 Instant 在联网判断上的体验,明显更成熟了。

对内容创作者来说,这次升级非常实用

这次我实际测试下来,最大的感受之一是:

它越来越适合做“内容辅助”。

例如:

  • 视频框架
  • 标题优化
  • 内容整理
  • 提纲生成
  • 观点拆解
  • 新闻对比
  • 文案扩写

这些能力,提升都非常明显。

尤其是在结构化内容方面。

现在很多人用 ChatGPT,已经不只是问问题。

而是直接把它当成:

  • 视频策划助手
  • 自媒体编辑
  • 内容整理工具

例如:

你给它一篇文章,它可以直接帮你整理成:

  • 视频标题
  • 开场 Hook
  • 核心观点
  • 争议点
  • 结论
  • 分镜结构

甚至还能生成多个高点击方向。

对于做视频、自媒体、运营的人来说,这种提升其实非常实用。

因为真正耗时间的,很多时候并不是“写”。

而是:

“先把内容结构搭起来。”

免费用户,这次是真的赚到了

过去很多 AI 升级,其实和普通用户关系不大。

因为最强功能通常都锁在付费层。

但这次不同。

GPT-5.5 Instant 已经开始面向免费用户开放。

虽然会有一定额度限制,但对于绝大部分普通用户来说,其实已经够用了。

这意味着:

未来越来越多普通用户,会真正开始把 AI 当成日常工具。

而不是偶尔玩一下的新鲜玩具。

总之:ChatGPT 正在进入“真正好用”的阶段

这次 GPT-5.5 Instant 给人的感觉,不是一次单纯的性能升级。

而更像是:

OpenAI 开始真正解决“用户体验”问题。

它不再只是追求:

  • 更高分数
  • 更长上下文
  • 更复杂推理

而是开始关注:

  • 回答是否自然
  • 是否靠谱
  • 是否真正能帮到人
  • 是否适合长期使用

而这些,才是普通用户每天真正能感受到的变化。

也许未来真正改变普通人的,并不是“最强 AI”。

而是:

一个越来越懂你、越来越自然、越来越像助手的 AI。

 

 

Codex 現在也能當成 Typeless 使用,在桌面任何地方使用語音轉文字!這篇教你怎麼打開

作者 Rocky
2026年5月13日 14:34

OpenAI Codex 真的越來越強大,不僅能寫程式、執行各種任務、操作電腦和瀏覽器,連語音輸入文字的功能現在也支援全域聽寫了,意味著不只是 Codex,你還可以在瀏覽器、備忘錄、Slack、Obsidian 等 App 裡面使用,而且我實測也能去除贅詞,相當不錯。

The post Codex 現在也能當成 Typeless 使用,在桌面任何地方使用語音轉文字!這篇教你怎麼打開 appeared first on 電腦王阿達.

Codex 現在也支援手機遠端操控了!正式整合進 ChatGPT 手機 App,這是配對流程

作者 Rocky
2026年5月15日 10:05

不意外的,OpenAI 也跟進 Anthropic 了!Codex 正式支援手機遠端操控,也就是在 ChatGPT 裡配對完成後,無論你在哪,都可以遠端要求 Codex 做事,像是寫程式、整理電腦資料、創建文件、甚至是操控瀏覽器等都可以,配對流程也蠻簡單的,下方就示範給大家看。

The post Codex 現在也支援手機遠端操控了!正式整合進 ChatGPT 手機 App,這是配對流程 appeared first on 電腦王阿達.

❌
❌