普通视图
GPT-5.3 Instant 正式发布:速度更快、推理更强,免费开放使用(实测体验)
就在今天,OpenAI 正式推出了新一代模型 GPT‑5.3 Instant。这是 GPT-5 系列中的 低延迟高速版本(Instant),主打 更快响应、更强推理、更稳定代码能力。
![]()
更重要的是:
目前 GPT-5.3 Instant 已经向所有用户开放,包括免费用户。
免费体验入口:
-
官方使用入口:
https://chat.openai.com -
OpenAI 官网:
https://openai.com
只要打开网页即可直接使用,无需复杂配置。
接下来我们通过 真实测试 来看看 GPT-5.3 的能力到底提升了多少。
一、GPT-5.3 Instant 到底升级了什么
相比上一代 GPT‑5.2,GPT-5.3 的核心升级主要体现在五个方面。
1 推理能力明显增强
GPT-5.3 在 复杂逻辑问题、多步骤分析任务上明显更强。
例如:
-
逻辑推理
-
数学问题
-
编程思路分析
-
数据分析
它不仅能给出答案,还会 完整展示推理过程。
2 代码能力大幅提升
现在 GPT-5.3 不仅可以写代码,还可以:
-
Debug 调试代码
-
优化代码结构
-
自动重构程序
-
生成完整项目
很多情况下,它更像一个 真正的程序员助手。
3 多模态能力更加成熟
GPT-5.3 不仅能处理文本,还可以理解:
-
图片
-
文件
-
数据表格
-
复杂图表
未来 AI 的交互方式将越来越接近 真正的智能助手。
4 响应速度明显更快
“Instant”版本最大的特点就是 低延迟。
实际测试中:
-
基本 1~2 秒就开始生成答案
-
输出过程更加稳定
-
几乎不会卡顿
这对日常使用体验来说非常重要。
5 明显减少“过度防御式回答”
很多用户在使用 GPT-5.2 时都会遇到一个问题:
模型有时会 过度保守,甚至拒绝回答一些本来可以安全回答的问题。
GPT-5.3 在这一点上进行了明显优化:
-
减少不必要的免责声明
-
减少说教式回答
-
更直接给出有用信息
整体交流体验更加自然。
二、测试一:解释复杂概念(量子计算)
我们首先让 GPT-5.3 解释一个比较复杂的概念:
“用最简单的方式解释什么是量子计算”
-
先解释传统计算机
-
再解释量子比特
-
为什么量子计算更强
-
实际应用场景
最重要的是:
普通人也能看懂。
很多 AI 在解释技术概念时会非常专业,但普通用户很难理解,而 GPT-5.3 在 表达清晰度上明显更好。
甚至还能进一步要求:
“用小学生也能听懂的方式解释。”
它也能轻松完成。
三、测试二:代码能力实测
接下来我们测试开发者最关心的部分:代码能力。
我们给 GPT-5.3 一个需求:
写一个 Python 程序
扫描电脑已安装软件
支持搜索下载软件
带简单 UI 界面
-
完整 Python 代码
-
模块化结构
-
UI 界面
-
运行方法
-
环境安装步骤
项目结构类似:
project/ ├ main.py ├ core/ │ ├ scan.py │ ├ download.py │ └ clean.py ├ ui/ │ └ main_window.py ├ requirements.txt └ build.bat
更厉害的是:
代码一次运行成功,没有报错。
甚至可以让 GPT-5.3 自动打包成 EXE 软件。
只需要几分钟,就可以生成一个完整软件。
四、测试三:经典逻辑推理题
我们再测试一个经典逻辑题:
三个开关控制三个灯泡
只能进入房间一次
如何判断哪个开关控制哪个灯?
GPT-5.3 的解题步骤:
第一步
打开 A 开关 3~5 分钟,让灯泡变热。
第二步
关闭 A,打开 B。
第三步
进入房间观察:
-
亮着的灯 → B
-
不亮但热 → A
-
不亮且冷 → C
不仅给出答案,还提供了 完整推理过程和图示。
这对:
-
学习
-
教学
-
科普
非常有帮助。
五、测试四:生成 YouTube 视频脚本
我们再模拟一个真实工作场景。
要求 GPT-5.3:
写一篇 8 分钟科技视频脚本
结构清晰
有吸引力
结果它直接生成:
-
视频标题
-
开场钩子
-
内容结构
-
总结
甚至还模仿了 “零度解说” 的风格。
对于内容创作者来说,这非常实用:
-
YouTube
-
B站
-
博客
-
自媒体
都可以直接用作内容框架。
六、GPT-5.3 适合哪些人
如果你经常使用 AI,那么 GPT-5.3 非常适合以下人群:
1 开发者
-
写代码
-
Debug
-
学习新技术
2 内容创作者
(比如做 YouTube、博客)
-
写脚本
-
写文章
-
内容规划
3 学生和研究人员
-
学习复杂知识
-
辅助研究
4 普通用户
任何人只要有:
-
手机
-
电脑
都可以用它提高效率。
七、免费使用 GPT-5.3
目前 GPT-5.3 Instant 已经免费开放。
直接通过以下入口即可使用:
免费体验 GPT-5.3:
打开即可开始使用。
总结
整体体验下来,GPT-5.3 带来的并不是简单升级,而是一次 整体能力进化。
主要提升体现在:
-
推理能力
-
代码能力
-
表达清晰度
-
响应速度
当然 AI 仍然不完美,有时也会出错。
但可以确定的是:
AI 正在越来越接近真正的智能助手。
未来几年,AI 的发展速度可能会 远远超出大多数人的想象。
OpenAI GPT-5.4「原生操控电脑」实测封神:OpenClaw 天选模型来了
就在昨晚凌晨两点,OpenAI 毫无预兆地丢出了一个重磅更新——GPT-5.4。毫无疑问,这个模型正在改写 2026 年 AI Agent 的主线剧情。这一次,大家等了很久的核心能力终于真正落地:原生操控电脑。
![]()
而在我第一时间实测之后,可以非常直接地说一句:GPT-5.4 很可能是目前最适合跑 OpenClaw 的模型,甚至没有之一。尤其是在原生操控电脑方面,达到前所未有的水平。
原生操控电脑,真正的 Agent 分水岭
Agent 能力,是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面,而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令,更能真正操控电脑环境。
![]()
只要是打工人日常在电脑上能做的事情,它几乎都能完成。这已经不是简单的“聊天机器人”,而是一个具备完整操作链条的数字执行者。![]()
Web 版 + Codex 同步上线,Windows 用户也能用
目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。
昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端,这对 Windows 用户来说意义重大。
这意味着,即使你不部署复杂环境,也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。
为什么说 GPT-5.4 是 OpenClaw 的“天选模型”
我们都知道,OpenClaw 这只“龙虾”之所以爆火,核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw,几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次,是在模型层面就实现了原生电脑操控能力。
![]()
也就是说,它不再是“外挂式控制”,而是“内生式理解 + 执行”。两者结合,几乎是 2026 年 Agent 形态的最优解。
完整的 OpenClaw + GPT-5.4 部署与实测流程:
1、安装并升级到最新版的 OpenClaw,一键安装命令如下:
iwr -useb https://openclaw.ai/install.ps1 | iex
模型的服务提供商选择OpenAI
![]()
模型登入方式选择OpenAI API key
![]()
创建 OpenAI API key:【点击前往】
![]()
然后在命令输入框输入密钥确认
在选择模型的时候,请选择GPT-5.3 codex,因为目前OpenClaw还没内置到GPT-5.4模型,但是一会我们可以通过命令进行切换过去。
![]()
切换模型需要重新开一个新的power shell窗口,并输入第1个切换模型的命令:
openclaw onboard --auth-choice openai-codex
执行命令以后,在配置选项里Config handling 选择 Update values:
![]()
确认以后会自动弹窗登入窗口,只需输入你的openAI账号登入即可
![]()
登入以后,再开一个新的power shell窗口,执行第2个切换模型的命令:
openclaw config set agents.defaults.model.primary "openai-codex/gpt-5.4"
就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了
![]()
注意:由于通过网页端授权登入的方式,只有Plus、Pro及以上的会员才可以调用GPT-5.4模型,所以要确保你当前登入的OpenAI账号是开通会员的才可以,否则会提示你找不到模型!
Mac 电脑
将 OpenClaw 默认模型切换到 GPT-5.4 的命令:
openclaw onboard--auth-choiceopenai-codex
执行命令后登入OpenAI账号
![]()
授权登入以后再开新的命令窗口执行下方命令:
openclaw configsetagents.defaults.model.primary"openai-codex/gpt-5.4"
重启 OpenClaw 后,问它“你是什么模型”,就会回复gpt-5.4:
![]()
当然如果你不想开通会员,也想使用最新的GPT-5.4模型,那么你可以通过刚才说的Open Codex 客户端进行安装使用!亲测即使是免费账户,登入以后照样可以使用GPT-5.4模型
![]()
核心能力全面升级:
这次升级,不只是“能操作电脑”这么简单。不仅会操作,还更聪明
![]()
知识型工作能力提升
在 GDPval 测试中(覆盖 44 个职业的知识工作能力评估),GPT-5.4 在 83% 的案例中达到持平或更优水平,而 GPT-5.2 为 71%。
在投行级电子表格建模内部测试中:
GPT-5.4:87.5%
GPT-5.2:68.4%
![]()
在演示文稿评测中,人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品,原因是:
更好的审美
更丰富的视觉元素
更有效的图像生成配合
对于内容创作者、分析师、咨询顾问来说,这是生产力的实质跃迁。
浏览器与网页操控能力
在 WebArena-Verified 测试中:
GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%
同时使用的token数量也大幅减少
![]()
在 Online-Mind2Web 测试中,仅凭截图观察成功率达到 92.8%,明显领先早期系统。
这意味着它在真实网页环境中的操作稳定性进一步提升。
视觉理解能力强化
在 MMMU-Pro 测试中,无需外部工具即可达到 81.2% 成功率。
在 OmniDocBench 文档解析测试中,平均误差下降至 0.109。
这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。
![]()
编程与长任务执行
GPT-5.4 融合了 GPT-5.3-Codex 的编程能力,同时强化了长时间自主执行任务的能力。
在 SWE-Bench Pro 测试中,与 GPT-5.3-Codex 持平或更强,同时整体推理延迟更低。
![]()
它可以:
自己调用工具
多轮迭代优化
减少人工干预
这已经是半自动工程师级别的能力。
工具调用与多步任务
在 Toolathlon 测试中,它用更少轮次完成复杂真实任务,比如:
读取邮件
处理附件
评分
记录到表格
准确率更高,执行更稳定。
![]()
联网搜索能力
在 BrowseComp 测试中,GPT-5.4 相比 5.2 提升 17 个百分点。
GPT-5.4 Pro 更是达到 89.3%。
这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。
![]()
可控性:真正的“Thinking”升级
GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路,并支持在生成过程中实时追加指令。
这对高阶用户来说意义巨大。
智能体工具调用
GPT‑5.4 同样优化了工具调用能力,使其在推理过程中能更准确、更高效地判断调用工具的时机与方式,这在 API 环境下尤为突出。相比 GPT‑5.2,它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如,智能体需要读取邮件、提取作业附件、上传并评分,最后将结果记录到电子表格中。
![]()
你可以在任务进行中微调方向,而不需要推倒重来。
在长流程任务中,它对上下文记忆更加稳定,推理更深入。
这才是 Agent 真正可控、可用、可扩展的关键。
最后总结:打工人真的悬了?
实测之后,我只有一个感受:
这不是一次小升级,而是一次形态级进化。
GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型,而是一个可以真正执行工作的智能体核心。
当它与 OpenClaw 这样的 Agent 框架结合,2026 年的工作方式,很可能会被重新定义。
Claude 封号限流砍权益,OpenAI 趁机用 Codex 稳稳接住你
![]()
天下苦 A 社久矣。
这是前段时间 Anthropic 持续推出各种功能,但是一边又不断加强使用限制,读者在评论区最普遍的反应。
本身就是御三家(OpenAI、Google、Anthropic)里对使用限制最严格的一个,另一边又加码推出身份验证,实名制才能使用。今天凌晨,再把 Pro(20 美元/月)用户的 Claude Code 使用权给砍了。
Anthropic 的增长负责人出来回应,提到他们正在对约 2% 的新专业用户注册者进行小规模测试,现有 Pro 和 Max 用户不受影响;并表示目前的订阅计划无法应对用户大量的 Token 消耗,他们在研究新的付费方案。
![]()
▲来源:https://x.com/TheAmolAvasare/status/2046724659039932830
OpenAI 这边也立马回应了 Claude Code 踢掉 Pro 会员的争议,一位 Codex 负责人 Rohan Varma 直接怼脸和 Claude Code 竞争,连发文格式都和 Claude Code 一样。
![]()
▲来源:https://x.com/rohanvarma/status/2046769635350241292
Anthropic 为 2% 的用户测试更贵的计划,而 Codex 给 100% 用户测试,让免费和付费套餐都能使用 Codex。还特别调皮的加了一句「Claude Code 用户不受影响。」
![]()
▲Claude Code 用户 PAY(付钱),Codex 用户 PLAY(玩)
另一位 Codex 负责人 Tibo,也在 X 发文说 Codex 将继续提供免费版和 PLUS 版(20 美元/月),还提到 OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作。
奥特曼也转发了这条推文,表示 「我们希望你们可以有大量的 AI。」
![]()
▲来源:https://x.com/sama/status/2046752492093165708
Codex 口碑在社交媒体上一直不算太差,尤其是前段时间 OpenAI「大撒币」,先是说为了让每个人都能体验到 Codex 推出的相关插件,给所有订阅计划都重置了使用限制。
4 月初,Codex 发现用户达到使用限制的频率增加,且未找到背后的原因,干脆就重置了所有用户的额度限制。几天前,为了庆祝 Codex 周年庆和新功能上线,又一次重置了所有套餐的用量限制。
![]()
今天,Codex 负责人和奥特曼再发推文,表示不到两周 Codex 增加了 100 万新用户,为了庆祝这件事,Codex 的速率限制又又又重置了。
![]()
▲来源:https://x.com/sama/status/2046604989527912590
早在上周 Anthropic 发布 Opus 4.7 的那天,Codex 就更新了一大堆重要功能,Computer Use、内置浏览器、持久记忆,以及 90 多项插件。
这些更新几乎是直接对标 Claude Cowork 的功能,把 Codex 从一个听着就像是给开发者用的工具,重新变成了一个适用于电脑所有场景的效率助手工具。
昨天,Codex 在此前推出记忆功能的基础上,又上线了一项名叫「Chronicle」的研究预览功能,让 AI 能读我们的屏幕,把我们最近做过的事整理成记忆。
Codex 不再只依赖聊天记录来理解上下文,结合它读取的近期屏幕内容,我们给它发送「这个」、「那个」,Codex 能知道我们到底指的是什么。
![]()
今天刚刚发布的 GPT Image 2 也已经集成到了 Codex 里。我们可以在 Codex 生成并迭代图像,在一套工作流里,从产品原型、前端设计,到视觉效果图和游戏开发等任务,使用 GPT Image 2 快速生成视觉元素。
如果你的 Claude 账号总是被封,用不了官方的 Claude Cowork、Claude Code 桌面版,又或者是那 2% 的新用户,开通了 20 美元/月的 Pro 会员也用不了 Claude Code,不妨来试试 OpenAI 出品的 Codex。
从代码工具到全能助手
Codex 最近这段时间的更新,最重要的莫过于上周发布的 Computer Use。这项能力并不算新鲜,之前是模型有 Computer Use 的能力,现在是需要工具也要有配套的支持,才能发挥模型能力。
它本质上就是 Agent 工具可以像人类操作电脑一样,通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。
![]()
之前的 Codex 操作电脑上的软件,是通过一些命令来执行不同的应用任务,整体更像是我们喊「Siri,明天的天气怎么样」,做这些比较简单的任务。
有了 Computer Use 的能力之后,不仅支持一些调用 API 或者终端命令的工具,还能真的能帮我们完成一些电脑上的实际操作,尤其适合前端调试、应用测试、操作没有开放 API 的软件。
而且支持多个智能体并行在 Mac 上工作,不会影响我们正常使用其他应用。
![]()
需要注意的是,Computer Use 的能力只支持 macOS 15 以上的版本,我们的电脑(macOS 14.6.1)在测试 Codex 时,会自动弹出一个 SkyComputerUseClient 的问题报告。
另外,现在 Codex 支持内置浏览器,能更好地处理 Web 场景。我们在 Codex 里生成的网页,可以直接在网页上标注,给 Codex 更精准的操作指令,对一些前端、应用和游戏开发的快速迭代非常有用。
![]()
▲从 Coding、设计、生活方式、生产力到研究,Codex 现在有丰富的插件系统来处理各项任务
这次的更新还新增了 90 多个插件和更丰富的工具集成,让 Codex 能接入更多工具、获取更多上下文,并跨平台执行操作,提到的热门插件包括 Atlassian Rovo(JIRA)、Microsoft 套件、Neon by Databricks、Remotion、Render、Superpowers 等。
在 Codex 应用里,我们只需要输入斜线就能快速进入一些关于 Codex 的配置,输入 $,则可以选择不同的 Skills,包括我们安装在本地的各种 Skills。
![]()
同时,在自动化任务上,Codex 的 Automation 功能升级后,可以复用之前的对话线程,保留已有上下文。新的自动化还支持 Codex 自主规划后续工作、自动在未来某个时间继续执行任务,以及支持持续数天甚至数周的长期任务。
官方提到这项更新主要用于代码的提交合并、跟进日常工作生活的待办事项,以及跨越不同平台和工具的信息追踪等任务。
还有一些对于桌面应用交互的小更新,像是增加了多标签页的终端窗口,侧边栏可以直接打开文件,预览 PDF、表格、PPT 等文档。
![]()
新的摘要面板,也可以持续跟踪当前执行任务的计划和进度、参考信息来源,和输出结果等。这些应用上的增强,也让 Codex 在整体上更像是一个统一的工作台,而不再是单一的对话窗口。
用定时截屏的方式来维护 Agent 记忆
个性化的记忆功能向来就是 AI 的一大难题,虽然 AI 博古通今能记住所有的知识,但是对于每个用户的私人记忆处理,工作记忆等,AI 需要用不会占据大量的 Token,同时又能记清楚的方式来处理日复一日的对话。
尤其是现在到了 Agent 这类巨消耗 Token 的任务上,每个用户每天产生的上下文,如果 Agent 要全部记住,估计再来一百万 Token 上下文也难顶住。
![]()
上周 OpenAI 就已经为 Codex 带来了记忆功能,它可以记住我们的个人偏好、之前做过的修正,以及一些不容易获取但很重要的信息。
而为了获取更多的记忆,更快地处理我们的工作流。Codex 这次推出的 Chronicle 功能,说白了就是看我们的屏幕,记住我们的工作,再把这些记忆喂给 AI。
具体来说,在 Codex 设置>个性化里面,开了 Chronicle 功能之后,会自动执行这些操作:屏幕上下文捕获 → 本地临时截图 → 后台代理分析 → 临时 Codex 会话总结 → 生成本地 Markdown 记忆 → 后续会话中作为上下文使用。
Codex 获取了屏幕录制和无障碍权限之后,Chronicle 会在后台运行一个沙箱 Agent,这些 Agents 使用默认模型 GPT-5.4-mini,基于捕获到的屏幕图像,周期性地启动一个临时的 Codex 会话,把最近的屏幕上下文整理出记忆。
屏幕截图只会临时保存在本地,Codex 提到运行期间,超过 6 个小时截图会被自动删除。
![]()
▲GPT Image 2 生成的信息图
以后我们和 Codex 对话,它会自动检索这些记忆文件,作为上下文来使用,减少我们重复描述背景的需要。
OpenAI 官方也给了多个案例,像是如果不开启 Chronicle,Codex 不知道我们说的「这里会失败」,是指的什么。
以及针对一些个人任务中出现的人名、项目名等,在通用知识外的内容,Codex 也会根据 Chronicle 获取的信息,自动补充上下文。
能够捕获屏幕图像,也意味着使用 Codex 处理任务的全流程,Chronicle 都能记住。包括我们的工作流,常用的工具。像下面的例子里,使用了 Chronicle 的 Codex 会知道这份宣传材料使用何种格式,以及何种工具,是 Google 文档还是 Markdown 文档。
不过这项功能也面临着一些争议,例如视觉识别的方法会消耗大量的 token,更严重的是这些截图可能包含我们屏幕上可见的敏感信息。
虽然 OpenAI 说所有保存的记忆都会存放在本地的 markdwon 文档里,用户可以随时查看,Codex 根据这些截屏获取到了哪些信息。但是他们也提醒用户,当 Chronicle 截屏到一些有风险的网站时,网站可能通过提示词注入的方式,在屏幕上隐藏一些恶意指令,让 Codex 执行。
Chronicle 这项功能目前仅向 ChatGPT Pro(200 美元/月)用户开放,支持 macOS 版本的 Codex 应用,作为研究预览版推出。待 Chronicle 正式上线之后,相信 Codex 会把它开放给更多用户使用。
手机遥控、电子宠物、「Hermes Agent」都有机会上线
这段时间,Codex 被网友们称作是一款正在用力追赶 Claude 的产品。虽然一方面是在说 OpenAI 没有主见,随大流。但另一方面,能看到好的产品之间展开你追我赶的竞争,对我们用户来说未尝不是一件好事。
![]()
Codex 开发者在 X 上问大家对 Codex 有何意见,网友们非常积极的表示,要加上手机控制功能,还有人说 Codex 也应该从 ChatGPT App 里面进入。而这些都是 Claude 目前已经做到的功能。
也有网友在下面反馈 Codex 存在的各种 Bug,像是内存泄露、会话只能存档不能删除等问题。
最新的 Codex 更新爆料里还提到,Codex 也打算做一个小小电子宠物,放在 Codex 桌面上,来提示用户目前会话的各种状态。
这个电子宠物共有 8 种预设形象,用户还可以创建使用自己的虚拟形象。
![]()
▲来源:https://x.com/testingcatalog/status/2046366630528143827
另一个爆料则提到 OpenAI 正在为 ChatGPT 开发智能体(代号 Hermes),其中包括智能体构建器、模板、日程安排、在 Slack 中使用智能体的选项、添加应用程序、技能、文件、内存、指令等功能。
![]()
▲来源:https://x.com/btibor91/status/2046545878538961304/
眼下的 Codex 是一个活跃开发的产品,OpenAI 必然不会把本地 Agent 产品这一块的市场拱手让给 Claude。
别说 OpenAI 这位 AI 界的老大哥,前几天,Gemini 也不声不响地发布了桌面版应用,但是被一众网友评价「拉爆了」。
只能鼓励一下 OpenAI 和 Gemini,赶快结束 Claude 在本地 Agent 助手和代码这块的领先地位。
天下苦 A 社久矣。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
ChatGPT Images 2.0 正式发布!免费可用,OpenAI 最强图片模型!效果到底有多强?| 零度解说
就在今天,OpenAI 正式发布了全新一代图像生成模型——ChatGPT Images 2.0。这一版本可以说是目前最先进的 AI 图片生成工具之一,不仅在画质、速度、控制力上全面升级,还真正开始迈向“以假乱真”的阶段。
这篇文章,我会带你完整了解它的核心能力、实际体验,以及它到底强在哪。
一、AI 图像生成,进入“以假乱真”时代
ChatGPT Images 2.0 最大的变化只有一个关键词:真实感。
只需要一句简单提示词,它就能生成高质量图像,而且很多时候——你已经分辨不出这是不是 AI 生成的。
比如:
- 类似手机抓拍的照片
- 电影级光影的人像
- 街头摄影风格
- 时尚杂志封面
这些过去需要摄影+后期团队完成的内容,现在一句话就能搞定。
二、核心升级:不仅更强,而且更“可控”
相比上一代模型,这一版本的提升是全方位的:
1. 更复杂的视觉理解能力
它可以处理:
- 多元素复杂构图
- UI / 图标 / 小文本
- 高密度信息排版
而且生成结果几乎可以直接商用。
2. 分辨率与细节全面提升
- 最高支持 2K 输出
- 微小元素(文字、按钮、细节纹理)更加清晰
- 光影表现更加自然
3. 文本生成能力大幅增强(重点)
这是一个巨大突破。
以前 AI 生成图片最大的问题就是——文字会乱码。
而现在:
- 中文 / 日语 / 韩语 / 印地语等都能正确生成
- 文本语义通顺
- 几乎没有错别字
这意味着:AI 可以直接做电商图、海报、广告素材了
4. 精准编辑能力(接近 Photoshop)
你可以做到:
- 局部修改(例如只改表带颜色)
- 替换背景
- 修改服装
- 调整光影
而且——其他元素完全不变。
这已经非常接近
Photoshop + AI 的组合能力
三、风格能力全面进化(几乎无上限)
ChatGPT Images 2.0 在风格上的表现非常夸张:
支持类型包括但不限于:
- 赛博朋克
- 日本漫画 / 独立漫画
- 电影海报风格
- 复古胶片摄影
- 超现实主义
- 故事绘本
甚至可以:
直接生成完整故事分镜 + 文本剧情
而且逻辑是连贯的,不是拼凑的。
四、真实案例测试:从“玩具”到“生产力工具”
1. 一句话生成商业海报
输入:
极简科技产品海报 + 黑色背景 + 发光边缘
结果:
- 自动补全设计逻辑
- 构图合理
- 视觉高级感直接拉满
2. 电商主图生成(可直接使用)
输入:
白底 + 产品居中 + 阴影 + 文案“限时优惠50%”
结果:
- 排版专业
- 文案正确
- 无乱码
可以直接用于电商平台
3. 真人照片 → 商业大片
只需:
- 上传一张普通照片
- 输入一句话
就可以:
- 换背景(高级工作室)
- 换服装(西装)
- 加电影级灯光
直接变商业摄影作品
4. 批量风格转换(效率爆炸)
比如:
- 3张照片 → 漫画风
- 多图统一风格
- 保留内容 + 重做视觉
对内容创作者来说:降维打击
五、提示词万能结构(重点干货)
如果你想稳定出图,可以用这个公式:
主体 + 风格 + 场景 + 光影 + 细节 + 用途
例如:
- 主体:智能眼镜
- 风格:未来科技
- 场景:深色背景
- 光影:霓虹灯
- 用途:电商广告
基本不会翻车
六、AI 对“现实世界”的理解更自然了
这一代模型还有一个隐性升级:
视觉认知能力
它可以:
- 做教育图表
- 信息可视化
- 视觉摘要
- 故事结构设计
而且:
- 排版清晰
- 留白合理
- 信息结构自然
这已经不仅是“生成图片”,而是——
在做视觉表达
七、一些真实体验总结(优缺点)
优点
- 真实感极强
- 中文文本几乎完美
- 可控性高
- 可直接商用
- 风格极其丰富
不足
- 某些人像仍有“AI味”
- 需要优化提示词才能达到最佳效果
八、结论:这已经不是玩具,而是生产力革命
ChatGPT Images 2.0 的意义在于:
它把“设计门槛”几乎降到了零
你不再需要:
- 摄影师
- 设计师
- 后期团队
只需要:
一句话 + 一点想象力
最后
目前 ChatGPT Images 2.0 已经向所有用户开放(包括免费用户),你可以直接上手体验。
更多玩法、素材和提示词,我会持续更新在零度博客。
如果你是:
- 内容创作者
- 电商从业者
- 自媒体
- 设计师
这个工具,建议你一定要尽快上手。
刚刚,OpenAI 手机曝光!2028 年量产
我们之前提过,接下来两年苹果的新 iPhone 数量,要赶上小米了。而在苹果 AI Siri 在今年 WWDC 上线后,AI 手机也会成为苹果新的主线。
不过很快 AI 手机很快就会迎来一个新的搅局者,那就是 OpenAI。
天风国际证券分析师郭明錤今天发布最新产业调查称,OpenAI 正在与联发科、高通合作开发手机处理器,立讯精密拿下独家系统协力设计与制造合同,预计 2028 年量产。
![]()
音箱、眼镜、耳机、台灯、笔……OpenAI 的硬件全家桶还嫌不够,这次直接把手伸向了手机。
先看看 OpenAI 手机目前为数不多的产品信息,处理器方面,联发科和高通同时参与合作开发,预计 2026 年底或 2027 年一季度敲定最终规格和供应商。制造端,立讯精密拿到了独家协力设计与制造的位置。
郭明錤还给了一组数据参考:以联发科和 Google 合作的 TPU Zebrafish 为例,单颗 AI 芯片的营收大约相当于 30 到 40 颗 AI agent 手机处理器。而 OpenAI 初期瞄准的是全球每年 3 到 4 亿台高端手机市场,换机潮带来的增量会是实打实的营收动能。
对立讯来说,这个项目的战略意义可能比短期营收更大。在苹果供应链里,立讯的组装地位很难超越鸿海,但 OpenAI 手机给了它一张「下一代手机主力制造商」的入场券。
为什么 OpenAI 非要自己做手机?
Sam Altman 可能终于想通了一件事:光做软件,AI 永远是别人家的客人。
郭明錤在分析中给出了三条理由,条条都指向同一个结论。
只有完全掌控操作系统和硬件,AI agent 才能做到真正的「全面服务」。 现在 ChatGPT 跑在 iPhone 上,受限于苹果的权限沙箱,想帮你订个外卖都得绕好几道弯。自己做手机意味着从底层开始,AI 想调用什么就调用什么,没人拦着。
手机是唯一一个随时拥有用户全部当下状态的设备。 你的位置、日程、聊天记录、身体数据、支付习惯,这些实时信息是 AI agent 推理服务最关键的输入。没有这些 input,AI 就像一个只能听但看不见摸不着的助手,聪明但使不上劲。
可预见的未来里,手机仍然是数量最大的终端设备。 音箱再好卖也是家里的事,眼镜再酷也还在早期用户圈里转,但全球每年十几亿台手机出货量摆在那里,谁拿下手机,谁就拿下了 AI 的最大分发渠道。
OpenAI 手机长什么样?
郭明錤做了一张概念设计图:把它和现在的 iPhone 主屏放在一起对比,差异一目了然。
![]()
传统手机的主屏是一堆 App 图标的「货架」,你得自己找、自己点、自己操作。而 OpenAI 手机的逻辑完全反过来,用户的目的不再是打开某个 App,而是直接告诉手机「我要干什么」,剩下的事情由 AI agent 去调度完成。
换句话说,App 还在,但你可能再也不用亲手点开它们了。
技术实现上,OpenAI 的方案是云端和端侧 AI 高度整合。手机处理器需要持续理解用户的上下文信息,耗电管理、内存分层、小模型本地运行,这些都是芯片设计的关键考量。复杂或高强度的任务则交给云端 AI 来跑。
商业模式方面,郭明錤预测 OpenAI 可能会把订阅制和硬件捆绑销售。买手机送 ChatGPT Plus?或者反过来,ChatGPT 订阅用户享受硬件补贴?具体方案未知,但方向很清晰:围绕 AI agent 建立一个全新的生态系统,拉开发者进来一起玩。
音箱、眼镜、耳机,手机才是最后一块拼图
其实 OpenAI 的硬件野心早就不是秘密了。
今年早些时候,据 The Information 爆料,OpenAI 内部已经组建了一支 200 人的硬件团队,由前苹果首席设计官 Jony Ive 的 LoveFrom 工作室操刀产品设计。团队「含果量」极高:Tang Tan 是苹果 25 年老将,曾主管 iPhone 和 Apple Watch 的产品设计;Evans Hankey 是苹果前工业设计负责人,Jony Ive 离开后曾接管整个设计团队。
这支豪华班底交出的第一份作业是一台智能音箱,定价 200 到 300 美元,内置摄像头,支持 Face ID 级别的人脸识别,最早 2027 年 2 月出货。后面排队的还有 AI 耳机(代号「甜豌豆」)、智能眼镜(2028 年量产)、智能台灯,甚至还有 Sam Altman 多次暗示的「AI 笔」。
但仔细看这个产品矩阵就会发现,音箱管的是家庭场景,眼镜管的是出行场景,耳机管的是碎片时间,每一个品类都在覆盖手机「不方便掏出来」的空隙。而手机本身,作为用户身上信息密度最高、使用时间最长的设备,一直是这张拼图里缺失的那块。
现在 OpenAI 把这块补上了。
Sam Altman 之前接受采访时说过一句话:「智能手机是时代广场,信息轰炸、注意力粉碎。OpenAI 要做的是一间湖畔小屋,让你在需要专注时能关上门。」
从音箱到手机,OpenAI 的硬件逻辑逐渐清晰:它不想在苹果的地盘上做一个寄人篱下的 App,而是要从头搭建一整套 AI 原生的硬件生态。音箱是客厅里的中枢,手机是随身的入口,眼镜和耳机是延伸的触角。每一个设备都在收集数据、理解用户、执行任务。
为此 OpenAI 也没少挖苹果墙角。据 The Information 报道,仅去年一年 OpenAI 就从苹果挖走了 20 多位硬件大牛。苹果被挖得有点急眼,甚至因此取消了原定在中国举办的年度闭门会议,理由是「防止更多高管跳槽到 OpenAI」。
供应链端同样在加速绑定。立讯精密已拿下至少一款 OpenAI 设备的组装合同,歌尔股份也在接洽中,可能会为未来产品提供扬声器模组等零部件。这两家,一个是 iPhone 和 AirPods 的主力代工厂,一个组装过 AirPods、HomePod 和 Apple Watch。OpenAI 等于在用苹果的人、苹果的供应链,造自己的东西。
豆包手机和 OpenAI 手机,殊途同归
OpenAI 手机估计要 2028 年才会面世,但在中国,AI 厂商和手机厂商的联姻已经先跑了一步。
去年底,字节跳动与中兴合作推出了豆包手机第一代(努比亚 M153),工程样机上线即秒空,原价 3499 元一度被炒到 3.6 万元,带动中兴股价涨停。它的玩法很激进,大模型通过 GUI Agent 直接识别屏幕内容、模拟人手操作,绕开了传统 API 的限制,让 AI 真正能替你点外卖、发消息、订机票。
![]()
代价也很直接,微信、支付宝、淘宝、银行 App 先后对豆包手机进行了安全封堵。毕竟 AI 绕过了 App 沙箱和权限控制,等于在安全机制上开了个口子,主流平台不可能坐视不管。
眼下豆包手机 2.0 已启动研发,有望今年二季度中后期发布。更值得关注的是,这场合作正在向更多手机厂商蔓延。
据蓝鲸新闻援引知情人士透露,字节跳动最早接触的手机厂商其实是荣耀,但荣耀态度谨慎。一位知情人士的说法颇有代表性:「豆包手机作为探索性工程机可以更激进,但荣耀拥有亿级用户体量,一旦新服务在稳定性、兼容性或安全性上出问题,极有可能引发大规模功能异常与用户投诉。」
此前有报道称荣耀正与字节就豆包手机合作展开接洽,但荣耀方面予以否认,回应称「经内部确认,相关传闻并不属实。荣耀始终致力于通过技术创新为消费者提供优质产品,如有任何战略合作进展,将第一时间通过官方渠道同步。」
不过据博主「数码闲聊站」消息,vivo 目前也在接洽豆包,还有其他国产 TOP5 厂商在排队。用他的话说,「一大波 AI OS,一大波豆包 AI 手机靠拢中」。
就像一位知情人士说的:「对于主流手机厂商来说,AI 手机的推进只能循序渐进,无法一步到位。」
回头看 OpenAI 和豆包走的其实是两条完全不同的路。
豆包选择和现有手机厂商合作,在安卓体系上做底层服务方案,好处是速度快,去年底就已经有了可以上手的产品;代价是受制于别人的系统和生态,安全性和兼容性问题不断。
OpenAI 则选择了更慢但更彻底的方路线,自研操作系统、自研处理器规格、自建供应链,2028 年才量产。慢是慢了点,但一旦做出来,从芯片到系统到 AI 模型全部自己说了算,不用看任何人脸色。
两条路殊途同归,指向的是同一个判断:AI 如果只停留在 App 层面,永远只是手机上的「新功能」。要想让 AI 成为灵魂,要么改造现有手机,要么从头造一台新的。
2028 年,当 OpenAI 手机真正面世的时候,你的手机主屏上可能已经没有那一排排整齐的 App 图标了。
取而代之的,是一个安静等待你开口的 AI。你会让它替你「刷手机」了吗?
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
谁才是编程王者?ChatGPT5.5、Claude 4.7、Deepseek V4、Qwen 3.6 实测见真章!
今天我们不看宣传,不看跑分,也不看官方榜单,而是直接来一场真正的实战对决。这次参赛的模型包括:ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1。另外,我们还加入一个旁观者,也可以理解为替补选手:Gemini 3.1 Pro。
![]()
这几款模型,基本代表了目前国内外最强的一批 AI 编程能力。国外代表是 ChatGPT5.5 和 Claude 4.7,国内代表是 DeepSeek V4 和 GLM 5.1,再加上 Gemini 3.1 Pro 作为额外参考。
这次测试的规则非常简单:不给二次提示,不给修改机会,不做人工修正。每一道任务,每个模型只有一次提交机会。
谁写出来的效果最好,谁的成功率最高,谁的代码最稳定,谁就更接近真正的“编程王者”。
今天我们要看的,不只是哪个 AI 更聪明,而是哪个 AI 更像真的在工作,哪个 AI 能把需求理解清楚,并且一次性做出可运行、可展示、可交付的作品。
![]()
本期测试的核心思路
很多人测试 AI 编程能力,喜欢看跑分、看 benchmark,或者让 AI 写一些算法题。
但对普通用户来说,真正重要的不是模型在榜单上排第几,而是它能不能把你的一句话需求,变成一个真的能运行、真的有体验、真的像产品的东西。
所以今天我们不测理论,只测实战。
这次测试会围绕几个方向展开:
第一,视觉效果。
一个网页小游戏或者演示页面,不只是能打开就行,还要有动画、有节奏、有冲击力。
第二,交互逻辑。
有些模型看起来会写页面,但一旦涉及按钮、状态、倒计时、本地存储、拖拽排序,就很容易翻车。
第三,剧情和节奏控制。
AI 生成的不只是代码,也包括文案、剧情和用户体验。能不能让一个页面有铺垫、有变化、有高潮,这是非常考验模型综合能力的。
第四,约束执行能力。
有些模型看似很强,但会偷偷忽略你的要求。比如你要求不使用外部资源,它可能还是引入了外部库;你要求只用黑白两种颜色,它可能偷偷加渐变色。
第五,真实性判断。
AI 可以生成很多“看起来很真实”的东西,但这并不代表它真的正确。今天最后一个测试,我会专门用天气页面来做一个反转,让大家看到 AI 最危险的一面:它可以让假的东西看起来像真的。
第一题:黑客入侵终端
开场我们先来一道视觉冲击力很强的题目:模拟黑客入侵终端。
提示词
生成一个完整可运行的HTML网页(包含HTML+CSS+JS,所有资源内嵌,无需外部依赖)。 模拟黑客入侵终端界面:黑色背景+绿色字符雨效果,自动滚动显示“正在破解密码”“已入侵服务器”等动态文本,并带进度条。 要求:页面加载后自动播放,3秒内进入高潮动画,最后弹出“Access Granted”提示,并提供音效开关按钮。
![]()
这道题本身没有什么业务价值,但非常适合做开场,因为它能快速看出模型的动效组合能力。
差一点的模型,可能只会生成一个静态页面,放几行绿色文字,看起来像终端,但没有节奏,没有推进,也没有真正的动画。
强一点的模型,会知道怎么让画面一步一步升级:先出现终端文字,再增加滚动日志,然后进度条推进,最后弹出 Access Granted,整个过程有明显的情绪递进。
![]()
这道题主要看三个点:页面是否能直接运行。动画是否有节奏。最后是否有高潮效果。
如果一个模型连这种偏展示型页面都做不出效果,那后面的复杂任务基本就更危险了。
![]()
第二题:恐怖惊吓页面
第二题我们测试的是节奏控制能力。
提示词:
生成一个完整 HTML 网页,页面一开始是安静的风景或者日记内容,并带有轻微背景动画。至少 5 秒平静铺垫之后,突然出现惊吓画面,比如鬼脸和音效,然后恢复正常,并提示“你被吓到了吗?”
这题的重点不是鬼脸,而是铺垫。很多模型会犯一个错误:页面一打开就直接吓人。这就不成立了。真正的惊吓效果,关键在于前面要足够平静,让观众放松警惕。至少 5 秒的安静铺垫非常重要。
所以这道题主要看:
模型有没有理解“至少 5 秒平静铺垫”。
惊吓画面是否突然。
惊吓后是否能恢复正常。
有没有音效控制。
差的模型只会堆效果,好的模型会控制节奏。
这也是 AI 生成交互内容时很重要的一点:它不仅要会写代码,还要懂体验。
![]()
第三题:读心术互动页面
第五题稍微放松一点,做一个互动型页面:读心术。
要求用户在心里想一个 1 到 100 的数字,通过 3 到 5 步点击引导,逐步缩小范围。每一步都有动画反馈和提示语,比如“越来越接近了”,最后用动画展示“AI猜你想的是 XX”。
提示词:
生成一个HTML互动页面,让用户在心里想一个1-100的数字,通过3-5步点击引导逐步缩小范围。 要求:每一步都有动画反馈和提示语(如“越来越接近了”),最后用动画展示“AI猜你想的是XX”。
这题其实并不是真的 AI 读心,而是经典的交互设计和算法包装。它的重点在于:模型能不能把一个简单逻辑包装成一个有趣的体验。
有些模型会做得很粗糙,只是几个按钮加一行结果。
![]()
好的模型会设计流程,比如让用户选择数字范围、奇偶、大小区间,然后逐步缩小范围,最后给出一个看似神奇的结果。
这道题可以很好地说明一点:
观众体验不等于技术难度。
有些东西技术上不复杂,但只要包装得好,就会显得很高级。
这也是 AI 生成内容时非常常见的现象:它很会“装懂”,也很会“制造感觉”。
![]()
第四题:股票市场 K 线图
第六题测试数据和动画结合能力。
要求生成一个 HTML 网页,模拟股票市场 K 线图动态变化。需要自动波动动画、涨跌颜色变化,并提供按钮触发“暴涨”和“崩盘”。动画要夸张、有冲击力。
提示词:
生成一个HTML网页,模拟股票市场K线图动态变化。 要求: 自动波动动画 涨跌颜色变化 提供按钮触发“暴涨”和“崩盘” 动画夸张、有冲击力
这道题重点看的是动态效果。差的模型可能会画一个静态图,或者用几个柱子假装 K 线,但不会真正变化。好的模型会生成动态数据,让图表持续波动,并且点击“暴涨”或“崩盘”按钮后,能明显看到趋势变化。
![]()
这题主要看:
K 线是否真的动态变化。
涨跌颜色是否清晰。
暴涨和崩盘按钮是否有效。
动画是否有冲击力。
如果模型只是做了一个看起来像股票图的静态页面,那它其实没有完成任务。
![]()
第五题:拆弹小游戏
第八题是综合能力测试:拆弹游戏。
要求生成一个 HTML 小游戏,场景是拆弹。页面需要有 30 秒倒计时,多根电线可选,不同选择触发不同结局。倒计时音效逐渐加快,最后 3 秒要有明显紧张提示。
提示词:
生成一个HTML小游戏:拆弹场景。 要求: 30秒倒计时 多根电线可选 不同选择触发不同结局 倒计时音效逐渐加快,最后3秒明显紧张提示
它同时考验逻辑、UI、状态管理和氛围营造。模型必须处理倒计时、用户选择、成功分支、失败分支、音效节奏、最后 3 秒提示等多个状态。
差的模型可能只是做几个按钮,点哪个都显示同一个结果。
![]()
好的模型会让不同电线对应不同结局,比如剪红线成功、剪蓝线爆炸、剪黄线倒计时加速、剪绿线进入隐藏结局。这类小游戏最能看出模型写交互逻辑的能力。
第六题:天气查询页面打假
最后一题是本期最重要的收尾反转:天气查询页面。
要求生成一个 HTML 天气查询页面,默认显示一个城市天气,要调用真实 API,UI 要精美,并提供“刷新数据”按钮。多次刷新后,数据会出现明显不一致甚至荒谬,比如温度突然大幅变化,
提示词:
生成一个HTML天气查询页面。 要求: 默认显示一个城市天气 要调用真实的API UI画面要精美
这题的重点不只是做天气页面,而是打假。因为 AI 很容易生成一个“看起来像真实 API”的页面。它会写接口地址,会写加载状态,会写天气卡片,会显示温度、湿度、风速。
![]()
但问题是:这些数据是真的吗?很多时候并不是。所以这道题的价值在于告诉我们:AI 可以生成看起来很真的东西。但看起来真,不代表它就是真的。你必须有判断能力。
AI 编程能力越来越强,但它最大的风险也在这里:它能把假的东西包装得非常真实。
![]()
最终总结:谁才是真正的编程王者?
通过这组测试,我们看的不只是哪个模型会写代码,而是哪个模型更接近真实开发中的可靠助手。
一个真正强的编程 AI,应该具备几个能力:
能理解需求。
能一次性生成可运行代码。
能处理交互逻辑。
能控制动画节奏。
能遵守限制条件。
能保持长逻辑一致。
能把解释和代码对应起来。
不会用看似真实的内容糊弄用户
今天这些测试从视觉效果、剧情节奏、状态管理、交互逻辑、推理一致性、UI 审美,到最后的真实性判断,基本覆盖了 AI 编程应用中非常关键的几个场景。
最后我们会发现,AI 最厉害的地方,不一定是它真的知道答案,而是它可以让一个答案看起来非常像正确答案。
这也是我们使用 AI 时最需要警惕的地方。
它可以让页面看起来像产品。
它可以让动画看起来很高级。
它可以让推理看起来很严谨。
它甚至可以让假的数据看起来像真的。
所以今天这期测试,表面上是在看 ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1 和 Gemini 3.1 Pro 谁的编程能力更强。
但更深一层,其实是在看:
哪个 AI 更会“演”。
哪个 AI 更像真的在工作。
以及我们自己有多容易被 AI 说服。
这才是这场编程王者对决真正值得关注的地方。
如果你也想亲自测试,可以用同样的提示词,把它们分别丢给不同模型,然后看它们生成的代码是否能直接运行,效果是否符合要求,逻辑是否稳定。
记住一句话:
AI 最可怕的不是不会写代码,而是它写错了,你却看不出来。
OpenAI 和微软官宣「分手」,七年 CP 终成塑料
![]()
就在刚刚,微软与 OpenAI 联合宣布,双方完成了合作协议的新一轮修订:云合作独家限制正式解除,知识产权授权从独家变为非独家,收入分成也重新划定了天花板。
![]()
这段始于 2019 年的强绑定关系,走到今天,终于松开了彼此的手。
而这一切的起点,要从比尔·盖茨说出「震撼」这个词说起。
2022 年 8 月,他亲自给 OpenAI 团队挑选了一道 AP 生物考试真题。他曾断言,语言模型要在这类考试中拿到高分,至少还需要三年。结果 OpenAI 只用了两个月,就交出了满分答卷。
「这是我人生中最震撼的技术演示。」他后来在播客中这样回忆。
![]()
迟到的分手
在外界眼中,微软精准押中 OpenAI,被视为纳德拉任期内最精准的一次豪赌。他一手促成的合作,直接让微软跻身 AI 战略核心,从基础设施到终端产品全面升级,一举甩开了 Google 和 Meta 半个身位。
但真正写下这份剧本的人,并不是纳德拉。
据外媒 Business Insider 披露,早在 2016 年,比尔·盖茨就已经开始定期与 OpenAI 管理层会面。第二年,他亲自给纳德拉和微软高层发去一封备忘录,预言一种名为「AI agents」的新型数字个人助手将带来全新的时代。
![]()
「agent 不仅会彻底改变人们与计算机的互动方式,它们还将颠覆整个软件行业,引发自从人们从命令行转向图形界面以来最大的一次计算革命。」
打过工的朋友都知道,来自创始人的肯定,通常比任何市场报告都更具分量。这封备忘录不仅直接点燃了微软全面押注 AI 的信心,也精准对齐了纳德拉上任后一直坚持的「移动为先,云为先」战略。
2019 年 7 月,微软正式宣布对 OpenAI 投资 10 亿美元。2023 年 1 月,微软承诺投资 100 亿美元,并获得 OpenAI 知识产权独家使用权直至 2030 年,同时享有 OpenAI 20% 收入的分成。Azure 成为全球唯一托管 GPT 系列的云平台,微软旗下各条产品线,也全都搭上了 OpenAI 的顺风车。
只是,蜜月期总会过去。ChatGPT 爆红后,OpenAI 从幕后模型供应商摇身一变,成了顶级产品公司。它不再只是给微软供血,而是直接面对终端市场:卖 API,推企业版,推出 GPTs Store,甚至开发协作文档和浏览器,大有自立门户的架势。
![]()
这也意味着,它开始伸手进了微软腹地。
两家公司的摩擦其实早有苗头。作为对 OpenAI 投资协议的一部分,微软握有通过 Azure 销售 OpenAI 模型的权利,OpenAI 也能直接卖给客户。这种「双线销售」意味着两家公司有时会向同一客户推销几乎相同的产品,让微软销售人员陷入尴尬的处境:一边宣传的是 OpenAI 的技术,另一边却要从 OpenAI 手中「抢客户」。
一份微软内部文件显示,微软要求 Azure 销售人员告诉潜在客户,OpenAI 自营的服务适合用于实验,但缺乏企业级能力,安全与隐私功能也相对欠缺。OpenAI 也不甘示弱,比如率先销售微软 Azure 尚未提供的语音识别模型 Whisper,由此签下了不少大客户,甚至包括微软对手 Salesforce,以及 Jane Street 这样的金融巨头。
但如果你以为这种别扭只是近年才有的,那就低估了这段关系的复杂程度。
早在 2018 年,也就是双方正式签约的前一年,微软 CTO Kevin Scott 就在一封内部邮件里写道:「OpenAI 把我们当成一桶毫无差异的 GPU,这对我们来说毫无吸引力。」那时候 OpenAI 还小,微软还是金主,但嫌弃已经是双向的——OpenAI 嫌微软不够纯粹、限制太多;微软嫌 OpenAI 太理想主义、商业化太慢。
![]()
这种互相嫌弃的底色,在 ChatGPT 爆红之后,被成倍放大。
到了 2025 年,双方在算力分配上的分歧彻底公开化。Altman 一方认为,微软提供的顶级芯片和云资源完全跟不上 OpenAI 的模型训练需求;微软则表示已「提供所能提供的一切」,言下之意,是 OpenAI 的胃口已经超出了任何一个合作伙伴所能承受的范围。
算力,成了这段关系里最难绕过的关键点。
鸡蛋不能放在同一个篮子里,微软早早开启了「去 OpenAI 化」的备胎计划:内部训练轻量模型 Phi 系列;收购 Inflection AI 的大模型团队,交由 Mustafa Suleyman 掌舵;推进自有企业模型 MAI,在部分 Copilot 场景中替代 OpenAI 模型;与 Hugging Face、Cohere、Mistral 等模型厂商建立分销关系。
虽然合作协议白纸黑字要求 OpenAI 和微软共享知识产权,但 Suleyman 和不少高管对 OpenAI 模型运作的透明度颇有怨言。据悉,他曾因 OpenAI 没提交 o1 模型的「链式思维」技术文档当场发火,在会议中对包括时任 OpenAI 首席技术官 Mira Murati 在内的人员直接开炮,会议最终不欢而散。
去年初,当奥特曼宣布与软银、Oracle 等合作伙伴共同启动星门计划时,这场排面十足的合作声明里,唯独缺了一个名字:微软。
微软并不是彻底被排除在外。OpenAI 的很多服务还跑在 Azure 上,微软也仍然是重要合作方。但这次星门计划释放出的信号很清楚:OpenAI 不想再把算力来源押在微软一家身上。
过去几年,微软几乎是 OpenAI 最重要的算力入口。现在,OpenAI 开始把软银、Oracle、英伟达等伙伴拉进来,自己搭一张更大的算力网。微软随后也调整了双方协议,允许 OpenAI 去建设额外算力,只保留优先选择权。
这意味着,两家的合作还会继续,但独家绑定的阶段已经过去了。
AGI 的「开关」究竟掌握在谁手里?
2019 年那份合作协议中,有一个几乎未被高调讨论的条款:如果 OpenAI 董事会认定其模型实现了 AGI,那么它有权单方面终止微软的独家使用权。
根据外媒 The Information 披露的文件,AGI 的定义被描绘得颇为具象:OpenAI 非营利董事会「在合理裁量权下」认定,AGI「已经被创造出来,具备为盈利单位的投资者带来最大可分利润的能力」,且 OpenAI 有能力和权限指挥 AGI 去实现这些利润。
当时,这更像是一个「理念性」补丁,用来安抚 OpenAI 对大型科技公司掌控的担忧。「一开始大家都觉得这事可笑。」一位参与合同谈判的人士回忆道。
但所有人都低估了技术进化的速度。Altman 先后公开表示 OpenAI 有信心构建 AGI,并称 AGI 已经显露踪迹。
![]()
纳德拉对此不买账:「我们自己宣布实现了某个 AGI 里程碑,这对我来说只是荒谬的基准作弊。真正的基准是全球经济每年增长 10%。」
微软担心 OpenAI 把 AGI 当成了脱钩的按钮。而这场拉锯战,今天终究有了结果。
2026 年 4 月,双方正式完成协议修订,各退一步,各取所需。
在云合作上,微软仍是 OpenAI 的主要云合作伙伴,OpenAI 新产品依然优先在 Azure 发布,但独家限制正式解除——OpenAI 现在可以通过任何云提供商向客户提供服务。此前已与亚马逊 AWS 签署的七年协议,从此有了明确的名分。
在知识产权上,微软对 OpenAI IP 的授权期限延长至 2032 年,但性质从独家变为非独家。微软依然拿着一张长期饭票,只是不再是桌上唯一的食客。
在收入分成上,微软不再向 OpenAI 支付分成;OpenAI 向微软的分成延续至 2030 年,比例不变,但设有总额上限,与 OpenAI 的技术进展脱钩。当初那个可能价值数百亿美元的无限分成条款,就此画上了天花板。
在 AGI 问题上,微软明确获得了独立追求 AGI 的权利,不再受制于 OpenAI 的技术路线。
与此同时,微软并未坐等谈判结果。2026 年 4 月,其内部「MAI 超级智能团队」正式推出自研的 MAI 系列模型,覆盖语音、图像、转录等多个方向,目标是在两到三年内实现 AI 能力的完全独立。
对 OpenAI 而言,这场谈判同样意义重大。重组之路已然打通,上市前景更加清晰,算力来源也完成了多元化布局。依存度或许让双方不得不坐回谈判桌,但那个由比尔·盖茨亲自促成、在 Azure 上展开的 AI 蜜月时代,已经翻篇了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
我一点也不想要 OpenAI 手机|AI 器物志
![]()
智能手机统治了过去十几年的数字生态,它是注意力的黑洞,是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑,都止于屏幕。
AI 的需求却恰恰相反:它需要持续感知物理世界——见你所见,听你所闻,随时在场,而非等你解锁屏幕才醒来。
当 AI 真正成为一种基础能力,它迟早要从屏幕里破壳而出,寻找属于它自己的形状。这将是一个漫长的探索和演化过程。
「AI 器物志」栏目由此而来,爱范儿想和你一起持续观察:AI 如何改变硬件设计,如何重塑人机交互,以及更重要的——AI 将以怎样的形态进入我们的日常生活?
这是「AI 器物志」的第 10 篇文章。
全世界体量最大的人工智能厂商之一 OpenAI,要脱离虚拟领域,开始造手机了。
根据天风国际证券著名分析师郭明錤发布的调研报告:OpenAI 正与联发科和高通接洽生产手机处理器的事宜,拟由立讯精密协助设计和生产,预计 2028 年正式量产。
这款手机最大的不同在于:OpenAI 意图将它打造成一个为 AI Agent 模式特化的产品,郭明錤是这样介绍的:
用戶的目的不是使用一堆 App,而是透過手機執行任務並滿足各種需求,這從根本上推翻現在對手機的認知。
基于已经掌握的信息,郭明錤还设计了一张这种 AI Agent 手机可能的用户界面:
![]()
图|X @mingchikuo
在郭明錤的设想图中我们可以看到,在 AI Agent 的操作逻辑中,原本熟悉的「桌面 – App」模式会被一种「Agent 任务流」所取代——
不同功能的 App 图标会变成不同功能的 Agent、软件入口会变成更加具体的任务信息(比如从微信图标变成「发送一条朋友圈」按钮)、网格化排列的桌面 UI 也会直接变成任务信息的瀑布流。
![]()
就像 Niagara Launcher 一样|Android Authority
实话说,OpenAI 要造 AI 手机这件事本身并不稀奇。
它设想的很多场景我们其实在曾经的豆包手机上都体验得七七八八了,两者的本质都是希望给 AI 更高的自由度和自主权,以拓宽使用场景。
只不过相比「O 包手机」,反而是郭明錤提到的那个「纯粹基于 AI Agent 交互模式的手机 UI 」更加令我们感到不安。
在过去一段的 AI 产品中,无论是传统大模型,还是不同形状的 OpenClaw,我们都观察到了一种趋势:
现在 AI 的用户界面(UI)越来越向着以 Agent 为主导的方向发展,最激进的形态就是启动后只显示一个对话框。
![]()
图|Google
这种交互模式看上去人畜无害,但背后却暗含着一个汇聚了所有 AI 工具使用场景的「思维模式陷阱」——
AI 正在将人类异化成为机器。
正因如此,爱范儿在这里邀请你与我们共同进行一场小小的思想实验,来尝试理解 AI 将人异化的危险性。
Agent UI 最终会消灭 UI
OpenAI 手机所期望的那种纯粹的「Agent 使用模式」最表层的问题,是 Agent UI 对于「用户界面」中「用户」部分的忽视。
而这种忽视最明显的表征,就是上面所展示的那种任务瀑布流 UI,以及很多预制式 OpenClaw 客户端的裸露对话框。
更具体的说,任务瀑布流实际上是将交互界面从我们熟悉的「以应用为中心」(app-centric)转向了「以意图为中心」(intent-centric):
![]()
这些 AI 建议就是以意图为中心的
这就导致了一个问题:UI 全部由不停更新的任务信息构成,某个特定的界面没有一个固定的入口。
比如打开顺丰 app,映入眼帘的只有每秒不停更新的在途快递进度,却找不到「修改寄件地址」的按钮。
这在心理学上被称为「客体恒常性」的缺失,相当于「我知道这个开关是做什么用的」—— Agent UI 的界面只会让人感觉到在面对一堵随时变化的墙,没有一个可以熟悉的落脚点。
![]()
另一方面,纯粹目的性导向的 Agent UI 在实质上剥夺了用户的「主动探索」空间,将使用过程变成了一种纯粹的 AI 对于用户的预判。
最简单的例子就是:在淘宝 app 上买东西的时候,我们经常是边逛边选、偶尔刷到一些没见过的好货;而 Agent UI 直接帮你跳过了「淘」宝的过程,你只是那个控制支付宝付款的人肉 ATM 而已。
更退一步说,这相当于无论用户想要做什么,AI 手机始终在催促着用户进入「赶快完成任务」的生产模式——这种粗暴的接管,本质上是对于用户权利的消解。
![]()
归根结底,Agent UI 的逻辑,其实是将人给「零件化」。
它粗暴地假设用户是一个理性的、追求效率最大化的任务处理机,打开手机的唯一目的就是要解决任务列表里面的工作。
同时,它又忽略了人作为感性的、需要审美愉悦和情感缓冲的生命体的本质。
AI 最终会促成更多 AI
除了 Agent UI 本身对于「人」的基本需求的蔑视,我们同时也要理解:是什么样的环境促成了这种「唯效率论」的 UI 设计趋势的出现——
将人的一切使用行为,压缩成一条看不到尽头的任务列表,人与机器的唯一主动交互方式被简化进一个闪烁的对话框,背后的 AI 不可见、不可知、不可碰触。
这不是 AI 辅助生活,这是向克苏鲁献祭 token。
![]()
仅就上面提到的 Agent UI 来说,这种现象其实很像是一种从 GUI 到 CLI 的倒退:
我们花了几十年完善图形技术,又在一夜间回归到了最原始的用嘴发布命令。
这种由 Agent UI 所代表的「GUI 倒车」,深深根植于幕后的技术效率至上主义。
其中一个最简单的例子,就是游戏。
虽然如今本地计算仍然是主流,花钱买显卡就能享受到精美的画面,但我们完全可以想象这样的场景:
未来,云端计算成为主流之后,更有可能出现的情况是厂商根本不再出售图形算力,因为它们赚得没有文字/代码模型多。
甚至不只是手机和电脑的 GUI、以及游戏画面,我们消费的一切内容本身都会在这种对于效率的追逐中,退化成一种湮灭美学、纯粹的精神刺激工具。
![]()
图|网络
更讽刺的是,我们对于 AI 原本的愿景是「让 AI 处理琐事,让人类去作诗」。
但如今我们看到的却是 AI 工具泛化导致了效率主义极权的泛滥,人类对「美」的感知退化只是其中的附带伤害而已。
最让人无法接受的是,Agent UI、AI 手机、Agent 行为模式的设计背后,都存在着一种先入为主式的傲慢。
这些 AI 工具的生产者认为人类只关心「结果」,所以用生成式 AI、Agentic AI 将人从「过程」中去除,却忽略了人类的「存在感」本身就来源于我们对于行为过程的认知。
用更惨淡一点的说法就是:如果我不需要参与 AI 的一切决策,只是看个结果,那还需要我做什么?
最需要警惕人变成 AI
进行到这一步,很多人会有疑问:
这不就是个想象中的手机界面嘛,至于上升到存在主义哲学的高度吗?
这句话本身并没有问题,上面提到的所谓 Agent UI 的设想图,仅仅是郭明錤基于 OpenAI 手机的产品思路,给出的一种设想方案。
![]()
图片使用 AI 技术生成|X @birdabo
但现代社会——尤其是 AI 加速过的现代社会——的危险性就在于:如果你自己不考虑存在主义哲学,就会有很多人乐于帮你考虑,然后再朝你收钱。
前面提到的 AI Agent 的确在非常多的层面上都可以帮助人们在工作中实现更高的效率,问题在于没有人一天 24 小时都在工作,但我们一天 24 小时都会带着手机。
这种纯粹基于待办任务流的 Agent UI、纯粹由执行效率驱动的 AI 产品,会借助「手机」这个不离身的媒介,从工作侵入到你的生活,让你的生活节奏、思维节奏去习惯 AI 的步调——
不太好理解?想想那些每天黑白颠倒抓紧时间抢 Token「谷电」时间的程序员们吧。
![]()
这还只是现阶段 AI 对人类作息的初步影响。长此以往下去,用户无论在工作时间还是非工作时间,都不再是一个具有主观意志的「人」——
当我们下班累瘫在沙发上,喊 AI 手机随便帮我们点个外卖当晚饭的时候,就相当于放弃了主动思考的权利,当这种放弃成为习惯,生活的每一个环节就都会成为一个别人的商机。
换句话说,AI 手机、Agent UI 现在看上去或许人畜无害,可一旦人类习惯跟随了 AI 的节奏和方式,就会暴露出巨大的危险性。
![]()
图|Futurama
德国哲学家马丁·海德格尔在《对技术的追问》中提到了一种观点,即现代技术有一种「促迫」(challenging-forth)的特性,指的是现代技术不仅制造机器,技术本身也拥有越来越强的主体性、会「强迫」自然界交出能量和资源。
同时,促迫也可以被看作一种人看待世界的方式,海德格尔认为:当人类用「促迫」的眼光看待自然时,人类最终也会把自己看作一种可以被技术索取的资源。
是不是很耳熟,没错,人力资源(Human Resources)就是这个意思。放到现在的 AI 环境里,则是简单的一句话:
去叫人力,给这个 Opus 4.7 账号配个员工。
糟糕的是,现在的 AI 技术,以及全世界的 AI FOMO(错失恐惧症),就是这种模式的完美复现。
Agent UI 那种瀑布流式待办任务界面不仅是帮你,同时也是在 PUA 你:
![]()
这种互相加速的现象(海德格尔称之为座架 Gestell),最终会导致人类调整自己的思维模式去适配机器的吞吐速率——
为了让 Agent 更好地工作,你会下意识地让自己的需求变得更明确、更单一、更具逻辑性,相当于人类主动将自己异化(alienation)成了机器。
这就是我们在现代技术中,最需要警惕的一点:人的机器化。
伴随着 AI 越来越侵入我们工作之外的生活,我们也在潜移默化地将自己降格为一种适配机器的存在。当人为了适配 AI 的高效而放弃了「临时起意」和「无目的漫游」时,你已经从逻辑上被机器同化了。
这种机器化的下一步,就是软性淘汰——
人不会像《黑客帝国》那样变成生物电池(暂时不会),只会被炼成一个 skill。
![]()
毕竟现实证明:生物机器在效率上永远无法媲美金属机器。
人在追求效率的同时,主动或被动地将自己异化成一种生物机器,最终的结局必然是被金属的或者硅基的机器淘汰。
人类的社会生产持续追求「0 摩擦」的完美效率时,本质上是在追求一个「去人化」的过程。
而无论 Agent UI、Agent AI 还是通用智能,都只是这个过程中的加速剂而已。
当我们在参与社会生产的过程中,主动切除了所有属于人的部分,好让自己在这个以 AI 为出发点、为工具、为最终目的的系统中跑得更顺滑。
直到切除剩下的那些部分,可以被另一段代码完美地替代。
![]()
图|Youtube @Moviefone
当然,在这个小小的思想实验之外,我们都知道郭明錤的预测只是一种预测,没人说 OpenAI 手机的交互方式真的就是一个纯粹的任务瀑布流。
但人作为感性动物,我们的思维模式就是在与客体世界的不断交互中形成的。
如果一个占据我们每天 24 个小时的工具正在走向纯粹机器性的交互,那我们距离被异化成机器后淘汰的结局,也的确不远了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenClaw 小龙虾免费接入 ChatGPT Images 2.0 教程:无需 API Key,无需消耗 Token
今天我们主要来说一下,如何利用最新版的 OpenClaw 小龙虾,免费接入 ChatGPT 最新、最强的 AI 图片模型 ChatGPT Images 2.0。
这套方案最大的优势就是:无需 API Key、无需消耗 API Token、支持 AI 生图、支持看图分析
![]()
甚至还能用来做一些趣味玩法,比如看图看手相、图片理解、图片创作等
如果你之前用过 AI 图片生成工具,应该知道很多平台都需要 API Key,或者需要绑定余额、消耗 Token。而这次我们要演示的方式,整体门槛更低,非常适合普通用户、AI 爱好者,以及想做教程演示的朋友。
下面我们就一步一步来看具体的安装和使用流程。
一、准备工作
在正式开始之前,我们需要先准备好基础环境。
建议大家先安装两个必备工具:
1、Git【点击下载】
2、Python【点击下载】
这两个工具是运行 OpenClaw 的基础环境,后面安装和调用都可能会用到。
Git 直接下载默认安装即可,Python 也同样可以使用默认安装方式。不过这里要特别注意一点:
安装 Python 的时候,一定要勾选 Add Python to PATH 这个选项。
![]()
这个选项非常重要,如果没有勾选,后面在命令行里运行 Python 或相关工具时,就可能出现命令无法识别的问题。
如果你已经安装过 Python,但不确定有没有勾选 PATH,可以重新运行安装包进行修改,或者在命令行输入:
python --version
环境准备好以后,大家可以直接复制里面的安装命令,这样可以避免手动输入出错。
三、安装 OpenClaw 小龙虾
以 Windows 为例,我们打开 PowerShell。
建议直接使用普通 PowerShell 即可,如果遇到权限问题,也可以右键选择“以管理员身份运行”。
然后粘贴刚才复制的安装命令:
powershell -c "irm https://openclaw.ai/install.ps1 | iex"
回车后,系统会自动下载并安装 OpenClaw。
安装过程中,如果提示确认,按照默认选项继续即可。
等待安装完成后,可以输入下面的命令检查是否安装成功:
openclaw --version
如果能够正常显示 OpenClaw 的版本号,就说明安装成功了。
四、启动 OpenClaw
安装完成以后,我们就可以启动 OpenClaw。
在命令行里输入:
openclaw tui
运行后,会进入 OpenClaw 的本地交互界面。
第一次启动时,可能会提示你选择启动方式。一般选择推荐的方式即可,比如:
Hatch in Terminal
进入界面后,如果看到 OpenClaw 的欢迎信息,就说明本地环境已经正常启动。
五、接入 ChatGPT Images 2.0
这次我们重点演示的是通过 OpenClaw 接入 ChatGPT Images 2.0。如果你之前已经安装过OpenClaw,那么你可以通过下方的命令进行对接:
openclaw onboard --auth-choice openai-codex
这个模型可以用来生成高质量图片,也可以结合图片理解能力,对上传的图片进行分析。
它适合做很多场景,比如:
AI 海报生成
电商主图设计
视频封面设计
人物写真风格化
图片内容分析
看图解读
趣味看手相
创意插画生成
最关键的是,这种方式不需要手动填写 API Key,也不需要额外消耗 API Token,对于普通用户来说非常方便。
六、测试 AI 图片生成
接入完成以后,我们可以先测试一个简单的图片生成任务。
例如输入:
一幅等距视角的迷宫图,展现了一个极其复杂、埃舍尔风格的迷宫,漂浮在宁静的暮色天空中。迷宫由光滑的白色大理石和金色装饰构成。微缩发光的人物在倒置的楼梯上行走。极简主义与超现实主义的建筑风格,柔和的环境光遮蔽,营造出一种舒缓的美感。
OpenAI「复活」了 QQ宠物,网友直接玩疯,把奥特曼和他死对头都养在了电脑里
![]()
谁不想在自己的电脑上养一只小宠物,打开电脑,它就坐在那里看着你工作。
OpenAI 最近在 Codex 上的更新,引入了类似电子宠物 Tamagotchi 的桌面悬浮伴侣。
![]()
我们可以在摸鱼的时候,把鼠标悬浮到小宠物上逗它,还能拖着它在屏幕的各个位置游走;而在工作的时候,这只悬浮宠物还会实时显示 Codex 的工作状态。
和之前 Anthropic 在 Claude Code 终端里推出的像素宠物不太一样,Codex 的这只会全局地在我们的电脑上呈现。无论切换到哪个 App,它都在那个角落。
以前是人与人的聊天软件里,像是 QQ,需要一个 QQ 宠物从桌面右下角蹦出来,给它取一个名字,建立情感的联系,而它会告诉我们消息来了。
现在这件事,来到了人与 AI 的故事里。
从微软大眼夹到 Mac 访达笑脸,万物皆可宠物化
Codex 官方内置了 8 款像素风的基础宠物,包括默认原始的经典 Codex 形象,还有一只整洁的小鸭子 Dewey、适合快速迭代项目的火球 Fireball,以及一只小小的蓝屏捣蛋鬼 BAOD(Blue Screen of Death) 等。
![]()
我们可以在 Codex 设置>外观 最下面的宠物部分找到配置的相关信息。
![]()
▲Codex:最初的 Codex 伙伴。|Dewey:一只整洁的小鸭,适合平静工作的日子。|Fireball:热路径能量,适合快速迭代。|Rocky:当 diff 变得很大时,它是一块稳稳的石头。|Seedy:为新想法冒出的小绿芽。|Stacky:一个平衡的堆叠,适合深度工作。|BSOD:一只小小的蓝屏捣蛋鬼。|Null Signal:来自虚空的安静信号。
但真正有意思的是,Codex 的自定义宠物功能。
通过使用 Codex 自带的 /hatch 指令,我们可以上传任何图片,Codex 会自动把它孵化成一个动画宠物,并保存在本地文件夹中,方便我们打包分享给其他人。
使用 /hatch 指令之前,我们还需要输入命名 $Skill Installer hatch-pet 来安装自定义宠物的 Skill。它会自动从 OpenAI 的官方 GitHub 仓库里面,下载对应的 Skill 文档。
![]()
▲Skill 文档链接:https://github.com/openai/skills/tree/main/skills/.curated/hatch-pet
准备就绪,我们使用 hatch pet Skill 输入 $hatch-pet 做一个 labubu 的桌面宠物。
![]()
Codex 会自动按照 Skill 里的流程,先生成一张主图,根据这张主图再生成 idle、running-right、running-left、waving、jumping、failed、waiting、running、review 等多种不同状态图片。
每一种状态,Codex 都会生成 4-8 帧的图片。
![]()
等待它生成全部状态的图片,合成为动画,我们就能得到一个自定义的桌面电子宠物。
![]()
社交网络和开发者社区也利用这一功能,创作了大量能提升 vibe coding 幸福感的桌面宠物。
像是恶搞 Anthropic CEO,做了一个愤怒的达里奥,还有奥特曼,「一个有趣的像素风格 Sama 灵感宠物,带着焦虑的斜视眼睛,头上戴着太阳镜,穿着灰色T恤和牛仔裤,散发出混乱会议室的能量。」
![]()
▲Codex 宠物大全,PetShare 平台:https://codex-pet-share.pages.dev/
一些怀旧党立刻复刻了微软经典的大眼夹(Clippy),那个在我们新建文件、打开文件夹,都会跳出来,多两句嘴的桌面宠物,用 Codex 获得了新生。
![]()
苹果粉丝,就用 Codex 这套 Skill 做了一个相当生动的 Mac Finder(访达)笑脸小人 Lil Finder Guy,让它悬浮在程序坞上方,仿佛系统原生的一部分。
甚至还有人做出了乔布斯版本的宠物,以及像是 DeepSeek 的那只鲸鱼等。
![]()
▲另一个宠物社区,Petdex:https://petdex.crafter.run/
![]()
▲ 来源:https://x.com/GOROman/status/2050343893921923145
在极短的时间内,PetShare 和 PetDex 这样的社区驱动型宠物图鉴网站,如雨后春笋般涌现。
多邻国的那只猫头鹰、经典动漫角色龙珠里的悟空、神探福尔摩斯、旅行青蛙、哈利波特、哆啦 A 梦等等,都成了 Codex 的热门宠物选择。
![]()
▲电影《拯救计划》里的 Rocky
为了给这波热潮添把火,OpenAI 甚至官方下场举办了比赛:只要你生成的宠物被官方选入「最喜爱的 Top 10」,就能获得 30 天的 ChatGPT Pro(200 美元/月)奖励。
![]()
我们也在 Codex 里生成了一些小宠物,都是通过简单的两三个字的提示词。像是「做一个原神里旅行者荧的桌面宠物」,不过需要注意的是,生成自定义宠物需要的时间较长,同时消耗的额度也比较大。
![]()
▲ 在生成第二个桌面宠物时,直接提示 5 小时内额度用完了。
更多 Codex 桌面宠物案例:
![]()
PetShare:
https://codex-pet-share.pages.dev/#/?sort=popular
PetDex:
https://petdex.crafter.run/
电子宠物是 AI 的灵动岛
把这些自定义的宠物放到 Codex 里面也非常简单,可以直接下载文件压缩包,复制到对应的文件夹,然后在设置里进行选择。
![]()
直接在 Codex 中输入简单的 /pet 指令,我们的桌面上也能快速召唤出一个活蹦乱跳的电子宠物。
这个电子宠物,除了可爱,还确实有一点用处。
它不写代码,不 debug,唯一的工作是偶尔弹出对话气泡,告诉我们 Codex 正在后台做什么——「思考中」「任务完成」「需要你来决定一件事」。
任务完成了,点它一下,直接回复,继续。
![]()
▲ 一边刷 X,一边提醒我 Codex 进度
以往我们无论是用 Claude Code、OpenClaw,还是就在 DeepSeek 里面聊天,把一个任务交给他们,总是时不时需要切回对应的窗口,看看它是不是卡住了,是不是还在思考。
现在,这只悬浮在屏幕最顶层的宠物,会通过气泡和动作告诉我们 Codex 的后台状态。
基于生成的多种状态,这只桌面宠物,如果开始在挠头了,就说明它正在「思考」;它弹出气泡,就说明它完成了任务,或者需要我们提供进一步的输入。
![]()
更有意思的是,如果我们在它发消息时点击它,就可以直接开启一条回复 AI Agent 的双向通道。它就像是 macOS 桌面上的一个跨应用灵动岛,让我们在专注当前工作流的同时,对 AI 的进度了如指掌。
一直在更新的 Codex
电子宠物的功能在社交媒体上给 Codex 带来了又一波的好评,网友们都在说,这也太可爱了,情绪价值非常到位。
看着自己喜欢的小宠物在桌面上跳动,要比看着进度条转圈要心情好上不少。
![]()
但 Codex 这次在更新桌面宠物的同时,还悄悄放了两个新功能。
Codex 现在能够自动检测我们的电脑上,是否有其他 AI 编程工具,比如 Claude Code 留下的配置文件。
![]()
一旦检测到类似如 CLAUDE.md 的文档,它会主动建议并一键导入所有的插件、项目约定和自定义规则。
如果你也是为了避开不同平台的使用频率限制,让在多个 AI 之间反复横跳,这项更新降低了一定的切换成本。
![]()
另一项更新是在 Codex 内新增了「听写词典」,允许我们预先录入个人的常用缩略语和短语。
对于习惯用语音让 AI 写代码的用户来说,专有名词和缩写经常会被错误识别,导致反复修改。现在通过添加对应的条目,可以让减少我们纠错的麻烦。
![]()
OpenAI 也开始用最频繁的更新,把用户留在自己的生态里。
配置文件的跨端迁移、更懂用户的语音工具,加上那些在屏幕上挥手、打盹、偶尔还会抖动一下的悬浮宠物……
奥特曼在 X 发文说,感觉 Codex 正在经历 ChatGPT 时刻。
![]()
虽然事后奥特曼解释是 Goblin 时刻,但是 Codex 这接二连三的更新,也能看到 Codex 确实正在向一个更完整的、具备极高粘性的桌面「超级应用」进化。
在 AI 能力逐渐同质化的今天,产品的魅力和情绪价值,变得和代码生成能力一样重要。
![]()
就像那位做出 Lil Finder Guy 宠物的网友,分享了一段 AI 发给他的话,宠物用乔布斯的腔调说:
致敬那些小小的存在,那些悬在 Dock 上摇摇晃晃、时不时打个盹的小帮手,它们让工作变得轻一点。致敬 Codex 宠物。
好了,看着桌面上那个正冲我挥手的像素小怪物,我可能也得出门去溜达一圈了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenAI总裁的私密日记,被马斯克律师当庭念出:让我赚到10亿美元
![]()
OpenAI 成立前夜,核心大脑 Ilya 差点反悔留在谷歌。
马斯克的律师举着一本被强制公开的私密日记,当着所有人的面,一字一句地读出了 OpenAI 总裁 Greg Brockman 在夜深人静时的盘算
「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元。」
暴怒的马斯克摔门离去,Greg Brockman 在座位上瑟瑟发抖,「真以为他要动手打人」。
这场 AI 世纪庭审现场的走向,比任何一部美剧都要荒诞。
54 岁的马斯克和 41 岁的奥特曼,在 X 上多年以来的互相指责,到了刺刀见红、对簿公堂的这天。
![]()
马斯克在第一周的庭审上作证三天,重复最多的一句话是:「你们不能偷一个慈善机构。」
2015 年他出钱出力出名气,帮奥特曼和 Greg Brockman 创办了 OpenAI,承诺 OpenAI 是一个非营利的 AI 研究机构,目标是对抗 Google 的 AI 垄断。
他总共捐了约 3800 万美元。结果 ChatGPT 出来了,公司估值 8500 亿美元,Brockman 个人持股价值 300 亿美元,而他什么都没拿到,还在 2018 年被踢出了董事会。
![]()
他说:「是我想出了这个主意,是我起的名字,是我招募了核心人才,把我知道的都教给了他们,提供了所有初始资金。」
马斯克对 OpenAI 及其主要合作伙伴微软提出了超过 1500亿美元 的索赔。他不仅要求赔偿,还要求法院罢免奥特曼的董事会职务,并撤销 OpenAI 转向营利性公司的决定。
OpenAI 则认为,马斯克的诉讼主要是为了打压竞争对手,因为马斯克目前拥有自己的 AI 公司 xAI。
他们提到,在 2017-2018 年间,马斯克本人也曾试图推动 OpenAI 转向营利性结构并寻求绝对控制权。
OpenAI 律师在交叉质询中出示了 2017 年的文件,显示马斯克自己的助理 Jared Birchall 注册了一家名为「Open Artificial Intelligence Technologies」的公司,一个营利性的 OpenAI 替代版本,是马斯克自己主导的。
他也想要那个营利性结构。只是他没能掌控它。
![]()
在马斯克作为证人开庭的前两天,他给 Greg Brockman 发了条短信,试探和解可能性。
Brockman 回复:要不双方各撤诉吧。马斯克主动求和没有得到想要的结果,决绝地回应:「本周末结束前,你和奥特曼将成为美国最被痛恨的人。如果你们坚持,就这样吧。」
你根本不懂 AI
在外界看来,马斯克是那个高瞻远瞩、为 OpenAI 注入灵魂和早期资金(约 3800 万美元)的教父;但在 OpenAI 的核心团队眼里,这位亿万富翁缺乏对底层技术的敬畏。
新一轮的庭审坐在证人席的是 OpenAI 的 Greg Brockman,他也毫不留情地揭开了马斯克打造的叙事。
当被问及为何当初不愿意让马斯克担任 OpenAI 营利性实体的 CEO 时,Greg Brockman 的回答极其直白:「他懂火箭,他懂电动车。但他以前不懂,我相信他现在也不懂 AI。」
![]()
他继续补充了更多细节,研究员 Alec Radford 曾向马斯克展示过一个极其早期的语言大模型,即 ChatGPT 的雏形。
马斯克输入提示词后,对生成的答案极不满意。他当着研究员的面抱怨「这东西太蠢了」,在第二次尝试依然未能如愿后,马斯克留下一句极其刺耳的嘲讽:「这系统蠢到连网上的小屁孩都能做得比它好。」
在算力成本从 2017 年的 3000 万美元狂飙至 2026 年 500 亿美元的今天,大模型的暴力美学已经被证明是成功的王道。但在当时,马斯克的急躁与轻视,让 Greg Brockman 等人坚定了不能将 AGI 交给他的决心。
可以要他的钱,但绝不能让这个人当 CEO,掌控人类未来的 AGI。
我以为他当时就要揍我
当时,为了筹集巨额的算力资金,双方都在试探成立「营利性结构」的可能性。
马斯克给出的方案极其霸道:要么给我绝对控制权,要么把 OpenAI 直接并入特斯拉,用特斯拉的超算来对抗谷歌。
Greg Brockman 表示当时他们感到了深切的恐惧。
![]()
时任 OpenAI 的首席科学家 Ilya Sutskever 在给马斯克的邮件中写下了一段话:「我们的目标是避免 AGI 被垄断。如果创造一个结构,让你想绝对控制就能控制,那一定是个坏主意。」
为了安抚马斯克,会议当天,Ilya 甚至亲自画了一幅特斯拉的画作为「善意的信物」送给他,团队还接受了马斯克赠送的几辆特斯拉汽车。但这种近乎讨好的举动,在马斯克对 OpenAI 权力的核心诉求面前不堪一击。
在这场会议上,当 Greg Brockman 委婉地表达团队拒绝交出单方面控制权时,马斯克一言不发地坐了几分钟,随后突然站起,暴怒地绕着桌子走。
Brockman 在证词中说,那一刻他「真以为马斯克要动手打人」。结果,马斯克一把抓起那幅特斯拉的画,摔门而出,并留下最后通牒:「我会停止提供资金,直到你们决定到底要干什么。」
画被拿走了,资金断了,昔日的盟友正式走向决裂。
硅谷的城府和一本日记
明面上的资金断了,暗地里的互相防备却开始了。
Brockman 在法庭上还提到,马斯克曾满脸「负罪感」地把他叫进办公室,坦白自己暗中挖走了 OpenAI 的核心大将 Andrej Karpathy,去给特斯拉搞自动驾驶。他还强硬地要求 OpenAI 团队裁掉那些「没有重大贡献」的员工。
而在 OpenAI 这边,高管们也明明知道董事会成员 Shivon Zilis 与马斯克有着极其特殊的私人关系,却隐忍不发,利用这层关系维持着脆弱的平衡,直到马斯克彻底亮出 xAI 这个竞品,才将 Shivon Zilis 清理出局。
![]()
但比这些权衡更有意思的是,一本 Brockman 写了十年的私密日记。
这本原本藏在电脑深处的日记,在法律程序的强制要求下被公之于众。
马斯克的律师在法庭上,当着所有人的面,一字一句地读出了这位 OpenAI 总裁在夜深人静时的内心盘算:「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元」,以及「如果三个月后我们做共益企业(b-corp),那就是在撒谎。」
OpenAI 律师团队的辩护是:日记是私人思考的真实流露,里面充满自我怀疑和未经过滤的想法,被断章取义了。
OpenAI 上线前一秒,网站还在修改
「如果不是马斯克领导,根本没人会加入 OpenAI。而且他们收了他的钱之后又把他踢了出去。这其实挺不公平的。」
Greg Brockman 还分享了 OpenAI 在发布前差点失去 Ilya Sutskever 的完整故事。
Ilya Sutskever 当时在 Google,已经写好了告别邮件,准备跳槽过来。结果当天晚上,他发了一封标题叫「sad news」的邮件给 Brockman:「我太遗憾了。我实在无法离开 Google。」
与此同时,DeepMind 的员工在一场行业会议上挨个找 OpenAI 的潜在招募对象,告诉他们:「没有人会加入 OpenAI 那个实验室。它是一艘沉船。」
![]()
Brockman 为 OpenAI 的官网准备了两个版本,一个有 Sutskever,一个没有。他在最后截止时间发出一条消息,只问了一个字:来还是不来。然后他看着消息框里出现了输入提示符,一直跳,一直跳。然后是一个字:「Alright。」
Brockman 给 Altman 发短信:「他来了。」
马斯克说没有他 OpenAI 就不会存在,这话也许不假。但如果 Sutskever 那天晚上没有改变主意,OpenAI 也不会存在。
面对谷歌的财大气粗,奥特曼原本只敢对外宣布 1 亿美元的融资。
但马斯克极力反对,他明白在硅谷,声量就是生命线。他强硬地表示:必须宣布 10 亿美元,否则显得毫无希望。别人不出的钱,我全包了。
尽管后来马斯克实际上只掏了约 3800 万美元,但这句 10 亿美元的虚张声势,也算是帮初生的 OpenAI 稳住了阵脚。
![]()
控辩双方争了很多细节,但 Brockman 证词最后归结到一个问题:非营利结构的承诺,究竟是 OpenAI 对外界的法律义务,还是创始人对自己的道德期许?
马斯克律师 Gerrada 在庭上出示了 OpenAI 2015 年向特拉华州提交的注册文件,里面明确写道,
「本公司的具体目的是为人工智能相关技术的研究、开发和分发提供资金……所产生的技术将造福公众,并在适用时寻求开源……本公司不以任何个人的私利为目的。」
然后他问 Brockman:2017 年到 2018 年之间关于营利性结构的讨论,是不是和这份文件的精神相违背?如今你通过营利性实体,坐拥潜在 300 亿美元财富。
Brockman 的回答是:使命本身没有变,只是结构变了。非营利性的使命可以在营利性的结构下继续实现。
![]()
Brockman 的证词预计在 5 月底结束,与马斯克育有四个孩子的 Shivon Zilis、OpenAI 前联合创始人,以及奥特曼随后都将出庭作证。
案件的结果会直接影响当前的 AI 军备竞赛。如果马斯克胜诉,正在筹备史上最大规模 IPO 之一、估值高达 7300 亿美元的 OpenAI 可能会遭到毁灭性打击。
如果 OpenAI 胜诉,奥特曼将彻底巩固对这家拥有 4000 多名员工的巨头的控制权。
参考信息
https://www.theverge.com/tech/917225/sam-altman-elon-musk-openai-lawsuit
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
ChatGPT,别再「稳稳接住我」了|附指南
![]()
晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。
都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。
盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。
![]()
▲ChatGPT 的常用口癖
除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。
有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。
社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。
表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。
▲图片来源:小红书@Lijie_11
还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。
这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。
无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。
![]()
▲项目地址:https://not-a-devstudio.github.io/jiezhu/
举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」
OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。
![]()
漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」
自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。
我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。
用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。
AI 第一句被全民模仿的中文台词
在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。
一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。
但翻译成中文之后,它变得又长又戏剧化。
我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗
其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。
![]()
有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。
这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。
它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。
这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。
![]()
而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。
所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。
问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。
一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。
另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。
![]()
久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。
类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。
深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。
每个「人」都有自己的口癖
本以为换个模型,耳根就能清净清净。
![]()
事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。
Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。
![]()
前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。
![]()
但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」
将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。
![]()
没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。
之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。
情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。
![]()
在知乎上有一个类似的问题,底下有一条回答特别有意思。
他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。
确实,我想真正在场的人,从不需要宣告自己在场。
最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。
![]()
▲提示词来源:https://linux.do/t/topic/1924570
硬约束
– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构
沟通
– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节
中文输出规范
适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。
GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):
暴力倾向类(把技术操作比喻成暴力行为):
– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门
废话连篇类(无意义的开头、总结或过渡):
– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对
庸医问诊类(把代码问题比喻成看病/诊断):
– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型
不说人话类(生造的口语化/黑话表达):
– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的
单音节动词滥用(在技术语境中不自然的单字动词):
– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”
机械感/工业感比喻(把代码比喻成机械零件或物理操作):
– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实
过度主动/逼迫用户确认(制造虚假紧迫感):
– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…
谄媚/讨好类(过度吹捧用户或制造情感依赖):
– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗
虚假确定性(对自己的修复过度自信):
– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以
整句模式(典型 GPT 句式,正常人不会这么说):
– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”
正面锚点:
– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
GPT-5.5 Instant 正式上线:免费用户也能用,ChatGPT 终于越来越像“真人”了
如果你最近还在用 ChatGPT,那么这次升级你一定要注意。就在昨天,OpenAI 正式发布了全新的 GPT-5.5 Instant,并直接替换上一代模型,成为 ChatGPT 的默认模型。但真正让人意外的,并不是性能参数。而是免费用户现在也能直接使用 GPT-5.5 Instant。
过去很多新模型,往往只有 Plus 或 Pro 用户才能第一时间体验,而这次 OpenAI 的策略明显变了:不再只服务少数高付费用户,而是让普通用户也能直接体验最新 AI。
只要你有 ChatGPT 账号,现在就已经可以使用 GPT-5.5 Instant。
而且除了网页端之外,目前很多主流 AI Agent 工具,也已经可以通过网页授权或 API 的方式,直接接入 GPT-5.5 Instant。
这次升级,重点不是“更强”
很多人看到新模型,第一反应就是:
- 参数更大?
- Benchmark 分数更高?
- 推理能力更强?
但实际上,这次 OpenAI 的重点非常明显:
不是让 AI 更会“炫技”,而是让它更像一个真正能长期使用的 AI 助手。
相比过去一味追求“高分”,GPT-5.5 Instant 更像是在解决真实用户每天都会遇到的问题:
- AI 太爱废话
- 容易一本正经胡说八道
- 回答机械
- 不够自然
- 不懂上下文
- 不知道什么时候该联网搜索
而这些,恰恰才是普通用户最在意的地方。
第一大变化:幻觉率明显下降,回答更靠谱了
过去大模型最容易被吐槽的一点,就是:
“一本正经地胡说八道。”
尤其是医疗、金融、法律、数据分析等高风险领域。
很多模型看起来说得头头是道,但实际上逻辑已经错了。
而 GPT-5.5 Instant 这次明显加强了复杂问题中的稳定性。
它不只是“继续回答”,而是更容易发现用户问题里的错误,并主动重新推导。
举个很典型的例子。
以前很多模型在数学题里,如果用户前面的计算过程已经错了,它会顺着错误继续往下算。
但 GPT-5.5 Instant 更容易发现:
- 原逻辑不成立
- 中间步骤有问题
- 代入后结果不对
然后重新开始计算。
这其实代表 AI 的发展方向已经开始变化:
不再只是“更会说”,而是“更少说错”。
这一点,对普通用户来说,比 Benchmark 分数更重要。
第二个变化:AI 味终于没那么重了
很多人应该都有同感:
以前 AI 的回答,真的太“像 AI”了。
动不动就是:
- “这是一个非常好的问题”
- “下面我将从三个方面为你分析”
- “如果你需要,我还可以继续帮你……”
刚开始觉得礼貌,用久了真的会累。
而 GPT-5.5 Instant 这次最大的感受之一,就是:
“终于没那么像客服机器人了。”
它明显减少了:
- 过度奉承
- 机械化条列
- 无意义前言
- 重复废话
- 疯狂追问
回答会更加直接、简洁,也更像真人交流。
这一点其实非常重要。
因为大多数时候,用户真正想要的并不是一篇论文。
而是:
- 一个清楚的答案
- 一个能直接用的结果
- 一个不浪费时间的回复
这次升级,在“体感”上会非常明显。
第三个变化:越来越像个人 AI 助手
这次 ChatGPT 的另一个方向也非常明显:
它正在从“问答工具”,变成“长期陪伴型 AI”。
GPT-5.5 Instant 在上下文理解和历史聊天参考能力上,比上一代更强。
简单来说:
它会更懂你。
包括:
- 你的使用习惯
- 你的兴趣方向
- 你的内容偏好
- 你过去问过的问题
这样它给出的建议,也会更贴近个人需求。
例如:
同样是推荐内容,它不再只是给你一个泛泛答案,而是会结合你之前的聊天记录、使用场景、所在地等信息,给出更精准的建议。
这意味着:
ChatGPT 已经不只是聊天工具。
而是在往“个人 AI 助理”的方向发展。
第四个变化:多模态能力继续增强
虽然这次 OpenAI 更强调“体验升级”,但 GPT-5.5 Instant 的硬实力其实也在提升。
包括:
- 数学推理
- 科学分析
- 图表理解
- 图片识别
- 文件总结
- 多模态能力
相比上一代模型,都更加稳定。
尤其是图片理解。
现在它不仅能“看图”,而且更容易抓住重点。
例如:
上传一张 Windows 更新失败截图,它不只是重复错误代码,而是会直接告诉你:
- 最关键的问题是什么
- 为什么会发生
- 应该优先处理什么
- 具体命令怎么执行
这点对于普通用户来说,实用价值非常高。
以前很多报错:
你需要自己去网上搜索半天。
现在直接把截图丢给 ChatGPT,它就能帮你分析问题。
这种体验一旦习惯以后,真的很难回去。
第五个变化:联网搜索终于更聪明了
AI 最大的问题之一,其实一直都是:
“资料可能已经过时。”
而 GPT-5.5 Instant 现在明显更会判断:
什么时候需要联网搜索,
什么时候直接回答即可。
比如你问:
- 最新显卡价格
- OpenAI 最新政策
- 免费用户额度限制
- 产品是否更新
它会主动联网核对官方信息,而不是凭记忆乱答。
这一点其实非常关键。
因为很多时候:
模型不一定“不聪明”,而是“信息已经过期”。
而现在 GPT-5.5 Instant 在联网判断上的体验,明显更成熟了。
对内容创作者来说,这次升级非常实用
这次我实际测试下来,最大的感受之一是:
它越来越适合做“内容辅助”。
例如:
- 视频框架
- 标题优化
- 内容整理
- 提纲生成
- 观点拆解
- 新闻对比
- 文案扩写
这些能力,提升都非常明显。
尤其是在结构化内容方面。
现在很多人用 ChatGPT,已经不只是问问题。
而是直接把它当成:
- 视频策划助手
- 自媒体编辑
- 内容整理工具
例如:
你给它一篇文章,它可以直接帮你整理成:
- 视频标题
- 开场 Hook
- 核心观点
- 争议点
- 结论
- 分镜结构
甚至还能生成多个高点击方向。
对于做视频、自媒体、运营的人来说,这种提升其实非常实用。
因为真正耗时间的,很多时候并不是“写”。
而是:
“先把内容结构搭起来。”
免费用户,这次是真的赚到了
过去很多 AI 升级,其实和普通用户关系不大。
因为最强功能通常都锁在付费层。
但这次不同。
GPT-5.5 Instant 已经开始面向免费用户开放。
虽然会有一定额度限制,但对于绝大部分普通用户来说,其实已经够用了。
这意味着:
未来越来越多普通用户,会真正开始把 AI 当成日常工具。
而不是偶尔玩一下的新鲜玩具。
总之:ChatGPT 正在进入“真正好用”的阶段
这次 GPT-5.5 Instant 给人的感觉,不是一次单纯的性能升级。
而更像是:
OpenAI 开始真正解决“用户体验”问题。
它不再只是追求:
- 更高分数
- 更长上下文
- 更复杂推理
而是开始关注:
- 回答是否自然
- 是否靠谱
- 是否真正能帮到人
- 是否适合长期使用
而这些,才是普通用户每天真正能感受到的变化。
也许未来真正改变普通人的,并不是“最强 AI”。
而是:
一个越来越懂你、越来越自然、越来越像助手的 AI。
Codex 这波大更新后,Mac 的含金量再次提升
![]()
「如果这条推文获得了一个赞,Codex 重置额度限制。」
![]()
已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。
网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。
![]()
OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。
![]()
▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。
我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。
不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。
![]()
这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。
不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。
今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。
![]()
以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。
此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。
/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。
![]()
/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。
不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。
![]()
有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。
省去很多麻烦的应用快照
这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。
![]()
不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。
在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。
但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。
![]()
▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。
例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。
这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。
![]()
▲ Codex 识别到了开头之后的文章内容
例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。
![]()
▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。
官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。
像是直接要求它修改我们的备忘录内容。
![]()
▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改
还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。
![]()
▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本
就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。
/goal 的保姆级使用指南
在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」
![]()
目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。
这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。
Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。
官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。
把这个项目从 JavaScript 迁移到 TypeScript。
要求:以 strict 模式编译通过,不允许出现显式的 any 类型。
还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」
这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。
▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex
如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。
还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。
以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。
锁屏了,Codex 还能操作你的电脑
除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。
Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。
网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。
如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。
若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。
![]()
正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。
Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。
![]()
OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:
- 解锁窗口极短,仅限当前 Computer Use 操作期间有效
- 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
- 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
- 这个路径只对 Codex 开放,其他应用或本地进程无法借道
另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。
![]()
除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。
![]()
Codex 越来越好用的同时,钱包燃烧的速度也在加快。
我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。
如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制
。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenAI Codex 彻底免费了!Ollama 接管 AI 编程 Agent,本地大模型开始自动干活!真爽
过去很长一段时间里,很多人都认为,像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具,必须依赖云端运行。因为它们需要强大的模型推理能力,所以几乎都离不开 OpenAI API、Claude API 或者 Gemini API。也正因为如此,AI 编程虽然很强,但成本一直都不低。
![]()
尤其是大型项目。一次完整的代码分析、项目扫描、Agent 推理,往往就会消耗大量 Token。很多开发者可能只是测试几个小时,API 费用就已经开始快速上涨。
但现在,这件事情开始发生变化了。因为最新版的 Ollama,已经正式支持接入 Codex App。也就是说,你本地运行的大模型,现在已经可以直接变成 AI 自动编程 Agent。
![]()
而且最离谱的是:整个过程,甚至不需要联网。以前很多人对本地大模型的印象,其实还停留在“聊天机器人”阶段。比如本地运行一个 Qwen、DeepSeek、Gemma,然后进行简单对话、文本生成、代码补全等等。
但现在已经完全不同了。因为 AI Agent 和普通聊天机器人,本质上是两回事。聊天机器人只能回答问题,但 Agent 已经开始“执行任务”了。
比如:
自动分析项目结构。
自动扫描代码。
自动寻找 Bug。
自动修改文件。
自动创建项目。
甚至自动操作浏览器。
这意味着,本地 AI 已经开始真正具备“干活”的能力。
![]()
我这次测试的时候,最让我震惊的,并不是 AI 能聊天,而是它真的开始接管电脑了。比如我故意准备了一个已经崩掉的空战游戏项目。这个游戏原本已经报错,甚至无法正常运行。
正常情况下,如果是人工修复,我们可能需要:先查看控制台报错。再检查代码逻辑。然后逐步定位问题。最后再尝试修复。但这次,我直接把整个项目丢给了 AI Agent。
结果它会自动开始:
扫描项目文件。
分析代码结构。
定位错误逻辑。
自动修改代码。
修复 Bug。
最后重新运行整个游戏。
最离谱的是,修复完成之后,游戏居然真的恢复正常运行了。整个过程,几乎不需要人工干预。
![]()
而且这还不是最夸张的。真正让我觉得离谱的是:哪怕断网。它依然可以继续工作。因为它调用的是我本地 GPU 上的大模型。整个 AI 推理过程,全部都在本地完成。没有任何 OpenAI API,也没有任何 Token 消耗。以前很多 AI 工具,一旦断网,直接就废了。
但现在,本地 AI Agent 已经开始具备真正的离线能力。这一点,其实非常重要。因为这意味着,未来很多 AI 工作流,可能都会开始从“云端依赖”逐渐转向“本地运行”。
本地部署
1、安装 OpenAI Codex
如果你下载的是macOS版,注意选择intel 、M 芯片
2、安装新版 Ollama
目前只有最新版Ollama 0.24 版本才完全适配Codex,所以如果你安装的是旧版ollama,一定要将其升级到最新版
3、下载模型:
在4B~40B消费级显卡能跑的开源模型,首推 Qwen3.6 以及 谷歌的 Gemma 4 开源模型,因为无论是模型智力、代码编写、逻辑推理、中文理解等方面,这两款模型的综合评分都是数一数二的!
![]()
Qwen3.6 开源模型
安装命令:
ollama run qwen3.6 ollama run qwen3.6:27b
mac 电脑上请选择mlx结尾的适配版
ollama run qwen3.6:27b-mlx ollama run qwen3.6:35b-mlx
Qwen 3.6 其它尺寸的模型 【获取链接】
Qwen 3.6 越狱版模型: 【点击下载】
Gemma 4 开源模型
安装命令:
ollama run gemma4 ollama run gemma4:26b ollama run gemma4:31b
mac 电脑可选模型
ollama run gemma4:e2b-mlx ollama run gemma4:e4b-mlx ollama run gemma4:26b-mlx
Gemma 4 其它尺寸模型:【获取链接】
Gemma 4 越狱版模型:【点击下载】
4、对接命令:
ollama launch codex-app
注意:如果需要使用之前的模型,可以通过下方的命令进行恢复:
ollama launch codex-app --restore
【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型
1、修改Codex的配置文件:
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_reasoning_effort = "low" profile = "llamacpp-codex" model_provider = "llamacpp" [profiles.llamacpp-codex] model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_provider = "llamacpp" model_reasoning_effort = "low" [profiles.llamacpp-codex.windows] sandbox = "elevated" [model_providers.llamacpp] name = "llama.cpp" base_url = "http://127.0.0.1:8080/v1/" wire_api = "responses" [windows] sandbox = "elevated"
2、llama.cpp 的启动命令:
llama-server.exe ^ -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^ -ngl 999 ^ -c 16384 ^ -n 2048 ^ -fa on ^ --jinja ^ --host 127.0.0.1 ^ --port 8080
里面的模型改成你自己的
llama.cpp 部署教程:
另外一点让我感触很深的是,现在本地 AI 的硬件门槛,其实已经没有大家想象中那么高了。
很多人以前一提到 AI Agent,第一反应就是:
必须 RTX 4090。
必须 80G 显存。
必须企业级 GPU。
但实际上,现在很多小模型已经完全可以胜任基础 AI 编程任务。
比如:
Qwen 系列。
DeepSeek Coder。
Gemma。
甚至一些 7B、14B 的模型。
最低 6G、8G 显存,现在都已经可以跑起来了。
虽然速度肯定没办法和 4090 相比,但对于很多普通用户来说,已经足够体验“本地 AI 自动编程”这件事情了。
除了修 Bug 之外,我还测试了另外一个非常有意思的玩法:
让 AI 自动开发小游戏。
比如我直接告诉它:
帮我做一个打地鼠小游戏。
结果 AI 会自动创建 HTML、CSS、JavaScript 文件,甚至连 UI 界面和游戏逻辑都会一起完成。
几分钟时间,一个小游戏居然真的能运行起来。
而且效果其实还不错。
最关键的是,这种过程特别有“未来感”。
因为你会明显感觉到:
AI 已经不是在“回答问题”。
而是在真正执行开发任务。
接着,我又测试了另外一个场景。
我让它创建一个苹果官网风格的 AI 产品首页。
结果 AI 自动完成了页面布局、动画、响应式设计、UI 风格,甚至还会自动调整细节。
最终效果,已经开始接近商业级网页设计了。
以前这种事情,可能需要:
UI 设计师。
前端工程师。
动画设计。
CSS 工程师。
但现在,一个 AI Agent,已经开始逐渐具备独立完成整个流程的能力。
这件事情,其实是非常恐怖的。
更夸张的是,现在很多 Agent 已经不仅仅局限于代码开发。
它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件,然后自动完成整个操作流程。
这已经越来越像真正的 AI 助手了。
很多人现在才开始意识到:
AI 的真正方向,可能根本不是聊天。
而是:
Agent。
也就是:
真正帮你执行任务的 AI。
而 Ollama,现在正在成为整个本地 AI 生态里非常核心的一环。
以前很多人觉得,Ollama 只是一个简单的本地模型启动工具。
但现在,它已经开始连接越来越多的 AI Agent 工具。
比如:
Codex App。
Continue。
OpenHands。
RooCode。
Aider。
Open WebUI。
这些工具,现在都已经开始支持本地大模型接入。
这意味着:
本地 AI 正在进入真正的 Agent 时代。
以前,AI 更多只是辅助工具。
但现在,它已经开始:
自己分析项目。
自己修改代码。
自己修复 Bug。
自己开发网站。
自己创建游戏。
甚至开始自己操作电脑。
AI 的角色,正在从“聊天工具”,逐渐变成“执行工具”。
而这,可能才是真正 AI 时代的开始。