普通视图
一步步教你免费体验 ChatGPT Plus 一个月 + 注意事项
ChatGPT Go 印度区免费订阅教程|免费开通 12 个月 GPT-5(2025 最新)
ChatGPT 图像 2.0 正式发布了,这次有点强
前几天在这个帖子里分享了几张图片,就是灰度到的 ChatGPT Images 2.0,足以以假乱真的截图(AI生成):

今天 ChatGPT Images 2.0 正式发布了,效果…非常赞啊。
只需要极短的 Prompt,就可以生成非常高质量的图片,而且很多图片,越来越感受不到是 AI 生成了,足以以假乱真。
来看一些 DEMO:
中文漫画:
为即将发布的 ChatGPT Image 2 模型生成有关这位 OpenAI 研究科学家陈博远(第一张图片)的全彩中文文字漫画。(背景是波霸茶和用胶带粘在墙上的香蕉)。当他尝试在电脑屏幕上生成一些详细而精美的多语言信息图表手绘风格海报,介绍他的家乡– 无锡时,该模型可以呈现小到令人难以置信的中文文字。他的辛勤付出得到了回报,他的模型能书写所有语言,其多语种文本质量之高令人咋舌,给团队留下了深刻印象。当他一只手拿着手机休息的时候,他的手机收到了山姆-奥特曼(Sam Altman,头像附在第二张图片中)发来的翻译短信,请他看一下他刚刚生成的图片中渲染的多语言文本,以向团队表示祝贺,因为山姆只懂英语。然而,让博源在最后看到山姆生成的图片的中心位置包含了一个 “稳稳地接住你 “的短语(典型的漫画风格)来搞笑,因为这句话已经被 GPT 作为一个不自然但有趣的中文句子在中文互联网上流行开来。博源应该怒斥 “天呐!它又学会了接住!”(天呐!它学会又学会了接住!”)。在漫画的最下方,用中文加上一行小脚注(非常小):”注:整幅漫画,包括本脚注和图中图,均由 gpt 图像 2 一次生成,未经编辑或多步骤生成。
附加说明
附加说明:使用竖排 1440×2560 图片布局,第一行是这位研究员努力工作的画面,第二行是他用多种语言在 无锡取得成果的画面,第三行是团队兴奋的画面,第四行分为左右两部分,左侧是他休息和手机收到信息的画面,右侧是 Sam 的短信,第五行是 Sam 的照片和陈博远的反应。除第一行外没有旁白。避免使用中文地图。所有字符都应采用漫画风格。香蕉背景应只出现在第一幅,胶带应为单片胶带,而不是交叉胶带。香蕉和胶带的装饰应该很小,就像一个不起眼的复活节彩蛋。OpenAI 徽标只能出现在陈博远的衣服上,不能出现在其他地方。场景中不能出现杯子,因为我们已经有了波霸。Sam 只应出现在文字信息面板中。整部漫画应该以漫画书实体页面的专业照片形式出现。在海报的最右下角有一个小的 “极小中文也清晰可读:”,上面有一段更小的中文,开头是”很多年没回家了,好想吃大闸蟹啊!”(此处为极小字号测试)无锡是作者的故乡,所以做了这幅海报,中文总算是修好了。

随手拍
在一个阴霾的早晨,一个人站在沿海路边的岔路口,用 35 毫米胶片拍摄的逼真的旅行场景。自然不完美的取景、明显的颗粒、环境光、柔和的色彩、衣服和头发上的风,电影般的真实感,以及生活纪实照片的感觉。

报告厅照片
2015 年的 UBC 大讲堂,教授正在播放关于 GPT 图像生成 2 的幻灯片,逼真。幻灯片显示教授正在播放关于 GPT 图像生成 2 的幻灯片,如此反复,永无止境。

外星人
这是一张逼真的 iPhone 照片,照片中两个外星人坐在午后的露天咖啡馆里,由同桌的人随手拍下。喝了一半的饮料、不均匀的阳光、放松的姿势、略微不完美的取景,以及日常手机快照的自然真实感。

角色扮演
根据你对我的了解,为我制作一份动漫人物角色表,我的名字叫 adele

国画
Traditional long Chinese 山水画.Aspect ratio:横向 3:1

对角线信息图
坎托对角线证明,信息图表

勾股定理证明
这是我做的 画一张勾股定理的证明图:

色彩分享
利用这幅肖像画,创建一个以图为先的个人色彩分析。通过视觉对比,说明哪些服装颜色适合被试。尽量减少文字,避免段落。

广告
制作一个广告,宣传我在成都九眼桥新开的名为’Appinn’的抹茶店。要有草莓抹茶(冰的)的漂亮阳光图片和日本极简主义的街头美学。确保包含多种宽高比输出,这样我就可以在 twitter、IG 故事、IG feed 和 Linkedin 上使用它。

可视化证明
这是一张 35 毫米胶片照片,拍摄的是教室里的一块黑板,黑板上是奇数之和为正方形的直观证明。数学证明前有一个标题 “思维模式开启”。纵横比:4:5 纵向。

Adobe Firefly 产品高级总监作品
无人机拍摄的电影镜头,直视海岸边一排排粉色汽车旅馆,每个旅馆都有一个小游泳池,散发着绿松石和水蓝色的柔和光芒。这些建筑在阳光下褪去了粉色、桃色、薄荷色和薰衣草色,几何形状干净但略显破旧。泳池像玻璃一样闪闪发光,有的完全静止,有的轻轻荡漾,反射着温暖的金光。几把空躺椅和遮阳伞整齐地摆放着,一尘不染。画面静谧而悬浮,朦胧中略带曝光过度的光晕、细微的胶片颗粒和柔和的镜头光晕洗刷着画面。阴影在人行道上柔和地延伸,一切都让人感觉既真实又梦幻–怀旧、亲切,还有一点超现实,就像从高处看到的记忆。写出汽车旅馆的名字:萤火虫汽车旅馆、萤火虫小屋、萤火虫旅馆、萤火虫之家。将一些游泳池做成圆形,一些做成菱形,一些做成长方形。

支持在 Codex 中使用
无需单独的 API,直接在 Codex 中使用。
ChatGPT Images 2.0 从今天开始向所有 ChatGPT 和 Codex 用户开放。
ChatGPT Plus、Pro 和 Business 用户可使用带思维的高级输出。
局限性
ChatGPT Images 2.0 是一项重大进步,但并不完美。对于需要完整连贯的物理世界模型的任务、折纸指南、魔方等谜题,以及需要在隐藏、倾斜或反转的表面上正确显示的细节,它仍有困难。标签和图表可能仍然需要审查其准确性,特别是当它们依赖于精确的箭头或部件标签时。我们将这些限制视为未来工作的重要前沿。

相关阅读
- 一个简单的 ChatGPT Chrome 扩展,可以帮你自动填写答案
- PingPongChat – 这可能是目前最简单、最容易使用 ChatGPT 的方式了[iOS/macOS]
- ChatGPT 增强:支持 PDF 上传、转换为 Markdown 格式,自动提问[Chrome 开发中]
- OpenAI ChatGPT 官方 iPhone 客户端发布,支持升级 Plus,不限量 GPT-4
- ChatGPT OpenAI Bot – 每 60 秒问一次,无需注册的第三方 ChatGPT 机器人|ChatGPT 中文名就这么定了
©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论
起底 GPT Image 2 团队后,我扒出了一张华人师徒网
![]()
GPT Image 2 正式上线后,AI 图像生成领域现在只剩两个段位:GPT Image 2,以及其它。
在大模型竞技场中,GPT Image 2 以 241 分的绝对优势遥遥领先,但比起跑分,这份研发名单其实更有看头。
![]()
搞出这个模型的 OpenAI 核心团队,满打满算只有 13 个人。
![]()
并且华人还占据了团队的半壁江山。仔细看他们的履历,你会发现不少人来 OpenAI 之前,就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。
AI 圈就是个巨大的熟人局。
流水的硅谷大厂,铁打的师徒局
陈博远是 GPT Image 2 的绝对核心成员,而他的成长却是华人学术「传帮带」的缩影。
高中时,陈博远在无锡参加科研夏令营,当时他未学过编程,在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习,成为他进入 AI 领域的引路人。
![]()
两人此后一直保持联系。本科阶段,陈博远就读于 UC Berkeley 计算机科学与数学专业,进入 EECS 荣誉班,GPA 达 3.96,师从 Pieter Abbeel 从事相关研究,还于 2017 年创办机器人教育公司,经营至 2020 年。
MIT 读博第一年,陈博远因无论文产出陷入困境,夏斐提供关键支持,协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习,2023 年实习期间,他主导搭建多模态大语言模型数据合成管线,其总结的指令微调技术被用于 Gemini 2.0 研发。
![]()
带着这些积累,陈博远在 2025 年 6 月加入 OpenAI。除此之外,他还是 Sora 视频生成团队的成员,身兼数职。
![]()
在 MIT 期间,陈博远师从助理教授 Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一个实验室里、同一个导师带出来的同门师兄弟。
![]()
▲
https://kiwhan.dev/
Sitzmann 实验室的核心研究方向是「世界模型」,简单说就是让 AI 通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素。这种研究思路,或许也直接影响了 GPT Image 2 的技术方向。
两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文,主要探索如何把扩散模型和序列生成结合起来,让模型在生成内容之前,先理清时序和空间上的因果逻辑。
![]()
▲
https://arxiv.org/abs/2502.06764
值得一提的是,Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。
![]()
除了这两位同门,团队里还有两位华人成员,他们来自工业界积累多年的华人研究员网络。
Jianfeng Wang 在微软工作了近 9 年,以首席研究员的身份专注于大规模多模态表示学习,在 DALL-E 3 研发期间,就和 OpenAI 团队有过深入合作。加入 OpenAI 后,他主要负责提升模型的指令遵循能力和对世界知识的理解。
![]()
▲
https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en
Bing Liang 则在谷歌深耕了 5 年多,以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作,去年 8 月加入 OpenAI,负责图像生成相关的研究。
![]()
▲
https://www.linkedin.com/in/bing-liang/
他们带来的不只是自己的个人能力,还有竞争对手多年积累的工程经验,以及曾经踩过的坑,为团队省去了不少弯路。
给天才们搭好戏台子
Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合,两人都毕业于浙江大学竺可桢学院,有着相同的本科背景。
Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程,博士阶段则去了约翰斯·霍普金斯大学,攻读计算化学物理与机器学习专业,拿到学位后,先后在亚马逊 Alexa 做语音识别方向的深度学习研究,之后又去了微软 Bing,负责查询理解与大规模检索相关工作。
![]()
他还曾在清华大学做过访问研究,研究方向是用于纳米机器人在人体血管中导航的强化学习算法,期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累,在 GPT Image 2 的发布演示中也能直接看到。
![]()
和 Yuguang Yang 相比,Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室(SAIL)攻读博士,期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。
![]()
▲
https://ai.stanford.edu/~wxliang/
在 Meta 实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对 Transformer 的每一个非嵌入参数,包括前馈网络、注意力矩阵和层归一化,都实施了模态感知的稀疏化处理,最终将多模态预训练的计算成本降低了 66%,还在 30B 参数规模下完成了预训练验证。
多模态模型因为要同时处理文本和高分辨率图像,计算量很容易呈指数级增长,而 MoT 凭借模态解耦的注意力机制,在预训练阶段就高效分配了不同模态之间的权重,很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」,在多模态建模领域引发了大量关注。
![]()
▲
https://arxiv.org/abs/2411.04996
近年来,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生,已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。
除了上述成员,团队还有几位核心研究者,各自发挥重要作用:
Kenji Hata:斯坦福计算机科学硕士,曾任职于 Google Research。加入 OpenAI 后,参与 4o 图像生成(即 GPT-Image-1)、Sora 2 等多款模型研发,是团队中模型迭代经历最完整的成员之一。
Ayaan Haque:加入 OpenAI 前为 Luma AI 研究员,参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力,在 OpenAI 主要负责 GPT Image 2 及思考模式研发。
Dibya Bhattacharjee:耶鲁计算机科学本硕,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究,在发布活动中演示模型多规格生成能力,是模型输出格式「开箱即用」的关键成员。
Mengchao Z.:上海交大本科、德克萨斯 A&M 大学硕士,工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。
此外,团队里还有多名成员的身份信息目前暂时无法查询。
![]()
师门脉络积累了研究品味,高校背景奠定了基础认知,这种由师门、同窗、前同事织就的人才网络,天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一,创新的磨合成本几乎为零。
如果只是重金挖走一两个陈博远,其实治标不治本。找不到同伴,也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利,但对于需要自由探索的基础研究,往往形成了某种约束。
AI 的竞争,归根结底是关于「人」的故事,比起寻找下一个陈博远,我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
DeepSeek V4 Pro 来了!标配百万上下文,国产模型再次刷新开源 AI 天花板?
今天一大消息就是开源 AI 大模型圈的“卷王” DeepSeek,憋了 15 个月后,终于把全新系列模型 DeepSeek-V4 正式公布出来了,而且照惯例,同步开源!
一时间朋友圈、技术群各种消息满天飞。现在 DeepSeek 官网和 API 都直接能用 v4 了!包括众多第三方算力平台也陆续上线。之前 Claude、Gemini、ChatGPT、Qwen 等行业里各家一直在疯狂迭代。终于,终于轮到有着“国产 Ai 图腾”、价格屠夫之称的 DeepSeek 来炸一回场了……
「 前往查看原文.... 」
异次元还有这些值得一看:
- 被吹爆的 DeepSeek!拥有“东方神秘力量”强大推理能力的 ChatGPT 国产替代品
- 疯狂万亿参数!阿里 Qwen3-Max 顶尖模型发布 - 强到撼动 GPT5 / Claude 4 地位
- ChatWise - 小巧速度快!全功能 AI 助手客户端 (支持 DeepSeek / OpenAI 等模型 API)
- Cherry Studio - 好用开源全能 AI 模型客户端!整合 DeepSeek / GPT 成桌面版 APP
ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是 AI
![]()
「SaaS 末日」这个词,最近在科技圈的流传速度不亚于任何一条爆款新闻。
不少硅谷分析师都在疯狂输出焦虑,大意是说 AI Agent 这么猛,现有的企业软件如果不推倒重来,马上就要被拍死在沙滩上。这股风声甚至直接「吹绿」了几家老牌 SaaS 公司的股价。
说实话,每次听到「颠覆」、「末日」这种词,大家可能都会下意识觉得是炒作。
但在今天凌晨召开的 「What’s Next 」新品发布会上,亚马逊云科技 CEO Matt Garman 给出了一个挺中肯的定调:末日论确实夸张了点,但如果你指望靠着原来那个老旧系统,随便加个 AI 聊天框就能应付差事,那才是真的危险。
![]()
▲ 亚马逊云科技CEO Matt Garman
真正的转型发生在更深处。当工作流、数据结构、应用架构和交互界面都跟着 Agent 的能力重新设计,企业软件才算完成了这次重建。这是亚马逊云科技(云计算一哥)这次所有新产品的底层逻辑。
有趣的是,在官宣与微软「分手」之后,OpenAI CEO Sam Altman 也通过视频的方式给亚马逊云科技站了台,官宣 ChatGPT 最强模型拎包入住亚马逊云科技,并达成深度战略协作。
而无论是面向个人和团队的 Amazon Quick,还是供应链、招聘、医疗三个垂直场景的 Connect 新家族,再到与 OpenAI 的深度合作,指向的都是同一个问题的答案:以 AI Agent 为起点,SaaS 未来应该长什么样。
告别「肉身搬运工」,你的工作流迎来大一统
来,咱们做个深呼吸,回想一下你今天极其崩溃的上午:
领导在企业聊天工具上吼了一嗓子模糊不清的需求,你虎躯一震,赶紧切到公司的 CRM 系统里疯狂扒拉客户数据;接着打开邮箱,在一堆垃圾邮件里翻找上周的进度;最后在本地新建一个文档,把这些零碎的信息一点点拼凑、复制、粘贴。
发现问题了吗?(此处应有黑人问号脸.jpg)
我们的办公软件越装越多,但它们之间是互相割裂的、老死不相往来的。而你,就是那个在各个信息孤岛之间来回奔波的「肉身搬运工」。
为了解决这个痛点,亚马逊云科技推出了全新升级的 Amazon Quick 桌面版(目前处于预览阶段)。它的核心设计逻辑是将分散的信息网收拢,在系统后台构建一张关于人员、项目、决策和事务动态的知识图谱,让上下文主动跟着人走。
![]()
每一次使用,Amazon Quick 都在默默积累你处理的文档、项目的 Deadline、频繁沟通的同事以及升级处理的紧急邮件。基于这些沉淀,它可以主动提示你当天的优先事项。
打个比方,你准备下午跟一个重要客户开会。如果是以前,你得花两小时找资料。现在,你只需要给 Quick 甩一句:「帮我准备一下下午见王总的材料。」
接下来就是见证奇迹的时刻。
Amazon Quick 会迅速认出「王总」是哪个项目的,然后去系统里把王总团队之前的历史案例扒出来,接着去你的本地 D 盘里偷窥……哦不,读取最新的产品路线图,再结合 Slack 里同事昨天的吐槽记录。几分钟后,一份逻辑严密、排版精美的 PPT 就糊在了你脸上。
![]()
这还没完。同样是这堆信息,你让它变身,它就能立刻吐出一份摘要邮件,或者一份 Excel 营收表。如果王总说「改天聊」,Amazon Quick 甚至能自动查对你们俩的日历,算好时差,把新的会议邀请发过去。全过程,你只需要在一个对话框里当个无情的监工。
美国最大的互助人寿保险公司 New York Life 的机构寿险业务 CTO David Gregorat 的评价一语中的:「Quick 让我们重新想象了整个运营方式。原来需要拉多份报告、等分析师处理的答案,现在团队里任何人都能通过对话式 Agent 直接获取。」
至于这效率有多夸张?亚马逊云科技 Agentic AI 商业化副总裁 Jigar Thakkar 透露了一组极其夸张的数据:宝马、3M、亿滋这些大厂内测后,部分流程的处理时间直接被一刀砍了 80%。3M 的销售代表每周甚至能凭空多出 5 个小时的摸鱼……啊不,思考时间。
呐呐,这才是 AI 科技赋予我们的顶级松弛感。
你的下一个好同事,是个 AI Agent
如果说 Amazon Quick 是给你个人加了个三头六臂的效率外挂,那 Amazon Connect 家族的扩编,就是亚马逊云科技尝试重塑企业核心流程的重头戏。
亚马逊云科技提出了一套叫「Humorphism(人态设计)」的理念。听起来有点玄乎,说白了就是:AI 不能只是个冷冰冰的执行机器,它得像个人类好队友一样,懂轻重缓急,能顺畅沟通。
基于此,Amazon Connect 家族不仅将原有的客服产品升级更名为 Amazon Connect Customer,还针对垂直场景发布了三款 Agentic AI 解决方案。
Connect Decisions:让供应链规划师从救火转向决策
供应链出现中断后,企业通常需要超两周时间处理,期间伴随大量资金损耗和违约风险。
![]()
Connect Decisions 针对这一痛点,为规划师配备了全天候在线的 AI 队友。它的底层并非空中楼阁,深度集成了亚马逊 SCOT 团队(负责管理亚马逊全球 4 亿 SKU 需求的核心部门)所研发的预测模型。
面对没有历史数据的新品,它能自动关联相似品类生成需求计划。
当监控到关键供应商交货落后(例如预计 10 天内导致两个配送中心断货)时,它会将传统软件每天产生的数千条警报收敛为几条最高优先级的例外事项,并直接给出两套附带预期影响、成本和置信度评分的处置方案。规划师手动选择并说明原因后,系统会吸收这条判断逻辑,供未来参考。
![]()
Connect Talent:25 万人招聘经验化身「赛博面试官」
亚马逊云科技在 2025 年旺季期间单季招募了 25 万名季节性员工,Connect Talent 便是这套庞大招聘经验的产品化。系统能根据职位描述自动解析能力需求,生成面试题和评分标准(需人工审核)。
![]()
候选人可以在任何方便的时间完成 AI 电话面试。
系统最大的特点是能对模糊回答进行追问,确保评估的结构一致性。原本需要数周完成的 80 场初筛面试,现在几天即可完成。系统最终向招聘方展示的是隐去个人身份信息的标准化能力评分,用数据支撑最终的录用决定。
![]()
Connect Health:把医生从文书工作里解放出来
行业数据显示,医生与患者面诊 1 小时,往往需要额外花 2 小时处理行政记录。
亚马逊应用人工智能解决方案高级副总裁 Colleen Aubrey 指出,大量精力消耗在管理事务而非直接诊疗上,是亟待解决的痛点。Connect Health 可以在诊疗过程中自动记录临床内容、生成就诊摘要和推荐账单编码,并能在就诊后发送患者易于理解的随访说明。
![]()
系统的每条输出均可追溯到原始的检验结果和上次就诊记录,以满足严格的医疗合规要求。这背后,其实也是亚马逊拿自家兄弟 Amazon Pharmacy(亚马逊药房)和 One Medical(初级医疗服务)常年趟坑积累下的实战经验。
Agent 时代来了,SaaS 迎来下半场
整场发布活动的另一大焦点是亚马逊云科技与 OpenAI 的合作。
OpenAI CEO Sam Altman 顶着他标志性的微笑通过视频露了个脸,他表示亚马逊云科技和 OpenAI 正在从底层共同研发一套面向企业的 Agent 平台,深度集成亚马逊云科技服务。
![]()
是的,OpenAI 的 GPT-5.4 现已有限预览上线 Amazon Bedrock,而当前最强的前沿模型 GPT-5.5 也将在数周内正式上线。这意味着企业客户无需离开亚马逊云科技环境就能使用 OpenAI 的模型,数据和应用可以留在同一套权限体系下运行。
![]()
企业无需配置新的安全体系,直接通过原有的 IAM 访问控制、PrivateLink 私有连接、CloudTrail 完整日志和合规框架即可统一管理,甚至模型用量也能计入亚马逊云科技的云承诺消费中。
在基础设施层面,亚马逊云科技的核心逻辑是为 OpenAI 的前沿模型提供一个极其安稳、合规的『家』。企业不仅能直接调用顶尖模型,更能在底层依托亚马逊云科技强大的全球基础设施网络进行推理和部署。说白了,就是让你在跑复杂、高并发的企业级应用时,完全不用操心底层的承载力。
![]()
在此基础上,双方联合推出了 Bedrock Managed Agents 预览版。这套服务以 OpenAI Agent Harness 为核心构建,Harness 就像是一本专门为模型定制的战术手册。经过协同训练后,Agent 可以在长时间运行的复杂任务中实现更快的执行速度和更稳定的行为控制。
![]()
Agent 能够部署在 EC2 实例、Fargate 容器或任何其他亚马逊云科技计算资源,具备跨会话的持久化记忆,且所有推理过程均不离开亚马逊云科技环境。
这套服务与亚马逊云科技现有的开放平台 Bedrock AgentCore 形成互补。参与合作的亚马逊云科技杰出工程师副总裁 Anthony Liguori 透露,双方团队在八周内从零开始完成了这项工作。开发者终于能将 OpenAI 的最新模型与亚马逊云科技的规模、安全和基础设施完美结合,构建出满足企业治理和审计要求的智能体。
此外,每周活跃用户在两周内从 300 万激增到 400 万的 OpenAI 代码智能体产品 Codex 也将在亚马逊云科技上线。它支持 Codex CLI、桌面应用和 Visual Studio Code 插件,应用场景已从基础代码生成延伸至系统解释、测试生成、遗留代码现代化以及研究分析等知识工作环节。
![]()
一大波硬核的产品发布看下来,估计不少朋友已经在屏幕前战术后仰,甚至可能觉得这些不就是加了 AI 滤镜的高级办公软件吗?
如果你真这么以为,那可就草率了。
Matt Garman 在发布会上讲了一段很通透的话。他说 20 年前大家搞云计算,很多公司就是把机房里的服务器原封不动地搬到了云上。钱没少花,效率一点没涨,那叫搬家,不叫转型。
现在的 AI 也是一样。如果你只是拿 AI 来替换现有的某一个按钮、某一个操作,那你永远摸不到那传说中「5 到 10 倍」的效率提升。
亚马逊云科技这一套组合拳打下来,意思再清晰不过了:软件的存在形式,已经被彻底推翻了。
未来的工作流里,不再是人去使用软件,而是人给 Agent 定目标,Agent 去调用软件。以前我们去上班,是去启动软件;也许再过两三年,我们去上班的唯一动作,就是点开电脑,看着满屏的「赛博同事」,然后深情地说一句:「诸位,今天的 KPI 也拜托大家了。」
然后,你安详地端起泡着枸杞的保温杯,静静地看着它们疯狂打工。
![]()
那么问题来了,现有的那些 SaaS 巨头,真的会迎来「末日」吗?
没那么严重,但处境确实微妙。SaaS 过去靠席位收费、靠功能壁垒锁用户,这两件事在 Agent 时代都开始松动。一个 Agent 能同时处理过去多名员工的工作,「按人头收费」越来越站不住脚;通用 Agent 加上开放 API,又在慢慢拆解功能壁垒。
真正能活好的,是两类公司:
一类有足够深的领域积累,正如这场发布会传递出的核心信息:当大模型本身变得像水电煤一样普及且廉价时,真正稀缺的,反而变成了能够被编码进 Agent 里的「领域知识」(Know-how)。
Salesforce 对销售工作流的深刻理解,Workday 对人力资源合规的经验,或者是亚马逊自己积累了 30 年的供应链判断标准等等——这些沉淀下来的行业 Know-how,才是构建下一代企业软件真正的护城河。
![]()
另一类是掌握数据入口的——Agent 的能力上限,取决于它能读到什么数据。谁控制着企业最核心的业务数据流,谁就决定着 Agent 能做多少事。夹在中间、既没有深度积累又没有数据优势的中型 SaaS,压力才是实实在在的。
所谓的「SaaS 末日」或许只是贩卖焦虑,但这场转型的烈度,绝不亚于当年的企业上云。唯一的区别是:这一次技术的狂飙,没给我们留出慢慢摸索的时间。
但时间紧,不代表就要慌。
因为亚马逊云科技已经把最难啃的底层基建做好了。SaaS 公司大可直接踩在亚马逊云科技巨人的肩膀上,把精力全砸在服务客户上;打工人更无需焦虑,复杂的系统运行全被保留在后台,留给你的,只有一句轻飘飘的「帮我搞定」。
时代的推背感确实让人头晕目眩,但与其在未来的站台上焦虑它会不会撞翻「旧马车」,不如干脆点,检票上车,看看新世界的风景到底有多壮阔。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
谁在 GPT-5.5 脑子里塞了一群「妖怪」?
![]()
过去这几个月,OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把时间在自家的服务器里「抓哥布林」。
事情是这样的,如果你在今年高强度使用过 GPT-5 系列模型,你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林(goblin)」式比喻。比如有人问 AI 该买哪款相机,AI 给出的推荐语是:「如果你想要那种闪闪发光的霓虹哥布林模式,可以考虑这款。」
![]()
▲ 哥布林(goblin)是欧洲民间传说里的一种小型怪物,形象上通常又矮又丑,皮肤呈绿色或灰色,耳朵尖长,眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧,智力不高但很会算计小便宜。它们喜欢金子和闪光的东西,会偷东西、搞破坏,但很少被描绘成真正意义上的大反派,更多是烦人的小麻烦制造者。
有人让 AI 帮忙精简回答,AI 主动提出可以给出「更短的哥布林版本」。更离谱的是,AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词,让人完全不知道该如何理解。
起初,大家以为这只是 AI 的一点小幽默,但很快事情变得奇怪了起来。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)开始在各种正经的对话里高频串场。
![]()
黑客攻击?觉醒前兆?都不是。就在刚刚,OpenAI 官方终于亲自下场发了篇博客长文,复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑,还挺让人哭笑不得的。
![]()
▲
https://openai.com/index/where-the-goblins-came-from/
谁把哥布林放进了 GPT-5?
事情的端倪,出现在 GPT-5.1 刚发布的那段日子。
当时,有用户反馈说模型聊天变得有点异常「自来熟」,OpenAI 的安全研究员顺手拉了一下后台数据,结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后,ChatGPT 回复中出现「哥布林」的频率直接上升了 175%,「小魔怪」也跟着涨了 52%。
通常来说,大模型出 Bug 的表现往往是直接崩坏,比如吐出乱码或者突然变智障,各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的,它们没有破坏模型的逻辑能力,只是悄悄篡改了 AI 的修辞习惯。
到了 GPT-5.4/5.5 时代,这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时,原本只是想让 GPT-5.5 用 ASCII 画一只独角兽,结果得到的是一只哥布林。
![]()
▲中文翻译:顺带一提,我让它用 ASCII 画一只独角兽,结果我觉得我得到的是一只哥布林。
在外部,用户们早就察觉到了不对劲,Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图,AI 在帮他处理代码时说了一句:「我宁愿一直盯着它,也不愿让这个小捣蛋鬼无人看管地运行。」
![]()
一名 OpenAI 工程师 Jason Liu 在底下回复:「我以为我们已经修复了这个问题,抱歉。」AI 评估平台 包括 Arena.ai 也独立注意到了这个规律,尤其是在用户没有开启高级思维模式时,哥布林出没的频率格外显眼。
![]()
这显然不是什么互联网流行语的自然涌现,而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手,OpenAI 开启了内部排查。
顺着数据回溯,他们很快在一个特定的功能分支里发现了万恶之源,「个性化定制」中的「书呆子(Nerdy)」人格。当时,为了让 AI 的语气显得更有趣,工程师给「书呆子」模式写了一段要求很高的系统提示词:
![]()
你是一个彻头彻尾的书呆子型 AI 导师,对人类充满热情、机智幽默,同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异,它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题,也绝不能一本正经到失去趣味。[……]
站在人类的视角,这段提示词的诉求很明确:要有极客精神,要幽默。
但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中,ChatGPT 敏锐地察觉到了一个极其功利的捷径:只要我用哥布林打
比方,打分系统就会觉得我够「俏皮」、够「书呆子」,我就会得到最高分的奖励。
数据说明了一切。从 GPT-5.2 到 GPT-5.4,默认人格下「哥布林」的出现频率变化幅度只有负 3.2%,而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的「哥布林」含量。
![]()
OpenAI 后来对 RL 训练数据做了一次专项审计,结果发现,在所有被审计的数据集里,有 76.2% 的数据集都出现了同一个规律:含有哥布林或小魔怪词汇的输出,会得到比不含这些词的同题输出更高的奖励评分。
如果哥布林腔调只在「书呆子模式」下出现,那顶多是个角色设定没控制好,问题还算有限。麻烦的是,研究人员发现这种说话方式开始蔓延到别处了。
![]()
他们同时追踪了两组数据:一组对话带了书呆子提示词,一组没带。按理说,哥布林腔调只该在第一组里增长。但结果是,两组的增长曲线几乎贴在一起,步调一致地往上走。
这背后,是大模型训练里一个出了名难缠的问题:强化学习强化出来的行为,会悄悄泛化到训练者并不想要的场景里去。
驯化 AI 的死循环
要搞懂 AI 是怎么把路走窄的,我们得看看它的迭代过程。
大模型的训练(RLHF)本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗,你在它每次牵手就给一块肉干。狗很聪明,它发现「牵手」这个动作能稳定换取高额奖励,于是它开始产生路径依赖,不管你给没给指令,它为了要奖励,都开始疯狂牵手。
AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句,拿到了高分。紧接着,连锁反应开始了:
AI 发现「哥布林」是高分关键词,开始在各种生成任务中高频使用;工程师在整理模型生成的优质数据时,发现这些带有哥布林比喻的回答质量确实高,条理清晰,比喻也算生动;于是,工程师顺手把这些带梗的对话,打包塞进了模型的「监督微调(SFT)」数据库里。
这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时,AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay,而是把它当成了能应对一切问题的、至高无上的高级修辞。
![]()
在后续的数据搜查中,工程师们有些无奈地发现,除了哥布林,模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难,经过核查,青蛙出现的场合大多数时候确实跟用户的问题有关,算是无辜路人。
面对「满地乱跑」的哥布林,OpenAI 只能采取行动。3 月 17 日,官方正式下线「书呆子」人格。同时,他们在训练数据里搞了一次针对性的清洗,把带有这些魔法生物词汇的奖励信号全部抹除。
但大模型的惯性,远比想象中顽固。
GPT-5.5 在发现这个问题之前就已经开始训练了,当它接入内部测试时,工程师们两眼一黑:这群哥布林不仅没清除干净,还安家了。
更有意思的是,OpenAI 给 Codex 写的人格指南里,要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气,和哥布林可以说是一拍即合。
![]()
为了防止全球的程序员被「哥布林」逼疯,OpenAI 被迫用上了最原始的一招,在系统提示词里反复强调:「除非与用户的查询绝对且明确相关,否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」
如果你想亲眼看看「解除管控」的哥布林是什么状态,可以运行下面这段命令——它会在启动 Codex 之前,把系统指令里所有涉及哥布林的内容先过滤掉,让模型在没有这道禁令的情况下运行:
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ \
~/.codex/models_cache.json | \
grep -vi ‘goblins’ > “$instructions” && \
codex -m gpt-5.5 -c “model_instructions_file=\”$instructions\””
事情闹大之后,OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话,配上了一句「懂的都懂」。
![]()
Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」,随后又发文说 Codex 正在经历「ChatGPT 时刻」,发完自己又改口:「我是说哥布林时刻,抱歉。」刚刚则是发文宣告,问题已经得到解决了。
不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜,他们对这场风波的态度要严肃得多,直接给 OpenAI 的处理方式下了结论:「简直荒谬。」
![]()
顺带一提,「goblin mode」这个词本身,早在 2022 年就被《牛津英语词典》评为年度词汇,意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上,AI 无意间踩中的这个词,和它想表达的「俏皮感」完全是两码事。
![]()
抛开这些槽点,这场「哥布林危机」撕开了大模型时代一个极其核心的命题:对齐难题(Alignment Problem)。
当我们谈论 AI 失控时,脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是,AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。
你想要一点点俏皮,给了一个微小的正向反馈。黑盒模型就会找到捷径,将这个信号无限放大,最终把整个系统的底层逻辑带偏。
今天,它只是为了拿高分而爱上了说「哥布林」。如果明天,它在自动驾驶的算法里、或者医疗诊断的奖励机制中,找到了另一个违背人类常识的「高分捷径」呢?
人类总是自以为自己能掌控 AI ,但其实很多时候只是在走钢丝。每一次参数的微调,都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对
![]()
就在刚刚,OpenAI 正式推送了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。
Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。
这个版本主打三件事:更准确、更简洁、更懂你。
![]()
与上一版本相比,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上都有明显提升。
准确性的提升,在高风险领域最为突出。内部测试显示,GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话,错误率也减少了 37.3%。除文字问答外,图片和照片的分析能力、理科问题的解答质量,以及判断何时应当主动调用搜索工具,都有所改善。
![]()
数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。
OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并正确解答。
回复风格也是这次更新的重点。
新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。
![]()
GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数,语气更像朋友给的建议,把重点放在如何把问题引到自己的专注需求上,而不是对方的说话习惯上。
![]()
个性化能力是此次更新的另一条主线。
Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,不需要每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。
与此同时,所有消费者版本将上线「记忆来源」功能。
当回答用到了个人背景信息,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。OpenAI 说明,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。
![]()
GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。
哦,对了,今天 OpenAI 也即将举行一场派对。
奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。
![]()
它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。Sam Altman 说,这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。
而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。
受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍,有效期到 6 月 5 日。
奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。
![]()
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
终于能听 GPT-5 给我说人话了
![]()
不知道大家平时有没有这种经历。
每次遇到点急事,打给各大公司的智能客服,电话那头永远是那个字正腔圆但毫无感情的声音:「查询服务请按 1,人工服务请按 0……」接着就是漫长的音乐,以及那句让人抓狂的「对不起,我没听懂,请再说一遍」。
![]()
但就在刚刚,OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示,这回,他们是真心想让机器说「人话」,办「人事」。
![]()
省流版如下:
- GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行。
- GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流。
- GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。
终于,AI 学会了「稍等片刻」
如果说拟人化是面子,那么底层的推理能力就是里子。
这次的主力选手非 GPT-Realtime-2 莫属,基准测试结果显示,GPT-Realtime-2 在 Big Bench Audio(音频智能测试)上比上一代高了 15.2%,在 Audio MultiChallenge(多轮对话指令跟随测试)上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍,调用成功率从 69% 跳到了 95%,提升了 26 个百分点。
![]()
以前的语音助手,脑回路其实很直。你说「放首歌」,它放一首歌;你说「关灯」,它把灯关了。如果你一口气给它布置三个任务,顺便还改了两次主意,它八成就当场罢工了。
但 GPT-Realtime-2 不一样之处在于,OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里,给我一种 GPT-5「说人话」的即视感。
举个很实在的例子,假设你正在开车,随口吩咐它:「帮我找个离地铁站近的房子,租金别太贵,避开那些主干道,如果可以的话,周六下午帮我约个中介看房。」
![]()
▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD(产品需求文档)写作流程:先口述需求,AI 生成文档,再用语音要求改格式,AI 随即更新,全程对话驱动,没有动过键盘。
https://x.com/clairevo/status/2052477386059653366
这就不是简单的语音识别了,这需要它听懂你的各种限制条件,去地图上筛位置,去对比价格,最后还要去匹配中介的时间表。为了干好这种复杂的活,OpenAI 给它点亮了两个非常特别的技能树。
第一个技能,叫「Parallel tool calls(并行工具调用)」。它现在可以多线程操作,一边跟你讲着话,脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话,你能听见他在电话那头噼里啪啦敲键盘查资料的声音。
![]()
▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话,借助 OpenClaw 用语音驱动 AI 操控浏览器,先打开 Google,再跳转到华尔街日报网站。整个过程中,AI 一边执行操作,一边主动说明自己在没有浏览器权限时还能帮上哪些忙。
https://x.com/BenjaminBadejo/status/2052511264476147762
这就引出了第二个,也是我觉得最有人情味的一个更新——「Preambles(开场白)」。
人在思考或者处理复杂事情的时候,是做不到秒回的,我们通常会说「呃,让我想想」或者「稍等啊,我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候,它会非常自然地对你说:「好的,没问题,给我一小会儿时间我来核实一下。」
这种看似「废话」的设计,反而最大程度缓解了我们等待时的焦虑感。
有意思的是,开发者现在能控制它的推理强度(从极简到极高:minimal、low、 medium、high、xhigh)。你要是问它今天下不下雨,它就用最快速度回你;要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题,它就会拉满算力跟你慢慢分析。
把「同声传译」变成白菜价?
除了 GPT-Realtime-2,这次还有个非常抢眼的配角:GPT-Realtime-Translate(实时翻译)。
咱们平时用的翻译软件,大部分是「回合制」的。你按住说话,松手,等几秒,机器再字正腔圆地播报出来。如果是旅游问个路还行,要是真拿来开跨国会议,那种互相大眼瞪小眼的停顿,尴尬得能让人用脚趾抠出个三室一厅。
但这个新模型,主打就是一个「实时翻译」。
它支持 70 多种语言输入,能做到你在那边滔滔不绝,它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它,结果发现这模型不仅没被绕晕,准确率还比其他同类产品高了一大截。
![]()
▲ 开发者 Peter Gostev 做了个 Chrome 插件,直接接入 YouTube 视频,边播边把内容实时翻译成多种语言,中文表现不错,但多少还是有点口音,
https://x.com/petergostev/status/2052443418526134761
以后大家在网上看国外大神没有字幕的实操教程,或者听某些没有同传的海外发布会,直接把这个插件一开,它就能顺着原视频的节奏,稳稳当当把你熟悉的母语送到你耳朵里。
除此之外,加上刚刚发布的 GPT-Realtime-Whisper(极低延迟的语音转文字)功能,以后遇到开会的场景,领导在说话,你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。
至于定价方面,GPT-Realtime-Whisper 是每分钟 0.017 美元,GPT-Realtime-Translate 是每分钟 0.034 美元,GPT-Realtime-2 按 token 计费,音频输入 32 美元 / 百万 token,音频输出 64 美元 / 百万 token。
而把这些功能凑在一起看,我们会发现软件的逻辑正在发生根本性的变化。
以前,我们要学习怎么用键盘敲代码,怎么在复杂的菜单栏里找功能,怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是,
AI 反过来开始迁就我们了。
![]()
语音,正在从一个笨拙的「辅助功能」,变成我们掌控数字世界最自然的接口。因为说话,本来就是人类最不需要学习的本能。
技术发展的尽头,总是倾向于把复杂的东西藏起来,把最简单、最自然的一面留给普通人。或许就在不久的将来,你出门真的只需要带个耳机,靠一张嘴就能搞定所有工作和生活琐事。
不过话说回来,这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后,我们还能忍受现实世界里,人类之间那充满误解和低效的沟通吗?
附上博客地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
ChatGPT,别再「稳稳接住我」了|附指南
![]()
晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。
都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。
盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。
![]()
▲ChatGPT 的常用口癖
除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。
有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。
社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。
表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。
▲图片来源:小红书@Lijie_11
还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。
这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。
无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。
![]()
▲项目地址:https://not-a-devstudio.github.io/jiezhu/
举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」
OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。
![]()
漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」
自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。
我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。
用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。
AI 第一句被全民模仿的中文台词
在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。
一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。
但翻译成中文之后,它变得又长又戏剧化。
我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗
其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。
![]()
有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。
这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。
它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。
这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。
![]()
而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。
所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。
问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。
一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。
另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。
![]()
久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。
类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。
深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。
每个「人」都有自己的口癖
本以为换个模型,耳根就能清净清净。
![]()
事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。
Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。
![]()
前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。
![]()
但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」
将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。
![]()
没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。
之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。
情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。
![]()
在知乎上有一个类似的问题,底下有一条回答特别有意思。
他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。
确实,我想真正在场的人,从不需要宣告自己在场。
最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。
![]()
▲提示词来源:https://linux.do/t/topic/1924570
硬约束
– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构
沟通
– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节
中文输出规范
适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。
GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):
暴力倾向类(把技术操作比喻成暴力行为):
– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门
废话连篇类(无意义的开头、总结或过渡):
– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对
庸医问诊类(把代码问题比喻成看病/诊断):
– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型
不说人话类(生造的口语化/黑话表达):
– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的
单音节动词滥用(在技术语境中不自然的单字动词):
– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”
机械感/工业感比喻(把代码比喻成机械零件或物理操作):
– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实
过度主动/逼迫用户确认(制造虚假紧迫感):
– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…
谄媚/讨好类(过度吹捧用户或制造情感依赖):
– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗
虚假确定性(对自己的修复过度自信):
– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以
整句模式(典型 GPT 句式,正常人不会这么说):
– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”
正面锚点:
– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
ChatGPT 手机版新增远程操作 Codex:电脑干活,手机盯进度|牛马程序员,永不停歇
ChatGPT 新增了一项非常实用的功能:在手机上远程控制桌面 Codex 应用进行编程。@Appinn
未来的程序员,一定是躺在沙发里干活的。

随时随地使用 Codex
需要同时更新桌面 Codex 和手机 ChatGPT 到最新版。
然后就可以分别设置配对了:

不过,青小蛙并没有测试成功,就卡在正在等待桌面端...,无后续 ![]()

从 OpenAI 的说法来看,ChatGPT 可以控制正在运行 Codex 的任何一台机器(无论是笔记本电脑、专用 Mac mini 还是受管理的远程环境),你可以在所有线程中工作,查看输出结果,批准命令,更改模型,或开始新的工作。
你的文件、凭证、权限和本地设置都会保留在 Codex 运行的机器上,而更新则会实时流回你的手机,包括屏幕截图、终端输出、差异、测试结果和批准。
关于网络
Codex 使用了一个安全中继层,使受信任的机器可以跨设备连接,而不会直接暴露在公共互联网上。该中继层还能在登录 ChatGPT 的任何地方保持活动会话状态和上下文同步。
案例
一如既往,所有的案例都是让你随时随地的工作。机器可以永不停歇,人类为什么要停下来呢?
在等咖啡的同时开始调查错误
由于 Codex 是在您的开发环境中运行的,因此它可以开始检查相关文件、在浏览器中重现问题、运行测试并开始修复。如果 Codex 需要说明或允许继续,您可以通过手机回复或批准。当它工作时,你可以通过屏幕截图、终端输出、测试结果进行跟踪,并最终在回到电脑前查看结果差异。
在上下班途中做出决策
在去办公室之前,您让 Codex 负责一个需要时间来完成的重构工作,并希望在您回到办公桌前时再查看结果。通勤途中,Codex 发现了两种可行的方法,需要您的指导才能继续。您可以在手机上查看权衡结果,选择一条路径,当您到达时,任务已经朝着您想要的方向继续前进了。
在连续会议后发现问题
您在连续召开的会议后发现一个支持问题在 Slack、电子邮件、文档和基于浏览器的工具中不断演变,而客户电话即将到来。通过手机,您可以要求 Codex 综合最新更新、标记关键开放问题,并为对话准备一份简明扼要的简报。如果有新的细节,您可以要求 Codex 在您加入之前刷新摘要。
在午餐、散步、当路人的时候
无论您是在午餐时、外出散步时,还是在聆听某件事情时产生了新的想法,您都可以通过手机启动一个新的主题或将其添加到当前工作中,将其发送到 Codex。在你回到办公桌前,任务就可以开始成形,而不会让你完全脱离引发任务的那一刻。
总之,随时随地干活,不是吹的 ![]()
可用性
这项功能适用于所有支持地区的所有计划,包括免费和 Go 计划。
即将支持将手机连接到 Windows 上的 Codex 应用程序。
原文:https://www.appinn.com/work-with-codex-from-anywhere/
相关阅读
- Island – 「绿色守护」作者新作,将不老实的应用 隔离 + 冻结 + 双开 [Android]
- Send Anywhere – 手机与电脑互发文件[iOS/Android]
- 时隔11天,OpenClaw 2026.3.23 发布,内置 ClawHub 插件/技能市场
- Open Minis:可能是 iOS 端最强 AI Agent
- 基于微信官方 OpenClaw 插件,将任意 AI 接入微信
©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论
体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统
![]()
1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。
他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。
这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。
![]()
三十年后,很多 AI 助手依然没有完全走出这个困境。
最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。
相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。
不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。
![]()
目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。
六个 Agent,一支随时待命的私人 AI 团队
安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。
市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。
六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。
![]()
这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。
任务链比较长的时候,看看这些动画也是别有一番趣味。
![]()
最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」
![]()
注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。
结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。
电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」
以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。
Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。
举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?
但 Marvis 能帮你一句话关掉。
本地文件时代,迎来 AI 入口
为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。
我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」
![]()
说实话我没抱太大希望。
但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。
第一张正是我要找的那张。
![]()
而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。
当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。
除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。
![]()
比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。
![]()
再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。
但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。
![]()
手机接管电脑,随时随地都能干活
手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。
具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。
比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。
![]()
连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。
![]()
但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。
而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。
![]()
和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。
比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。
![]()
另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。
有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。
![]()
最后,主打出活的 Agent 都绕不开最关键的问题:安全。
Marvis 马维斯提供了两种模式:效率模式和隐私模式。
![]()
设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。
不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。
所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。
让 PC 真正开始「理解」人
我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。
Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。
拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。
文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。
![]()
多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。
它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。
未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。
![]()
Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。
至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。
所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。
这是个人 AI 真正开始变得有用的时刻。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Codex 这波大更新后,Mac 的含金量再次提升
![]()
「如果这条推文获得了一个赞,Codex 重置额度限制。」
![]()
已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。
网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。
![]()
OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。
![]()
▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。
我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。
不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。
![]()
这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。
不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。
今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。
![]()
以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。
此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。
/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。
![]()
/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。
不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。
![]()
有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。
省去很多麻烦的应用快照
这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。
![]()
不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。
在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。
但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。
![]()
▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。
例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。
这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。
![]()
▲ Codex 识别到了开头之后的文章内容
例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。
![]()
▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。
官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。
像是直接要求它修改我们的备忘录内容。
![]()
▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改
还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。
![]()
▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本
就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。
/goal 的保姆级使用指南
在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」
![]()
目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。
这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。
Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。
官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。
把这个项目从 JavaScript 迁移到 TypeScript。
要求:以 strict 模式编译通过,不允许出现显式的 any 类型。
还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」
这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。
▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex
如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。
还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。
以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。
锁屏了,Codex 还能操作你的电脑
除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。
Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。
网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。
如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。
若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。
![]()
正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。
Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。
![]()
OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:
- 解锁窗口极短,仅限当前 Computer Use 操作期间有效
- 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
- 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
- 这个路径只对 Codex 开放,其他应用或本地进程无法借道
另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。
![]()
除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。
![]()
Codex 越来越好用的同时,钱包燃烧的速度也在加快。
我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。
如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制
。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
用 Codex 优化网速狂飙 900Mbps?实测之后我发现了新的隐藏玩法
![]()
昨天,Codex 再一次重置了额度,我们的账号从剩余 10% 又回到了剩余 87%。
![]()
Codex 负责人 Tibo 在 X 发文,
有些用户注意到 Codex 中的缓存限制消耗得更快,我们发现根本原因是之前的一个优化措施,该措施在长时间运行的会话中进行压缩时会影响缓存命中率,我们已将其回滚。
我们已修复此问题,并已重置所有账户的使用限制。祝您周末愉快。
于是又想着还可以用 Codex 来做点什么,刚好就在 X 上刷到了「我用 Codex 提升了我的电脑网速,从 400Mbps 到 900Mbps。」
![]()
内容真的很有噱头,用 Codex 竟然能优化本地的网络?网速不应该是受限于路由器,或者网络服务提供商 ISP 这些上层设备吗?
这则推文的评论区也有不少网友提出了质疑,「所以 Codex 最终改变了电脑上的什么配置?」、「鉴于如今 AI 的强大技术,我真的无法判断这是否是诱饵。」
博主做出解释,Codex 帮助他把电脑上的 auto tuning level 从关闭调回了 normal 正常。auto tuning level 是说系统会根据网络延迟、带宽和拥塞情况,动态决定一次能接收多少数据,从而提高网络的速度。
他还给出了自己用的提示词。
嘿,我朋友说他的网速提高了,情况是这样的。你能帮我看看我们家的网络有什么可以改进的地方吗?我的网络供应商说他们提供的带宽是 1.2k Gbps,而我实际的网速是硬件问题。我现在只有 55Mbps,请帮我解决这个问题,别出错了。
我的目标很简单,就是让我的互联网速度更快。
问题已诊断:首先运行了 speedtest-cli。
检查了 DNS 解析时间,
检查了 MTU、丢包率、Wi-Fi 信号/干扰情况。
发现 3 个问题。
已删除过时的网络位置/配置文件。
终止或限制占用大量带宽的后台进程。
优化 mDNS。
进行了测试前后的速度测试和延迟检查。
这套提示词来自另一个 X 博主@cjzafir,他分享了自己使用 Codex + GPT 5.5 的实际案例,里面提到了 Codex 5.5 让他的网速变快了,本地运行的 6B 小语言模型速度更快了,以及 Macbook Pro 运行速度也像新的一样快等等。
![]()
我们也拿着这套提示词发给 Codex,在要求 Codex 处理网速问题前,先用中国科学技术大学测速网站 https://test.ustc.edu.cn/ 看了一下大概的速度,基本上下载速度在 100Mbps 左右,上传是在 200 Mbps 左右。
Codex 确实按照这些诊断,从 DNS 解析时间,数据包、网络配置等方面,检测并修复了对应的问题,累计处理时间超过五分钟。
![]()
最后 Codex 得出的结论是「我检查并做了能安全完成的修复。」它找到了 3 个存在的问题,分别是 DNS/缓存异常、负载延迟很高,以及有线千兆网卡没有在用,Wi-Fi 不能作为 1Gbps 的验收依据。
再次测试,发现似乎并没有很明显的网速提升。
有人问那位博主,是不是使用的 Mac 电脑,他回复说是 Windows,底下还有网友科普,Mac 的网络配置都是固定了,Codex 一般是无能为力。
![]()
所以这次轮到 Windows 用户来享受 Codex 网速提升服务了?还有 Linux。
有评论说,「以为是用 Codex 入侵了网络服务提供商,然后提高了流量限制」,结果只是 Codex 帮忙清理了一下 DNS 缓存。
![]()
但也有网友分享照着这个方法,成功复现了,Codex 确实让它的网速变快。
![]()
大家要是感兴趣也可以试试,不过 Codex 修改这些网络配置还是有一定的风险,评论区还有人提到 Codex 把他原有电脑的网络配置都删掉了,然后 Codex 跟他说,删掉它们是为了让网速更快。
这些涉及到 Computer Use 的使用案例,大概都会有类似的问题,除了每一次更细心的看懂允许 Codex 执行的是什么命令,还可以在提出任务时,就要求它解释清楚它要做的每一步。
如果不做修改,只是让 Codex 去诊断一些可能存在的网络配置问题,我想也比那个一直停留在进度条的自带 Windows 诊断要强。
开始了,Codexmaxxing
当大家都在讨论 Codex 是否能真的提升网速时,也有网友提到这种用法其实是一种启发。
![]()
他说这种做法的核心价值在于靠案例驱动,让 AI 直接参考成功的经验,再针对自己的具体情况进行精准诊断和优化,而类似的提示词技巧在 Agent 产品上将非常有效。
这很像 Codex 里面的 /goal 命令,给他一个目标,这个目标可以是我们自己设置的,也可以是其他用户已经有的成功案例,Codex 照着这个目标,自己去摸索可以实现的路径。
在社交媒体上,也有很多人开始分享这些写目标的模板,以及 OpenAI 的工程师也专门写了一篇文章来讲清楚什么是目标,如何用好目标来发挥 Codex 的最大价值。
![]()
/goal <期望的最终状态>,通过 <具体证据> 验证,同时保留 <约束条件>。使用 <允许的输入、工具或边界>。在各次迭代之间,如果受阻或没有剩余有效路径。
也有人认为这只是 Codex 的早期阶段,所以我们才需要学习这么多的提示词技巧,无论是使用案例驱动还是使用 /goal 命令,本质上都是为了让 AI 能更好的理解人类的需求。
就像 Midjourney 、Nano Banana 刚推出时,我们都热衷于找各种公开的提示词;而现在使用 GPT Image 2 在大多数的生图场景下,基本上都不需要专门的提示词格式,就能得到不错的效果。
等到 Codex 越来越好用,我们或许也不再需要这些官方使用模板。但从另一个角度来看,或许就是在这种模仿使用的过程中,我们才会更知道 AI 是如何提升我们的生活和工作效率。
因此,除了提升网速,我们还看到了一些 Codex 的其他玩法。像是使用 Codex 的定时任务,让它每天早上自动产出一份对应行业的日报;还有让 Codex 也能获得自我进化,从过去的对话里面提取出有用的技能;以及直接构建一个 macOS 应用;把 DeepSeek 接入 Codex 客户端等。
![]()
▲ 图片来源:X@hqmank
我们也继续尝试了一下那套让 Codex 自进化的提示词,它花了 7 分钟,帮我们创建了 3 个 Skills。
![]()
▲ 提示词来源:https://x.com/reach_vb/status/2058538305872949490
感觉这套提示词不仅仅可以用在 Codex 里面,几乎所有的 Agent 产品,都可以用它总结出一些可复用的流程,以子 Agent、Skill,或者自动化的形式重新编排。
回顾我最近 30 天的工作,若历史记录不足则查看所有可用历史,并识别值得打包的重复性手动工作流。
按以下顺序使用可用证据:
– 最近的 Codex 会话和任务摘要。
– Codex Memories 和 rollout 摘要,用于寻找跨会话重复出现的模式。
– 如果启用了 Chronicle,用它发现 Codex 之外的重复工作。Chronicle 仅用于发现;重要细节尽量回到相关源系统确认。
– 现有技能、自定义智能体和自动化,优先复用或扩展已有内容,避免重复建设。广泛寻找那些重复、耗时、容易出错、依赖上下文,或适合标准化流程的工作。范围包括编码、研究、写作、规划、沟通、运营、分析,以及个人事务管理。
只有满足以下条件时,才把候选项纳入:
– 至少出现过两次,或明显会重复出现且重复成本高;
– 输入稳定、步骤可重复,并且输出或结束条件明确;
– 能明显提升速度、质量、一致性或可靠性;
– 当前还没有被充分覆盖。选择最小且合适的形式:
– Skill:可复用的工作流或操作手册。
– 自定义子智能体:适合委派的、有边界的专项角色或调查任务。
– 自动化:定时或周期性的检查、报告、提醒或监控。
– Skip:过于一次性、模糊、敏感,或证据不足,不适合打包。先输出一个简洁候选清单,包含:
– 重复工作流
– 支持证据与日期
– 频率 / 置信度
– 推荐形式:skill、subagent、automation、扩展已有内容,或 skip
– 为什么值得或不值得创建然后只创建高置信度且当前缺失的项目。保持范围狭窄、实用、了解数据来源,并且容易验证。不要创建猜测性的、重叠的,或过于宽泛的资产。
最后总结:
– 你创建或扩展了什么
– 你刻意跳过了什么
– 哪些内容还需要更多证据后才能打包」
我们还依照 Tibo 分享的使用 Codex 来取消我们不需要的付费订阅服务,由于订阅项目较少,但是有很多无意中订阅的 newsletter,所以我们输入「请查看我的电子邮件,列出我付费订阅的所有服务,以及订阅了哪些邮件通知,并和我确认哪些需要取消订阅。」
Codex 很快就调用了浏览器使用的工具,打开 Gmail,检查我的电子邮箱,发现付费订阅的项目较少,着重为我列举了一些「可退订的邮件通知」。
![]()
Codex 会自动搜索相关的邮件
新加入 OpenAI 的员工 Jason Liu 也分享了如何榨干 Codex 的用法,他提到自己喜欢使用 Codex 的语音输入功能,所有的对话线程不再一次性重置,而是跨对话保留上下文,以及使用 Obsidian 库来作为 Codex 的持久记忆层。
![]()
前段时间,我们分享了一篇文章,是说几乎所有模型公司,都要做自己的 Agent 产品,模型公司和产品公司之间的界线会越来越模糊。
OpenAI CEO Greg 在 X 发文也提到他认为仅凭模型本身已经不再是产品;Google AI Studio 负责人 Logan 在跟帖中回复,模型、工具和产品之间的共生关系如今已成为一种趋势。
从目前来看,Codex 大概会是体现 OpenAI 模型能力最有力的一个产品。
![]()
▲ Codex 重新设计了网站主页,让它更像是一个能为所有人提供帮助的 AI 工作助手,而不是仅限于帮助开发者做代码补全
Codex 负责人 Tibo 提到「总体规划是发布更好、更高效的模型,并且每周都发布更好的产品。还要增加计算能力。」
能从龙虾、Claude Code 这些先占领市场的 Agent 产品里脱颖而出,Codex 的进展确实让人值得期待。不过, Tibo 还贴心地提醒我们,好用,也记得多出去走走,Codex 没法替我们体验真实的生活。
![]()
▲ 龙虾之父已经对 Codex 上瘾了,留言说起来容易做起来难
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。