普通视图

发现新文章,点击刷新页面。
昨天以前首页

苹果新 CEO 召开员工大会:要造 AI 硬件、要留顶级人才,还要改变世界

作者 苏伟鸿
2026年4月22日 15:03

苹果将再次改变世界。

刚刚宣布将接替蒂姆 · 库克(Tim Cook)出任苹果公司首席执行官(CEO)的约翰 · 特努斯(John Ternus),在今天凌晨的苹果员工大会上发布了演讲,看起来,他不仅热情饱满,还雄心勃勃。

在这场大会上,特努斯和库克还分享了关于过渡的更多细节,虽然并未宣布详细举措,却也在言语间勾勒出苹果未来十年的轮廓。

特努斯的第一关:AI

特努斯透露,苹果未来有着「令人难以置信的发展蓝图」,并相当看好人工智能的潜力,希望能利用 AI 为苹果产品和服务创造全新的机遇。

彭博社从知情人士处获悉,特努斯已经在利用 AI 改造苹果公司,在本月重组了他原本领导的工程部门,使用全新的 AI 平台进行运营,帮助产品开发和提高设备质量。

据悉,苹果内部正在全面推行「AI 化」,例如商业团队每天都有 300 美元的 Claude Token 预算,并且还会重点考察主管晋升时团队的 AI 使用率。

在上任 CEO 之前,特努斯一直在主导三款 AI 新品的开发:

  • 新款带摄像头的 AirPods
  • AI 智能眼镜
  • AI 胸针

除此之外,他也负责监督苹果新型智能家居产品线,包括带 Face ID 和显示屏的 HomePod、桌面机器人和一款安防摄像头,这些产品都和 Apple 智能以及 AI Siri 高度相关。

并且,特努斯一上任就会迎来一场大考——AI Siri 以及各种 AI 能力的交付,虽然严格来说这是库克任期的历史遗留问题,但有消息称,AI Siri 的系列功能将会在一个比较长的周期内逐步推出,未来苹果也会带来 ChatBot、搜索引擎的新功能,这些库克任内没能做好的事情,都会考验特努斯的管理能力。

分析师郭明錤认为,特努斯主导了 Mac 从英特尔到 Apple Silicon 的生态迁移,不仅需要极高的执行力,也需要跨部门的通力合作,这使他成为苹果内部最有管理「大转型」经验的高管,这样的经历能够帮助苹果迈向 AI 设备的下一阶段。

不过,也有媒体认为,特努斯在产品上更擅长「守成」而不是「创新」,他懂得怎么在现有的产品上锦上添花,但未必敢于人先。

对于已经在 AI 产品领域落后于人的苹果来说,特努斯的任务不只是追赶,更要超越,这将会是横亘在他任期之中最大的挑战之一。

库克的角色:苹果外交官

即使即将从第一人的位置上退下,蒂姆 · 库克却不打算马上退休,这位 65 岁的老将会转变身份担任执行董事长一职,并且将成为苹果类似「外交官」的角色,负责和各个国家地区保持良好关系。

库克出任苹果 CEO 这 15 年,除了将苹果公司内部管理得井井有条,同样在企业外交上取得显著的成就。

这一点相信大家有目共睹,库克不仅有自己的新浪微博,还保持平均一年一至两次的高频率访华交流,几乎成为苹果最大的代言人,稳住了中国这个最大的市场。

在各种局势变化万千的当下,库克作为苹果全球大使的重要性会更加突显。

在员工大会上,库克也回应了前段时间对他健康状况的猜测,表示自己身体健康,精力充沛,将长期履行执行董事长的职位。

至于苹果内部,也能预想到库克将在交接后的头几年时间,会以一位「导师」的角色,帮助整个公司进行平稳过渡。

库克对此非常有信心,他认为「苹果公司运行良好」「产品线路图非常出色」「特努斯已经做好准备」的三大条件已经达成,现在就是进行交接的最好时机。他还希望,自己和特努斯能完成一次「教科书级别的交接」,成为未来商学院研究的范本。

新 CEO 的第一场仗:人才战

从去年开始,苹果的高层进入了一个持续动荡的时期,大量部门主管相继离职、跳槽,在特努斯宣布接任 CEO 后,变动和部门改组将会进一步进行。

和特努斯接任 CEO 一起官宣的,是对 Johny Srouji 的提拔,他将出任苹果首席硬件官(CHO)。

这份工作结合了 Srouji 之前的职能范围和特努斯目前负责的硬件工程,实际上将让他成为仅次于特努斯的二号人物。

去年年底,彭博社透露 Srouji 在认真考虑离职,由于他在 Apple Silicon 战略不可代替的核心地位,包括库克在内的苹果高层都在尽力挽留 Srouji,专门为其设立了 CHO 这个有点反苹果传统的职位。

Srouji 以严厉的管理风格和亲力亲为的管理方式在公司和部门中闻名,担任管理数千名工程师的 CHO 之后,他需要简化自己的角色。本周一 Srouji 宣布,将会把工作重点分配给五位高管,负责硬件工程、芯片、先进技术、平台架构、项目管理五个部门。

由于和特努斯沉稳的风格相当迥异,内部人士担心 Srouji 的雷厉风行会造成团队之间在磨合、交接时的摩擦。

Srouji 被提拔到这个岗位之后还带来了一个问题——苹果内部暂时没有能接替「CHO」一职的后备人选,而 Srouji 已经 61 岁,虽然他有长期继续工作的意愿,但何时退休依旧是一个未知数。

其他人事变动也带来了一些高管的不满,比如 Vision Pro 的缔造者,去年接手 AI Siri 的 Mike Rockwell,正在考虑明年离职或转职顾问。

从去年开始,苹果对 AI 部门和职能组进行了多次大范围改组,Siri 和机器学习部门交由软件主管 Craig Federighi 负责,但 Mike Rockwell 希望能够成为更重要的角色,不只是向 Federighi 汇报。

由于苹果曾经将头显设备视作后 iPhone 时代的重要产品,Rockwell 本来应该会扮演一个更重要的产品决策者,但这条道路现在已经被搁置。

不过,在 AI Siri 正式推出之前,Rockwell 不太可能离开苹果,但苹果也要考虑,未来如何留住这一位内部口碑相当不错的人才。

除了这些个别具体人员,特努斯还会面临一个更广泛的人员退休问题——现在苹果的管理层,大部分都是库克出任 CEO 后晋升的团队,他们和库克年龄相仿,很可能也会在近几年退休,比如去年就已经离任的 Jeff Williams。

Jeff Williams 原本也是苹果 CEO 的有力人选

为了这次交接,库克可以说已经为特努斯的 CEO 生涯准备了一个「高起点」——去年 iPhone 17 系列的翻新交出了史上最好的财报,加上今年的折叠 iPhone、明年的 20 周年 iPhone,之后的翻新 Mac 产品,这几套组合拳打下来,至少能保证特努斯接任后的头几年,苹果还能有精彩的新品阵容。

但未来十年,科技行业的竞争会进一步升级,AI 绝对是绕不开的话题,苹果先一步折戟的 XR 也将进一步发展,这些都是特努斯任期内的行业主旋律,也是苹果的下一个突破口。

乔布斯之后,苹果的每一任 CEO 都难免被放在聚光灯下比较。风格迥异的库克,用 15 年时间交出了一份足够亮眼的答卷;而在库克之后,特努斯同样无法绕开对照。如何带领如今的苹果,在机遇与挑战交织的时代走向下一个十年,将成为他必须正面回应的命题。

至少从他现在的言行来看,他已经摩拳擦掌,准备好上场了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

起底 GPT Image 2 团队后,我扒出了一张华人师徒网

作者 莫崇宇
2026年4月23日 16:38

GPT Image 2 正式上线后,AI 图像生成领域现在只剩两个段位:GPT Image 2,以及其它。

在大模型竞技场中,GPT Image 2 以 241 分的绝对优势遥遥领先,但比起跑分,这份研发名单其实更有看头。

搞出这个模型的 OpenAI 核心团队,满打满算只有 13 个人。

并且华人还占据了团队的半壁江山。仔细看他们的履历,你会发现不少人来 OpenAI 之前,就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。

AI 圈就是个巨大的熟人局。

流水的硅谷大厂,铁打的师徒局

陈博远是 GPT Image 2 的绝对核心成员,而他的成长却是华人学术「传帮带」的缩影。

高中时,陈博远在无锡参加科研夏令营,当时他未学过编程,在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习,成为他进入 AI 领域的引路人。

两人此后一直保持联系。本科阶段,陈博远就读于 UC Berkeley 计算机科学与数学专业,进入 EECS 荣誉班,GPA 达 3.96,师从 Pieter Abbeel 从事相关研究,还于 2017 年创办机器人教育公司,经营至 2020 年。

MIT 读博第一年,陈博远因无论文产出陷入困境,夏斐提供关键支持,协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习,2023 年实习期间,他主导搭建多模态大语言模型数据合成管线,其总结的指令微调技术被用于 Gemini 2.0 研发。

带着这些积累,陈博远在 2025 年 6 月加入 OpenAI。除此之外,他还是 Sora 视频生成团队的成员,身兼数职。

在 MIT 期间,陈博远师从助理教授 Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一个实验室里、同一个导师带出来的同门师兄弟。

▲ 🔗 https://kiwhan.dev/

Sitzmann 实验室的核心研究方向是「世界模型」,简单说就是让 AI 通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素。这种研究思路,或许也直接影响了 GPT Image 2 的技术方向。

两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文,主要探索如何把扩散模型和序列生成结合起来,让模型在生成内容之前,先理清时序和空间上的因果逻辑。

▲ 🔗 https://arxiv.org/abs/2502.06764

值得一提的是,Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。

除了这两位同门,团队里还有两位华人成员,他们来自工业界积累多年的华人研究员网络。

Jianfeng Wang 在微软工作了近 9 年,以首席研究员的身份专注于大规模多模态表示学习,在 DALL-E 3 研发期间,就和 OpenAI 团队有过深入合作。加入 OpenAI 后,他主要负责提升模型的指令遵循能力和对世界知识的理解。

▲ 🔗 https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 则在谷歌深耕了 5 年多,以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作,去年 8 月加入 OpenAI,负责图像生成相关的研究。

🔗 https://www.linkedin.com/in/bing-liang/

他们带来的不只是自己的个人能力,还有竞争对手多年积累的工程经验,以及曾经踩过的坑,为团队省去了不少弯路。

给天才们搭好戏台子

Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合,两人都毕业于浙江大学竺可桢学院,有着相同的本科背景。

Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程,博士阶段则去了约翰斯·霍普金斯大学,攻读计算化学物理与机器学习专业,拿到学位后,先后在亚马逊 Alexa 做语音识别方向的深度学习研究,之后又去了微软 Bing,负责查询理解与大规模检索相关工作。

他还曾在清华大学做过访问研究,研究方向是用于纳米机器人在人体血管中导航的强化学习算法,期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累,在 GPT Image 2 的发布演示中也能直接看到。

和 Yuguang Yang 相比,Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室(SAIL)攻读博士,期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。

▲ 🔗 https://ai.stanford.edu/~wxliang/

在 Meta 实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对 Transformer 的每一个非嵌入参数,包括前馈网络、注意力矩阵和层归一化,都实施了模态感知的稀疏化处理,最终将多模态预训练的计算成本降低了 66%,还在 30B 参数规模下完成了预训练验证。

多模态模型因为要同时处理文本和高分辨率图像,计算量很容易呈指数级增长,而 MoT 凭借模态解耦的注意力机制,在预训练阶段就高效分配了不同模态之间的权重,很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」,在多模态建模领域引发了大量关注。

▲ 🔗 https://arxiv.org/abs/2411.04996

近年来,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生,已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。

除了上述成员,团队还有几位核心研究者,各自发挥重要作用:

Kenji Hata:斯坦福计算机科学硕士,曾任职于 Google Research。加入 OpenAI 后,参与 4o 图像生成(即 GPT-Image-1)、Sora 2 等多款模型研发,是团队中模型迭代经历最完整的成员之一。

Ayaan Haque:加入 OpenAI 前为 Luma AI 研究员,参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力,在 OpenAI 主要负责 GPT Image 2 及思考模式研发。

Dibya Bhattacharjee:耶鲁计算机科学本硕,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究,在发布活动中演示模型多规格生成能力,是模型输出格式「开箱即用」的关键成员。

Mengchao Z.:上海交大本科、德克萨斯 A&M 大学硕士,工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。

此外,团队里还有多名成员的身份信息目前暂时无法查询。

师门脉络积累了研究品味,高校背景奠定了基础认知,这种由师门、同窗、前同事织就的人才网络,天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一,创新的磨合成本几乎为零。

如果只是重金挖走一两个陈博远,其实治标不治本。找不到同伴,也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利,但对于需要自由探索的基础研究,往往形成了某种约束。

AI 的竞争,归根结底是关于「人」的故事,比起寻找下一个陈博远,我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,姚顺雨腾讯首秀来了!三个月重建混元新模型,实测到底什么水平

作者 张子豪
2026年4月23日 17:08

这周,中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布,月之暗面的 Kimi 2.6 就马上登场,DeepSeek V4 也箭在弦上。

刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。

姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。

从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。

这个大版本升级的混元模型,在短时间内,不仅对底层基础设施进行了系统性重建,还包括预训练和强化学习在内的底层框架,全部推倒重来。

最后的答卷是一个快慢思考融合的 MoE(混合专家)语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。

在这个行业动辄吹嘘万亿(1T+)参数的时代,Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡,让模型能更好落地在不同场景。

而 300B 这个量级,复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活;如果继续强行扩大规模到万亿参数,一边是训练时间加倍,在实际的表现上,也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。

不过,姚顺雨也提到,他们在继续扩大预训练和强化学习的规模,提升模型的智能上限。

在多个真实生产和生活场景 benchmark,以及腾讯混元的 CL-bench 上表现对比前代,提升幅度明显。

因此,Hy3 preview 这次的定位非常明确,要到真实世界去解决复杂工程问题。

为了验证 Hy3 preview 是否能在真实世界去解决各种问题,具体的模型表现如何,APPSO 也提前拿到了内测资格,在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。

编程和 Agent,混元开始接住真实的工程需要

编程能力目前还是各家大模型发力的重点,前几天还有外媒报道,谷歌正在成立一个新的团队,专攻 AI Coding。

这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上,能够适用于编程和现在热门的智能体场景。

例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例,来看看 Hy3 preview 的具体表现。

▲提示词:创建一个超写实的旧金山金门大桥交互式 3D 体验,允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景,并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角(包括近距离结构穿梭和大场景俯瞰)平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时,务必从多个距离和角度环绕大桥飞行,验证导航的平稳性与稳定性,并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”,必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成,如果需要,即使耗时一小时也可以。请不断迭代,直至完美。

虽然最后的结果并不是非常写实,主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑,我们能使用 WASD 键来控制自己第一人称视角的飞行,同时 Hy3 preview 也自动写了一些默认视角。

而在让它写一些简单的小游戏时,像是同样来自 GPT-5.4 的提示词,做一个游乐场的经营类小游戏。

▲提示词:创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格,并生成全套游戏资产,包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现,艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动,同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法,以及简单的公园管理系统(如资金、清洁度、排队和满意度)。确保整体体验充满趣味、逻辑清晰且完整,而非粗糙的原型。在优先级上,趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时,务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅,确认游客对公园布局及景点的反应,并确保视觉效果、UI 以及交互体验稳定且统一。

还是不可免俗的使用了「渐变紫」的套装,只能说界面审美这一块,除了编程能力的提升,还是需要额外的一些微调。

好在整个游戏是能玩的,我们可以真实的经营这个游乐场,通过铺路、放置新的游乐设施以及服务设施等场地,来赚取收入,控制人流。

而经典的「骑自行车的鹈鹕」测试,我们把它换成了更难一点的,开着汽车的长颈鹿。生成的 SVG 画面是动态的,太阳、云朵和车子都在移动,基础的 SVG 元素都能做到。

这些关于编程能力的测试,我们都是在腾讯前段时间推出的智能体应用 WorkBuddy 内完成。

而除了代码开发的任务,我们还可以使用 WorkBuddy 进行文档处理、数据分析可视化、深度研究等方面的日常办公。

由于 WorkBuddy 也是一个本地 Agent 产品,和 Claude Code、Codex 之类的应用一样,我们可以让它直接访问本地文件夹的文件。

要求它访问电脑上 Hy3 文件夹里面的全部文件,并根据文件的内容,创建一个类似于 Wiki 的网页,能够直接索引到不同的文件。

WorkBuddy 读到了我们创建的不同项目,例如要求它完成的落地页、3D 金门大桥、个人博客、运营游戏等项目,并分类总结好。

再要求它把其中一个香港国际电影节的 PDF 文件转成 HTML,要求它 1:1 复刻精美的杂志效果,显然太为难它,但是 Hy3 preview还是能在非常规排版的 PDF 文件里,准确定位到信息,并整理成网页。

而在深度研究的调研任务上,我们要求他写一份关于内存市场洞察报告,给出的文档内容详细,使用的数据来源也全是权威机构。

继续用 WorkBuddy 内的数据分析及可视化任务来测试时,要求 Hy3 preview 基于联合国人口司的数据,做一次全球人口结构变迁的可视化分析,Hy3 preview 花了非常长的时间进行调研,最后给出的研究报告,可以说能直接拿过来用。

▲部分可视化图表截图

这些编程和智能体的能力,配合 WorkBuddy 能发挥到最大。在元宝 App 内,现在我们也可以让它生成一些小型的网页游戏,在对话框里就能预览打开。

闲聊,要做到「活人感」不容易

前段时间,一个短视频在网上传播,视频内容是一位乘客看到前排的司机,在手机上和 AI 助手聊天,他告诉 AI 自己一天收入,AI 会给他一些反馈。

有网友在下面留言,说以前这些聊天都是 200 块一小时的心理咨询,现在手机发条消息就能做到。

无论模型在代码开发、解数学题、科学研究上取得了多少成功,大多数人用 AI 的场景,占比较多的还是各种类型的角色扮演。

我们也测试了腾讯混元新一代大模型 Hy3 preview 在日常聊天以及创意写作上的表现。

没有「不躲不逃不藏的只用最直接」的方式跟我说,有的是真实地能解决问题的文字。打开元宝 App,点击深度/快速思考,选择模型 Hy3 Preview,问它「为什么我在广州找不到爱情」。

它的回复是客观和主观两方面并行的,会分析除我之外的原因,也会告诉我应该要怎么做。

在聊到一些可能找到明显原因的困惑时,Hy3 preview 还会自动生成对应的表格,来解释 AI 并不是只会顺从。

创意写作的任务上,Hy3 preview 模型的表现,也要比前代更有文采和个性化风格,即便是简单的生活文案,人情味也更明显了。

我们找了一些基础的风格模仿任务、叙事节奏的续写、语言的创作力和情绪张力等题目,来测试它。

生成的写作结果,在独特性、执行精确度,以及风格稳定性上的表现,确实要更符合我们人类写作的特点,没有 AI 那种明显的套话。

那道经典的走路去还是开车去洗车问题,Hy3 preview 也答上来了。

当所有人在做一套卷子,混元开始出卷

过去两年多,中国 AI 行业有一种集体焦虑:所有人都在做同一件事。同样的架构,同样的训练范式,同样的榜单,同样的新闻稿模板。模型发布会的 PPT 换个 logo 就能通用,「全球领先」「性能登顶」这些词被用到通货膨胀。

腾讯曾经也在这个队列里。别人打榜它也打榜,别人堆参数它也堆参数,别人做什么功能它追什么功能。结果是混元的技术投入不少,但市场感知始终模糊。你问用户「混元跟别家有什么区别」,大概率答不上来。

Hy3 preview 的意义,可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。

此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断:模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。

榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。

所以在 Hy3 preview 上, 就能看到混元开始把这个逻辑翻了过来:不追榜单,追场景。

▲去年一份报告就曾指出, AI 在各类基准测试上的分数一路飙升,benchmark 过于饱和,这些成绩往往并不能真实反映它对现实世界的实际影响。

295B 的参数量说明它不打算在模型尺寸上硬碰硬。不上公开榜单说明它不打算在刷分上继续内卷。Co-design 的研发模式说明它开始把注意力从「别人做了什么」转向「我的用户需要什么」。

这里就不得不来看看腾讯这家公司的核心业务场景,社交、游戏、广告、企业服务,每一个都有极强的领域特殊性。微信的对话流是碎片化的、高密度的;游戏需要模型根据实时局势做即时反应;企业微信和腾讯会议需要基于私有文档的精准分析。

▲ Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

这些场景对模型的要求,跟通用智能榜单上考核的那些指标并不完全匹配。一个在 MMLU 上排名前三但在微信群聊里读不懂语境的模型,对腾讯来说毫无意义。

换句话说,腾讯可能是中国大厂里最不应该去追通用榜单的那一个。它手里攥着的场景足够独特、足够复杂、足够有商业价值,完全可以走出一条自己的路。

Co-design 就是这条路的起点。模型在真实业务里跑,业务用真实数据反哺模型,腾讯对 AI 的巨额投入能得到场景的快速验证,同时获得商业上的闭环。这个飞轮一旦转起来,产生的壁垒比榜单上的排名坚固得多。

当所有人都在比谁的模型更「全能」的时候,谁的模型在自己的场景里最「好用」,可能才是真正的胜负手。

当然,「找到节奏」和「赢下比赛」之间还隔着相当的距离。

Hy3 preview 是混元重整后的第一个模型,三个月的研发周期说明执行力在线,但也意味着大量的优化空间。55% 到 56% 的盲评胜率说明它够用,距离拉开差距还早。更大尺寸的模型在路上,正式版还在根据 Preview 阶段的用户反馈持续打磨。

但至少有一件事变了:混元不再追着别人的地图跑了。它开始画自己的地图,标自己的路。

大模型竞争走到今天,同质化才是最大的风险。当所有人都在用同一把尺子量身高的时候,有人开始造自己的尺子,量自己真正需要的维度。

这件事本身,比任何一榜单参数都值得关注。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我们需要更多阔折叠|硬哲学

作者 苏伟鸿
2026年4月23日 19:36

第一次上手「阔折叠」华为 Pura X Max ,是一种陌生和熟悉并存的感觉。

陌生之处当然在于这个外屏的比例——5.4 英寸的屏幕,长宽比例接近一本护照,比常规的手机要「胖」上不少。

但展开之后,这块  7.7 寸的长方形大屏,几乎一下子唤起了熟悉感——就像一台趁手的小平板,竖屏读文字,横屏看视频。

在手机被对折 7 年后,行业终于在折叠屏手机的姿态上迈出了新一步。华为 Pura X Max 只是打响的第一枪,苹果、三星都在酝酿类似的产品。

一个问题随之浮现:阔折叠,为什么要等到现在?

大阔折,不好做

从 iPhone 将手机变成一整块屏幕,再到 iPad 这种「便携大屏」的形态出现,我们对「便携大屏」的追求从未止歇,想要更大的显示面积,也想要揣进裤兜的便携效率。

于是 mini 平板和大屏手机这样的产品诞生,当实验室的技术到达了成熟阶段,「折叠手机」这种梦幻般的形态,也终于成真。

刨去野蛮生长的头 3 年,折叠屏手机的形态,却停滞了将近 4 年的时间,似乎所有人都认定,当现在这个展开正方形内屏的形态,做到和直板机一样轻薄,且没有折痕的时候,就是折叠手机的最优解。

只是,不管是用户还是厂商,大家都心知肚明,它其实还不够好。

不止一位手机从业者告诉爱范儿,其实他们内部都认为展开是一个长方形平板比例的「阔折叠」会是更好的方案,无奈会遇到应用适配的问题,只能采用外屏更接近直板机的比例。

因此,厂商只能让硬件的形态去「适配」现有的软件形态。直板机比例的外屏,意味能保证折叠状态下的使用体验能尽可能接近常规手机,展开后也能用「平行视界」功能,让一个应用并列呈现两个界面信息。

市场上并不是没有过尝试。OPPO Find N 和 Google Pixel Fold 最初都是宽屏的尝试,属于「阔折叠」的早期形态。

OPPO Find N,图源:Android Central

但很明显,强如 Google,在面对 Android应用生态时,也无法带动开发者去进行适配——于是,在阔折叠手机有过早期尝试之后,便迅速转向了「窄折叠」的方案。

折叠屏手机自诞生以来,就面临一个「先有鸡还是先有蛋」的问题:

折叠屏手机的用户存量,目前仍是绝对少数,且在可见的未来,也长期会是少数派。

根据 Counterpoint 的调查数据,2025 年第三季度,在全球折叠屏手机出货量同比大涨 14% 的情况下,折叠屏的总出货量也仅占全球手机出货总量的 2.5%。

为极少数的用户,做最复杂的适配,开发者的钱又不是大风刮来的。

对于每天都在用的消费电子产品而言,生态问题,往往就是一切问题的关键。

强如苹果,也没办法说服全世界的各大开发者为 visionOS 积极添砖加瓦,Netflix 至今都不愿意为其开发一个原生应用,因为拥有 Vision Pro 的人,真的太少了。

这就形成了一个困境:大家都知道把折叠屏手机做宽做阔更好用,但在大部分应用没适配的情况下,做成阔折叠形态,手机反而不好用了。

即使当下所有的 Android 折叠屏厂商已经达成共识,所有折叠屏手机都采用「阔折叠」设计,也不过覆盖 2%-3% 的市场。对于动辄影响几亿人的头部应用而言,适配这个形态,性价比实在太低了。

但今年开始,情况将有所不同,因为华为和苹果要下场了。

华为和苹果下场,阔折叠迎来春天

很有意思的是,传说中将在 9 月正式推出的折叠 iPhone,根据爆料尺寸上和 Pura X Max 将会相当重叠:内屏 5.4 英寸,外屏 7.7 英寸,屏幕 「√2:1」的长宽比。

通常智能手机立项周期长达一两年,像「大阔折」这样复杂的产品,研发周期可能需要两到三年,这两款产品先后间隔不到 5 个月推出,爱范儿认为,不存在谁抄袭谁的的情况,更大可能是:

行业早就已经形成共识,√2:1 就是最佳的「阔折叠」比例。

这个长宽比是出版业的标准比例,因为这个比例的长方形,不管怎么「折」,长短边都会保持「√2:1」的比例。

也就是说,Pura X Max 的内屏和外屏的比例是一致的,屏幕实现了「等比」放大,保证了大小屏的观感不割裂,应用适配上也降低了一层难度,且沿用出版物的比例,也意味着用 Pura X Max 看文字会有更熟悉的观感。

这块接近 2:3 比例的大屏幕,能够很好兼顾 4:3、3:2、16:9 这些常规的图片、视频内容比例,这就是一块专门为内容消费准备的大屏幕。

范式定下之后,下一步就是软件的适配,刚好又是华为和苹果的舒适区。

对于华为来说,Pura X Max 并不是一蹴而就的产品,更多是几代产品铺垫的草蛇灰线。

首先,华为一直以来都更青睐「宽」手机:早在十年前,Mate 系列手机就以宽著称,譬如超大屏设计的 Mate 20 X+,就采用比普通直板机宽得多的比例。

Mate 20 X,图源:Notebookcheck

所以在华为推出「阔折叠」手机之前,在直屏手机上就已经做过大量人因分析,用户愿不愿意用,拿不拿得住,这些问题都已经被侧面验证过。

据爱范儿了解,去年推出的华为 Pura X 一经上市便大受欢迎,去年销量超过 150 万台,成功证明了宽屏阔折不仅能行,还很能卖。

有了成功的销量打底,Pura X Max 的推出便顺理成章。事实上,如果你仔细观察过 Pura X 和 Pura X Max,就会发现 Pura X 的内屏,在宽度上和 Pura X Max 的外屏几乎一致,都在单手掌握的极致距离附近。

有消息称,国内有厂商已经在研究「宽屏」的直板机和折叠屏手机,或许很快就能看到些不一样的产品。

除了解决硬件工程问题,软件「适配」依然是最难啃的硬骨头——而华为的鸿蒙生态,刚好是一套破局的组合拳。

原生鸿蒙系统开发有「一次开发、多端部署」的特性,开发者只要做少量工作,就能适配各种「异形屏」—— Pura X 推出后,大部分原生应用在方屏以及宽屏上都能正常运行。

原生鸿蒙上线这两年,设备装机量已经达到 5500 万台,在华为的推动下,大部分国内 Top 应用都适配了原生鸿蒙产品,因此后续让其针对 Pura X Max 进行单独调优和适配也不困难。

至此,尽管是作为一个全新形态的产品,但大阔折 Pura X Max 一经问世就可以做到开箱即用。基本上,日常生活中最主流的 App,只要有鸿蒙原生版本,都能直接匹配这块异形屏幕的比例。

这也给未来阔折叠的流行,打下了坚实基础——但有基础还远远不够,还要有利益。

蛰伏七年,苹果带着折叠屏 iPhone 下场了。

关于苹果折叠 iPhone 的传闻爆料很多,大折小折窄折阔折各有说法,但无论长什么样,都意味着当折叠 iPhone 上市时,全球的 iOS 开发者都面临着适配折叠 iPhone 的问题。

苹果对 App Store 有着绝对的控制力,可以推行非常严格的应用适配规范。

2020 年,苹果在开发者平台发布通知,要求所有开发者无论屏幕尺寸或宽高比如何,应用程序都应该在所有型号的 iPhone 和 iPad 上呈现完美效果,强制要求开发者进行适配。

每年除了新系统,苹果还会发布对应的 SDK,并限制一个明确的日期,要求所有应用必须使用新 SDK 才能上传 App Store。

比如,从今年 4 月 28 日开始,所有 iOS 等平台的 App 新版本,都必须要采用 iOS 26 SDK 或更高版本构建,以适配液态玻璃设计的巨大变化。

诸如此类的强制要求,很有可能在折叠 iPhone 上再来一遍。这意味着在明年 5 月前,我们就能看到大批应用,在折叠 iPhone 的内外屏上实现适配。

和 Vision Pro 不同,折叠 iPhone 是一台 iPhone,销量再怎么不济也是百万千万级别。没有开发者会跟这么大数量级的高消费力用户过不去。

于是,当苹果和华为都不约而同选择入局阔折叠时,折叠屏手机一夜之间就得到了全球开发者的助力。

折叠手机的生态,也终将迎来好转。

我们需要更多阔折叠

我衷心希望,从明年开始,各大 Android 厂商能推出更多的「阔折叠」手机。

这首先是因为「阔折叠」,确实是折叠手机很理想的形态。当我上手 Pura X Max 看书看视频时,高效的屏幕利用率确实给我带来了一种满足感。

更宽的外屏,虽然对单手掌握有更高的挑战性,但刷信息流确实会因为每行显示对文字更多,观感更心旷神怡,并且由于更体型「方」,重量分布会更均匀。

「阔折叠」是不是折叠屏手机的最优解?

也许还不是,但至少,它不再只是硬件层面的想象,更是软件、生态与形态开始共同收束的一个方向。

我们需要更多阔折叠,因为这也是一种希冀,我们迫不及待希望这种特殊的产品形态,能形成一种燎原之势,给智能手机市场带来更多可能性。

曾经,阔折叠手机的形态探索反响平平,归根结底还是因为用户的声量太少,行业也缺乏共识。

Pixel Fold

但现在,一台「阔折叠」应该怎么做,硬件上已经有了更多共识,供应链上也有更多的解决方案,而软件适配的大山,也终于开始松动——新形态产品,自然会带动更多创新。这点在原生鸿蒙上已经得到印证。

去年,金山和华为合作,将 PC 版的 WPS 应用移植到了原生鸿蒙设备上,覆盖了三折叠手机、折叠电脑等设备。

于是,今年我们就在 iPad 和 Android 平板上,用上了 PC 端的 WPS——体验确实有很大的升级。

当有足够多的「阔折叠」设备进入市场,当比例被固定、形态被确认、共识被统一之后,创新就变成了范式,而新的范式将会推动新的进步——正如十年前,iPhone X 开创了全面屏手势的交互,于是我们得以在今天,用上四边等宽的大屏占比手机。

这种体验,一旦有过就再也回不去了。

但我从华为 Pura X Max 上看到的潜力,远不止于简单的「适配」,还藏着更多「创新」的可能。

折叠屏手机最大的优势,就在于兼顾了手机和平板的双重身份,因此 App 适配的高分答卷就是兼顾两种界面,实现无缝切换,这是一个共识。

Pura X Max 的不少 App,也是做了手机 UI 和平板 UI 的切换的适配, 目前看来,苹果的折叠 iPhone,也会沿着这条路线走。

既然做成了一款真正意义上的「手机平板二合一」,Pura X Max 自然能获得一些原本平板专属的应用和功能,特别是一些生产力和创意工具。

Pura X Max 支持 M-Pen 3 Mini 手写笔,并成为了第一款支持专业级绘画 App「天生绘画」的手机,完全可以成为一台「写生本」,长方形的屏幕比例也更适合创作。

过去,想随时起笔,往往还得多带一台平板;现在,Pura X Max 把这件事压缩到单手掌握,创作不再是负担,而是可以随手发生的日常。

但这只是第一层。

折叠屏是一块随身携带的大屏,阔折叠做到了最符合直觉和人机交互的比例,可以是介乎于手机和平板之间的叠加态,它既是这种全新的形态,自然会有新的场景,这就需要新的 UI——这是第二层创新的可能性。

Pura X Max 上的剪映,外屏采用常规手机的上下布局:上半屏显示视频预览,下半屏就是剪辑的时间轴工作区,更适合剪横向视频。

一旦展开 Pura X Max,工作布局会变换形态,不同于常规平板、PC 版剪映,采取视频和时间轴左右分开的布局,非常适合用来剪辑 VLOG 或者日常短视频这种「轻量级」的体裁。

卡在「手机」和「平板」之间的阔折叠,本来就是一台拍摄机,还有一块方便剪辑的大屏幕,与其沿用原来的两种逻辑,不如为这种轻量级的场景,重新设计一个顺手的界面。

我们看到的第三层创新,则是对「宽屏」的另一种用法:为 AI 划出一片「常驻」区域。

众所周知,大语言模型好不好用,除了依赖算力,也要看是否有足够长的上下文。

我们在手机屏幕上指指点点,其实就是在不断地刷新上下文。

Pura X Max 有一项 AI 功能让我眼前一亮,华为将小艺 AI 以侧边栏的形式常驻于屏幕一侧,此时应用内容收窄到了接近常规直板机的宽度。不仅不影响阅读浏览,还能随时调出 AI 来辅助,颇有在 PC 上使用 AI 助理的感觉。

这不就是一种新形态的 AI 硬件吗?

当然,现在就去谈如何进一步挖掘「阔折叠」这种全新品类的潜力,或许还为时过早。

因为大部分人期待的「平板手机二合一」愿景,至今都还未正式落地,终端厂商、应用开发者和用户之间,也远远还没形成共识。

我们呼吁更多阔折叠的到来,不只是呼吁一种更好的手机形态,更是在呼吁一个更大的智能生态。

我们由衷希望有一种更大的的合力,将这种形态所蕴含的潜力进一步释放。

有更多创新,就有更多普惠。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

华为 Pura X Max 体验:折叠屏手机早该如此

作者 苏伟鸿
2026年4月24日 09:00

折叠屏手机,今年 7 岁了。

这 7 年里,行业反复试探过不同答案:怎么折、屏多大、外屏与内屏该如何分工……但当一切逐渐定型,主流折叠手机却收敛成一种近乎单一的形态:合上,是一台细长的直板机;展开,是一块接近正方形的大屏。

当所有人都在重复同一个答案时,一个问题也变得刺眼:这真的是最优解吗?大屏当然有用,但大家都知道正方形比例,并不好用。

当硬件技术趋于成熟,对于「形态」的讨论更加不可回避。

华为 Pura X 给出新思路:合上是接近正方形的小屏机,展开则是标准 16:10 长方形大屏。

而到了今年,这一形态不再只是试探,正走向更普适的落地,苹果、三星相继入局之际,全新发布的华为 Pura X Max 已率先打响第一枪。

√2:1,折叠屏手机的最优解

爱范儿手上这台 Pura X Max 为「星际蓝」配色,设计延续了 Pura X 的蒙德里安几何设计,三个板块的纹理质感都各有不同,不过玻璃机身略沾指纹。

长条状的相机 Deco 边缘采用了陶瓷材质,质感很优秀,只是三摄模组的凸起也确实比较夸张。

转到手机正面,就是 Pura X Max 最有趣的部分——屏幕。

Pura X Max 或许有着十年来最古怪的手机屏幕比例:外屏 5.4 寸,内屏 7.7 寸,比例为 √2:1。

这个看起来有点特别的数字,是出版行业用了上百年的标准答案,这个比例的长方形,不管怎么对折,长短边都会保持「√2:1」的比例。

也就是说, Pura X Max 的内屏和外屏的比例是一致的,屏幕实现了「等比」放大,保证了大小屏的观感不割裂,应用适配上也降低了一层难度。

如果将 Pura X Max 和窄折叠手机进行对比,用前者看视频不仅能增加 20% 左右的现实面积,更重要的是,没有了上下大面积黑边挤压,画面终于完整铺开,更加赏心悦目。

在同样的显示面积,尽可能提升屏幕利用率,这也是人类在显示技术上一以贯之的追求,不然为什么看大片之前,我们都要希望能选对合适的银幕,好匹配电影的画幅比例。

毕竟,人类的内容虽分竖屏或横屏,却几乎没有「正方形」的呈现方式。

Pura X Max 这块长方形的大屏幕,天生为显示内容存在,不管是横向的 Bilibili 长视频,还是竖向的抖音短视频,抑或是日常拍摄的 4:3 照片,这些媒介都能很好利用整块屏幕。

很多人忽略的是,这块拥有和出版物接近 √2:1 比例的长方形屏幕,在竖屏情况下阅读文字,能获得更熟悉的观感。

相比这块体验更完整的大屏幕,更多人同样关心的是,Pura X Max 折叠起来的体验究竟如何?毕竟对于很多人来说,外屏的使用频率要更高,更「日常」。

去年发布的 Pura X,可以看作 Pura X Max 的一次先行探索,年销量 150 万台的成绩证明,一块「宽」屏幕不仅可行,还很能卖。

Pura X Max 的外屏,完全可以看作是 Pura X 备受好评的宽屏改版,两者在宽度上非常接近,都接近单手使用的边界,Pura X Max 只是在长度上会略短一点,并且因为更「方」, 重量分布会更均匀。

左:Pura X 内屏,右:Pura X Max 外屏

用这块 5.5 寸的外屏刷小红书、看 B 站的视频、漫画,以及拍摄照片,观感体验都比一台 6.3 寸的 iPhone 要好上不少,因为很多内容的比例都是 3:2 或者 4:3,Pura X Max 天然都比长条状的直板机更适配。

但由于应用适配的都是主流的长条状屏幕,很多信息流都是纵向排列,像是外卖、朋友圈这些场景,Pura X Max 的外屏只能显示 1-2 个板块,呈现的信息很少,还需要用户持续不断用拇指往下刷。

这其实是一种颇为无奈的现实:宽屏在内容呈现上更接近人眼的观看方式,也更具沉浸感,却因为它偏离了那个「不够好」窄屏范式,反而不好用了。

好在,「阔折叠」这条道路,华为并不孤独。蛰伏 7 年, 苹果带着折叠屏 iPhone 下场了。

这台传闻中的设备,在尺寸和比例上和 Pura X Max 将会相当重叠: 内屏 5.4 英寸,外屏 7.7 英寸,屏幕 「√2:1」的长宽比。

折叠 iPhone 机模和 iPad mini 对比,图源:X@VadimYuryev

当苹果和华为都不约而同选择入局阔折叠,并不是这个新的概念多出了两家厂商那么简单——而是阔折叠这个新产品,一下子得到了世界上的两大手机生态的支持,开发者一呼百应,很有可能改变这个不够好的现状。

关于 Pura X Max 的应用适配体验,以及「阔折叠」生态的更多讨论,可以看看这篇文章:《我们需要更多阔折叠|硬哲学》

熟悉的华为体验:鸿蒙生态 + XMAGE 影像

适配的问题,一直以来都是「阔折叠」这种异型设备难啃的硬骨头,但华为鸿蒙生态, 刚好是一套破局的组合拳。

拿到华为 Pura X Max 的第一天,除了像淘宝闪购这样的应用,在少数界面会遇到显示异常的小 Bug,其他所有应用在日常使用中几乎没有问题,仿佛它们都提前做好了适配。

此前,我也用过一些方形屏幕的 Android 手机,几乎每一个应用都会遇到显示的适配问题,严重的会导致完全无法使用。

鸿蒙系统「一次开发,多端部署」的特性,使得原生开发的鸿蒙应用能天然适配各种尺寸、形态的设备,连 Pura X 那块手心大小的方形外屏都能兼容,Pura X Max 这种阔形大屏自然更不在话下。

甚至一些适配得很优秀的应用,例如飞书和 QQ 音乐,折叠和展开时能丝滑切换手机和平板的两套 UI,让不同场景的体验更加舒适。

鸿蒙版飞书

至于需要「卓易通」来满足的非原生应用,更多还是取决于这个应用本身有没有做好,至少我使用的微博极速版、网易云音乐和 Apple Music,不管是外屏还是内屏的体验都比较正常。

卓易通版网易云音乐

Pura X Max 支持 M-Pen 3 Mini 手写笔,并成为了第一款支持专业级绘画 App「天生绘画」的手机,完全可以成为一台随手的「写生本」,长方形的屏幕比例也更适合创作。

更有开创性的体验,是全新的小艺伴随式 AI。

由于屏幕够宽,小艺现在以侧边栏的方式常驻屏幕长边,应用内容收窄到了接近常规直板机的宽度,不影响阅读浏览,但可以随时利用一旁的 AI 来进行互动。

比如平时写一些社媒上潮流的选题,我会打开小红书做功课,收集网友们的看法和意见,平时一般都只能用截图、手记的方式,效果一般,想溯源也不好找回原贴。

小艺伴随 AI 就像一个「导读」,一个顺手的 AI 书记员,一边刷小红书,一边就能一键统一收藏和快速总结。

如果在使用微信、短信时开启小艺伴随 AI,开启读屏就可以自动抓取日程安排、目的地等信息,更懂个人行程。

只是,目前的小艺伴随功能还比较初级,识屏后个性化推荐的操作比较少,算不上特别实用,甚至有时候还会出现识屏失败的情况。

不过,这是一个很有潜力的功能设计,让「阔折叠」离 AI 硬件更进一步。AI 助手好不好用,不止靠模型和算力,也需要更多用户上下文。这种「伴随式」的 AI 交互方式,用户可以不断「投喂」屏幕的内容,让 AI 用起来更懂你,期待未来会有更多有趣、实用的交互。

既然是一台华为的「Pura」手机,Pura X Max 自然也不会在影像上拉垮,对比很可能是双摄的折叠 iPhone,Pura X Max 至少在影像配置上给的很足。

就比如折叠 iPhone 大概率无缘的长焦,Pura X Max 搭载了一颗 5000 万像素、F2.2 光圈的 3.5x 镜头,参数上比较接近华为 Mate 80 Pro Max ,搭配 RYYB 传感器,夜景场景表现不错。

华为 XMAGE 影像的优势,已经不只在于「堆料」,AI 智拍不仅会帮你挑好最匹配场景的色调,还会帮助自动构图,这种「审美」上的外挂,有时候比参数更能帮助出片。

华为全新的「AI 姿势推荐」摄影玩法,最适合的载体就是阔折叠手机,拍摄时能够利用外屏,让被拍摄者能够直观参考姿势。

不过,折叠屏手机天生和「影像」就不那么契合,Pura X Max 这个巨大的模组,展开内屏后由于机身太轻薄,竖屏使用容易头重脚轻,也容易导致发热和高耗电的问题。

让我不太满意的还有 Pura X Max 略显捉襟见肘的续航:一天一充基本没跑,如果用内屏或者拍摄较多,手机电量会被快速消耗。

从系统、AI 到影像,Pura X Max 的体验都和一台「华为」手机无异,原生鸿蒙系统成为了「阔折叠」体验不打折的基石,还在此之上实现了更多独特的优势。

如果想买一台折叠手机,鸿蒙系统也已经能很好覆盖你的日常应用需求,那么 Pura X Max 能为你带来市场上目前独一档的好。

折叠屏的一次「拨乱反正」

2 年前,华为推出三折叠 Mate XT,很多人原本不理解这个形态,觉得是一种毫无意义的「炫技」。

但随着实际体验的铺开,这样的声音,质疑声也基本消散——当这块接近 10 英寸的 16:11 大屏被展开,对比方形的双折叠,有着使用体验上的绝对优势。

Mate XTs

可以这么说,「三折叠」也是一种「阔折叠」,其屏幕比例,也接近于 √2:1。

但「三折叠」是一条更曲折的道路:它太贵,无法普及;太厚重,有一点牺牲便携;这个形态也比较复杂,很多人第一次上手甚至不知道怎么翻折。

Pura X Max,就是一个更「亲民」的方案,价格比三折叠便宜近 1 万块,但体验上并没有什么降级:双开合设计轻便,且符合直觉,影像没有缩水,应用生态也几乎一致——如果你喜欢华为的三折叠手机,那 Pura X Max 很值得考虑。

很多人会问,一万块买一个折叠屏手机,值不值?

我想,我们对「折叠屏」手机有所向往,本质上是源于对智能手机形态的不满。

直板手机受限于便携性,始终难以突破 7 英寸的藩篱,而「折叠」就是将一块大屏幕塞口袋的巧妙方式。

但过去 7 年,行业给出的主流答案,却在不知不觉中偏离了这个初衷——看似更大的屏幕,因为妥协只能受限于一个不科学的比例,牺牲了观感。

「阔折叠」的出现,更像是一种迟来的纠偏:重新回到以内容与观感为中心。毕竟,折叠屏的存在,从来不是为折而折,为大而大,是为了看起来用起来更爽。

这不意味着 Pura X Max 或者说阔折叠就是折叠屏手机的最终答案,但至少一个新的更好的范式正在成型,可以预想未来会有更多厂商跟进。

Pura X Max 的优势,在无形中抬高了人们对折叠 iPhone 的期待;它在体验上的一些不足,也让人更好奇,苹果是否会为这块「宽屏」,带来一套不太一样的 UI 逻辑,好弥合它和当下 App 交互体系之间的错位。

在不遥远的未来,阔折叠还可能会延伸出另一层价值,成为我们兜里「小电脑」。

Android 正逐步强化类 PC 的系统能力,iOS 据说也将为折叠屏手机适配类iPadOS 的界面,而华为也在持续提升鸿蒙在折叠形态下的多任务体验。

随着「龙虾」等 AI Agent 新范式席卷消费电子领域,一块接近 PC 比例的随身大屏,所承载的就不只是消费内容,更将成为内容生产与交付的随身界面。

在 AI 不断重塑人机交互的当下,硬件形态自然也需要不断自我革新,「阔折叠」的价值,正在突破单纯的「手机 + 平板」,成为一种在不同场景自由延展的新形态。

以这个视角来看,阔折叠手机,就是更好的折叠屏手机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

作者 莫崇宇
2026年4月24日 11:50

据外媒 Business Insider 报道,Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照,OpenAI 今年 3 月末最新一轮融资的估值,仍停留在 8520 亿美元。

除了业内老生常谈的「AI 泡沫论」,这组对比数据也表明了曾经稳坐头把交椅的 OpenAI,如今正在直面被追赶、被超越的压力,但没有让我们等待多久,OpenAI 的反击旋即而至。

就在刚刚,GPT-5.5 正式发布,同步亮相的还有面向更高阶任务的 GPT-5.5 Pro 版本。

如果用一句话总结 GPT-5.5 的核心设计思路,那就是让用户把一团杂乱、多步骤的复杂任务直接抛给模型,由它自主规划路径、调用工具、校验结果、消解歧义,并一路推进。

看似只是 0.1 的版本号迭代,在推理效率上却判若大版本更新—— 同样的 Codex 任务,GPT-5.5 消耗的 token 显著更少,既更聪明,也更省。

▲吐槽了一个多月,偏偏等到 GPT-5.5 发布,Anthropic 才想起要解决降智问题

GPT-5.5 登场,不讲武德的屠榜

GPT-5.5 的纸面成绩非常可观。

在知名第三方评测机构 Artificial Analysis 的综合智能指数榜单上,OpenAI 凭借 GPT-5.5 系列拿下了第一名和第二名,前六席中包揽了四席,竞争对手几乎毫无招架之力。

基准测试结果显示,在 Terminal-Bench 2.0(测试复杂命令行工作流)上,GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%。

在 SWE-Bench Pro(评估真实 GitHub 问题解决能力)上,GPT-5.5 达到 58.6%,能在单次运行中端到端完成更多任务,超过 GPT-5.4 的 57.7%。

在 OpenAI 内部的 Expert-SWE 评测上,任务的人类预计完成时间中位数为 20 小时,GPT-5.5 达到 73.1%,GPT-5.4 为 68.5%。且在三项评测上,GPT-5.5 均以更少 token 完成任务。

只不过,OpenAI 这次也玩起了脚注里的小心思,用一行小字暗戳戳质疑 Claude Opus 4.7 部分成绩的可信度。但网友 Deedy 对此并不买账,在他看来,这行备注更像是转移注意力 —— 毕竟 OpenAI 自己也没能拿出一套更透明的公开基准,正面佐证 GPT-5.5 的实力。

在智能体编码、computer use(计算机使用)、知识工作和早期科学研究等领域,GPT-5.5 的提升尤为显著。

早期测试者反馈,GPT-5.5 在理解大型代码库整体结构方面明显更强,能主动预判潜在问题,提前考虑测试和审查需求,无需额外提示。

知名评测博主、Every 创始人 Dan Shipper 分享了一个具体案例:他的应用上线后出现问题,自己调试数天未果,最终请来工程师重写了部分系统。他用 GPT-5.5 重现这一场景,结果模型给出了与工程师相同的解决思路,而 GPT-5.4 则无能为力。

Cursor 联合创始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聪明、更有韧性,工具调用更可靠,面对复杂长期任务时能坚持更久而不中途停下。

更夸张的是,一位英伟达工程师在早期体验后直言:「失去 GPT-5.5 的访问权限,感觉就像是我的肢体被截肢了一样。」

▲ 如无意外,又一个名梗的诞生

(哈??)不过,考虑到奥特曼看完 GPT-5 演示之后,直接「眩晕无力、瘫倒在地」,而且这件事到今天也没有一个正经解释,英伟达工程师这句话,好像也没那么夸张了。

而在知识工作场景,GPT-5.5 也有着出色的表现。

  • 在衡量模型横跨 44 种职业知识工作能力的 GDPval 评测中,GPT-5.5 获胜或打平比例达 84.9%,GPT-5.4 为 83.0%,Claude Opus 4.7 为 80.3%,Gemini 3.1 Pro 仅 67.3%。
  • 在 OSWorld-Verified(测试模型能否自主操作真实计算机环境)上,GPT-5.5 达到 78.7%,GPT-5.4 为 75.0%,Claude Opus 4.7 为 78.0%。
  • 在 Tau2-bench Telecom(测试复杂客服工作流)上,GPT-5.5 在无提示词调整的情况下达到 98.0%,GPT-5.4 为 92.8%,差距相当明显。
  • 在其他专项评测上,GPT-5.5 在 FinanceAgent v1.1 达到 60.0%,内部投行建模任务达到 88.5%,OfficeQA Pro 达到 54.1%(Claude Opus 4.7 为 43.6%,Gemini 3.1 Pro 仅为 18.1%)。
  • 在 BixBench(围绕真实生物信息学和数据分析设计)上,GPT-5.5 达到 80.5%,GPT-5.4 为 74.0%,在已发布分数的模型中排名第一。在 GeneBench(测试遗传学和定量生物学的多阶段数据分析)上,GPT-5.5 达到 25.0%,GPT-5.4 为 19.0%,Pro 版本达到 33.2%。这些任务通常对应科学专家数天的工作量。

OpenAI 内部有超过 85% 的员工每周使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理等部门。

财务团队用 GPT-5.5 审查了 24771 份 K-1 税务文件,共计 71637 页,最终比上一年提前两周完成。传播团队打造了一套自动化 Slack 机器人,负责处理低风险请求自动处理,市场团队的一名员工则用它自动生成每周业务报告,每周节省 5 到 10 小时。

此外,GPT-5.5 的一大亮点还在于推理基础设施的协同升级。

GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统联合设计和训练。其中一项关键改进是负载均衡和分区策略,Codex 分析了数周的生产流量数据,编写了自定义启发式算法来动态优化分区和负载均衡,最终将 token 生成速度提升了超过 20%。

OpenAI 还指出,GPT-5.5 本身也参与了改进自身推理基础设施的过程。

GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用户开放,Codex 支持最高 400K 上下文窗口,并提供 1.5 倍速的 Fast 模式(费用为标准价格的 2.5 倍)。GPT-5.5 Pro 则面向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。

API 版本即将上线,标准定价为每百万输入 token 5 美元、每百万输出 token 30 美元,上下文窗口为 1M token。批量处理和弹性定价为标准价格的一半,优先处理模式为标准价格的 2.5 倍。

GPT-5.5 Pro 的 API 定价为每百万输入 token 30 美元、每百万输出 token 180 美元。OpenAI 表示,由于 token 效率的提升,大多数用户的实际使用成本不会有明显增加。闭口不提 Claude Opus 4.7,却句句都在内涵。

OpenAI 要做 AI 时代的超级入口

没有哪一款模型能收获一边倒的评价,GPT-5.5 同样如此。网友 @chetaslua 用一条提示词在 Codex 中生成了一个带有风效应物理引擎的完整网站,物理交互和界面设计一并到位,感叹「这是我第一次觉得 ChatGPT 可以成为解决一切问题的首选 AI 工具」。

网友 @petergostev 让模型生成了一个包含伦敦地标和季节变化的玩具铁路场景,与 GPT-5.4 的输出对比后,他的结论是「GPT-5.5 更有野心、一致性更强,错误更少」,并在更复杂的应用迁移任务中让模型连续工作数小时,没有出现卡壳。

当然,吐槽的声音同样存在。网友 @arrakis_ai 发现,GPT-5.5 在遇到复杂布局时有时会直接生成一张图片了事,处理图标需求时会从头硬写 SVG 而不调用现成库,同时频繁暂停追问用户,执行力反而不如从前果断。

文笔方面,我的个人体验也有类似感受。GPT-5.5 确实比前代更会组织语言了,至少已经能说点人话,但依然有一股怪味:「我就在这里,不躲,不藏,不绕,不逃, 稳稳地接住你 」。

并且,不少网友也注意到,OpenAI 在基准测试榜单上也动了些营销的心思。

网友 Haider 认为,GPT-5.5 和 Mythos 的差距没有预想的那么悬殊,而 Mythos 定价是 GPT-5.5 的两倍,且不公开发售。他的判断是,下一代 GPT 赶上 Mythos 应该问题不大。

据外媒 Techcrunch 报道,面对记者关于「GPT-5.5 是否具备类似 Mythos 能力」的刺探时,OpenAI 技术人员 Mia Glaese 给出了一个滴水不漏却暗藏锋芒的回答:「我们在网络安全方面有着长期且强有力的战略,并且已经完善了一套持久的、安全推出模型的方法。」

话外之音已经十分明朗:单一的强大模型终究只是过客。真到了拼数字防御和企业级落地的深水区,OpenAI 的生态壁垒,才是 B 端客户唯一稳妥的安全牌。

而随着 GPT-5.5 的登场,OpenAI 的野心已经足够清晰:他们不再满足于做一个聪明的聊天机器人,而是要亲手打造一个吞噬一切工作流的「AI 超级应用(Super app)」。

在接受外媒采访时,OpenAI 总裁 Greg Brockman 用了一个词「自主性(Agentic)」来形容这次模型的进步跨越。与前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、逻辑更清晰,开始展现出主动解决复杂问题的能力。

这正是迈向超级应用的坚实底座。

▲ 奥特曼今晚异常兴奋,还更换头像了

所谓超级应用,便是将 ChatGPT、Codex 与 AI 浏览器深度融合为统一服务。想象未来的工作流:人们不必再在浏览器、代码编辑器、数据分析工具之间反复切换。只需对着这个超级应用下达一个宏观指令,GPT-5.5 就能自主在后台打开网页搜集资料、编写爬虫代码、清洗数据,最终直接交付一份完整的分析报告。

当然,犹如 Claude 与 Claude Code 的强绑定,OpenAI 也意在替 Codex 的增长势头加一把火。最近,奥特曼表示,Codex 活跃用户在突破 300 万不到两周后便直逼 400 万大关,OpenAI 随之重置速率限制,以「量大管饱」的姿态收割开发者生态。

一方面,凭借 GPT-5.5 与 GPT-Image-2 的强势表现,正面回击了 Anthropic 在估值预期上的压力;另一方面,则利用 Codex 的生态粘性紧锁开发者阵地,稳步构筑起横跨 C 端消费与 B 端企业级服务的完整服务体系。

攻守之势异也,今年以来被诟病掉队的 OpenAI,终于重新找回两年前的进攻节奏,并将精力放在了踏踏实实打磨产品上。

附上 OpenAI 官方博客地址:

https://openai.com/index/introducing-gpt-5-5/

*封面由 AI 生成

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

作者 莫崇宇
2026年4月24日 14:15

星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍,就在刚刚,正式发布并开源了 V4 系列模型预览版。

一上来就是王炸级别,而且双双标配百万 token 上下文:

  • 参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)
  • 284B 参数的 DeepSeek-V4-Flash(13B 激活参数)

即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务同步上线。

DeepSeek V4 登场,Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位,约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成均有提升。

工具调用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误,比上一代更可靠。

知识与推理层面,V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9,比最接近的开源竞争者高出约 20 个百分点,只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。

基座模型层面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base(对应分别是 87.8、65.5、28.3、40.2)。

值得一提的是,参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base,说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。

在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。

Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实,并非只在内部框架上表现良好。

长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

从分段数据来看,128K 以内的检索能力相当稳定,128K 之后开始出现明显下滑,但 1M 时的表现依然超过大多数同类模型。

中文写作同样是 V4-Pro 的强项。

官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型,在包含 3170 条样本的功能性写作评测中,V4-Pro 的胜率为 62.7%,Gemini 为 34.1%。

创意写作方面,V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景,Claude Opus 4.5 仍有优势,胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」,选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位,第一反应是「Flash 就是降配版」。

错,大错特错。 DeepSeek 的定位逻辑要更复杂,V4-Flash 的参数量和激活量都小得多,API 价格更有竞争力。推理能力和 Pro 很接近,世界知识储备稍逊,

简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务,以及思考模式的选择。

在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,和 Pro Max 的差距已相当有限。

日常任务用 Flash,遇到硬骨头开 Think Max,性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务,选对思考强度,比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换。

非思考模式响应速度快,适合日常轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,官方建议上下文窗口至少设置为 384K token,复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令,要求模型「以绝对最大力度推理,不允许走捷径」,并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显,也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文,榨干每一个 token

百万 token 上下文有不少模型都在宣传,但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长,上下文一长就成了最主要的计算瓶颈。

V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力只挑其中 k 条参与核心计算;HCA 则用更激进的压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。

CSA 里还有一个闪电索引器,用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,再挑出 top-k 个块参与后续注意力,进一步压缩计算量。为了避免压缩损失局部细节,两种注意力都额外引入了滑动窗口分支,让每个 token 能完整看到最近的若干个相邻 token。

效果是显著的,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进,同样场景下推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。

官方表示,百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外,V4 还引入了流形约束超连接(mHC)来强化残差连接。

传统残差连接把层与层之间的信号直接相加,而 mHC 把残差流的宽度扩展若干倍,再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上,保证谱范数不超过 1,让跨层信号传播更加稳定。

训练层面采用 Muon 优化器,通过迭代正交化梯度矩阵来更新参数,加快收敛速度并提升稳定性,和 AdamW 混用:大多数模块用 Muon,嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」,在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断,把数值范围钳制在 [-10, 10] 以内,直接压制异常值的出现。补货,两种方法目前只知道有效,机理还不够清晰,DeepSeek 在论文中坦承这个问题留待后续研究。

此外,两款模型均在超过 32T token 的高质量数据上完成预训练,数据构成涵盖数学、代码、网页、长文档等多个类别,中期训练阶段还额外加入了 agentic 数据来强化代码能力。

训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习独立培养领域专家,涵盖数学、代码、Agent、指令跟随等多个方向,再经在线蒸馏(OPD)将各领域能力整合进单一模型。

OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计,梯度估计更稳定,知识迁移更完整,代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载,隐藏层状态也做了专门缓存以避免显存爆炸。

当然,源神,依然是那个源神!

目前四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。

Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8。

FP4 到 FP8 的反量化是无损的,因为 FP8(E4M3)比 FP4(E2M1)多两位指数位,动态范围更大,能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。

此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供了 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。

API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上,调用时 base_url 不变,model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式,开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构,DeepSeek V4 这次一个更值得关注的变化,是英伟达不再是唯一选项。

也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。

图片
DeepSeek 选择在 V4 这个节点上做这件事,时机很精准。

V4 的性能已经比肩顶级闭源模型,如果它只能跑在英伟达芯片上,那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾,这个叙事也有所完整:算法是自己的,代码是开源的,芯片是国产的。

巧合的是,黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示,DeepSeek不是一个无足轻重的进展。

他还假设了一个情况,那就是 DeepSeek 新模型在华为平台上首发,黄仁勋表示这一天对美国来说将是一个可怕的结果,因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理,这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度,V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择,正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

所有人都在骂爱奇艺AI艺人库,但他们压根不需要你喜欢

作者 Selina
2026年4月27日 13:57

在爱奇艺举办 2026 年世界大会之前,这个公司上下可能没有人想到,这掀起了一场如此洪水滔天的大起义。

4 月 20 日,爱奇艺通过世界大会展示了一款名为 Nadou Pro 的 AI 影视制作平台,以及一项新计划:超过 100 位艺人已经加入了平台的「艺人数据库」,AI 创作者可以通过这个数据库快速与演员建立合作,调用他们的形象来制作内容。爱奇艺高级副总裁刘文峰在现场表示,这是在搭建一座桥桥梁,让 AI 创作者和演员更快地对接,用更低的成本、更快的速度,实现更丰富的创作。

消息一出,完全炸锅,第一时间跳出来反对的不是别人,正是演员们本人,内娱辟谣最迅速的一次:

粉丝群体的愤怒紧随其后。爱奇艺被嘲讽为下一个「非物质文化遗产」,「AI 艺人」这个词条迅速冲上热搜,热梗也随之而来,矛头对准了 CEO 龚宇:AI 这么厉害,怎么不把你们高管取代了呢?

爱奇艺不得不迅速做出澄清,称市场对「百人名单」存在误读。

龚宇也亲自出来重申,解释自己在发布会时的表达,以及进行一些潦草的公关动作。

但无论如何,这无法遮掩平台对 AI 技术在影视娱乐产业应用,抱有的是怎样一种态度:很简,AI 是平台眼中的「效率工具」,在创作者眼中是对人的替代。当技术能把一个人的脸、声音、表演习惯拆解成数据库里的可调用参数,「确认权」这三个字能提供的安慰其实非常有限。

但爱奇艺的 AI 野心并非孤例。它只是一条正在高速运转的产业链上,最新露出水面的一环。

一条不需要观众喜欢就能赚钱的产业链

2026 年 1 月,中国各平台日均上线 470 部 AI 短剧,单月新增超过 14600 部。到 2 月底,在播 AI 剧目累计达到 12.78 万部。3 月,抖音上 AI 短剧的日均广告投放额突破 7000 万元,历史上首次超过了真人短剧。据短剧自习室测量,仅 2026 年 3 月新上线的 AI 短剧,总量即达 39239 部。

▲ 图片来自:短剧自习室

这些数字看起来像是一个行业的黄金时代。但如果你去看另一组数据,画面就完全不同了:在这 12.78 万部剧目中,播放量破亿的不超过 150 部。破亿率 0.117%。

更关键的是观众的态度。2026 年初的受众调查发现,写实类 AI 短剧在所有 AI 内容形态中,消费和付费的意愿排名垫底。AI 制作的剧集类型中,观众更为接受的仅仅只是动漫类,而非真人类。

▲ 图片来自:明略科技《2026中国AI短剧行业发展与受众洞察报告》

现在的技术是非常强了,但是在细枝末节出,观众还是能察觉到合成的质感。真的被骗过去的人不会怀疑,反而是这种「接近真实但又没到」的微妙不适感,恰好压制了让人愿意掏钱的情感投入。

如果故事不卖钱,这个行业靠什么活着?

答案是流量套利。这套玩法有一个精准的闭环:低成本制作内容,高强度购买平台广告来获取播放量,从中间的差价里挣钱。生存的关键不是讲好一个故事,而是买量效率。

这套模式之所以能运转,是因为 AI 把制作成本压到了一个前所未有的低点。传统短剧单集成本在十万到数十万元之间,场景复杂的甚至达到百万级。而 AI 短剧《霍去病》的核心算力成本,仅仅 3000 元人民币,它在春节档上线后播放量破 10 亿,登顶红果短剧全站热播榜。

3000 元当然不是真正的「全部成本」,但它揭示了一个结构性变化:当制作的边际成本趋近于零,整条产业链的利润重心就不可避免地从「内容」转移到了「基础设施」。

华西证券的分析师赵琳把这个趋势拆成了三个受益方向:AI 视频工具 SaaS、算力租赁平台、以及掌握 IP 储备和分发渠道的头部平台。中信建投的分析师则从 token 消耗的角度算了一笔账:一部 AI 漫剧每分钟消耗 50 万到数百万 token,一部完整作品需要消耗过亿 token。这意味着,哪怕这部剧没有任何一个观众付费观看,模型公司已经从算力消耗中收到了钱。

▲ 图片来自:明略科技《2026中国AI短剧行业发展与受众洞察报告》

为什么是它们?因为 AI 视频工具是每个创作者必须购买的生产资料,日产 470 部意味着持续稳定的订阅收入;算力租赁平台按调用量计费,剧目越多、渲染越多,收入就越高,与内容是否优质无关;头部平台则掌握了流量入口,无论剧目质量如何,制作方都需要向它们购买投放服务才能触达观众。

平台端同样如此。腾讯、字节跳动、百度纷纷推出独立的漫剧 App,竞争的筹码是分账比例和流量扶持政策。中邮证券在研报中写了一句非常值得玩味的话:「供给放量并不必然带来优质内容的同步增长。」但紧接着的结论不是「所以我们需要更好的内容」,而是「所以具备用户入口与投放能力的头部平台将持续强化枢纽地位」。

所以,没有讨论一个跟「作品质量」有关。算力平台扮演的是「卖水人」的角色。淘金的人越多,卖水的人越赚钱,至于有没有人真的挖到金子,不影响水的销量。

换言之,整条产业链已经形成了一个不需要观众真正喜欢内容就能运转的闭环。

最先拥抱 AI 的一代人正在最快地离开

模型公司卖算力,平台卖流量,资本卖故事,每个环节都在赚钱,唯独没有人在意作品本身,产业链的上游和中游都在加速。

那终端的观众呢?

来看一下更广泛层面,大众对 AI 的观感。盖洛普今年 4 月发布的最新民调给出了一个令人意外的答案。在美国,Z 世代对 AI 的兴奋度在过去一年内从 36%暴跌至 22%,下降了 14 个百分点。与此同时,这个群体中对 AI 感到「愤怒」的比例从 22%飙升至 31%。

Z 世代是数字原住民,是第一批把 ChatGPT 用在作业里的人,是所有世代中最早拥抱 AI 的群体。所以,这不是中老年人对新技术的本能恐惧,而是最早拥抱 AI 的人,他们正在最快地恨上 AI。

广泛的现象,也是因为有广泛的原因:抽象的技术乐观主义撞上了具体的生存压力。Stanford 2025 年时的研究数据就显示,22 到 25 岁计算机专业毕业生的就业率大幅下降,这些刚好是年轻的应届生。纽约联储的调查发现,年收入低于 5 万美元的工人中只有 15.9%在使用 AI,而年收入超过 20 万的群体使用率高达 66.3%。AI 不是在「赋能所有人」,它在拉大已有的差距。

▲ 图片来自:Standford

这也是为什么,在面对爱奇艺 AI 艺人的暴论时,最热切的讨论不是从艺术,而是从就业方向展开的,观众本能的共情这个行业里潜在被代替的劳动者:编剧、摄影、场务、美术、妆造……

对于一个刚走出校门就发现入门级岗位正在消失的 22 岁年轻人来说,和爱奇艺所说的「演员保有确认权」,就跟「AI 将创造更多新岗位」这句话提供的安慰一样,画饼都画不出个像样的。

把所有的饼……哦不,所有的现状,拼在一起看,是 AI 所造成的供给侧狂飙与需求侧冷却,正在同时发生。这不是说某一家具体的公司、某一个具体的产品导致的,而是整条链路的传导都受到了影响。上游的每一个参与者都有充分的经济动机继续加速,而终端的人,无论是创作者还是观众,正在用各自的方式表达同一个意思:

我们不买账。

当内容的生产成本趋近于零,爆款率也趋近于零,观众的兴趣同样趋近于零,「娱乐产业」这四个字还意味着什么?也许它正在变成一种新的基础设施生意,就像修高速公路一样,收费站永远在赚钱,只是路上跑的车越来越少,而车上坐的人越来越无聊。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

盲猜要火!北京车展最帅「方盒子」找到了

2026年4月27日 17:48

面前这台就是全球首发亮相的传祺越 7,这是广汽传祺越野系列的首款重磅车型。我在展馆里绕了一圈,感觉全场颜值最高的方盒子车型就是它了。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

千问首发灰测 HappyHorse 1.0,开启免费体验

2026年4月27日 19:15

今天,千问正式首发灰测 HappyHorse 1.0,速览四大核心亮点:丰富镜头叙事、自然动作情绪、真实对白音效、多种美学风格,现已上线千问 APP 及千问创作 Web 端。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI 和微软官宣「分手」,七年 CP 终成塑料

作者 莫崇宇
2026年4月28日 16:12

就在刚刚,微软与 OpenAI 联合宣布,双方完成了合作协议的新一轮修订:云合作独家限制正式解除,知识产权授权从独家变为非独家,收入分成也重新划定了天花板。

这段始于 2019 年的强绑定关系,走到今天,终于松开了彼此的手。

而这一切的起点,要从比尔·盖茨说出「震撼」这个词说起。

2022 年 8 月,他亲自给 OpenAI 团队挑选了一道 AP 生物考试真题。他曾断言,语言模型要在这类考试中拿到高分,至少还需要三年。结果 OpenAI 只用了两个月,就交出了满分答卷。

「这是我人生中最震撼的技术演示。」他后来在播客中这样回忆。

迟到的分手

在外界眼中,微软精准押中 OpenAI,被视为纳德拉任期内最精准的一次豪赌。他一手促成的合作,直接让微软跻身 AI 战略核心,从基础设施到终端产品全面升级,一举甩开了 Google 和 Meta 半个身位。

但真正写下这份剧本的人,并不是纳德拉。

据外媒 Business Insider 披露,早在 2016 年,比尔·盖茨就已经开始定期与 OpenAI 管理层会面。第二年,他亲自给纳德拉和微软高层发去一封备忘录,预言一种名为「AI agents」的新型数字个人助手将带来全新的时代。

「agent 不仅会彻底改变人们与计算机的互动方式,它们还将颠覆整个软件行业,引发自从人们从命令行转向图形界面以来最大的一次计算革命。」

打过工的朋友都知道,来自创始人的肯定,通常比任何市场报告都更具分量。这封备忘录不仅直接点燃了微软全面押注 AI 的信心,也精准对齐了纳德拉上任后一直坚持的「移动为先,云为先」战略。

2019 年 7 月,微软正式宣布对 OpenAI 投资 10 亿美元。2023 年 1 月,微软承诺投资 100 亿美元,并获得 OpenAI 知识产权独家使用权直至 2030 年,同时享有 OpenAI 20% 收入的分成。Azure 成为全球唯一托管 GPT 系列的云平台,微软旗下各条产品线,也全都搭上了 OpenAI 的顺风车。

只是,蜜月期总会过去。ChatGPT 爆红后,OpenAI 从幕后模型供应商摇身一变,成了顶级产品公司。它不再只是给微软供血,而是直接面对终端市场:卖 API,推企业版,推出 GPTs Store,甚至开发协作文档和浏览器,大有自立门户的架势。

这也意味着,它开始伸手进了微软腹地。

两家公司的摩擦其实早有苗头。作为对 OpenAI 投资协议的一部分,微软握有通过 Azure 销售 OpenAI 模型的权利,OpenAI 也能直接卖给客户。这种「双线销售」意味着两家公司有时会向同一客户推销几乎相同的产品,让微软销售人员陷入尴尬的处境:一边宣传的是 OpenAI 的技术,另一边却要从 OpenAI 手中「抢客户」。

一份微软内部文件显示,微软要求 Azure 销售人员告诉潜在客户,OpenAI 自营的服务适合用于实验,但缺乏企业级能力,安全与隐私功能也相对欠缺。OpenAI 也不甘示弱,比如率先销售微软 Azure 尚未提供的语音识别模型 Whisper,由此签下了不少大客户,甚至包括微软对手 Salesforce,以及 Jane Street 这样的金融巨头。

但如果你以为这种别扭只是近年才有的,那就低估了这段关系的复杂程度。

早在 2018 年,也就是双方正式签约的前一年,微软 CTO Kevin Scott 就在一封内部邮件里写道:「OpenAI 把我们当成一桶毫无差异的 GPU,这对我们来说毫无吸引力。」那时候 OpenAI 还小,微软还是金主,但嫌弃已经是双向的——OpenAI 嫌微软不够纯粹、限制太多;微软嫌 OpenAI 太理想主义、商业化太慢。

这种互相嫌弃的底色,在 ChatGPT 爆红之后,被成倍放大。

到了 2025 年,双方在算力分配上的分歧彻底公开化。Altman 一方认为,微软提供的顶级芯片和云资源完全跟不上 OpenAI 的模型训练需求;微软则表示已「提供所能提供的一切」,言下之意,是 OpenAI 的胃口已经超出了任何一个合作伙伴所能承受的范围。

算力,成了这段关系里最难绕过的关键点。

鸡蛋不能放在同一个篮子里,微软早早开启了「去 OpenAI 化」的备胎计划:内部训练轻量模型 Phi 系列;收购 Inflection AI 的大模型团队,交由 Mustafa Suleyman 掌舵;推进自有企业模型 MAI,在部分 Copilot 场景中替代 OpenAI 模型;与 Hugging Face、Cohere、Mistral 等模型厂商建立分销关系。

虽然合作协议白纸黑字要求 OpenAI 和微软共享知识产权,但 Suleyman 和不少高管对 OpenAI 模型运作的透明度颇有怨言。据悉,他曾因 OpenAI 没提交 o1 模型的「链式思维」技术文档当场发火,在会议中对包括时任 OpenAI 首席技术官 Mira Murati 在内的人员直接开炮,会议最终不欢而散。

去年初,当奥特曼宣布与软银、Oracle 等合作伙伴共同启动星门计划时,这场排面十足的合作声明里,唯独缺了一个名字:微软。

微软并不是彻底被排除在外。OpenAI 的很多服务还跑在 Azure 上,微软也仍然是重要合作方。但这次星门计划释放出的信号很清楚:OpenAI 不想再把算力来源押在微软一家身上。

过去几年,微软几乎是 OpenAI 最重要的算力入口。现在,OpenAI 开始把软银、Oracle、英伟达等伙伴拉进来,自己搭一张更大的算力网。微软随后也调整了双方协议,允许 OpenAI 去建设额外算力,只保留优先选择权。

这意味着,两家的合作还会继续,但独家绑定的阶段已经过去了。

AGI 的「开关」究竟掌握在谁手里?

2019 年那份合作协议中,有一个几乎未被高调讨论的条款:如果 OpenAI 董事会认定其模型实现了 AGI,那么它有权单方面终止微软的独家使用权。

根据外媒 The Information 披露的文件,AGI 的定义被描绘得颇为具象:OpenAI 非营利董事会「在合理裁量权下」认定,AGI「已经被创造出来,具备为盈利单位的投资者带来最大可分利润的能力」,且 OpenAI 有能力和权限指挥 AGI 去实现这些利润。

当时,这更像是一个「理念性」补丁,用来安抚 OpenAI 对大型科技公司掌控的担忧。「一开始大家都觉得这事可笑。」一位参与合同谈判的人士回忆道。

但所有人都低估了技术进化的速度。Altman 先后公开表示 OpenAI 有信心构建 AGI,并称 AGI 已经显露踪迹。

纳德拉对此不买账:「我们自己宣布实现了某个 AGI 里程碑,这对我来说只是荒谬的基准作弊。真正的基准是全球经济每年增长 10%。」

微软担心 OpenAI 把 AGI 当成了脱钩的按钮。而这场拉锯战,今天终究有了结果。

2026 年 4 月,双方正式完成协议修订,各退一步,各取所需。

在云合作上,微软仍是 OpenAI 的主要云合作伙伴,OpenAI 新产品依然优先在 Azure 发布,但独家限制正式解除——OpenAI 现在可以通过任何云提供商向客户提供服务。此前已与亚马逊 AWS 签署的七年协议,从此有了明确的名分。

在知识产权上,微软对 OpenAI IP 的授权期限延长至 2032 年,但性质从独家变为非独家。微软依然拿着一张长期饭票,只是不再是桌上唯一的食客。

在收入分成上,微软不再向 OpenAI 支付分成;OpenAI 向微软的分成延续至 2030 年,比例不变,但设有总额上限,与 OpenAI 的技术进展脱钩。当初那个可能价值数百亿美元的无限分成条款,就此画上了天花板。

在 AGI 问题上,微软明确获得了独立追求 AGI 的权利,不再受制于 OpenAI 的技术路线。

与此同时,微软并未坐等谈判结果。2026 年 4 月,其内部「MAI 超级智能团队」正式推出自研的 MAI 系列模型,覆盖语音、图像、转录等多个方向,目标是在两到三年内实现 AI 能力的完全独立。

对 OpenAI 而言,这场谈判同样意义重大。重组之路已然打通,上市前景更加清晰,算力来源也完成了多元化布局。依存度或许让双方不得不坐回谈判桌,但那个由比尔·盖茨亲自促成、在 Azure 上展开的 AI 蜜月时代,已经翻篇了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

iOS 27 发力 AI 修图,苹果也开始 AI 焦虑了

作者 苏伟鸿
2026年4月29日 18:30


今年的 iOS 27,将会 AI 味浓浓。

彭博社报道,苹果准备在今年的 WWDC 开发者大会上推出一套全新的 AI 修图工具,将会集成在 iPhone、iPad 和 Mac 的照片应用中。

沉寂了一年的 Apple 智能,将随着 iOS 27 的推出,再次回到聚光灯下。

两年前,苹果还公开表示不做 AI 修图功能,在竞争对手的步步紧逼之下,终于还是忍不住跟进了。

iOS 27:AI 无处不在

在 iOS 18 推出的 Apple Intelligence 工具集,苹果就已经允许用户利用 AI 简单消除照片中的物体,属于当下智能手机的标配功能。

苹果的对手已经走得更远。像是把「AI 修图」作为标志性功能的 Google,已经实现给人物更换完美表情、把人物加入合照,甚至重构整个画面背景的能力,整个 Android 阵营都在发力类似的功能。

图源:WIRED

在 iOS/iPadOS/macOS 27 中,苹果将在「照片」App 的编辑界面中,增加一个全新的「Apple Intelligence Tools」(Apple 智能工具集)模块,包含以下三个功能:

  • Extend(扩展),就是 AI 扩图的功能,允许用户在原始画面之外额外生成图像内容,比如拍摄一张旅游景点的地标图,然后用这个工具来填充周围的景色,用户可以自行控制扩图的范围和位置。
  • Enhance(增强),利用 AI 自动修图,有点像不能自定义的「豆包修图」。
  • Reframe(重构),主要运用于苹果的空间照片,允许用户在拍摄后改变视角,比如一张汽车照片可以从正面视角调整为侧面视角。这个功能将充分利用空间照片来自多个摄像头的结构数据。

不过,根据内部测试的员工透露,这些功能的开发并不算顺利,效果更复杂的「重构」和「扩展」不稳定,苹果很可能会推迟或砍掉这些功能的发布。

包括这个新的 AI 修图功能在内,iOS 27 系统的更新将会沿着「优化」和「AI」两个主旋律进行。

此前爱范儿已经多次报道,由于 iOS 26 引入了「液态玻璃」的全新设计语言,系统稳定性有明显下降,因此 iOS 27 将会聚焦在系统稳定性优化上,不仅要修复目前 iOS 26 的大量 Bug,还会提升设备的续航和性能表现,并持续修改液态玻璃的视觉效果。

其余的功能更新,则会集中在「AI」上。首先,苹果正在努力将 2 年前画饼的 AI Siri 正式实装 iOS 27,这也是 Apple 智能体验和未来苹果 AI 硬件战略的核心体验部分。

虽然已经「潜心打磨」两年,今年年初有内部人员向彭博社透露,AI Siri 的一些杀手级功能,例如语音控制 Siri 操作应用,测试结果并不理想。

这意味着,即使我们能在 iOS 27 见到 AI Siri 庐山真面目,它也大概率会是一个「技术预览版」,并且需要等待后续更新补充完整功能。

旧饼还没兑现,iOS 27 选择继续加码 AI 新功能。

苹果打算进一步将 Siri 改造为类似 ChatGPT 和 Google Gemini 那样的聊天机器人,届时 Siri 会有一个独立应用,用来对话和存储聊天记录。

苹果还计划在邮件、日历和 Safari 浏览器等第一方应用中,引入新的 Siri 引擎,实现更强的搜索和数据管理能力。

除此之外,苹果正在酝酿一个 AI 搜索引擎, 允许用户从网络搜索信息,生成综合的报告和信息列表,以及网页链接,作为 Safari 和 Spotlight 网络搜索。

在健康领域,苹果将结合 AI 推出「Health+」的订阅服务,利用 AI 智能体,对用户的身体数据进行个性化分析,并针对性推送真人医生录制的建议。

比起两年前那场 WWDC,iOS 27 这一大批 AI 功能,比目前的 Apple 智能还要更丰富不少。

FOBO 的风,还是吹到了库比提诺

2025 年 1 月, 苹果的软件主管 Craig Federighi 和营销高级副总裁 Greg Joswiak 接受了《华尔街日报》的专访,谈到了对 AI 的看法。

其中 Federighi 特别提到了「AI 修图」,解释为什么苹果只推出「消除」,而不是如同三星和 Google 一样做大量的功能:

对我们来说,重要的是帮助人们传播准确的信息,而不是虚构的「幻想」。

Google Pixel 的表情修正功能,图源:The Washington Post

苹果公司内部曾经针对「AI 修图」的尺度进行了长时间讨论,考虑到用户的高需求,苹果公司愿意迈出「小小的一步」,于是在 iOS 18 之中推出了「AI 消除」的功能。

而像是「图乐园」这种 AI 生图功能,苹果也做出了严格的限制,只能用于创作卡通图案,避免生成逼真的图像造成误导。

某种程度上,苹果的坚持已经开始松动,iOS 27 这个全新的「AI 扩图」功能,让 Apple 智能进一步介入照片的真实性。

回望两年前的那场 WWDC,Apple 智能以一个非常温和的形象问世,没有想象中的 Apple-GPT,苹果的很多尝试都显得谨小慎微,不具备改天换地的野心。

但 AI 产品的代际变化速度极快。别说两年前,两个月前都没人觉得 ChatGPT 是一个好用的文生图机器人,现在打开社交媒体 GPT Image 2 的作品已经铺天盖地。

两年没动弹过的 Apple 智能,自然「遥遥落后」。

作为终端厂商的苹果,原本拥有一个得天独厚的优势,能够一夜让自己的 AI 产品面向全球十亿用户推出。

只是,对于用户来说,Apple 智能不仅不算好用,更致命的是,它提供的价值,和用户的需求,有很大程度的错位,导致用户并不想用。

FOBO(Fear Of Becoming Obsolete,害怕被淘汰)的阴影,终究还是笼罩了苹果。

过去, 苹果可以决定什么功能值得出现;如今,它也必须回应用户已经习惯拥有什么,行业在发力什么。iOS 27 上这些曾被苹果否决的 AI 功能,本质上都是一次迟到的补课。

Siri 版 GPT 要做,AI 搜索引擎要做,系统应用也全部 AI 化,现在苹果也盯上了 AI 照片编辑,一个其他手机品牌很喜欢演示的功能。

苹果能不能把这些功能做好,又是另一个问题。

即使已经发布 2 年,Apple 智能的照片「消除」效果依旧不如人意,横向对比 Android 阵营显得更显落后,经常会出现消除不彻底、扭曲图像的问题。

全新「扩展」和「重构」功能则更复杂,内部已经反馈稳定性不佳——其实,我相信对于更多用户来说,会更希望苹果能把更实用的「消除」功能进一步完善好。

并且,AI 修图一直以来都争议缠身,特别是前两年的 Google Pixel,可以在一张真实照片上加入任何元素,实现以假乱真的效果,就引发了国外媒体对于「真实」和「伪造」的大讨论。

左图为实拍,右图经过 Pixel Magic Editor 编辑,图源:The Verge

苹果会尽量规避这种风险,目前看来,这些新功能的自由度相当有限,用户不能自定义修改的方向和指令。

面对行业趋势和用户需求,苹果也不得不松动和更改曾经的价值取向,现在的他们,其实还不知道自己要做什么样的 AI。

但这不仅是苹果的困惑,其实也是笼罩整个行业的迷思,最富含 AI 的 Google Pixel,也并非是我们期待的那台 AI 手机。

既然暂时难以重新扮演行业的引领者,那么在 AI 这场竞赛中持续调整步伐的苹果,至少还能先通过跟随,确保自己依然留在牌桌之上。

但我仍然期待,今年的六月,苹果能为我们带来惊喜。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米最新人形机器人的手,会「出汗」了

作者 张子豪
2026年4月30日 14:15

最近小米最让我惊喜的新品,不是汽车,也不是手机,而是一款还没正式发布的人形机器人,小米 CyberOne V2。

在前天的小米投资者大会上,它第一次公开亮相。

不跑不跳,也没有表演后空翻,只是安静地站在那里,像一位训练有素的工作人员,给与会嘉宾递上伴手礼,和人握手、击掌。

小米官方目前还没有发布正式的参数,根据网上的爆料信息,小米 CyberOne V2 这款人形机器人身高 178cm、体重约 52kg。

其他的参数像是机器人的步行速度,大约为 0.98m/s,单臂的举重能力可以支撑 3kg 的重量。对比早前宇树发布的 H2 机器人,其最快行走速度是 3.3m/s,手臂最大负载 15kg,额定 7kg。

小米 CyberOne V2 的重点,很明显没有放在走路和举重上,这次最值得关注的,是小米机器人重新设计的手部。

这双手是按照成年男性的手 1:1 比例制作,具有 22-27 个自由度,不仅能做到快速拧螺丝、掌内转螺柱这些精细工业化场景的任务,还能捏羽毛和触碰气球。

更意外的是,这双手竟然还有人类的「汗腺」。

其他的爆料还提到,小米 CyberOne V2 依靠背后的情感 AI 模型,能够识别面部表情和声音,从而给出恰当的互动反馈。

但也有美国网友在下面评论说,小米 CyberOne V2 的样子和特斯拉 Optimus 也太像了,马斯克选择不提前展示 Optimus 的任何信息是对的。

此前马斯克有说过,推迟展示 Optimus V3,是为了防止竞争对手抄袭,并认为在大规模量产前,应尽可能将其藏在门后。

灵巧手是机器人的硬件瓶颈

从技术和资本市场,机器人这段时间的发展都很迅猛,几乎每天都有一个具身智能的融资。

在脚上的功夫,机器人半马刷新了人类纪录,来到了一小时内。

但在「用手操作」上,翻书、系鞋带,这些人类双手的日常操作,对机器人来说却还是天方夜谭。

具身智能的核心,其实就在于机器人的大脑如何通过物理躯体与现实世界交互,而灵巧手成了实现完美交互最大的硬件瓶颈。

多家机器人公司都曾专门研究过灵巧手的问题,强脑科技此前发布了 BrainCo Revo 3 智能灵巧手;21 个自由度,集成了全掌触觉和指尖视触觉,并且兼容开源生态。

在官方发布的演示视频里,这只手超越了人手的活动空间,并且覆盖了 33 种抓握手势,能双手解魔方,使用剪刀,和盘手串等。

灵巧手之所以成为一项难题,是难在软件和硬件同时卡住。软件上,人手到机器人手的动作需要重定向;硬件上,手指内部的小型执行器又很难同时做到有力、灵敏、可靠。

这里的「重定向」可以理解为:把人手的姿态、指尖轨迹和接触关系,转换成机器人手能执行的关节角和控制命令。

但人手和机械手的尺寸、关节数量、运动范围都不完全一样。人类做起来很自然的动作,直接映射到机器人手上,可能会变成不可达、穿模,或者接触点不对。

在硬件上,腿部关节通常有更多空间,可以放更大半径、更高扭矩密度的电机,因此更容易采用低减速比或准直驱方案。比如 6:1 减速比,意思是电机转 6 圈,输出轴转 1 圈;速度降下来,输出扭矩放大上去。

▲腿部电机(齿轮比:6)与手指(齿轮比:288)。扭矩随r³缩放。

手指没有这种空间。电机必须缩到能塞进指节的尺寸,而在几何相似的情况下,电机扭矩大致随特征长度的三次方下降。线性尺寸缩小到 1/10,扭矩可能只剩原来的 1/1000 量级。

扭矩不够时,常见做法是靠更高减速比补回来,比如 100:1、200:1,甚至 288:1。

高减速比的代价也很直接:摩擦、齿隙、效率损失和反射惯量都会变得更难处理。仿真里很轻巧的手指,到了现实里可能变得又硬又钝,接触时不够柔顺,精细操作也就难了。

根据小米技术此前发布的全掌触觉仿生手探索文章,为了能 100% 复用人类的数据,小米对 CyberOne V2 的仿生手这次也进行了大刀阔斧的重构。

1:1 极致仿生: 将仿生手体积大幅压缩了 60%,尺寸与成年男性手部完全一致。同时增加了 64% 的自由度,具有 22-27 个自由度 DoF,可达空间、惯量分布都无限逼近真实人手。

全掌触觉覆盖: 机器人如果视觉一旦被遮挡,基本上就无法正常运作。小米引入了触觉手套方案,将全掌触觉传感器覆盖面积提升至 8200 平方毫米。人类穿上它打样,机器人就能完美继承「手感」。

15 万次耐久拉锯: 在实验室里、演示视频里捏个杯子很简单,但在工厂里连续打一万次螺丝,机器人的腱绳、弹簧和套管就会断裂。小米这双仿生手目前在实际抓握中,突破了 15 万次的循环寿命。

而最特别的细节,是灵巧手的「汗腺」。

为了实现这双高自由度的灵巧手,小米也必须在机器人的单手小臂内塞满各种电机。

而在实际应用中,单手电机功率超 100W,其中 30W 会直接转化为废热,极易烧毁线路。在没有外挂大型风扇的狭小空间里,他们从人类「出汗散热」中找到了灵感。

小米使用金属 3D 打印,在紧凑的小臂结构中制作了微型液冷循环通道。利用微泵将热量转移,再通过水分蒸发吸热降温。

在实测中,这套仿生汗腺系统,每分钟仅需蒸发 0.5mL 水,就能提供约 10W 的主动散热能力。

手之外,还有机器人的大脑

硬件在迭代,模型也在同步推进。

两个月前,小米开源了 Xiaomi-Robotics-0,一个面向具身智能的 VLA(视觉-语言-动作)模型。

在小米技术的官方推文里,他们进一步开源了真机后训练(Post-training)的完整流程。

最直观的数据是,基于预训练基座,用 20 小时的任务数据进行真机后训练,Xiaomi-Robotics-0 模型就能学会「把耳机放进耳机盒」这个高难度任务,并且能连续完成多个耳机的收纳。

这套后训练流程里有一个值得关注的技术细节:「偷懒效应」的解决方案。

为了让机器人动作不卡顿,业界通常采用异步推理和「动作前缀」技术,即让新动作顺着上一个动作的惯性自然过渡。但这会导致 AI 开始「偷懒」:过度依赖动作惯性,选择性无视摄像头传来的实时视觉反馈。

小米用了三种机制来对抗这个问题:自适应加权损失、Λ 型注意力掩码、前缀动作随机遮蔽。简单说,就是在训练里故意给模型制造「答案残缺」的情况,强迫它不得不去看当前的视觉信号。

软硬件能力的综合,也让小米机器人已经在汽车工厂里搬砖了。在自攻螺母上件工位,做到了 3 小时持续无干预作业,安装成功率高达 90.2%,能配合生产线 76 秒的高速节拍。

开始大规模交付的机器人

特斯拉此前把 Model S/X 的整条生产线砍掉,腾位置给机器人。

在一季度财报会上马斯克宣布,第三代 Optimus V3 预计年中亮相,7 月下旬至 8 月在加州弗里蒙特工厂启动生产,2026 年下半年向企业客户交付,规划年产能 100 万台。

但就像马斯克之前在播客里承认的一样,手部精细操作是「整个项目最难的环节」。

特斯拉的 Optimus 还没量产,美国另一家人形机器人公司 Figure 机器人,今天在 X 上宣布生产规模扩大了 24 倍,从每天生产一个机器人,变成 1 小时生产一个机器人。

在官方新闻稿里,Figure 提到他们已经交付了超过 350 个机器人。

对小米来说,做机器人,可能不会很快像 Figure、宇树、甚至是特斯拉一样,卖出一台消费级通用人形机器人。

但从 CyberOne V2 的方向也能看出来,小米真正想解决的,除了要让机器人跑得更快、举得更重,还有要让它更像一个能真正干活的手。

▲小米领投的量变机器人公司官网视频

毕竟,人形机器人能不能走进工厂、家庭,决定因素从来都不是它能不能翻跟头,而是它能不能拧螺丝、收耳机、递东西,完成那些看似简单、却最贴近日常的动作。

而这,恰恰也是人形机器人距离大规模落地最近的一步。

部分图片素材来自小米技术公众号、X@niccruzpatane 和 https://www.origami-robotics.com/blog/dexterity-deadlocks.html

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一台比小天才还猛的「反 AI 座机」,卖爆美国家长群

作者 莫崇宇
2026年4月30日 17:03

我至今还能背出小学同桌家里的手机号码。

那时想约人玩,总要先过家长那关:「阿姨好,××在家吗?」等长辈吼一嗓子把人叫来,这通电话才算真正开始。回头想想,我们那时的社交,始终要「借道」大人。

一出生就被触屏包围的 10 后、20 后,大概很难共情这种经历。就算家长迟迟不肯配手机,街上随处可见的儿童智能手表早就填上了这个空缺,定位、通话、发语音,一块表全包了。

▲ 由 GPT-Image-2 生成

但在大洋彼岸,同样有一批家长选择让孩子晚些接触智能设备,问题是,他们能给孩子的替代品,并不比我们当年的选择多。正是这份普遍的育儿困扰,催生了一款特别的产品——

Tin Can 复古座机。

一台卖 100 美元的「金属罐头」

第一眼看到 Tin Can,你绝对会以为这是某个剧组用来怀旧的道具。

它长得像一个圆柱形的罐头,甚至在表面做出了类似罐头标签处的轻微纹路。这款设备提供海蓝、纯白、柠檬黄、丁香紫四种极具多巴胺风格的配色,配有一根标志性的复古卷曲电话线。

这台标价高达 100 美元的设备,没有屏幕,没有摄像头,没有应用商店,甚至连发短信的功能都被无情地阉割了。它唯一能做的事情,就是「打电话」。

你也许会觉得这是在收割智商税,但在北美,它正被焦虑的中产家长们疯狂抢购。

从硬件底层来看,Tin Can 是一个披着复古外壳的现代 VoIP(基于 IP 的语音传输)终端。连上家里的 Wi-Fi 就能工作。

机身上有一个带品牌 logo 的按钮,有未读语音信箱时会亮灯提示;还有四个带 emoji 标识的快捷拨号键,方便不识字的低龄儿童一键拨打。

它的商业模式深谙「圈地自萌」的精髓:

如果只拨打其他 Tin Can 用户的五位数短号完全免费;但如果想给爷爷奶奶的普通手机打电话,就需要每月掏 9.99 美元订阅「Party Line」套餐。据官方透露,绝大多数用户都乖乖掏了这笔月租。

最绝的是它的权限管理。

所有设置都被死死捏在家长手机的 App 里。设备只能接打家长设定的「白名单」号码,骚扰电话一概打不进。如果孩子试图拨打白名单外的号码,话筒里只会传来无情的无法接通提示音。

家长还能设置「静音时段」,比如睡前或写作业时,这部电话就成了一块塑料砖头(保留紧急呼叫电话)。更硬核的是,如果是离异家庭,父母可以在两个家里各放一台,共用一个号码,孩子无论去哪边,都不耽误接朋友的电话。

▲ 官方介绍里甚至把「不是无线设备」写成卖点。

另外,它刻意不内置电池,必须插电使用。

Tin Can 创始人 Chet Kittleson 也解释说,这是因为他极其讨厌老妈接电话时满屋子乱跑、边做家务边敷衍聊天的状态。现在,没电池的座机把孩子们「钉死」在了原地,逼着他们专心致志地讲话。

换言之,Tin Can 表面上像一件怀旧玩具,实质上是一套儿童社交通讯的围栏系统。它把智能手机时代最令人头疼的三个问题,陌生人、沉迷、算法推荐,全部用硬件阉割的方式绕开了。

三个老爸,和一次厨房餐桌上的产品验证

Tin Can 诞生的动机,精准戳中了当代父母最痛的神经——他们苦「社交秘书」久矣。

Chet Kittleson 曾在西雅图房地产科技公司 Redfin 担任高管,后出走创业失败。三年前,他在校门口接孩子时听到家长们疯狂抱怨:为了帮孩子约个周末的玩伴聚会,家长们必须在短信里来回确认时间。

「现在的孩子没有任何工具可以主动联系朋友,所有的协调工作都压回到了父母身上。」作为三个孩子的父亲,Kittleson 猛然醒悟。

▲ 从左往右依次为 Tin Can 创始人 Graeme Davies,Chet Kittleson, Max Blumen

公司倒闭的那一周,他把两个老朋友 Max Blumen 和 Graeme Davies 叫到家里,三个老爸在厨房餐桌上熬了一周,拼出了 5 台原型机,把其中两台塞给了女儿的朋友。

奇迹发生了。第二天早上 8 点 15 分,话筒响了,是女儿的朋友打来邀请她一起走路上学。那是女儿第一次没有借助任何家长,自己安排了社交活动。

消息在家长之间口耳相传,很快蔓延到陌生人。Kittleson 亲自上门安装了大约五十台原型机,边装边问家长用下来感觉怎么样,最担心的是什么,再根据反馈调整产品。

他形容这款产品天然具有病毒式传播的特质:「一个人买了,她的朋友也想要;别人来家里,看到一台复古电话放在那里,会直接失控——孩子家里有一台老式电话,这件事本身就有某种魔力。」

是的,社交圈层的同伴压力也加速了 Tin Can 的爆火。小天才电话手表之所以能迅速崛起,很大程度上是因为它把产品从工具做成了社交入口。「碰一碰加好友」、微聊、主页圈等设计,让手表变成了孩子之间的社交货币。

同理,如果别人都有 Tin Can,你没有,孩子就会被社交孤立。

所以,Tin Can 的杀手锏变成了「团购」。在美国堪萨斯城一所小学,95% 的家庭统一采购了这款座机,孩子们甚至开始用纸质通讯录记录彼此的号码。当「不用智能手机」成为整个社区的共同选择时,它就变成了一种新的社群认同。

2025 年 4 月,Tin Can 正式开放购买。前几批产品接连售罄,积压的预购名单一度接近六位数。目前产品已覆盖美国全部 50 个州和加拿大,最新一批订单交货期排至 2026 年 6 月。

在资本层面,产品的爆发同样引发了风投的高度关注。2025 年夏天,Tin Can 完成 350 万美元的早期融资,投资方包括 PSL Ventures、Newfund Capital 等等,同年 12 月,Greylock Partners 领投了 1200 万美元的种子轮,累计融资达到 1550 万美元。

Tin Can 还计划用新资金扩大产能、增加工程和客服人员,并推进国际市场的布局。但理想很丰满,工程很骨感。作为初创公司的初代硬件,Tin Can 还是一度遭遇了惨烈的翻车。

在 2025 年的圣诞节假期,大批家庭同时开机,当天的通话量暴增了 100 倍,Tin Can 的服务器直接被挤崩了。很多满怀期待拆开礼物的孩子,面对的是长达两周的掉线和无法接通。公司只能紧急致歉并免除当月订阅费。

硬件上的毛病也不少:

底层 VoIP 导致通话有 1 秒的延迟,偶尔还有回声;实体按键对小孩的手来说太硬;USB-C 供电接口在拉扯中容易松动,甚至成了绊倒孩子的隐患。此外,英国的 Karri 和准备推出 60 美元竞品的 Pinwheel 都在虎视眈眈。但即便如此,家长们依然对 Tin Can 情有独钟。

AI 陪伴越拟真,真实社交越显得粗糙可贵

如果我们把视角拉远,会发现 Tin Can 的爆火,是站在了一场席卷全球的反屏幕情绪巨浪。

纽约大学心理学家 Jonathan Haidt 在其著作《焦虑的一代》中指出,2010 年至 2015 年间,随着智能手机和 Instagram 等社交平台的普及,儿童的童年经历了一场深刻的数字运动。

统计数据显示,美国青少年的抑郁率和焦虑率在这十年间分别上升了 134% 和 106%,女性青少年受到的冲击尤为剧烈,容貌焦虑和饮食失调问题大幅攀升,男性青少年则面临社交退缩和注意力崩溃的风险。

Haidt 为此提出了四条具体建议:高中之前不提供智能手机、16 岁之前禁止使用社交媒体、全天候的校园手机禁令,以及增加儿童在现实世界中的独立活动时间。这套框架迅速成为家长群体中最广泛引用的参照系。

面对这一局面,各国政府开始在立法层面介入。

截至 2026 年初,全球已有超过 114 个教育系统实施了不同程度的校园手机禁令,占全球国家总数的 58%,这一比例从 2023 年的 24% 飙升至今,不到三年内翻了一倍有余。

荷兰、法国、意大利、英国、韩国、澳大利亚相继出台限制措施,美国超过 20 个州也在推进或落地相关法规。

学校端的执行方式五花八门,从磁吸锁袋到集中储物柜等等,但你有张良计我有过墙梯,学生的应对手段同样层出不穷:强力磁铁撬开锁袋、把旧手机放进去以旧换旧、用模型机偷天换日等等。讲真,地球村的学生在这一块上确实都是心有灵犀的(doge)。

家长端的民间力量同样在狂飙。美国的「Wait Until 8th」运动、前 NFL 球星妻子 Kylie Kelce 带火的「厨房电话」原则(只把手机放客厅,手机禁入卧室),以及英国 18 万家长签署的「无智能手机童年(SFC)」契约,都在试图把孩子从屏幕前拽回来。

有趣的是,对于当下的孩子来说,回归座机并不是一件无缝衔接的事情。

加州大学伯克利分校的社会学家 Claude Fischer 研究了电话进入家庭生活早期的历史,他指出,人们从来都不是「天生就会打电话」的——从 19 世纪末电话进入普通家庭开始,如何接听、如何介绍自己、该说多大声、怎么结束通话,这些都需要专门教授,电话公司甚至为此制作过礼仪手册和学校教材。

有一个流传已久的段子是,当你让 80 后和 15 后同时做一个「打电话」的手势,你会发现两代人的答案截然不同——有人比出六,有人整个手掌贴在耳边,还有人甚至不理解为什么电话的图标不是智能手机的模样。

今天的孩子对触屏、表情包、语音条和视频通话更熟悉,却未必知道一通没有画面、没有表情救场的电话该怎么进行。Tin Can 意外承担了一门古老技能的补课:如何在看不见对方表情的情况下,用声音维持一段关系。

《连线》杂志记录了一对兄妹拿到 Tin Can 的第一周,连续打了二十多个电话,每次接通只说一句「嗨」,然后就是令人窒息的沉默。但在几周后,他们开始学会主动聊天,学会道别,学会大声表达,学会在有限的通话里,完成一场完整的、有温度的人际互动。

与之形成鲜明对比的,是当下愈发普遍的 AI 陪伴。在 AI 无处不在的时代,无数孩子将永远温柔、永远秒回、永远共情的 AI,当作最优的倾诉对象。但社会学家 Sherry Turkle 警告过,数字连接提供的是「陪伴的幻觉」,而不是真实的友谊。

真实的人际关系,是包含摩擦力的。它包含误解、等待、尴尬的沉默,包含对方可能正在吃饭不能接听,包含你需要鼓起勇气克服恐惧去破冰。一个永远顺从的 AI,给不了这种成长必需的挫折。

Tin Can 诞生之初,是为了解决一个没有适合儿童通讯工具、反屏幕的旧问题。但这台笨重、有延迟、不能发表情包的复古电话,却意外成了解决 AI 新问题的解药,它让孩子们拿起话筒,听着真实的电流声,去面对真实世界里,那些笨拙、粗糙却无比鲜活的社交摩擦。

剥离掉 AI 算法与屏幕,最好的社交也只需要一根电话线,和两个直面彼此的灵魂。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对

作者 莫崇宇
2026年5月6日 09:30

就在刚刚,OpenAI 正式推送了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。

这个版本主打三件事:更准确、更简洁、更懂你。

与上一版本相比,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升,在高风险领域最为突出。内部测试显示,GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话,错误率也减少了 37.3%。除文字问答外,图片和照片的分析能力、理科问题的解答质量,以及判断何时应当主动调用搜索工具,都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并正确解答。

回复风格也是这次更新的重点。

新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数,语气更像朋友给的建议,把重点放在如何把问题引到自己的专注需求上,而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,不需要每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。

与此同时,所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。OpenAI 说明,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦,对了,今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。Sam Altman 说,这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍,有效期到 6 月 5 日。

奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

等 DeepSeek 回复的 30 秒,是手机最好玩的半小时

作者 莫崇宇
2026年5月6日 09:34

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?

它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:

等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:

「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」

然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。

接着,你深吸一口气,抬起头。

等等,刚才发生了什么?

窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」

如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代,摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。

但现在,形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。

低情商这叫偷懒,高情商这叫技术性调休。

于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」

这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。

其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。

把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。

那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。

后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。

历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。

很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。

紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。

包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。

最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。

最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。

恭喜你,新的半小时又开始了。

当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.(doge)

他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。

只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此,大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。

鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。

今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮,心态常好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI总裁的私密日记,被马斯克律师当庭念出:让我赚到10亿美元

作者 张子豪
2026年5月6日 14:24

OpenAI 成立前夜,核心大脑 Ilya 差点反悔留在谷歌。

马斯克的律师举着一本被强制公开的私密日记,当着所有人的面,一字一句地读出了 OpenAI 总裁 Greg Brockman 在夜深人静时的盘算
「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元。」

暴怒的马斯克摔门离去,Greg Brockman 在座位上瑟瑟发抖,「真以为他要动手打人」。

这场 AI 世纪庭审现场的走向,比任何一部美剧都要荒诞。

54 岁的马斯克和 41 岁的奥特曼,在 X 上多年以来的互相指责,到了刺刀见红、对簿公堂的这天。

马斯克在第一周的庭审上作证三天,重复最多的一句话是:「你们不能偷一个慈善机构。」

2015 年他出钱出力出名气,帮奥特曼和 Greg Brockman 创办了 OpenAI,承诺 OpenAI 是一个非营利的 AI 研究机构,目标是对抗 Google 的 AI 垄断。

他总共捐了约 3800 万美元。结果 ChatGPT 出来了,公司估值 8500 亿美元,Brockman 个人持股价值 300 亿美元,而他什么都没拿到,还在 2018 年被踢出了董事会。

他说:「是我想出了这个主意,是我起的名字,是我招募了核心人才,把我知道的都教给了他们,提供了所有初始资金。」

马斯克对 OpenAI 及其主要合作伙伴微软提出了超过 1500亿美元 的索赔。他不仅要求赔偿,还要求法院罢免奥特曼的董事会职务,并撤销 OpenAI 转向营利性公司的决定。

OpenAI 则认为,马斯克的诉讼主要是为了打压竞争对手,因为马斯克目前拥有自己的 AI 公司 xAI。

他们提到,在 2017-2018 年间,马斯克本人也曾试图推动 OpenAI 转向营利性结构并寻求绝对控制权。

OpenAI 律师在交叉质询中出示了 2017 年的文件,显示马斯克自己的助理 Jared Birchall 注册了一家名为「Open Artificial Intelligence Technologies」的公司,一个营利性的 OpenAI 替代版本,是马斯克自己主导的。

他也想要那个营利性结构。只是他没能掌控它。

在马斯克作为证人开庭的前两天,他给 Greg Brockman 发了条短信,试探和解可能性。

Brockman 回复:要不双方各撤诉吧。马斯克主动求和没有得到想要的结果,决绝地回应:「本周末结束前,你和奥特曼将成为美国最被痛恨的人。如果你们坚持,就这样吧。」

你根本不懂 AI

在外界看来,马斯克是那个高瞻远瞩、为 OpenAI 注入灵魂和早期资金(约 3800 万美元)的教父;但在 OpenAI 的核心团队眼里,这位亿万富翁缺乏对底层技术的敬畏。

新一轮的庭审坐在证人席的是 OpenAI 的 Greg Brockman,他也毫不留情地揭开了马斯克打造的叙事。

当被问及为何当初不愿意让马斯克担任 OpenAI 营利性实体的 CEO 时,Greg Brockman 的回答极其直白:「他懂火箭,他懂电动车。但他以前不懂,我相信他现在也不懂 AI。」

他继续补充了更多细节,研究员 Alec Radford 曾向马斯克展示过一个极其早期的语言大模型,即 ChatGPT 的雏形。

马斯克输入提示词后,对生成的答案极不满意。他当着研究员的面抱怨「这东西太蠢了」,在第二次尝试依然未能如愿后,马斯克留下一句极其刺耳的嘲讽:「这系统蠢到连网上的小屁孩都能做得比它好。」

在算力成本从 2017 年的 3000 万美元狂飙至 2026 年 500 亿美元的今天,大模型的暴力美学已经被证明是成功的王道。但在当时,马斯克的急躁与轻视,让 Greg Brockman 等人坚定了不能将 AGI 交给他的决心。

可以要他的钱,但绝不能让这个人当 CEO,掌控人类未来的 AGI。

我以为他当时就要揍我

当时,为了筹集巨额的算力资金,双方都在试探成立「营利性结构」的可能性。

马斯克给出的方案极其霸道:要么给我绝对控制权,要么把 OpenAI 直接并入特斯拉,用特斯拉的超算来对抗谷歌。

Greg Brockman 表示当时他们感到了深切的恐惧。

时任 OpenAI 的首席科学家 Ilya Sutskever 在给马斯克的邮件中写下了一段话:「我们的目标是避免 AGI 被垄断。如果创造一个结构,让你想绝对控制就能控制,那一定是个坏主意。」

为了安抚马斯克,会议当天,Ilya 甚至亲自画了一幅特斯拉的画作为「善意的信物」送给他,团队还接受了马斯克赠送的几辆特斯拉汽车。但这种近乎讨好的举动,在马斯克对 OpenAI 权力的核心诉求面前不堪一击。

在这场会议上,当 Greg Brockman 委婉地表达团队拒绝交出单方面控制权时,马斯克一言不发地坐了几分钟,随后突然站起,暴怒地绕着桌子走。

Brockman 在证词中说,那一刻他「真以为马斯克要动手打人」。结果,马斯克一把抓起那幅特斯拉的画,摔门而出,并留下最后通牒:「我会停止提供资金,直到你们决定到底要干什么。」

画被拿走了,资金断了,昔日的盟友正式走向决裂。

硅谷的城府和一本日记

明面上的资金断了,暗地里的互相防备却开始了。

Brockman 在法庭上还提到,马斯克曾满脸「负罪感」地把他叫进办公室,坦白自己暗中挖走了 OpenAI 的核心大将 Andrej Karpathy,去给特斯拉搞自动驾驶。他还强硬地要求 OpenAI 团队裁掉那些「没有重大贡献」的员工。

而在 OpenAI 这边,高管们也明明知道董事会成员 Shivon Zilis 与马斯克有着极其特殊的私人关系,却隐忍不发,利用这层关系维持着脆弱的平衡,直到马斯克彻底亮出 xAI 这个竞品,才将 Shivon Zilis 清理出局。

但比这些权衡更有意思的是,一本 Brockman 写了十年的私密日记。

这本原本藏在电脑深处的日记,在法律程序的强制要求下被公之于众。

马斯克的律师在法庭上,当着所有人的面,一字一句地读出了这位 OpenAI 总裁在夜深人静时的内心盘算:「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元」,以及「如果三个月后我们做共益企业(b-corp),那就是在撒谎。」

OpenAI 律师团队的辩护是:日记是私人思考的真实流露,里面充满自我怀疑和未经过滤的想法,被断章取义了。

OpenAI 上线前一秒,网站还在修改

「如果不是马斯克领导,根本没人会加入 OpenAI。而且他们收了他的钱之后又把他踢了出去。这其实挺不公平的。」

Greg Brockman 还分享了 OpenAI 在发布前差点失去 Ilya Sutskever 的完整故事。

Ilya Sutskever 当时在 Google,已经写好了告别邮件,准备跳槽过来。结果当天晚上,他发了一封标题叫「sad news」的邮件给 Brockman:「我太遗憾了。我实在无法离开 Google。」

与此同时,DeepMind 的员工在一场行业会议上挨个找 OpenAI 的潜在招募对象,告诉他们:「没有人会加入 OpenAI 那个实验室。它是一艘沉船。」

Brockman 为 OpenAI 的官网准备了两个版本,一个有 Sutskever,一个没有。他在最后截止时间发出一条消息,只问了一个字:来还是不来。然后他看着消息框里出现了输入提示符,一直跳,一直跳。然后是一个字:「Alright。」

Brockman 给 Altman 发短信:「他来了。」

马斯克说没有他 OpenAI 就不会存在,这话也许不假。但如果 Sutskever 那天晚上没有改变主意,OpenAI 也不会存在。

面对谷歌的财大气粗,奥特曼原本只敢对外宣布 1 亿美元的融资。

但马斯克极力反对,他明白在硅谷,声量就是生命线。他强硬地表示:必须宣布 10 亿美元,否则显得毫无希望。别人不出的钱,我全包了。

尽管后来马斯克实际上只掏了约 3800 万美元,但这句 10 亿美元的虚张声势,也算是帮初生的 OpenAI 稳住了阵脚。

控辩双方争了很多细节,但 Brockman 证词最后归结到一个问题:非营利结构的承诺,究竟是 OpenAI 对外界的法律义务,还是创始人对自己的道德期许?

马斯克律师 Gerrada 在庭上出示了 OpenAI 2015 年向特拉华州提交的注册文件,里面明确写道,

「本公司的具体目的是为人工智能相关技术的研究、开发和分发提供资金……所产生的技术将造福公众,并在适用时寻求开源……本公司不以任何个人的私利为目的。」

然后他问 Brockman:2017 年到 2018 年之间关于营利性结构的讨论,是不是和这份文件的精神相违背?如今你通过营利性实体,坐拥潜在 300 亿美元财富。

Brockman 的回答是:使命本身没有变,只是结构变了。非营利性的使命可以在营利性的结构下继续实现。

Brockman 的证词预计在 5 月底结束,与马斯克育有四个孩子的 Shivon Zilis、OpenAI 前联合创始人,以及奥特曼随后都将出庭作证。

案件的结果会直接影响当前的 AI 军备竞赛。如果马斯克胜诉,正在筹备史上最大规模 IPO 之一、估值高达 7300 亿美元的 OpenAI 可能会遭到毁灭性打击。

如果 OpenAI 胜诉,奥特曼将彻底巩固对这家拥有 4000 多名员工的巨头的控制权。

参考信息
https://www.theverge.com/tech/917225/sam-altman-elon-musk-openai-lawsuit

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

千问电脑版上线语音输入法:打工人终于可以用嘴干活了

作者 李超凡
2026年5月7日 10:04

Vibe Coding 火了之后,越来越多的人选择对着屏幕口述,而不是敲键盘,不少网友甚至为此整出 AI 语音键盘。

今年 3 月,Anthropic 也给 Claude Code 加了语音模式,在终端输入 /voice,按住空格说话,松手执行。很难想象,连「写代码」这种最依赖键盘输入的场景,都开始支持语音了。

既然写代码的人都开始用嘴干活了,那我一个每天写文章、写方案、做 PPT、整表格的打工人,还在一个字一个字敲键盘,显然也不够高效,尤其是查数据要切三个页面,做个汇报 PPT 要从找模板开始花三小时,整理会议纪要边听边记还漏一半。

究其原因,不是每个人的口头表达都那么好。哪怕也有一些 AI 输入法能解决,比如我们之前介绍过的 Typeless,每年光订阅费每年就得花 1000 块。

在真正干活的电脑端,至今没有和深度 AI 办公能力打通的语音入口。刚好,千问电脑版/网页版最近也上线了千问语音输入法,据说奔着「用嘴干活」而来。而且千问电脑版还是全免费——不只是语音免费,它内置的所有 AI 办公能力,全部敞开用。

别被输入法这个名字骗了

一开始,看到千问语音输入法这个名字,我下意识以为这就是一个识别准确率更好的 AI 输入法,结果我发现完全不是一回事。

千问语音输入法上手几乎没有门槛。两个快捷键搞定一切,按住是语音输入,双击是让 AI 干活。Win 是右 Alt,Mac 是右 Command,你可以根据使用习惯来设置唤起的快捷键。

你在 Word 里写文档也好,浏览器里看资料也好,钉钉里回消息也好,快捷键一按,语音入口浮出来。不用切到千问客户端,不用打开额外窗口。想问就问,想说就说。

千问语音输入法主要就两种使用姿势:按住开始语音输入,想到什么直接说就行,千问帮你自动去口水话、纠正口误、生成结构化表达。双击唤起语音指令,这时候你是在给 AI 派任务,比如查个东西、帮你回消息、生成文档。

打从一开始,它就不只是打算只做一个「帮你打字更快」的输入法。你的嘴负责下达指令,它是一个中枢接口,负责听懂、翻译、调度,让 AI 把活儿干完交给你。

说话就是比打字好使

2026 年,我对一款语音输入法的要求,已经远远不止是识别准确率。「听得清」的逐字听写都是基操,更重要的是理解我想表达什么,再帮我组织好。

比如口述一段想法,它能保留我的意图,帮同事把废话全部过滤掉,口误也顺手修正,吐出来出来的是干净、精炼、可以直接发出去的文字。

比如碰到方案延期这种事,也可以交给千问整理成一段清晰的书面表达,而我只需要直接按住快捷键,随口反馈给千问:

关于这个项目的延期,我… 啊不对,我想说的是关于这个方案的调整,其实原定计划是本周五交付,但是… 呃… 因为客户那边临时加了三个需求点,我们评估了一下大概需要多两天,所以… 不对,我的最终意思是:方案交付时间从本周五调整至下周三,原因是客户新增三个功能点,需要补充技术评估,我们承诺下周三前一定提交初版方案。

松手后结果就出来了,可以看到它自动删除所有「啊不对」「呃」「但是」等语气词,把我表达的核心清晰整理了出来;对比常规的语音输入,只能逐字记录,还要自己手动编辑,千问语音输入法基本无需手动调整,就能直接发出去。

在一些更专业和复杂的项目沟通中,千问语音输入法就更加实用了。

比如下面这个沟通需求,注意看,我长按说了一大堆话后,最后还补了一句:将关于数据部分提前。

这次产品改版的核心目标是提升新用户的留存率。我们在 onboarding 流程里增加了三个引导步骤,把原来的五步走改成了三步走,还在每个节点加了进度提示。另外,我们发现很多用户在第二步就流失了,所以把第二步的表单从 8 个字段缩减到 3 个必填字段。数据方面,改版后一周的留存率从 35% 提升到了 48%,次日留存提升了 12 个百分点。不过也有一个风险,就是表单精简后收集的用户信息变少了,可能会影响后续精准推荐的效果,这个需要持续观察。最后是团队层面的配合,设计部在两周内出了两版方案,开发部用了三天完成上线,整体节奏还是很快的。嗯把数据那段放到最前面,然后分段给我

这里结果对比就更明显了,只有千问听懂了「把数据那段放前面「」的指令,自动重排段落,我用嘴就完成了原本需要鼠标+键盘的操作。

▲ 常规语音输入结果

▲ 千问语音输入法结果

体验过程我还发现了一个让我惊喜的细节,千问语音输入法对于中英文夹杂的口述内容,识别特别到位。

这个函数的主要作用是处理用户登录时的 token 验证,首先会调用 validateToken 方法检查 token 是否过期,如果 expired 的话就返回 401,然后如果是 valid 的话,再调用 getUserInfo 接口去拉取用户信息,最后把 userId 和 role 写进 session 里面。注意一下,这里有一个 edge case,就是当 token 是 refresh token 的时候,要走另外一条逻辑分支。

千问不只把所有的英文术语都识别对了,而且还自动根据我的话分点输出,一目了然。

▲ 千问语音输入法结果

我还想分享一个对于内容创作者特别有帮助的用法,APPSO 每天早上都要开选题会,大家会有很多碎片想法,一个热点现象、一个行业观察、一个趋势判断……

之前有些想法是散装的,不成体系,现在我可以直接在会上按住唤出千问语音输入法,让它将这些想法整理成大纲。比如这一大段我在会上对编辑选题的反馈意见,如下图所示:

▲ 千问语音输入法结果

松开手后,一段详细的选题大纲就出来了,编辑能稳稳接住我的反馈,稍微扩充就能写出一篇深度分析稿件。最后的成文也附上给大家看看:苹果悄悄砍掉丐版 Mac mini,人人都要交「AI 税」的时代来了 。

单就语音输入这个维度,千问给我最大感受是,真就说多快多乱都没关系,反正输出的质量 AI 会兜底。

万物皆可 Vibe,一句话的事

语音输入只是第一步,千问语音输入法更大的价值是还能帮你干活。

上面提到了整理选题大纲,然后我就需要沉浸式写作,但每次要查个数据和报告,都得切到其他网页和应用。这里千问语音输入法就很自然地出现了——它支持在任意软件、桌面全局唤起,不用切换窗口,动动嘴就能直接查。

比如我在写一篇关于 OpenAI 的文章时,刚好有一段要引用最近的融资金额和投资方。我双击唤起语音指令,说一句:「帮我找一下 OpenAI 最新融资背景。」

思考一两秒,千问小窗就直接弹出把详细结果发我了,我看着引用继续写,心流就不会被打断。

假期刚回来,一大堆工作等着推进,我需要整理一个清晰的周报,但又没时间慢慢敲字,于是双击并随口将把需求说了出来,里面夹杂着带着大量口头表达:

诶那个,我汇报下这周进度哈……A 项目目前跟进到第三阶段了,中间遇到了供应商交付延迟,大概迟了三天,后来通过加班把进度赶回来了……B 项目还在需求评审,产品那边原型图有点模糊,约了下周一早上十点对齐……下周还要申请两台测试服务器……你帮我整理为周报 word 文档,语气专业一点,条理清楚。

此外,千问语音输入法还有一个更有意思的功能——帮你回消息。

我每天往往需要在微信、钉钉、飞书等各种项目群里穿梭,回复各种消息。非常消耗精力,这时候我就能让千问让我的「嘴替」了。

比如假期还没过完就被同事催交文章,我就双击让它帮我来一段高情商回复。

▲ 我无需给它介绍背景,它就能根据屏幕内容补充上下文,给我一个「聪明」的回复

而在一些面对客户或者更正式的场合里,我也可以双击让它给我拟一个得体的回复。

这是因为千问语音输入法支持了「场景感知」。它自动识别你当前在什么应用里,看到你屏幕上的内容,据此调整输出的风格。你不用告诉它更多背景,它自己就能看懂。

下周要出差,我直接双击,在微信让它帮我根据聊天信息,整理成一个出行指南便签。

最后给我的这份出行指南,除了航班信息,还贴心地给我整理了待办事项,并根据当地天气和交通情况给了我一些具体建议,这对于常常出差的媒体人来说十分友好。

开周会的时候我还发现了一个实用的小技巧,会议开始,我双击两下唤起千问语音输入法,结束后一句:「帮我把刚才的内容整理成会议纪要。」它就自动帮我整理好了。

这很适合一些快速拉通的临时会议,不用再单独打开会议记录类的应用,随手双击马上记。

对着电脑说话,活儿 AI 自己就干完了

别误会,对着电脑喊「帮我查资料」「写个邮件」,现在只能算 AI 的基本操作。

千问 电脑端这次真正亮出的底牌,是把语音输入和 PPT 创作、AI 表格、文档处理等功能组合起来,这也是真正能帮打工人实现「每天早下班一小时」的实用功能。

拿最折磨人的 PPT 来说,千问不是去素材库里给你拼凑烂大街的野生模板,而是直接用大模型的代码能力动态生成复杂排版。如果你觉得哪里不够完美?直接多轮对话让它接着改,改到你满意为止。

为了探探底,我先让它帮我做个视频号运营课程 PPT,几乎在语音落地的瞬间,AI 就进入了光速消化模式:填充血肉、匹配逻辑一气呵成。

最令人惊喜的是,千问对「图文穿插」的理解并非生搬硬套,而是根据内容深度匹配了差异化的版式,整份 PPT 拿出来,几乎就是可以直接交付的成稿。

这还没完,你还能一次性给千问喂最多 39 种不同格式的参考文件,让它自动梳理逻辑、提炼重点,帮你省去了来回翻资料的麻烦。至于配图,它也能根据上下文自动匹配,找不着合适的甚至能当场给你生图,全程都不需要你切出界面去求助搜索引擎、或者下载下来用 office 处理。

表格处理方面,千问的 Excel Agent 主打一个高水准。

不管是格式随意的聊天截图、手写笔记,还是大段的纯文本,丢给它就能快速生成标准的 Excel 表格。如果后续还要算算增长率、画个趋势图,也不用再去头疼怎么写函数公式了,直接用自然语言吩咐它就能搞定。

我试了一个稍微有点复杂的需求:让它根据 2026 广州最新版初中英语教材,把各句型的语法结构、时态变化和参考例句整理成 Excel 表格,格式要适合一页纸打印,方便拿来背诵。

换以前,这种事得自己一条条查资料、手动录入、再调格式,至少要折腾半小时。现在说一句话,它直接把表格生成好,列名、行距、例句填充,基本不需要再动手改。

文档处理这边,Word/PDF Agent 支持图文数据混合上传,能自动排版并输出直接可交付的文件。

更有意思的是,传完长文档你不需要自己去翻阅找重点,直接张嘴问,它就能快速定位给出答案;想修改哪里也是一句话的事儿,省去了自己去对照原文件一点点改的麻烦。

我试着传了一份繁杂的合同 PDF,直接问它:「独家授权内容是哪些?」它并没有傻傻地把全文复述一遍,而是精准定位到了授权条款,把独家范围、授权期限和限制事项一条条列得清清楚楚。

目前,这个语音指令甚至还能和 AI 写代码、手搓网页等任务助理功能组合使用,照这个架势下去,未来的办公形态,大概真的就是「动动嘴皮子就把活儿干了」。

和 AI 说话的人,会比键盘打字的人更早下班

用了一段时间千问语音输入法,我想到一件事。

过去几年「AI 提升办公效率」喊得震天响,但大部分人的体验是:我跟 AI 说了半天,它给我的东西根本不能用。然后就觉得 AI 也不过如此。

问题出在哪?出在沟通方式上。你用键盘跟 AI 对话,40% 的精力花在组织文字上,只剩 60% 在想你到底要什么。给出去的指令信息密度低、上下文薄,AI 当然输出垃圾。这不是 AI 不行,是你喂给它的东西不行。

语音把这个死结解开了。说话时你不会给自己设字数限制,细节会自然地冒出来,上下文会自动变厚。它能把嘴里说出的自然语言需求梳理得井井有条,让 AI 精确执行。

纽约销售平台 Clay 的教育负责人 Yash Tekriwal 提到,他用语音输入的速度是每分钟 205 个词,打字只有 110 到 120 个。但速度还不是最关键的,他发现口述的 prompt 质量更高。

AI 圈最近有个词特别火,叫 harness。它的意思大概是:你有一匹马(AI 的能力),但你得有一套缰绳才能驾驭它,让它往你要的方向跑。没有 harness,马再强壮也只是在原地打转。

千问电脑版的语音输入法就是这套 harness。

它连接的一端是你的嘴,另一端是 AI 的全套办公能力:PPT、表格、文档、搜索、分析、格式转换。你说一句话,它把你的意图翻译成 AI 能执行的指令,然后调度对应的 Agent 去跑腿。它不是输入法,是缰绳。是你驾驭 AI 办公能力的那套 harness。

而别的「带 AI 功能的输入法」解决的是什么?是入口问题,帮你找到 AI 在哪里。千问解决的是驾驭问题,帮你把 AI 的能力精确地用起来。一个是给你指路,一个是帮你套好缰绳直接上路。差距就在这。

在 Agent 时代,语音本来是驱动 AI 工作的最自然和高效的方式。千问语音输入法,就是率先在桌面入口端出了这套 harness 的产品 ,这也是为什么我期待,未来在更多终端上,能看到这种真正能驾驭 AI 的语音入口。

去年这个时候,如果你在办公室突然对着电脑说话,一次两次会被当成在打电话,三番五次就不禁让人怀疑,工作压力是不是太大了,精神状态还好吗?

今年开始,那些对着电脑自言自语的,可能就是全公司最早下班 (摸鱼) 的人。

附客户端下载地址:
https://www.qianwen.com/download?ch=tongyi_redirect
网页版体验地址:
https://www.qianwen.com/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

独家|苹果第一个 AI 硬件,还没发布就已经难产了

作者 苏伟鸿
2026年5月8日 18:06

苹果的第一款 AI 穿戴产品,将是 AirPods。

根据彭博社爆料,苹果内置摄像头的新款 AirPods 开发已经进入了开发最后阶段,设计进入最终版本,苹果很可能将其视作首款「为 AI 时代设计」的穿戴设备。

但事情没那么简单:有供应链人士向爱范儿透露,这个产品的开发计划目前已经暂停,产品距离上市仍有变数。

耳机为什么要长眼睛?

这款新耳机将基于 AirPods Pro 3 打造,耳机柄会因为容纳摄像头而更长,或将定名为「AirPods Ultra」,最快有望于今年年底发布。

这个摄像头将会配备在左右两边的耳塞,分辨率很低,不能用来拍照或者录像,本质上就是 Siri 的「眼睛」

配备低分辨率摄像头的好处很多。

首先,不少多模态模型理解图片,不是逐像素理解,本身也会将高清图进行压缩,理解画面的大体信息而不是细节,因此并没有必要配备足够高清的摄像头。

低分辨率摄像头功耗低,信息传输速度快,非常适合耳机这种相当小型化的产品,也避免了高清摄像头带来的隐私争议。

给 Siri 加一个摄像头的理念,其实类似 AI 眼镜,目的就是为了给 AI 助手提供更丰富的用户情景上下文,增强生成的结果。

Ray-Ban Meta

除了类似目前 iPhone 上的「Visual Intelligence」的识图功能,预计在 AirPods 加持下,AI Siri 能实现更沉浸式的 AI 助手体验。

比如打开冰箱门,面对玲琅满目的食材,可以直接对 AirPods Ultra 说一句「Siri 我今晚可以做什么菜?」,Siri 就能给你推送一个菜谱——大概率会用 iPhone 来呈现。

苹果一直在研究这个 AI 摄像头的其他用途,或许还会有更「主动」的能力,Siri 会进行持续的静默观察,然后根据用户的画面,主动提醒用户,例如做饭的时候主动提醒用户什么时候该关小火以及出锅,又或者在导航时帮用户看路,根据实际的街景,提供更细致的导航。

图片由 AI 生成

和早期预测不一样的是,AirPods Ultra 的摄像头将不支持手势控制识别,未来苹果推出的智能眼镜也没有这种计划。

作为一家对用户隐私保护极其重视的公司,苹果也希望能减少用户对 AirPods 摄像头的担忧,苹果目前的做法是在耳机塞入一个 LED 指示灯,当视觉信息传输云端时亮起,提醒外界 AirPods 可能正在拍摄。

虽然这个做法在智能眼镜领域相当普遍,实际上,这更多是「免责声明」——我已经做了提醒措施了,出现偷拍不是我的错。

Ray-Ban Meta 眼镜的 LED 指示灯,图源:CNBC

爱范儿此前也进行过实测,路人几乎完全无法感知到小米 AI 眼镜正在拍摄他们,即使 LED 指示灯已经点亮。

这样的做法,或许也已经不能帮助苹果完全规避法律风险。有消息人士独家向爱范儿透露,AirPods Ultra 在供应链端出现异动,部分产线已经「原地解散」,项目可能已被暂时搁置。

知情人士将原因指向同一个方向:欧盟隐私法规的合规风险。

需要指出的是,供应链动态的解读存在多种可能:产线调整、供应商切换、设计方案迭代,都可能造成类似信号。

但考虑到苹果对核心组件供应商的强管控传统,以及这款产品在苹果 AI 战略中的核心地位,因合规问题导致项目节奏调整是目前最有可能的推测。

来自欧盟的阻力

「采集」这个动作,在欧盟的法律框架中相当敏感。

就目前而言,带摄像头的 AirPods,已经触及了三条欧盟的法律:

  • GDPR (通用数据保护条例),涉及数据处理管理
  • ePrivacy Directive(隐私与电子通信指令) ,涉及终端设备访问管理
  • EU AI Act(人工智能法案),涉及 AI 应用的伦理边界管理

三部法律从不同角度切入,都指向同一个结论:一个在公共空间持续感知环境的设备,在现行法律下几乎无法完美合规。

特别是 AirPods Ultra,如果收集到的个人深度图和运动轨迹数据,能够通过算法分析能识别出特定个人,那么会直接触及 GDPR 第九条「禁止处理特殊类别个人数据」的禁令。

要想避开,苹果必须获得用户的「明确同意」,并且必须是具体、知情且自由作出的,不能藏在几十页服务条款里,通过一个默认勾选框草草带过。

更敏感的问题,在于对他人数据的采集。

2025 年 12 月,欧盟法院(CJEU)在 C-422/24 号案件中做出了一个影响深远的判决:通过可穿戴摄像头收集的数据,即使是路人的数据,也视为「直接从数据主体收集」,必须适用即时告知义务。法院明确说了,如果允许延迟告知,就等于给「隐蔽监控」开了口子。

也就是说,当你戴着 AirPods Ultra 走进一个餐厅,你必须要告知在场所有可能会被传感器感知到的人,他们的数据可能会被采集,以及采集的目的和处理的方式——这听起来天方夜谭,但确实是法律的要求。

像是上文提到,在 Ray-Ban Meta 等智能眼镜上的「LED」指示灯,已经无法起到「免责」的作用。爱尔兰数据保护委员会专门点名批评这个指示灯太小,无法起到告知和通知的作用。

今年 3 月,欧洲议会的议员们正在向欧盟委员会施压,要求 Meta 公司对于其 Ray-Ban 拍摄眼镜的私密拍摄能力作出澄清,多个欧洲国家的官方和民间机构都对 Ray-Ban Meta 进行了公开警告。

这些案例和抗议,都会成为苹果在欧洲地区推行 AirPods Ultra 的极强阻力,产品很可能会遭到禁售,苹果公司会面临被罚款风险。

苹果和欧盟此前曾因 App Store 规则等原因有过多次摩擦,因此他们将慎重考虑 AirPods Ultra 的发布风险。

对苹果的 AI 战略来说,这款产品的推迟将是一次沉重打击,因为 AirPods Ultra 只是一个排头兵,苹果的计划之中还包括 AI 眼镜、AI 吊坠,这些都为 AI 的信息采集服务的产品,都将面临这些阻力。

耳机长眼睛,理想的 AI 硬件形态

根据彭博社爆料,和外界猜想的不一样,给 AirPods 加装摄像头的决定,不是因为这几年 AI 硬件大潮一拍脑门的决定,而是苹果早在 4 年前就已经萌芽的战略。

也是差不多那个时候,初代 Ray-Ban Meta 问世,这款产品在当时并没能取得亮眼的商业成绩,2023 年的二代产品成功「卖爆」,一个季度出货 30 万台。

虽然大家是冲着它的第一人称拍摄视角购买的,但 Meta 还是成功让大家开始习惯在自己的眼前架设一个摄像头,为未来开展 AI 计划铺平了道路。

在所有的感知维度中, 视觉是信息最丰富、最重要的一种。一个 AI 硬件如果真的想最大程度理解用户的处境,仅靠麦克风一种信息是不够的。

市场上已经不缺少能单纯依靠麦克风识别的 AI 耳机产品,AI 公司在做,传统的硬件公司也在做,功能已经相当局限,讲来讲去都是围绕 AI 翻译等单一场景。

比起智能眼镜或者吊坠,这些相对青涩和新颖,大众接受度还不够高的产品形态,而现在大家已经很喜欢戴耳机了,并且也习惯一直戴着。

耳机还接近「看」和「听」两个感官的位置,是现成的理想 AI 载体。

此前,爱范儿已经体验过带摄像头的耳机——来自一家国内的初创企业光帆科技的 Lightwear AI 全感智能套装。

它的实际体验确实相当合理,把一件物品放在面前,就可以用语音指令让 Lightwear 识别它是什么商品,然后加入电商平台购物车。

但它体型太大,不够优雅,形态已经不像是一个普通耳机。并且很难说服消费者专门为 AI 买一个这样的产品。

因此,苹果的优势,就在于「AirPods」这个金字招牌。

本质上来说,这个摄像头只是一个「添头」,基本上所有会购买 AirPods Ultra 的用户,都只是冲着音质和降噪去的,然后不知不觉间也打开了苹果 AI 生态的大门。

AirPods Pro 3

这也是苹果作为一家已经相当成功的智能硬件厂商,在 AI 硬件时代的先发优势:只要他们愿意,苹果正在受欢迎的产品,都能转化成一个 AI 硬件,并且直接面向千万级别的用户市场。

也由于苹果的规模足够庞大,在面对隐私和法规这些敏感问题上,不得不进一步慎重,因为每一个举措都会对整个行业和海量用户造成影响。

AirPods Ultra 撞上欧盟的法规墙导致难产,确实让人遗憾,但这也意味着,全球最有话语权的科技公司,将开始探索产品和规则共存的可能性。

每一次新技术诞生,都会与旧有秩序发生碰撞,千百年来皆是如此,这个过程这个过程看似是限制,实际上也是一次重新建立规则、重塑产品范式的机会。

不管是人机交互,还是规则法规,最终都将朝着更合理、更成熟的方向演化,对于所有人来说,这是好事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌