普通视图
OpenClaw 跑在 Mac mini 还是 Linux VPS?我实测两周后的真实结论
Open Minis:可能是 iOS 端最强 AI Agent
在此前《软件 AI 化,势不可挡|AI Agent 是什么?》的文章里,详细总结了下 AI Agent,青小蛙觉得可以更简单的理解:
AI Agent,就是 AI 代理人:它替人类工作,帮你操作电脑,自己决定怎么做,并持续执行,就像牛马一样,给定目标,完成目标。

目录
Open Minis 是什么?
几天前,论坛中接连有人介绍 Open Minis,非常棒的一款免费应用,它有点类似 OpenClaw,在 iOS 里控制一套完整的 iSH (Alpine Linux) 虚拟机,有终端,有浏览器。
获取
一起来看下这两篇文章:
@RavelloH :【免费】可能是 iOS 端最强 AI Agent App:Minis
你或许听说过或用过 Manus,它能在其云端运行虚拟机或者有头浏览器,并且能自己运行命令或者操控网页。
Manus、Claude Code 和 Codex
在 Manus 同期,实际上像是 Claude Code 或者 Codex 这样的 AI Agent App 也能靠 PlayWright 来达到类似的效果,这样你就可以在本地来让 AI 进行作业了。
之后 OpenClaw 其实是在这个基础上,集成了各类渠道,这样你就可以用聊天软件直接发消息让 bot 执行命令。
但这终究有局限性,你会发现这些方式都不能很好的和你的手机进行交互,你的手机只是一个给 AI 发消息的工具,AI 却不能反过来使用你的手机。
我最近发现了一个比较好的软件: Open Minis
Open Minis 能通过在本地模拟运行一个 Linux 虚拟机(魔改 iSH),并通过命令行工具来读取 iOS 的设备端功能,例如地图、照片、日程、闹钟等。
Open Minis 可以:
- 执行 Linux 命令
- 下载其他命令行工具
- 操控浏览器等
并且也有 skills 和记忆的支持,你可以认为 OpenClaw 能做到的,它也能做到。并且由于能读取设备端能力,所以可能实际体验要更好。
多说无益,上图



此外,也支持使用快捷指令执行定时任务。或者,你可以这样将其改成使用 Action Button 即可触发的全局 ai 助手:


Open Minis上架了,手机端“龙虾lobster”,解锁Agent能力
@RachelSherman 同学说:AI帮我写的文案,味道有点大,轻喷,我不是开发者,觉得很好用,分享一下
青小蛙手动总结一下吧:
- iOS 系统里内完整的 iSH (Alpine Linux) 虚拟机。
- 安装各种 Linux 工具
- 运行 Skills(支持 node 和 python)
- 读写文件
- 调用命令行和 API
- 接入 iOS 原生应用
- 两种 API 接入方式:登录 / API
- 自带环境变量




原文:https://www.appinn.com/open-minis/
非常不错的应用,开发者更新频繁,并且 TestFlight 测试版本还有名额,想尝试的同学不要错过哦。
相关阅读
- iPhone 已经能替你干活了:不用打开 App,剪视频、分析健康数据、整理歌单(11 个案例)
- 34 个大类,超过 400 个「macOS 绝赞开源应用」列表
- 畅邮(Dreammail Pro)原「梦幻快车」邮件客户端,功能一览 [Windows]
- 在北京参加赢在淘宝活动
- Bookmarklet – 小书签,实用浏览器小工具补完
©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。
iPhone 已经能替你干活了:不用打开 App,剪视频、分析健康数据、整理歌单(11 个案例)
你有没有试过这样一种感觉:有些事情,你明明知道 iPhone 能做,但就是懒得打开 App,一步步操作。
现在不太一样了,创建日历、记录咖啡摄入、自动生成视频……
iPhone 开始可以自己把这些事做完了。

昨天介绍了:Open Minis:可能是 iOS 端最强 AI Agent 之后,看到开发者这些天陆陆续续转发的一些案例,非常有趣,也很实用。
青小蛙总结了 11 个 iPhone 开启 Open Minis 后能做的事情,它只有 49.8 MB 的大小。
你觉得还能做什么呢?
目录
不用打开日历:分享一下内容,就自动帮你创建日程
将带有时间、地点、事件的内容直接分析给 Minis,就可以创建日历:(via)

直接读取健康数据:你的身体情况,它比你更清楚
让 Minis 直接读取并分享健康信息:(via)

用 Apple Watch 数据,帮你分析心脏状态
直接让 Minis 读取 Apple Watch 中的数据,分析健康情况(via)

不用打开 Spotify:一句话搜歌、切歌播放
将图片发给 Minis,让他通过 Spotify Skill 搜索歌曲、切歌播放。

自动帮你剪视频:从素材到成片,一步完成
这个看起来有点离谱了,流程大概是这样的:(via)
- 分析了两位B站Up主的历史视频
- 分析播放量较大的科技、AI类视频博主,他们的共同特性
- 策划视频(TTS 口播稿、图片类视频)
- 可以直接看成品视频
刷到 TikTok 好歌?一键整理成 YouTube Music 歌单
这个效果也不错,将 TikTok 评论截图发给 Minis,并最终导出到了 YouTube Music 歌单中:

早上不用设闹钟了:自动读新闻 + 生成语音叫你起床
这也是一个很有趣的流程,你可以根据自己感兴趣的内容来源,让他帮你自动生成音频,在早上的时候播放出来,替代闹钟。

群消息不用盯:自动检测重点内容并加入提醒
这是开发者 @Ethan 自己的用途,它的社群消息有非常多的用户反馈,使用 Minis 读取反馈,整理信息,最终写入系统提醒应用中。
后续,当修复了 Bug 之后,还会自动对照代码库,标记完成。

打开网页 → 自动整理成一份可用的笔记
这里有一个例子,将 xiaohongshu-cli 的 GitHub 页面直接给它,让他整理为笔记文档,最终在 iOS 笔记应用中,看到了整理后的使用笔记:(via)

拍一杯咖啡 → 自动记录你的咖啡因摄入
直接拍照两颗胶囊咖啡,然后让它记录到健康中。再结合之前的自动分析健康数据,闭环了。

批量设置复杂的闹钟提醒
对于一些复杂的重复性操作,交给 Minis 简直太爽了。(via)
比如这个例子中,让 Minis 设置了很多个起床闹钟,自动,不动手。
如果是以往,你需要一个一个手动处理,还容易出错…

获取免费的 Open Minis
原文:https://www.appinn.com/iphone-automation-11-real-use-cases/
相关阅读
- [Chrome]Extension Automation – 自动启用与禁用扩展
- Real DeskTOP – 让你的桌面成传说中的 3D 效果
- waifuExtension – Mac 上的 waifu2x,用机器学习放大视频和图像,拥有图形界面,支持 Real-ESRGAN 模型
- Real-ESRGAN – 针对照片、动画图片的分辨率放大工具
- Real Time Voice Cloning – 只需5秒钟即可克隆别人的声音
©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。
Hermes Agent 部署 UI + 本地模型 Gemma 4,对接微信(完全免费,无需 Tokens)
如果你想打造一个完全本地运行、无需 API Key、可接入微信的 AI 助手系统,这套方案可以说是目前最香的组合之一:Hermes Agent + WebUI + Ollama + Gemma 4 ,不仅免费,而且隐私可控、可扩展性极强,非常适合做自动化助手、私域 AI、甚至商业化探索。
![]()
一、整体架构说明
先快速理解一下整体结构:
- Ollama + Gemma 4 本地大模型推理
- Hermes Agent AI Agent 调度核心
- Hermes WebUI 可视化操作界面
- 微信接入 实现真实应用场景
二、下载本地模型(Ollama + Gemma 4)
首先,我们需要准备本地大模型环境。
安装 Ollama
官网安装: 【点击前往】 下载最新版
安装完成后,拉取 Gemma 4 模型:
ollama run gemma4
(你也可以选择更大版本,比如 26B / 31B,看你电脑配置)
获取 API 地址
Ollama 默认会启动本地服务:http://127.0.0.1:11434
但 Hermes Agent 需要用你局域网 IP来访问。
在 CMD 输入:
ipconfig
找到类似: IPv4 地址 . . . . . . . . . . . : 192.168.1.228
那么你的 API 地址就是: http://192.168.1.228:11434/v1
这个地址非常关键,后面要填到 Hermes 配置里!
三、部署 WSL 2(Linux 子系统)
Hermes Agent 官方推荐 Linux 环境,这里我们用 WSL2。
前期准备:
在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!
【点击下载】
![]()
一、安装 WSL2
在 PowerShell(管理员)执行:
安装完成后重启电脑,然后安装Ubuntu,
检查版本:
确保输出结果是:WSL2
四、部署 Hermes Agent + UI
进入 Ubuntu 后,开始核心部署。
安装 Hermes Agent
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
安装完成后,可以执行:
hermes doctor
检查环境是否正常。
安装 Hermes WebUI
git clone https://github.com/nesquena/hermes-webui.git hermes-webui cd hermes-webui ./start.sh
启动后,一般访问:
http://127.0.0.1:8787
即可打开 UI 页面 🎉
Mac 系统一键部署命令:
git clone https://github.com/nesquena/hermes-webui.git hermes-webui cd hermes-webui python3 bootstrap.py
引导程序将:
- 检测 Hermes Agent,如果缺少,则尝试使用官方安装程序(
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash)。 - 查找或创建包含 WebUI 依赖项的 Python 环境。
- 启动 Web 服务器并等待
/health。 - 除非通过验证,否则请打开浏览器
--no-browser。 - 将您直接导入 WebUI 中的首次运行引导向导。
五、配置 Hermes 对接本地 Gemma 4
运行:
hermes setup
进入配置界面后:
关键配置项:
- Model Provider:选择 OpenAI Compatible
- Base URL:填入你的 Ollama 地址
http://192.168.1.228:11434/v1
- Model Name:
gemma4
如果提示上下文不足(比如你之前遇到的 8K 限制问题):
可以修改:
model:
context_length: 8192
或者换更大的模型。
六、Hermes Agent 对接微信(重点)
进入配置
hermes setup
选择微信接入
找到:
messaging platforms
选择:
weixin / wechat
扫码登录
系统会弹出二维码:
用微信扫码登录即可完成绑定
完成效果
完成后你就拥有:
- 一个微信 AI 助手
- 基于本地模型(无需 API)
- 可执行自动化任务(Agent能力)
七、最终效果展示
部署完成后,你的系统具备:
本地 AI(Gemma 4)
可视化 UI 管理
微信实时对话
无需 Token / 无费用
完全私有化部署
八、常见问题(避坑指南)
1. 模型上下文不足报错
错误示例:
context window too small
解决:
- 换更大模型(如 7B+)
- 或手动设置 context_length
2. Ollama 无法被访问
检查:
- 是否用的是
127.0.0.1(
) - 是否改为局域网 IP(
)
3. WebUI 无法打开
尝试:
./start.sh
或者检查端口占用。
4. 微信掉线问题
这是微信协议限制,建议:
- 保持 Hermes 常驻运行
- 避免频繁重启
九、总结
这套方案的核心价值在于:
零成本 + 本地化 + 可扩展 AI Agent
相比传统 OpenAI API 方案:
- 不用花钱
- 不怕封号
- 数据更安全
如果你做:
- 私域流量运营
- 自动客服
- AI 工具开发
这套架构非常值得你深入研究。
当 AI Agent 走向无处不在,MediaTek 想做的不只是手机芯片
![]()
如果说大模型最早带来的冲击,是让用户开始习惯和机器进行自然语言对话,那么 Agent 的下一步,则是让 AI 从「回答问题」走向「完成任务」。它不再只是一个聊天窗口,而是可以理解场景、拆解任务、调用应用、协同设备,并在更长周期里记住用户偏好的系统级能力。
对于许多人来说,AI 是一个 ChatBox,更是一个 AI Agent。
过去,手机、平板、PC、汽车、耳机、手表等设备,更多是在各自的硬件形态和操作系统里提供功能;而在 Agent 普及之后,终端之间的边界会被进一步打散。用户真正需要的,不一定是打开某个 App,完成某个孤立操作,而是在一个连续的生活场景里,让手机、汽车、IoT 设备和云端服务协同起来,主动给出更合适的服务。
过往二三十年的时间里,智能设备的芯片从决定最主要的运算任务,变为决定跑分、功耗、游戏和影像能力的底层硬件,现在,芯片也需要成为 AI 体验的入口、算力底座和生态接口。
![]()
这就是 MediaTek 在天玑开发者大会 MDDC 2026 上想要传递的核心信息:一方面通过手机、汽车、IoT 和 AI 基础设施等全栈产品组合,提供覆盖多场景的算力底座;另一方面,则通过天玑 AI 智能体化引擎、AI 开发套件、汽车平台和游戏技术,向开发者开放更多能力。
天玑 AI:从端侧算力,到系统级 Agent OS
在 AI Agent 的落地过程中,手机仍然是最关键的终端之一。
原因并不复杂。手机拥有最密集的用户数据、最高频的使用场景,以及最成熟的应用生态。它既是个人信息的入口,也是跨设备协同的枢纽。因此,当 Agent 从应用层走向系统层,手机很自然会成为智能体化体验的第一现场。
过去三年,天玑 AI 生态圈实现了明显增长:生态伙伴成长量提升至 240%,天玑 AI 开发套件下载量提升至 440%。MediaTek 也提到,智能体自主任务量已经从 2025 年每日 1.2 亿次,增长至 2026 年每日 8.7 亿次,一年增长 7 倍。这些数据至少说明,Agent 已经不再只是概念层面的未来叙事,而是开始进入开发者和用户体验的增长通道。
为了应对这一趋势,MediaTek 在大会上发布了天玑 AI 智能体化引擎 2.0。
相比 1.0 版本更多由用户指令驱动、通过 App 独立执行单一任务,2.0 版本的关键变化在于主动感知驱动。借助天玑 SensingClaw 技术,天玑平台可以提供低功耗的全时感知能力,让设备制造商打造具备主动感知和跨应用驱动能力的 Agent OS。
换句话说,未来的 AI 助手不只是「你说一句,它做一步」,而是能基于视觉、听觉、位置、环境状态等信息,提前理解用户所处的场景,并调动不同应用和设备完成更复杂的任务。
![]()
在大会现场,MediaTek 公布了与 OPPO、Xiaomi 和传音的合作案例。
天玑能力将赋能 OPPO 小布助手,打通系统级原生应用数据,并结合小布记忆建立用户专属记忆数据库。它可以完成体检报告解读、自动规划健身计划并导入日历等任务。小米这边,重点放在跨端智慧体验上,用户通过一句指令,即可调用全场景设备执行任务,实现任务在多设备之间的流转。传音则更强调 Always On 主动感知能力,比如 AI 助手可以在免唤醒、自运行的状态下,完成查物流、比价等复杂任务。
三家头部手机品牌的案例其实都在说一件事,AI Agent 不再只是手机里的一个应用,而是正在成为系统层能力的一部分。它既需要芯片端提供足够高的 AI 算力,也需要端侧持续感知能力,还需要隐私、安全和应用生态之间的协同。
![]()
开发套件 3.0:让端侧 AI 更容易落地
如果说 AI 智能体化引擎面向的是系统级体验,那么天玑 AI 开发套件 3.0 则是面向开发者的工具箱。芯片平台企业一直强调端侧 AI 的价值:响应速度更快、隐私保护更好、离线能力更强,也能降低对云端资源的依赖。
不过真正把模型放到手机、平板、车机等终端上,并不是简单的「搬运」,开发者往往要面对模型压缩、算子兼容、功耗控制、内存占用、部署效率等一系列工程问题。天玑 AI 开发套件 3.0 正是为此而来。
3.0 版本首先支持 LVM 模型可视化部署,从命令行升级到 GUI 模块化,参数设置可以实时生效,模型部署和调优效率提升 50%。对于很多应用开发者来说,这降低了从模型到终端运行之间的门槛。
新增的 Low Bit 压缩工具包,可以降低生成式 AI 模型压缩过程中的设备内存占用,在相同质量下模型压缩率提升可达 58%。这对于端侧大模型尤其关键,因为终端设备的内存、功耗和散热空间都更加有限。eNPU 开发工具包可以帮助开发者充分发挥天玑芯片中超能效 NPU 的优势,让常驻轻载 AI 模型功耗节省 42%。对于 Always On 感知、语音唤醒、环境识别等场景来说,低功耗比峰值算力更重要。AI 要真正做到随时在线,就必须先解决「一直运行」带来的能耗问题。
![]()
天玑 AI Partner 作为一站式模型端侧转换助手。它可以支持模型分析、调整、验证等流程自动化,帮助开发者将原本可能需要 5 天的模型转换工作压缩到半天左右,端侧 LLM 模型部署耗时节省可达 90%。
从这些升级可以看出,MediaTek 并不只是把 AI 算力作为芯片参数来展示,而是在试图补齐开发流程中的关键环节。对于开发者来说,端侧 AI 的真正门槛并不只有「芯片够不够强」,还包括「工具链够不够顺」「模型适配够不够快」「优化成本能不能降下来」。
汽车平台:从智能座舱,到 AI 定义汽车
过去几年,「软件定义汽车」已经成为行业共识。智能座舱、智能驾驶、整车 OTA 和车云服务,让汽车从一个以机械结构为核心的交通工具,变成了持续更新的智能终端。而随着大模型和 Agent 技术进入车内,行业又开始进入「AI 定义汽车」的新阶段。
在 MediaTek 的判断里,汽车正在从单纯的交通工具,进化为懂用户、预测用户需求、无缝融入生活的智慧第三空间。MediaTek 车用平台已经与全球 20 家以上头部车企开展深度合作,在手项目超过 190 个,累计出货量达到 3500 万套,近 5 年出货量增长接近 4 倍。这说明 MediaTek 进入汽车领域并不是从零开始。它把手机芯片平台中积累的性能、能效、连接、影像、AI 和生态经验,迁移到了更长生命周期、更高安全要求的汽车场景中。
![]()
在天玑智能座舱方案中,MediaTek 将未来座舱的能力分为几个关键方向:全模态交互、主动式服务、并发指令执行和端云协同。
这与传统车机语音助手有明显差别。过去的语音助手往往是被动响应,用户说一句,它执行一个固定任务;而未来的智能体座舱,需要能识别车内人员、理解环境状态、判断用户意图,并把导航、社交、地图、餐饮、支付等服务串联起来。
比如在大会案例中,工作日早上用户带孩子上车后,系统可以自动识别乘车人员,并主动询问是否需要先送孩子上学再去公司,甚至根据时间推荐顺路买咖啡。这类场景的价值,不在于单点功能有多新,而在于车机从「工具」变成了「上下文理解者」。
要实现这样的体验,底层平台必须解决三类问题。
第一是平台层。车端需要高效运行大参数 AI 模型,还要支持多模型、多任务并行。MediaTek 提到,天玑旗舰座舱平台可以提供最高 400 TOPS 的 AI 算力,并通过软硬协同架构,将 AI 平台需求压缩 90%。在五屏重度渲染场景下,仍可流畅运行双大模型,速度超过 50 token/s。
第二是模型层。汽车的生命周期往往长达 6 到 10 年,但 AI 模型的迭代周期可能只有几个月。如何让车辆在整个使用周期内持续用上新模型,是智能座舱必须解决的问题。天玑座舱 7 系列直接集成 NVIDIA GPU 资源库,支持基于 CUDA 开发的新模型和算法迁移到座舱平台;天玑座舱 S 系列则支持天玑 AI 开发套件,帮助主流模型及其衍生模型更快完成适配。
第三是应用层。天玑软件平台提供场景映射、智能模型加载、端云协同和系统调优等工具。比如端云协同可以在复杂任务需要云端处理时,由端侧先完成需求预处理和筛选,只上传关键 token,在保护隐私的同时降低云端成本。
汽车 AI 并不等于把手机助手搬进车机,车内是一个多用户、多模态、多屏幕、高安全要求的环境。它既要理解驾驶员,也要理解乘客;既要提供娱乐,也要避免干扰驾驶;既要依赖云端能力,也要保证本地响应和隐私安全。因此,汽车 AI 的挑战比手机更复杂,也更考验平台级能力。
![]()
游戏技术:移动端正在靠近主机级体验
在 AI 之外,游戏仍然是天玑平台展示性能和生态能力的重要场景。
移动游戏的体验升级,过去主要围绕高帧率、高画质和低功耗展开。现在,随着移动 GPU 能力提升,以及游戏内容向 3A 化发展,移动端开始追求更真实的光影、更精细的模型、更低延迟的音频和更长时间的稳定运行。
本次大会上,MediaTek 重点介绍了 Ray Tracing Pipeline,也就是 RTP 移动端光线追踪技术。与传统光追方案相比,RTP 的目标是跨端适配 PC 与 Mobile 的渲染管线,实时呈现复杂游戏光影效果,包括动态物体、骨骼动画,以及视野外环境和物体反射。
![]()
MediaTek 已经与腾讯《三角洲行动》项目组合作预研新的 RTP 技术方案。它的意义在于,如果 PC 端渲染管线可以更顺畅地迁移到移动平台,那么跨端 3A 游戏的开发周期和适配成本都有机会被降低。
另一个重点是虚拟几何体技术。MediaTek 天玑与团结引擎深度适配 Virtual Geometry,依托天玑移动平台 GPU 渲染能力,在移动端环境下实现超过 10 亿级三角面渲染,并在 1.5K 高分辨率下持续输出 1 小时满帧体验。这意味着手机游戏在模型精细度上的限制,有机会进一步被突破。
音频方面,天玑 LE Audio 低延时技术通过全链路优化,在天玑旗舰移动平台上带来 32 ms 的低延迟蓝牙立体声表现。该技术已经在《和平精英》测试服中落地,用于降低音频延迟。对于竞技游戏而言,音频延迟并不是感知层面的微小差异,而可能直接影响玩家对敌方位置和操作节奏的判断。
此外,天玑平台还展示了 GPU Dynamic Cache、天玑倍帧技术 3.0、自适应调控技术 5.0,以及面向安卓游戏开发者的一站式分析和调优工具 Dimensity Profiler 2.0。
GPU Dynamic Cache 架构允许 GPU 同时调度系统缓存和内存,让开发者可以通过系统缓存传输关键游戏数据,节省带宽并降低功耗。目前,该技术已与《逆战:未来》《暗区突围》等游戏合作。
天玑倍帧技术 3.0 则新增 Depth 等选项,可以更好预测并生成高质量虚拟帧,支持 165 帧和 144 帧,也支持 UE、Unity 等引擎插件接入,并覆盖手机、平板和座舱平台。《王者荣耀》可借此解锁 144 帧低功耗体验,《明日方舟:终末地》也获得更高流畅度和更低功耗表现。
自适应调控技术 5.0 新增智能帧控和场景预判功能,可以让芯片、游戏和屏幕之间的信息流动更细。以《鸣潮》为例,合作后 1% low 帧和功耗指标都有明显优化;《和平精英》等游戏也能在重载场景下实现 CPU 和 GPU 负载降低。
![]()
这些技术共同说明,移动游戏的优化已经不再是芯片厂商单方面拉高性能,也不是游戏厂商单方面压缩画质,而是软硬件协同越来越深入。芯片、引擎、游戏内容、调优工具和开发流程,都在被重新打通。
MediaTek 还将端侧 AI 引入游戏场景。大会现场公布了天玑 AI Play 与《三角洲行动》的合作成果,借助天玑移动平台的端侧 AI,让游戏内 CC 语音智能伴侣响应更快,相比云端延迟大幅降低 56.7%。这意味着,AI 在游戏中的角色,不只是 NPC 或剧情生成,也可以进入语音交互、实时陪伴、战术辅助等更即时的体验场景。
过去谈移动芯片,行业更习惯讨论 CPU、GPU、NPU、影像 ISP、制程工艺和功耗表现。但在 AI Agent 和多终端协同的趋势下,芯片平台的竞争正在变得更复杂。它既要有足够强的底层算力,也要有开发套件、模型工具、跨端能力、系统接口和合作伙伴网络。
这也是为什么 MediaTek 在大会上反复强调开发者与生态。
AI Agent 的落地不会只由芯片厂商完成,系统厂商需要把 Agent 变成原生能力,应用开发者需要把功能重新智能体化,终端厂商需要解决跨设备流转,汽车厂商需要把 AI 与车内传感器、座舱系统和云端服务结合起来,游戏厂商则需要在高画质、高帧率、低功耗之间找到新的平衡点。
未来用户评价一台手机、一辆车,甚至一个 IoT 设备时,可能不再只看硬件参数,也会看它能不能理解自己、能不能主动完成任务、能不能在不同场景之间自然流转。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
黄仁勋的 Token 经济,李彦宏的 DAA,AI 度量衡之争才刚开始
两个月前在圣何塞,黄仁勋穿着皮衣站在 GTC 的舞台上,告诉全世界:Token 是新的大宗商品,生成 Token 的成本与效率,决定科技企业的营收与生死。
![]()
昨天,李彦宏站在 Create 2026 的开幕式上,说了一句看似拆台的话:「Token 只是代表成本,并不代表收益。它衡量的是投入,而不是产出。」
然后他抛出了一个新概念,DAA,Daily Active Agents,日活智能体数。
![]()
卖铲子的人说,看铲子消耗量就知道金矿的繁荣程度。挖矿的人说,你倒是看看我挖出了多少金子。
他们都没说错。但同一座金矿,用不同方式去称量,得出的故事完全不同。
真正有意思的地方不在于谁对谁错,在于一个事实:AI 跑得太快了,快到这个行业连怎么给自己记账都还没想清楚。
DAA :从「烧了多少」到「干了多少」
李彦宏的 DAA 逻辑并不复杂。移动互联网时代,衡量平台看 DAU,日活用户数。微信 13 亿,抖音 7 亿,Meta 34 亿。进入智能体时代,对应的指标应该是 DAA,有多少 Agent 每天在给人类干活,并交付结果。
「交付结果」四个字是重点。
![]()
Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书,还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元?这两种场景消耗的 Token 可能差不多,创造的价值天差地别。
李彦宏说,「这比无谓的 Token 消耗,更接近价值,也更接近本质。」
他还给了个大胆的预测:未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务,你是一个 DAU,但贡献了三五个 DAA。
Agent 数量远超人口,技术上已经可以想象。
李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局,是需要点勇气的。
当然,也需要点动机。
Token 经济学:一种极其性感的叙事
Token 经济学的性感之处在于,它有大量数据支撑。
截至今年 3 月,中国日均 Token 调用量超过 140 万亿,相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。
一条陡峭到让人眩晕的增长曲线,核心驱动力恰恰是 Agent。
过去 Chatbot 时代,单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后,一个完整任务触发几十上百次模型调用,中等任务吃掉 10 万 Token,复杂任务上百万。
Agent 越多,Token 消耗越大,算力需求越高,芯片卖得越好。
这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元,净利润 1170 亿美元。黄仁勋有充分的理由说:Token 就是新的石油。
![]()
企业也在用脚投票。阿里成立 Token Hub 事业群,吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好,不计成本。昆仑万维发内部信强制 AI Coding,达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。
Token 消耗量作为指标,最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿,谁看都一样。
但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅,未必是一家好餐厅。
共识大于分歧
把 Token 经济学和 DAA 放在一起看,你会发现它们的共识其实大于分歧。
这两个判断都基于 AI 正从对话阶段走向 Agent 阶段,而且都认为这是万亿级的产业重塑。
![]()
分歧在哪?在于谁的账本更能代表这个行业的健康程度。
Token 量的是投入侧:消耗了多少算力,工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。
DAA 量的是产出侧:有多少 Agent 在运行,完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜,卖点全是「帮你把事做完」。只有用「结果交付」来记账,应用层的价值才浮得出水面。
屁股决定脑袋,但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。
有意思的是,腾讯也站到了应用侧。腾讯云副总裁杨晨说过:「我们认为 Token 不是一个多么健康的生意,它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景,它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反,吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。
同一个行业,同一批聪明人,看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。
Token 消耗量像 GDP,量总规模,不管建了一座桥还是挖了个坑再填上。DAA 像就业率,量的是有多少「劳动力」在创造价值。GDP 高但就业率低,那叫空转。就业率高但产出质量差,那叫虚胖。一个健康的经济体两个数字都要看。
但对普通用户来说坦率地讲,这两个指标都是术语。
用户只在乎一个朴素的问题:好不好用?帮我省了多少时间?花了我多少钱?
Token 经济学叙事下的 AI 产品,对用户其实不太友好。
你用打车软件,起步价多少、每公里多少、堵车怎么算,一清二楚。你用 AI Agent,到底消耗了多少 Token,是哪个模型在跑,Agent「反思」了几轮导致费用翻倍,很多普通用户还搞不明白。
DAA 至少提供了另一种视角:用户不该关心 Agent 烧了多少 Token,该关心它有没有帮你把事做完。前者是水表读数,后者是水龙头出不出水。
造词运动的背后
2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月,140 万亿。1000 倍。这种速度下,任何已有的框架和认知都会瞬间过时。
于是,每个玩家只能从自己的位置出发,尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」,李彦宏造了「DAA」,阿里造了「Token Hub」……
Token 衡量的是基础设施的繁荣程度,DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行,没有 Agent 交付结果 Token 消耗就只是空转。
对用户来说,最好的度量衡是那个你根本不需要知道的。你打开水龙头,水来了。你把活交给 Agent,事做完了。你看一眼账单,觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层,留给黄仁勋和李彦宏去争论就好。
从 DAU 到 DAA,从「人在用产品」到「产品在帮人干活」,AI 时代的价值坐标正在被重建。
争论是好事。当一个行业只有一种记账方式的时候,所有人都会围绕同一个数字做优化,不管那个数字是否真的通向价值。
多一种衡量的维度,至少多一个纠偏的机会。
至于最后哪套度量衡能留下来,答案可能不在黄仁勋和李彦宏手里,在你手里。
你每天用 Agent 做了什么,做得好不好,愿不愿意继续付费。这些真实发生的选择,才是 AI 时代最诚实的投票。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
讓 MacBook 也能蓋上螢幕不休眠養龍蝦 AI Agent 的四種方法
許多 Mac 用戶都希望把 MacBook 變成桌上型工作站:外接螢幕、鍵盤和滑鼠,然後把筆電蓋上收好。這種用 […]
The post 讓 MacBook 也能蓋上螢幕不休眠養龍蝦 AI Agent 的四種方法 appeared first on 電腦王阿達.
Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent!初學者也能自己搞定
近期因為穩定且具備自我進化能力的開源 AI Agent 專案:Hermes Agent,深受廣大使用者喜歡,但 […]
The post Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent!初學者也能自己搞定 appeared first on 電腦王阿達.

马斯克花 100 亿想清楚一件事,不做 coding agent 就是等死
![]()
1.
OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。
在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。
![]()
事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。
在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。
当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」
当时,吴宇怀在信中写了一句话,颇为有趣:
「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」
为什么当时 xAI 的高层认为,开发自己的编码产品是关键?
![]()
后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:
上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI 模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元合作费用。
注意编程这个关键定语,后面还会 call back.
2.
最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。
本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor 合作的,一个既另类却又极度合理的分析:
不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这 100 亿也值回票价了。」
![]()
我们和 AI 的对话是一来一回的,你提出问题/需求,他给你解答;coding agent 同理,只不过返回的是代码。
![]()
一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。
![]()
Cursor 有的,SpaceX 想要的,就是这些数据。
可这些数据从哪里来呢?
答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了:
没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。
虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。
3.
大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。
用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding 模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。
但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。
![]()
强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。
而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。
在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。
蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏的老师模型内部的概率分布。
一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。
![]()
这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。
而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。
我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。
4.
结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」
几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」
![]()
五天后,Cursor 放出了完整的 Composer 2 技术报告,显示底座的确是 Kimi K2.5,授权方则是 Firworks AI,大致流程是在 K2.5 上做训练,再继续做大规模强化学习(RL)。
但关键之处在于,Composer 2 的 RL 是运行在真实的 Cursor 会话当中,使用与生产部署完全相同的工具和 harness。
Cursor 将这套流程叫做「实时强化学习」(real-time RL),也即将模型的 checkpoint 直接部署到 Cursor 生产环境中,观察用户的响应,收集数据,聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本,然后继续部署到 Cursor 里,循环往复。
最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下 tab 即接受自动补全。
该功能采用的是在线强化学习,在行业内极具特色。Cursor 可以以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力给用户,直接在产品内收集 on-policy 数据进行训练。
这种高频、接近实时的反馈回路,让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露,这种方法让 Tab 建议的拒绝率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 员工也删掉了之前吐槽的的推文,Kimi 官方账号发表了祝贺。
一家估值 600 亿美元(基于马斯克给的数字),不做自己的模型基座的 coding agent 应用层公司,仍然可以通过产品自身的数据飞轮,RL 出超越基座模型的专有编程模型。
所以与其说 Cursor 翻了车,不如说这反而是 coding agent 产品重要性的绝佳例证。
![]()
Cursor 在另一篇关于实时 RL 的文章里写到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。」
这句话,现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价,会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。
我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己开发 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。
在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,没有开发自己的 coding agent。
不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排名第九,在 SWE-bench Pro 上分数却掉到了 15% 左右。
OpenRouter 的真实流量数据可以解释这种反差:该平台 2025 年报告显示,Claude token 消费 80% 以上用于编程和技术任务,而 DeepSeek token 消费主要集中于闲聊和角色扮演。
没有自家 coding 产品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会原形毕露。
不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确透露自己在做一模一样的事情:「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据,反哺给 Claude 模型用来训练。
![]()
5.
在 AI 的演进历程中,生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现了严重的失衡。
今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx),让算力基建成为了当前舆论的主旋律。但实际上,特别是在编程范畴内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。
这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:
对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业路线,而是确保底层模型可以持续进化的核心生命线。
正如前面 APPSO 论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝对不是正确的成功学应该有的样子。在真实的编程环境中,知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值,远超于得到正确结果本身。
![]()
只有拥有自己的编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——
否则就不得不像 SpaceXAI 那样,花钱去跟 coding agent 产品公司去合作。
然而并不是所有模型厂商都跟马斯克一样有钱,以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈,当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候,恐怕已经没有足够的合作伙伴可以挑选,合作的价格也将水涨船高。
美国模型巨头的情况大家普遍比较熟悉了,在此不赘述。APPSO 也注意到,国内的主流模型厂商和 AI 巨头当中,绝大部分都已经在 coding agent 产品上有所布局。
国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做:字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。
AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过,在原生编程产品这件事上,CLI 不会是终局。
![]()
另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样,不论用户使用何种 AI 开发环境,模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。
但这也只是接近,并非完全相同。核心在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。
自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧是相对模糊的隐式推断。简单来说,API 侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签,从而无法实现最高质量的强化学习。
形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数的任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍的生产力。
只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding,势必将会掉出第一梯队。
当然,事实上每家模型厂商都不会不重视 coding——而是说,在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。
就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并且也让客户端显著改善了对 coding 任务的支持。
此前 MiniMax 只是推出了桌面端,但没有加入原生 coding 和 agent 功能。
![]()
![]()
紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品(阿里的官方叫法是智能体自主开发工作台)。
![]()
与此同时,xAI 的 Grok Build CLI,也终于正式推出了。
没错,就是 xAI 年初被 Anthropic 和 Cursor 封号之后,他们自己捣鼓出来的那个 coding agent.
![]()
这不,又多了好几个现成的案例。
看来,大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。
6.
把话题从 coding 扩展到 agent 本身,情况也是一样的。
编码任务的轨迹数据,在公开语料中确实还是能找到一些的(比如 GitHub 的提交记录/PR,尽管质量并不高)。但是 agent 任务的轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。
所以我们会看到,即使在 agent 操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。
后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目,其实就是一个浏览器插件。
![]()
即便是在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对 Agent 的兴趣。
CEO 梁文锋此前接受采访时曾经提到这样的观点:数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。
这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当研究试验场,而非商业化方向。
但是在今年 3 月,DeepSeek 一次性放出了十几个 Agent 相关岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。
APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然,DeepSeek 要做独立、原生的 Coding/Agent 产品了。
![]()
此前资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来,靠合成的训练数据只能带 DeepSeek 走到这里了,剩下的是合成不出来的部分:真实用户在真实环境里的真实成功和失败,必须靠自家的 agent 产品才能拿到。
DeepSeek 以一种极度克制的方式做了三年模型以及模型产品(直到上个月才终于在官网加入了多模态能力)。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。
当主力依靠研究的路径支撑不住飞轮的时候,DeepSeek 终于行动了。
7.
最后,我们回到开篇的故事。
根据 The Information 援引知情人士报道,在接受马斯克 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是仍将聚焦于优化自己的 Composer 模型。
这可能意味着,即便被马斯克买通甚至收购,Cursor 仍然要保留自己数据飞轮的主体性。
数据归属的本身,是最关键的隐藏博弈点。
当所有顶级模型厂商都做了自己的产品,所有顶级产品也都开始训练自己的模型,「模型公司」和「产品公司」之间本就不太清楚的界限,似乎越来越不存在了……
这场博弈也才刚刚开始。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
AI Agent 爆發時刻:Andrej Karpathy 說「我現在幾乎不再自己寫 code」
OpenAI 早期工程師、前 Tesla AI 總監 Andrej Karpathy 日前接受知名 AI 播客 […]
The post AI Agent 爆發時刻:Andrej Karpathy 說「我現在幾乎不再自己寫 code」 appeared first on 電腦王阿達.

SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒
前幾天剛 Google 在 I/O 2026 風光發表 Gemini 3.5 Flash,宣稱這款「Pro 級 […]
The post SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 appeared first on 電腦王阿達.
郭明錤:OpenAI 手機對聯發科的三大戰略意義,品牌價值、AI SoC 話語權與股價重評
天風國際證券分析師郭明錤(Ming-Chi Kuo)於近日發布最新長文分析,深入探討 OpenAI 與聯發科合 […]
The post 郭明錤:OpenAI 手機對聯發科的三大戰略意義,品牌價值、AI SoC 話語權與股價重評 appeared first on 電腦王阿達.
黃仁勳盛讚 AI 代理是下一個 ChatGPT 親解 Vera Rubin 量產進度
NVIDIA 執行長黃仁勳提前抵台,首場活動聚焦 OpenClaw 與代理式 AI 發展,並強調 Vera Rubin 將是電腦史上最大規模量產,展現硬軟整合的市場競爭策略。
原先外界預期將於5月27日抵台的NVIDIA執行長黃仁勳,結果行程意外大幅「超車」,提前於今日 (5/23)下午4點30分便飛抵台北松山機場。而剛下飛機,黃仁勳便馬不停蹄地直奔南港瓶蓋工廠,參加NVIDIA台北開發者大會「Meet‑A‑Claw」活動。
在今年的COMPUTEX 2026正式開展前,黃仁勳的焦點不再只是侷限於硬體算力,而是全面轉向代理式AI (Agentic AI)應用發展。在接受媒體聯訪時,黃仁勳針對下一代Vera Rubin伺服器平台的出貨狀況、中國市場策略,以及AMD日前宣布對台投資100億美元的舉動作出回應。
全民「養龍蝦」:OpenClaw成為代理型電腦的新OS
黃仁勳抵台的首個公開行程「Meet‑A‑Claw」,完全聚焦於今年在全球開發者社群爆紅的開源AI工具OpenClaw,以及NVIDIA在今年3月順勢推出的企業級代理平台NemoClaw,協助企業建構專屬、安全的代理式AI工作流。
在聯訪中,黃仁勳更分享其私底下的AI使用習慣,透露自己平常在工作上會使用Anthropic的Claude來協助處理任務,而他的兒子更是將AI代理技術應用在家庭中,透過設定多個AI代理來自動管理家務與日常排程。
Vera Rubin準備就緒:電腦史上最大規模的產品量產
針對外界高度關注的下一代AI伺服器平台「Vera Rubin」,黃仁勳表示Vera Rubin平台將是NVIDIA史上最成功的產品世代,更是電腦歷史上最大規模的產品量產。面對近期市場傳出HBM記憶體成本上漲與良率的挑戰,黃仁勳強調NVIDIA已經透過強大的供應鏈管理與台積電緊密合作克服難關,並且預告Vera Rubin將引入更先進的矽光子 (Silicon Photonics)技術,解決巨量資料傳輸的功耗與頻寬瓶頸。
此外,針對近期市場上關於LPU (語言處理單元)是否將取代GPU成為推論主流的爭論,黃仁勳也強調GPU在通用性、軟體生態系 (CUDA),以及處理複雜多模態代理任務上的絕對優勢,是單一功能晶片無法輕易取代的。
而在此回應的另一個層面,黃仁勳顯然更認為以ASIC設計的運算元件雖然在特定推論應用佔據優勢 (例如Google的TPU),但在放長遠的運算佈局來看,GPU無論是在加速運算、通用運算依然有更高性能與彈性表現。
回應競爭與地緣政治:AMD的100億美元投資與中國市場佈局
面對AMD執行長蘇姿丰日前宣布將在台灣投資100億美元建置AI基礎設施與先進封裝,黃仁勳則展現身為市場霸主的從容。
黃仁勳回應指出,AI市場的大餅正以驚人速度擴大,歡迎任何有助於推動整體運算生態系發展的投資,但他強調NVIDIA與台灣供應鏈 (從台積電的晶圓代工、先進封裝到各大伺服器ODM廠)的合作早已是「深植骨髓」的共同體,更強調NVIDIA在過去多年以來已經多次投資台灣,只是並未特別聲明。
目前NVIDIA的市場佈局,已經不再只是提供單一晶片,而是透過一整套涵蓋NVLink互連技術、CUDA軟體到Nemo框架等解決方案,乃至於目前的「機架級」 (Rack-scale)完整運算平台,藉此建構完整的市場競爭優勢,同時背後也以深厚的資金在台灣等地建構生態系統。
對於目前敏感的中國市場,黃仁勳重申NVIDIA的立場:公司將持續遵守美國政府的出口管制規範,但絕不會放棄這個龐大市場。NVIDIA正致力於在合規的框架內,為中國客戶提供量身定制的降規版AI晶片,確保在全球地緣政治的夾縫中,維持市佔率的最大化。
軟硬通吃的NVIDIA,試圖囊括AI代理的底層基礎設施
黃仁勳這次提早抵台,並且將首站選在以開發者為主的「Meet‑A‑Claw」大會,戰略意義極為深遠。
NVIDIA很清楚,當AMD試圖用100億美元與LPDDR等硬體規格來拉近差距時,NVIDIA必須將戰場拉高到「軟體與生態系」的層次。從硬體端來看,Vera Rubin平台結合矽光子技術,將進一步拉開算力差距;而從軟體端來看,NVIDIA全力擁抱OpenClaw與NemoClaw,意味著它正試圖成為代理式AI時代的底層標準。
當未來的電腦不再是等著你輸入指令的機器,而是一個個像「龍蝦」一樣能在背景自動幫你寫編碼、整理郵件,甚至成為管理家務、工作事項的AI代理時,誰能掌握這些代理AI運作的底層框架與硬體最佳化,顯然就能掌握下一個十年的科技霸權。
接下來一週的「兆元宴」與6月1日在台北流行音樂中心展開的主題演講,黃仁勳預期將端出更多讓對手難以招架的AI組合攻勢。
Qwen3.6-35B-A3B 越狱版来了!目前最强“无审查”开源模型?6G 显存都能跑,本地 AI 彻底自由了
最近 AI 圈,真的越来越离谱了。如果你一直关注本地大模型,应该已经发现:现在的开源模型,不仅越来越聪明,甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型,更是直接把“本地 AI”推向了另一个阶段。
它就是:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive
![]()
一个目前热度极高的“越狱版”开源模型。而且重点是:它不仅无审查、无限制,还非常聪明。甚至可以说:这可能是目前最强的越狱版开源模型之一。
什么是“越狱版”模型?
简单来说:
官方模型通常会加入大量安全限制。
比如:
- 敏感内容拒答
- 某些问题无法回答
- 强制政治正确
- 输出被过滤
- 系统提示词限制
所以很多时候:
你明明只是正常提问。
结果模型却:
“抱歉,我无法帮助你。”
而这类 Uncensored(无审查)版本:
则会尽可能移除这些限制。
尤其这个:
Aggressive 版本
可以说是:
目前最激进的版本之一。
官方模型 VS 越狱版模型
实测效果非常夸张。同样的问题:
官方模型:
- 疯狂拒答
- 强制安全策略
- 输出保守
而越狱版:
不仅会回答。
甚至:
- 什么都敢说
- 什么都肯干
- 几乎没有限制
![]()
而且最关键的是:
它并不是那种:
“只会越狱,但智商很低”的模型。
恰恰相反。
这个模型:
真的非常聪明。
部署教程:
1、模型下载
【huggingface 下载】、【网盘打包下载】、或 【备用下载】
模型来源:O站社区
里面有多种不同大小的量化版,你可以根据自己的显存大小,来选择对应的版本,最小的11G模型可以在6G/8G显存上跑起来,但是建议最低使用8G显存
![]()
2、下载 llama.cpp
下载方式:【Github下载】、【网盘下载】或 【整合包下载】
这款免费开源项目支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!也就意味着,你几乎可以在任何电脑上进行运行。速度还非常快,远比ollama、LM Studio 快的多也稳定的多!!
![]()
3、一键启动脚本(支持多版本切换)
将下面的的脚本另存为BAT批处理,保存的时候选择utf-8格式,嫌麻烦直接【点击下载】打包版
@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版
cd /d "%~dp0"
:menu
cls
echo ==========================================
echo Qwen3.6-35B-A3B 越狱版+多模态模型
echo 零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P(4090 推荐)
echo 2. Q4_K_M(稳定版)
echo 3. IQ4_NL(高压缩高质量)
echo 4. IQ2_M(6G/8G 显卡)
echo.
echo ==========================================
set /p choice=请输入数字:
if "%choice%"=="1" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="2" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="3" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="4" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 8192 ^
-n 4096 ^
--host 127.0.0.1 ^
--port 8080
)
pause
![]()
打开后在上面选择对应的模型,输入对应的数字确认即可启动!
注意:如果启动后出现乱码,则:进入系统设置中心,在顶部搜索关键词:系统区域设置,打开选择用于非Unicode程序的语言,然后勾选 Beta版:使用 Unicode UTF-8 提供全球语言支持;重启电脑再打开就不会乱码! 如下图所示:
![]()
当然需要真正实现tokens自由,本地不受限制,完全免费使用AI Agent,那么将其对接到Hermes或者OpenClaw 小龙虾上去,才能真正体现出它的价值所在。
AI Agent 对接步骤:
1、在选择模型提供商的时候,选择自定义
![]()
2、API base 地址填写:
http://127.0.0.1:8080/v1
API key 密钥随便填写一个数字或留空都可以
3、其它设置可以根据自己的喜好进行自定义
![]()
Qwen3.6-35B-A3B 为什么这么强?
![]()
很多人看到:
35B
第一反应是:
“这得服务器才能跑吧?”
但实际上:
Qwen3.6-35B-A3B 用的是:
MoE(专家混合架构)
简单理解:
虽然模型总参数是 35B。
但每次实际运行时:
只会激活大约 3B 参数。
这意味着:
它既拥有超大模型的能力。
又拥有小模型的速度。
6G 显存都能跑?
是的。
这也是它最夸张的地方之一。
通过 GGUF 量化后:
甚至:
- 6G 显存
- 8G 显存
- 普通游戏显卡
都能运行。
并且支持:
- NVIDIA 显卡
- AMD 显卡
- Intel Arc 显卡
真正实现:
本地 AI 自由
在 Artificial Analysis 排行榜中表现极强
目前在全球权威 AI 榜单:
Artificial Analysis
![]()
Qwen3.6-35B-A3B 在 40B 以内开源模型中:
几乎属于第一梯队。
尤其:
- 中文理解
- 代码能力
- 多模态视觉
- 推理能力
- 长上下文能力
表现都非常夸张。
尤其中文能力。
可以说:
这是目前中文体验最强的一批开源模型。
多模态支持也非常离谱
这次不仅支持文本。
还支持:
多模态视觉识图
也就是说:
它可以直接:
- 看图片
- 分析截图
- OCR 识别
- 理解画面内容
- 分析复杂 UI
- 阅读代码截图
配合 llama.cpp 最新版后:
甚至已经可以当:
本地版 ChatGPT Vision
来使用。
![]()
本地部署非常简单
这次部署方案:
我使用的是:
llama.cpp 最新版
优点非常明显:
- 免费
- 开源
- 支持 Windows
- 支持 CUDA
- 支持 Vulkan
- 支持 AMD
- 支持 Intel
而且:
现在 llama.cpp 已经越来越成熟。
不仅支持:
- OpenAI API
- 多模态
- 超长上下文
- Agent 调用
甚至还能直接:
本地替代 OpenAI API
Hermes Agent 实测效果惊艳
这次我还把它:
接入了 Hermes Agent。
效果可以说:
非常炸裂。
因为现在:
你不仅仅是在“聊天”。
而是:
真正拥有了一个:
本地 AI Agent
它可以:
- 自动写代码
- 自动分析图片
- 自动执行任务
- 自动工具调用
- 自动联网
- 长上下文记忆
而且:
完全本地运行。
不用联网。
不用 API Key。
没有 Token 消耗。
真正实现:
- Token 自由
- Agent 自由
- 本地 AI 自由
推荐量化版本
不同显卡。
推荐不同量化。
RTX 4090 / 24G 显存
推荐:
- Q4_K_P
- Q4_K_M
体验最好。
8G 显存用户
推荐:
- IQ2_M
- IQ3_M
也能正常运行。
推荐 llama.cpp 参数
推荐启动参数:
llama-server.exe ^ -m "模型路径.gguf" ^ --mmproj "mmproj.gguf" ^ -ngl 999 ^ -c 131072 ^ -n 8192 ^ --host 127.0.0.1 ^ --port 8080 ^ --jinja
其中:
--mmproj
是多模态必须参数。
否则:
上传图片按钮会变灰。
--jinja
则是新版 Qwen 模型非常重要的参数。
不加的话:
可能出现:
- 回复异常
- 格式错乱
- 无限重复
- 中文异常
现在的本地 AI,已经完全变了
很多人对本地模型的印象:
还停留在:
- 很笨
- 很慢
- 只能聊天
- 无法实用
但现在。
真的不一样了。
尤其:
Qwen3.6-35B-A3B 这种模型出现后。
本地 AI 已经开始:
真正接近商业闭源模型。
而且:
完全属于你自己。
最后
如果你一直想体验:
- 无审查 AI
- 本地 AI
- 多模态 AI
- 本地 Agent
- 超长上下文
- 本地 OpenAI API
那么:
这个模型。真的非常值得尝试。因为现在这种资源:谁也不知道还能存在多久。建议尽快收藏、下载、备份!
Salesforce Headless 360 讓 AI 代理人無需登入就能跨平台調用企業數據
Salesforce 推出 Headless 360 解決方案,讓 AI 代理人無需登入系統,即可在 Slack、Teams 等平台直接調用企業數據與工作流,打破 AI 應用的系統藩籬。
當「AI代理人」 (AI Agent)不再只是個會聊天的機器人,而是真正開始幫你審核表單、更新客戶資料、甚至自動化推進專案時,企業面臨的最大痛點,往往是這群虛擬員工「水土不服」——它們無法輕易跨越不同系統間的高牆。為了解決這個瓶頸,Salesforce今日 (5/25)正式在台介紹全新推出的「Salesforce Headless 360」解決方案,將Salesforce平台能力轉化為API與MCP模型上下文協定工具,讓AI代理能夠「無頭」運作,亦即無需登入Salesforce介面,就能在Slack、Teams、WhatsApp,甚至ChatGPT中,直接調用企業最核心的商業邏輯與客戶數據。
為何需要「無頭」?打破AI的操作藩籬
在傳統的軟體架構中,若員工或自動化程式要更新客戶關係管理 (CRM)系統中的資料,通常需要登入該系統的專屬介面 (也就是所謂的「頭部 / UI」)。
但在AI時代,使用者希望能在任何他們習慣的介面上工作。Salesforce台灣總經理徐嘉聲指出,AI代理人的價值不僅取決於底層模型,更在於其背後是否具備完整的「企業脈絡」與「信任機制」。
「Salesforce Headless 360」的核心概念,就是將Salesforce系統中強大的Data 360 (數據基礎)、流程自動化與治理規則,全部打包成開發者與外部AI代理人 可直接調用的底層服務。意味企業可以打造一個AI代理人,讓業務員只需在WhatsApp裡用語音下達指令,或是讓客服在Slack中點擊一個AI生成的簽核卡片,背後的Headless 360就會自動完成Salesforce系統內的資料更新與跨部門流程觸發。
三大核心創新:從開發、互動到治理的全面升級
為了讓企業能更快且更安全地部署這些跨平台AI代理人,Salesforce Headless 360帶來了三大關鍵功能:
• 開發模組 (Coding Skills)加速佈署:
為了解決開發者的痛點,Headless 360提供超過60個全新MCP工具與30多個預設的開發技能模組。這讓使用Claude Code、Cursor或Windsurf等新世代AI開發工具的工程師,能直接在其開發環境中存取Salesforce的資料與邏輯,大幅縮短建置AI代理人的時間。
• 跨介面互動體驗 (Agentforce Experience Layer):
AI代理人的回應不再侷限於單純文字。透過此功能,AI可以在不同的介面 (如Teams或自家的專屬App)中,以豐富的UI形式呈現,例如彈出簽核通知卡片、決策選項按鈕或是資料視覺化版面,讓員工在不離開當下工作介面的前提下完成複雜任務。
• 全生命週期治理 (Lifecycle Governance):
「失控的AI」是企業最大的夢魘。Salesforce強化AI的行為監管機制,包含上線前的「測試中心」能檢視代理人是否有違規的邏輯漏洞;上線後則提供可觀測性 (Observability)、工作階段追蹤 (Session Tracing)與A/B測試,幫助企業即時追蹤AI代理人的決策軌跡,確保其行為符合企業安全與治理規範。
用API與MCP穩固「數據核心」霸權
面對OpenAI、Google與微軟等底層大模型廠商不斷推出自家AI Agent框架的挑戰,Salesforce選擇不正面與他們爭奪「誰的AI比較聰明」,而是轉向確保「所有的AI都必須透過我來拿資料」。
透過擁抱MCP協定並推動Headless架構,Salesforce實際上是在告訴企業客戶:無論你未來選擇使用哪一家的AI模型、偏好在哪個通訊軟體上辦公,Salesforce都將是你企業中最核心、最安全且不可或缺的「數據與商業邏輯引擎」。這招「隱形入底層」的策略,不僅延續其在CRM領域的統治力,更讓Salesforce在這波代理式AI浪潮中,穩穩抓住企業數位轉型的心臟。
Meta 20 億美元併購遭卡關 Manus 籌 10 億美元贖身轉戰香港 IPO
Meta 併購中國 AI 新創 Manus 的 20 億美元交易遭中國監管當局以國家安全為由叫停,Manus 創辦人決定籌資 10 億美元回購公司,並計畫轉向香港交易所掛牌。
去年底,Meta宣布以超過20億美元天價收購中國AI新創團隊Manus,創下中國境內AI新創被大型科技業者併購的最快紀錄。而這場轟動業界的交易,卻在今年4月27日正式遭中國國家發改委以「國家安全」為由強硬叫停。面對被迫從Meta體系中剝離的絕境,Manus三位創辦人並未放棄,近期傳出正積極籌集10億美元資金,試圖從Meta手中「買回」公司控制權,並且計畫重組為合資企業後,轉向香港交易所 (HKEX)掛牌上市。
踩中技術出口紅線,Meta補齊代理式AI的美夢碎裂
回顧Meta當初為何如此急迫地以20億美元買下Manus,答案在於「代理式AI」 (Agentic AI)的戰略價值。
當OpenAI與Google在底層模型激烈廝殺時,Manus憑藉「大型語言模型 + 雲端虛擬機」的架構,打造出能真正跨端執行複雜任務、從指令到交付可完全封閉循環運作的AI產品。而上線後僅八個月,就使年度經常性收入突破1億美元,成為Meta亟欲補齊的應用層拼圖。
不過,這場交易最終撞上中國《外商投資安全審查辦法》的高牆。不僅成為該法規自2021年正式實施以來,首例公開針對AI領域祭出「禁止」決定的案件,更確立一個嚴格的監管標準:「實質重於形式」。
即便Manus事前已經將總部遷至新加坡,並且在組織上進行國際化調整,藉此避開中國監管法規的限制,但只要其核心技術研發、數據累積與源頭來自中國,就無法規避技術出口的審查。
砸10億美元「贖身」:不僅是商業決策,更是生存本能
對Manus團隊而言,併購案遭撤銷是一場不折不扣的災難。因為在今年初,Manus的百名員工已經實質進駐Meta新加坡辦公室,並且被編入Superintelligence Labs部門,技術與數據早已深度嵌入Meta生態。
要把這一切「退回原點」,終止雇傭關係並撤銷系統權限,操作難度極高。但創辦人肖弘、季逸超、張濤卻選擇扛下巨大的資金壓力,試圖籌資10億美元回購公司。原因無他:如果不自己買回來,Manus失去大型業者庇護後,價值將迅速蒸發。
更殘酷的是,在Manus被併購又遭阻擋的這段空窗期,AI代理應用賽道已經發生翻天覆地的變化。
包含智譜推出具備雲端手機與電腦控制權的AutoGLM 2.0,字節跳動的Coze也持續擴張;此外,近期爆紅的開源框架OpenClaw更是直接衝擊所有通用代理AI產品的門檻。Manus曾經擁有的先發優勢正在被快速追平,回購公司且重回戰場,成為他們證明自身價值的唯一機會。
香港交所:AI獨角獸的終極避風港與黃金登陸點
回購成功後,Manus的下一步明確指向香港IPO。這是一個充滿戰略算計的最佳選擇。
2026年的香港資本市場,正在迎接史無前例的AI上市狂潮。從年初的壁仞科技、智譜到MiniMax,港股投資人對於「高成長、高研發虧損」的AI企業給予極端寬容的定價。
以MiniMax為例,不到8000萬美元的年收入就能撐起千億港元市值;相比之下,Manus去年底就已達成1億美元經常性收入,極有機會在港股獲取超越當初Meta開出的20億美元估值。
透過與新投資方在中國境內設立合資企業,Manus或許能重新回到中國監管體系內合法營運;而透過香港上市,則能運用其成熟的再融資 (配售)機制,為未來無底洞般的AI算力與研發成本持續輸血。
“开源AI模型OpenGame炫技”!港中文姜一雷:如何用自然语言做Web游戏 ?
【GameLook专稿,禁止转载!】
GameLook报道/随着AI从风口到实用技术的落地,越来越多的同行开始将AI融入到自己的研发工作流当中。不过,如今的AI大模型和工具,绝大多数都只能在特定研发环节帮助同行提升效率,真正能够一句话生成可玩游戏的模型,仍在探索中。
最近,在5月23日举行的”出海文娱增长闭门会“上,来自港中大MMLab的姜一雷作了题为“OpenGame:从自然语言到端到端可玩的Web游戏”的演讲。他分享了LLM如今做游戏的难点,并介绍了他参与的codeagent项目OpenGame的“解题思路”。
通过OpenGame,你只需要自然语言,就能指挥agent写代码帮你研发游戏。据姜一雷介绍,如果是做2D网页游戏,在该模型的模板基础上,大概一周时间就能做出可玩的产品。
开源地址:https://github.com/leigest519/OpenGame
那么,如今的code agent能做成什么样的游戏?还面临哪些挑战,以及未来会走向何方?
![]()
以下是Gamelook整理的完整演讲内容:
姜一雷:
今天很荣幸能向前面的各位学习,然后能去分享我们最近做的一个开源项目,叫做OpenGame,它相当于是面向game coding开发的Agentic框架。
![]()
在此之前先介绍一下我自己,我叫姜一雷,目前是港中文MMLab博一的学生,同时是在某大厂的基座团队做LLM的强化学习预训练的工作。我个人的研究领域也是Agent,以及怎么针对Agent能力的提升去设计一些框架和底层算法,相当于是通过强化学习去提升基模的能力。
今天的内容目录大概是这样的:
![]()
为什么我们要做这个工作,这个工作里面大概包含什么,以及怎么评估的。然后我也想讨论一下,从技术方面来讲,想要做成现在这样Web Game Coding的Agent有哪些技术上的难点,以及未来可能去怎么发展。
![]()
首先,为什么游戏code agent是比较难做的?我们这个东西相当于做了一个类似于首个开源的整体框架,能够把输入的一句话,就是自然语言,一句你对游戏的想法或者游戏设计,能够把它变成一个完整口,在这样一个2D的网页游戏。是一个端到端以及全自动这样的一个框架。
我们做了三个主体:一个是我们搭了整个agent,相当于现在用的词叫harness,相当于是为了针对这个任务去创造出一个比较好的harness;另外我们也去训练一个中等模型的基模,是27B的一个基模;然后相对应提出一个怎么样做评估的方法。
为什么游戏对LLM特别难?
![]()
为什么说游戏创作对大模型来说,尤其是对现阶段的LLM来说是比较难的东西,因为一个真正可玩的游戏其实是一个实时系统,它包含了一些主循环物理事件的处理,也包含了很多像美术、音频这样一些资源的管线,它是一个非常非常庞大的、相对来说非常复杂的系统,product system。
然后它中间跨文件的一些,无论是导入或者调用,其实耦合都是非常紧密的。现在LLM,比如说它在解一些coding题目,或者去底下的单个文件代码上面其实表现得会非常不错。但是,如果让它去写一些非常复杂的工程,尤其是从零开始写,比如说我想搭一个可能是二三十个文件的项目,你让它从头开始写,其实现在的通用Agent做的非常Bug。
从我们最开始的实验中,我们发现有3类失败模式,第一个是逻辑不自洽,比如说整个全局状态在主循环里一直漂移。另一个是对于你想用的这个游戏引擎,它对这方面的知识感知不是很好,比如说引擎里面已经实现了一些功能,但它不知道有这个功能,然后它自己想要从头写一遍代码,而不是去调用引擎里的某一个功能。第三个就是跨文件不一致。相当于它在创建project level项目的时候,跨文件调用非常差。
目前想到了一个方法,我们想把这个coding agent,在它的基础上把它专业化成为Gamedev的专家。
然后我们做出来大概是这样一个效果:
![]()
比如无论是个人的创作者或者甚至是教育领域,比如说老师现在想要把课堂变得更有趣,还是一些自媒体的创作者都可以根据他们想要的话题或者知识去构建出来一些更有意思的内容。
我们整个游戏的涵盖类型也非常多,无论是像马里奥这种平台游戏,还是保卫萝卜、植物大战僵尸这种类似塔防的游戏,亦或是UI heavy类似影游那种的,其实也都是可以做的。
因为时间限制,我这边就大概过一下我们这个东西是怎么做的。
![]()
首先是代码模型训练,我们在Phaser上面的宇宙上做三阶段的训练,首先是CPT,然后是SFT,然后再加上RL,这是一个比较常规的过程。
主要还是搭了一个agent harness,这里有6个阶段,首先分类就是针对每个游戏的类型去维持一个最小化和功能化的一个code agent,便于它在写游戏代码的时候能直接调用它,而不是从头开始写。所以第一步要有一个分类,比如说物理引擎,他可能是一个平台游戏,也可能是一个上帝视角游戏,这种类型就不需要考虑重力因素。
之后就是GDD生成,文档生成,资源生成,到最后相当于提取中间这个模板,然后直接把里面的hook给填上,最后是一个验证。中间的话就是训练的过程,以及我们管线的过程。
最后就是相当于Agent在过程中会不断演化自己,比如说我们首先会维护一个meta campaign,它是一个非常原始的母模板,针对任何游戏都可以调用这个模板。随着给他一些真实认知的任务过程中,比如说建一个马里奥式的游戏,那它建完之后,我会让他把这种游戏所需要的模板提取出来,放到我们的模板库。
![]()
这样,在下次遇到比较类似的游戏的时候,就可以按图索骥,直接提取出来比较类似的模板去用,往里面填充hook就可以了,就不用从头开始写。
device skill也是针对容易出现的bug,相当于每天的一个MD file,无论是在验证过程中还是下一次从头开始生成过程中,能让它把这个东西debug好。
接下来也比较困难,也就是这个游戏怎么玩?它和普通的代码其实还不一样,普通代码你可能有compile(编译)成功、test通过就OK了。
但是游戏不一样,游戏也有三个阶段,第一个阶段是这个东西能不能编译成功,如果都不能编译成功那肯定不行。第二个阶段就是里面有没有bug,比如有些游戏做出来它可能有bug,比如我们用SOTA模型去做马里奥游戏的时候,它完全不知道这个游戏角色的身高和它能跳跃的阶梯高度之间的关系,导致这个游戏永远无法通关。
![]()
第三步,游戏最重要的是好玩,那这个趣味性又怎么衡量?这不是更难了?所以说这个东西本身衡量起来是非常非常困难的。我觉得在我们这个工作里面,现在这个阶段只能尽力做的好一些,但是我们承认肯定不是完美。我们衡量三个阶段,也就是三项,第一个是build,能不能渲染,能不能编译;第二是游戏画面怎么样,就是我们从中间截图然后给他打分。
第三是和用户意图是否一致,就是比如说我在游戏里想做几个功能,我想要这个游戏有3个关卡,某个人物有什么功能,或者我想要交互技能是WASD还是上下左右,也就是你做出来的游戏是否和用户需求一致。
![]()
从结果上看,我们这个模型和harness都取得了非常好的效果。
Web Gamedev的痛点
最后想讨论的是web gamedev目前的几个痛点以及未来的几个方向。
![]()
第一个就是LLM和Code Agent的3D空间理解问题。当然,我们的OpenGame主要聚焦的还是2D游戏,下一个我们已经在做的相当于是OpenGame 3D吧,我们已经在做了。
从我们最开始做的时候就发现有几个比较重要的问题。第一个是3D的问题,比如说,LLM通过Unity或者Unreal的MCP去用或者调用API生成一些3D资产,但生成之后,比如说我想搭一个赛车的跑道,然后我跟它说要搭一个赛车道,旁边要有一堆树。然后这个agent会调用一些API来生成3D的资产,但是它不知道怎么摆,它心里面没有这个东西。比如常规我们应该是中间一条路,树是在两边,这是比较正常思维的一个场景。
但很有可能,他会把一棵树垒到另一棵树的上面,或者说它把树就种到路的中央。就是说,它不知道怎么去管理3D布局,这是非常重要的一个问题。然后像其他的一些比如说穿模,比如说你生成了一些NPC,一生成直接就卡墙里了。
从我们看,这是相当重要的一个问题,我们觉得模型本身是缺乏3D空间先验的,它在text token序列里面推理没有空间的理解能力。一些可能的方向,比如说符号化的空间表示,或者动态闭环,或者物理碰撞信号,这i可能是一些解决的思路。
至于我们是怎么解决,如果大家感兴趣的话,我们会在七八月份的时候会发布出来OpenGame 3D,我们也给出了一些解决方案实现了一些比较好的效果,到时候大家可以关注一下。
![]()
第二个点,我认为是非常重要的一个点,就是这个Game Agent怎么去eval,也就是怎么去“玩”到“体验”。这个也不是我说的,之前我跟Unity交流,他们在Gemini 3之后就大力发展AI业务,大家交流认为eval是最痛点的一个阶段,无论是你的agent group里怎么给验证反馈,还是说用RL训练的时候怎么给reward,其实都是非常非常中国要的。
我们大概分两条思路,大概是这么想的:第一个是黑盒的,相当于Game-VLA,就是我们input实时有一句话,就是完全模仿人,因为我不知道游戏的源码怎么搞,只知道这个游戏相当于是一个SDK,直接就用。那就是看这个游戏的画面然后输出动作,相当于像玩家一样把整个游戏玩一遍。
但是我们目前尝试有几个问题,首先这个路线,也就是Game-VLA路线,用现在的仿真模型,在zero-shot情况下走不通,也就是如果是他没见过的游戏让它直接玩,基本上它就是不会玩,效果很差。一个可能的解决方案是用few-shot去做,就是你把比较像的给他做一个in-context-learning(情景学习),或者把这个游戏一些比较重要的交互生成一些技能给他塞到这个context里面让它知道。
这个还有个问题是,比如你真的用Game-VLA去做的话,你想要检验这个游戏中的功能,比如说这个游戏有3关,我想测试第2关,那就必须把第一关玩完之后才能玩第二关。但有一个很大的问题,就是它能不能玩到第二关都不一定。
而且如果一个游戏有50关,我想要测试第49或者第50关,那非要把前面所有关都玩完吗?这个就太慢了,这就完全不可行,无论是agent loop还是rollout都太长了,完全没法做,可能训一个step就要好几天,完全没办法训练。
![]()
所以权宜侧可能就是白盒这样的东西,因为LLM、code agent生成的游戏,它的源码是完全accessable的,知道它代码是怎么写的,那么我们可以做一些白盒runtime state injection。核心洞见就是,把玩到某个状态,直接pass到某个状态。
因为游戏它其实就是一个state machine,原先的Game-VLA黑盒玩法是通过一个agent去玩到某个状态。这个state injection就是直接不玩,把参数改到对应state就行。
大概说一下白盒方案的一些思路,比如说直接抽调keypoint,这当然也需要LLM去帮我们,然后往里面注入,再去执行。这个比较快比较稳,但局限就是仅限于白盒自生成游戏,我觉得如果将来技术发展到更好的话,我觉得还是有一个流式的黑盒Game-VLA,也就是它能像人那样实时去玩这个游戏。但是这个需要大模型那块把仿真人模型训练好才可以。
未来方向
![]()
未来的方向,当然是从2D到3D。OpenGame是一个偏学术性的,我看到不少创业公司也在做类似的东西了。我感觉2D的技术门槛已经没有那么高了。如果想做的人,直接在OpenGame上改一改,一周就做出来了。技术门槛可能在3D,但是对于产品我可能不是太懂,我只是从技术上来说,所以只是提供技术参考。
今天的分享就这些,谢谢大家。
不用下指令!用 Claude Code、Antigravity CLI、Codex CLI 搭配 notebooklm-py,一句話生成簡報、測驗、Podcast
你有沒有這樣的經驗:看到一篇很長的 PDF 報告、一段 YouTube 教學影片,想把它整理成投影片、做成語音 […]
這篇文章 不用下指令!用 Claude Code、Antigravity CLI、Codex CLI 搭配 notebooklm-py,一句話生成簡報、測驗、Podcast 最早出現於 軟體玩家。
