普通视图
放弃 Google One,我为什么最终选择了 Google Workspace?
Gemini 3.1 Pro 正式发布:Google 最强 AI 来了,推理能力直接翻倍!
就在刚刚,Google 正式推出了全新的旗舰模型 —— Gemini 3.1 Pro。这一次,它不只是一次常规升级,而是一次明显的能力跃迁。从目前公布的数据来看,Gemini 3.1 Pro 在综合能力排行榜中几乎处于“霸榜”状态,成为当前最强 AI 模型之一。
如果你觉得现在的 AI 已经足够聪明,那么 Gemini 3.1 Pro 很可能会重新定义你对 AI 的认知。
不再只是聊天 AI,而是真正的“思考型助手”
过去的大模型,大多数仍停留在「回答问题」阶段。
而 Gemini 3.1 Pro 的核心变化,是——推理能力的大幅提升。
它不仅能理解问题,还能:
-
深度分析复杂任务
-
拆解多步骤逻辑
-
像专业人士一样与你共同思考
-
给出真正有价值的解决方案,而不是表面正确的套话
同时,它具备完整的 多模态能力,可以同时理解:
-
文本
-
图片
-
视频
-
音频
-
代码
并将这些信息融合后给出统一回答。
简单来说:
这已经不是聊天机器人,而是一个可以真正一起做事的智能助手。
你可以让它学习新知识、解释复杂概念、规划项目流程,甚至把一个想法直接变成交互工具,大幅缩短开发与创作时间。
推理能力大升级:基准测试成绩惊人
在 Gemini 3 系列基础上,3.1 Pro 最大的升级就是核心推理能力。
换句话说,它变得更会“思考”了。
而这并不是官方宣传,而是被严格的基准测试验证。
![]()
在专门评估 AI 逻辑与理解能力的 ARC-AGI-2 测试中:
-
Gemini 3.1 Pro:77.1%
-
上代 Gemini 3 Pro:性能不到其一半
-
推理能力提升 超过 2 倍
ARC-AGI-2 被认为是目前最接近“真实智能测试”的基准之一,主要考察模型面对全新逻辑问题时的理解能力,而不是记忆能力。
正面对决 GPT 与 Claude:Google 领先
Gemini 3.1 Pro 在多个关键测试中超过竞争对手:
-
Gemini 3.1 Pro:77.1%
-
GPT-5.2:68.8%
-
Claude Opus 4.6:52.9%
在 19 项基准测试中,Google 赢下了其中 12 项。
此外,在科学知识测试 GPQA Diamond 中:
-
Gemini 3.1 Pro:94.3%
-
GPT-5.2:92.4%
-
Claude Opus 4.6:91.3%
这意味着它在复杂科学推理领域同样处于领先位置。
![]()
实际能力:不只是更聪明,而是能直接“做东西”
真正让 Gemini 3.1 Pro 与众不同的,是它的实际应用能力。
下面几个能力,可以说已经接近“AI 开发助手”的形态。
① 实时数据 → 交互式可视化
Gemini 3.1 Pro 可以将实时数据直接转换成动态可视化应用。
例如:
-
航空航天仪表盘
-
实时监控界面
-
数据分析控制台
过去需要完整开发团队完成的系统,现在 AI 可以通过推理能力自动处理数据流,并生成可交互界面。
![]()
简单理解:
数据不再是数字,而是“会动的画面”。
② 复杂 3D 互动模拟
它还能生成带真实交互的 3D 场景。
例如:
-
椋鸟群飞模拟
-
沉浸式空间交互
-
实时环境反馈
不仅是动画,而是可实时操作的互动环境,甚至支持:
-
手部追踪
-
动态环境音效
-
空间交互逻辑
![]()
免费体验平台:【点击前往】
![]()
③ 自动构建真实模拟世界
Gemini 3.1 Pro 还能直接生成复杂虚拟环境:
-
自动地形生成
-
城市道路规划
-
交通系统模拟
-
多系统联动代码
换句话说,你不再只是开发网页,而是在创建一个完整数字世界。
④ SVG 秒变动画(开发效率暴涨)
对于开发者来说,这是一个极其实用的能力。
AI 可以:
-
理解设计稿意图
-
将静态 SVG 转换为动画代码
-
自动生成轻量化动画逻辑
![]()
结果就是:
更少代码
更快开发
更容易维护与扩展
Web 开发效率直接提升一个级别。
⑤ 从文学风格生成可运行网站
最有意思的一点来了。
Gemini 3.1 Pro 可以把“抽象风格”转成真实软件。
例如:
-
输入小说式描述
-
定义情绪与氛围
-
自动生成完整网站界面
不仅视觉符合主题,而且代码可直接运行。
![]()
也就是说:
AI 开始把“感觉”和“情绪”,转化为真正的软件产品。
三维空间理解达到行业顶级水平
在 3D 空间理解能力方面,Gemini 3.1 Pro 已经进入当前行业第一梯队。
它不仅理解二维信息,还能理解:
-
空间结构
-
物理关系
-
场景逻辑
这也是它能生成复杂模拟环境和交互界面的关键原因。
如何免费体验 Gemini 3.1 Pro?
目前可以通过 Google AI Studio 直接体验 Gemini 3.1 Pro:
(链接直达)
进入后即可在线测试模型能力,无需本地部署。
![]()
AI 正在从“回答问题”走向“完成任务”
Gemini 3.1 Pro 的意义,并不只是更高的分数。
真正的变化是:
-
AI 开始具备持续推理能力
-
AI 能直接生成可运行成果
-
AI 从工具,变成协作者
我们正在从 AI Chat 时代,进入 AI Co-Creation(共同创造)时代。
而 Gemini 3.1 Pro,很可能就是这个阶段的重要分水岭。
封面点击率检测代码:【点击下载】
![]()
![]()
Google 深夜放大招! Nano Banana 2 正式发布,性能屠榜!一起来实测效果…. | 零度解说
谷歌放大招!Nano Banana 2 正式发布:速度更快、中文更强、全面升级
![]()
就在刚刚,谷歌正式发布了 Nano Banana 第二代模型 —— Nano Banana 2。
这一次,它背靠全新的 Gemini 3.1 Flash Image 图像能力,在生成速度、多语言理解、中文处理、可控性等方面都实现了全面升级。
一句话总结:
它不仅更快、更强,而且真正开始“懂中文”了。
一、发布即刷屏:从草稿到成品,只需几秒
Nano Banana 2 一发布,立刻在全网刷屏。
你可以把一张“鬼画符”式的草稿图丢给它,它能直接帮你生成精美的网页版 UI;
一句话生成游戏界面;
甚至一次性输出 20 多张连环漫画。
无论是:
-
AI 生图
-
UI 设计
-
信息图制作
-
教育插画
-
海报设计
都会因为它的升级发生巨大变化。
Nano Banana 2 免费使用通道: 【点击前往】
进入后选择任意模式都可以
![]()
二、中文能力大幅提升:真正可用的中文生图
这一次最大的升级之一,就是中文理解能力明显增强。
比如输入中文提示,让它生成一张“水循环俯拍信息图”:
-
几秒钟内完成
-
原理讲解清晰
-
中文无错字
-
排版自然
-
教育感强但不沉闷
![]()
这种效果,已经达到了可以直接用于课堂展示的水平。
更重要的是:
在最新版 Gemini 中,即使使用“快速模式”,也可以直接生成带中文文字的图片——
不需要 Pro 会员。
这对免费用户来说,是一个非常大的好消息。
目前无论你使用:
-
快速模式
-
思考模式
-
Pro 版本
系统都会自动调用 Nano Banana 2 进行图像生成。
三、各大评测成绩:深图一哥地位基本坐实
在权威评测中,Nano Banana 2 的成绩非常亮眼。
Artificial Analysis 基准测试
在 Artificial Analysis 的文生图基准测试中,它直接拿下全球第一。
图像编辑能力位列第三,仅次于:
-
GPT Image 1.5
-
Nano Banana Pro
Image Arena 评分
在 Image Arena 排名中:
-
文生图性能问鼎榜首
-
斩获 1279 Elo 高分
-
图像编辑能力仅次于 GPT Image
官方评测结果
在谷歌官方测试中,开启深度思考与文本图像搜索后,在以下三个维度全面领先:
-
整体偏好
-
视觉质量
-
信息图准确性
甚至在部分指标上,超过了自家大哥 Nano Banana Pro。
四、Nano Banana 2 强在哪里?
更强的图像模型能力
它采用谷歌目前最新、最强的一代深度模型。
意味着什么?
-
复杂场景理解更精准
-
现实知识表达更准确
-
离谱创意也能实现
-
画质更清晰
-
细节更真实
简单来说:
只要你能想到的,它基本都能画出来。
可控性更精准:真正开始“修图”
相比上一代,最大的变化之一是“精准控制”。
现在你可以:
-
把白天改成夜晚
-
更换拍摄角度
-
调整焦点
-
突出人物主体
以前只是“重新生成一张图”,
现在更像是在:
-
修照片
-
导演画面
-
控制镜头语言
一键换风格
可以上传一张参考图,然后:
-
套用颜色
-
套用质感
-
套用艺术风格
比如把普通照片变成:
-
电影风
-
动漫风
-
油画风
不用从零重新生成,一键完成风格迁移。
多平台尺寸自动适配
对于内容创作者来说,这是非常实用的功能。
可以直接生成不同尺寸比例的图片,例如:
-
YouTube 封面
-
手机竖屏
-
各大社交媒体尺寸
而且不会乱裁重点内容,
不需要再用 PS 手动改半天。
中文大字生成更靠谱
现在它可以直接生成:
-
LOGO
-
海报
-
邀请函
-
漫画
-
信息图
中文支持明显提升,多语言能力更加完善。
大段中文排版也几乎不出错。
五、适合哪些人使用?
Nano Banana 2 的适用场景非常广:
-
自媒体创作者
-
教育工作者
-
UI 设计师
-
电商商家
-
品牌运营
-
小型咖啡店或实体商家
例如:
-
一句话生成活动海报
-
制作生日贺卡
-
生成产品规格图
-
做社交媒体宣传图
效率提升非常明显。
总结:这是一次真正意义上的升级
Nano Banana 2 并不是简单的“小迭代”。
它的升级体现在:
-
更快的生成速度
-
更强的中文理解
-
更精准的可控编辑
-
更高的画质
-
更完善的多语言支持
-
免费模式也能使用
在当前 AI 生图领域,它已经基本坐实“深图一哥”的位置。如果你是内容创作者,或者需要频繁制作视觉内容,这次升级,值得你认真关注。
零成本!普通手机跑最强 Gemma 4 模型 (原生多模态),安卓+iPhone 部署实测体验!
这期教程,我将带你从零开始,分别在 Android 和 iPhone 手机上跑通最新的 Gemma 4 模型。在开始动手之前,请确保你已经在本页下方找到了我们所需的全部下载资料和链接。
第一部分:Android 安卓端部署
我们先拿安卓手机来做测试。由于我的测试机配置比较旧,正好可以验证一下低配手机的运行效果。
1. 下载与安装环境
在下方资料区获取安装包,你可以选择直接从谷歌应用商店(Google Play)下载,或者直接下载 APK 安装包。
(1)、Google应用商店下载:【点击前往】
(2)、下载安卓APK安装包:【点击下载】或【备用下载】
![]()
-
打开应用并完成安装。
-
首次进入点击 Get Started,并允许发送通知。
2. 性能模式与模型下载
进入应用后,我们需要进行基础设置并下载对应的 AI 模型:
-
选择运行模式: 顶部可以选择 AI 模型的运行模式(Fast 快速、平衡、高性能、自定义)。
-
进入模型库: 点击左上方三个横杠菜单,进入 Model Hub。
-
下载 Gemma 4: 向下滑动找到 Gemma 4 ECB 量化版模型。
-
注:系统会根据手机配置推荐合适的版本。由于我的手机配置不高,它推荐的是 1.2GB 大小的
Q2_K_S_L量化版。如果你的安卓机配置较高,可以选择最高 2.3GB 的版本以获得更好的体验。
-
-
勾选推荐版本,拉到底部点击 Download,耐心等待一分钟左右即可下载完成。

3. 载入与测试模型
-
返回首页,进入 Fast 选项卡并拉到底部,打开 自定义模式。
-
创建模型: 名称可以随便填。
-
选择模型: 选中我们刚刚下载好的 Gemma 4 1.2G 模型。
-
参数设置: * 上下文长度:根据手机硬件配置自定义(配置低切勿拉太高)。
-
最高 Token 输出量:设置为 512。
-
-
点击保存,自定义模型就配置完成了!
实测表现: 我让它在本地完全离线的状态下帮我编写了一个贪吃蛇小游戏,生成速度非常快,日常对话也完全没有问题。
第二部分:iOS 苹果端部署
看完安卓,我们再来看看 iPhone 上的表现。
1. 下载 Locally AI
【点击前往】
通过下方链接前往 App Store 下载名为 Locally AI 的应用程序。这是一款完全免费、主打隐私与安全、支持加载本地离线模型的强大工具。
![]()
2. 下载 iOS 版 Gemma 4
-
打开应用,跳过欢迎页的默认模型推荐。
-
点击上方的 选择模型,在列表中找到支持深入思考和多模态的最新的 Gemma 4。
-
点击下载(文件大小约为 3.61GB,版本为
E2B量化版)。
极客硬核测试:Gemma 4 到底有多强?
模型下载好后,我针对它的多模态、逻辑推理和代码能力进行了深度测试。
测试一:多模态视觉识别(拍照识物)
我随手在桌面上扔了一些杂物,打开 深入思考模式 拍照发给它,看看它能识别出什么。
我的提问: 你看到了什么?桌面上堆有哪些东西? Gemma 4 回答: > *
一部深色的智能手机
一个带花卉图案的偏紫色/粉色手机保护壳
一个亮蓝绿色的小瓶(护肤品/精油)
一个带标签的大罐子(益生菌)
一个黑色小电子配件(声卡录音设备)
![]()
翻车环节: 唯独桌上的西瓜子它没认出来。我再次特写拍照问它“黑色点点是什么,总共有多少个?” 它推测是干燥的种子(算答对),但数量数成了 9 个(实际是 16 个)。 吐槽:为了公平起见,我也问了 ChatGPT,虽然 ChatGPT 认出了西瓜子,但也数错了(数成了 17 个)。看来 AI 数数依然是个老大难问题!
测试二:逻辑推理(蒙提霍尔问题)
题目: 三扇门(一车两羊),你选定一扇后,主持人打开一扇羊门。问:换门是否有利? Gemma 4 回答: 这是一个经典的蒙提霍尔问题变种。答案是换门更有利。坚持原门只有 1/3 的概率,而换门可以抓住主持人排除错误选项带来的机会,将概率提升到 2/3。 结论: 逻辑非常清晰,完全正确!
测试三:前端代码编程
要求: 编写一个 3D 鱼缸场景,水、水草和鱼要有真实感。 结果: 它不仅提供了 HTML,还一并写好了 CSS 样式和 JS 代码。将代码复制到电脑上运行后,视觉效果非常逼真。作为一个手机端本地运行的小模型,能达到这种渲染水准令人惊艳。
测试四:医疗物品识别安全机制
我拍了一盒“瑞巴派特片”给它。它准确识别出了药片名称,但立刻触发了安全机制,表示“由于涉及身体和健康产品,无法提供医疗建议,请务必咨询医生”。表现得非常严谨。
![]()
终极考验:断网飞行模式测试
为了验证它的纯离线真伪,我断开了所有网络并开启了飞行模式。
-
写长篇小说: 让它写一篇 5000 字左右的恐怖小说。它在完全离线的状态下,使用繁体字分章输出,仅用时 1 分钟左右就完成了创作。
-
微距视觉推理: 在离线状态下发给它一张包含大象和蚂蚁的画。它准确识别出了大象头部,并声明“由于细节非常小,对蚂蚁的识别是基于微小尺寸的推测”。离线多模态能力确实靠谱。
总结与资源获取
Gemma 4 模型在手机端的本地离线表现远远超出了我的预期,无论是生成速度、逻辑推理还是多模态视觉,都达到了相当高的可用级别。
Gemma 4 越狱了! 谷歌最强开源模型,这才是用户真正需要的本地AI!
Unsloth Studio(测试版)允许您在 Windows、Linux 和 macOS 上运行和训练文本、音频、嵌入、视觉模型。
特点
Unsloth 为推理和训练提供了几个关键特性:
推理
- 搜索、下载和运行模型,包括 GGUF、LoRa 适配器、safetensors 等。
- 导出模型:将模型保存或导出为 GGUF、16 位安全张量和其他格式。
- 工具调用:支持自愈工具调用和网络搜索
- 代码执行:允许 LLM 在 Claude 工件和沙箱环境中测试代码
- 自动调整推理参数并自定义聊天模板。
- 我们直接与gpt-oss、Qwen3、Llama 4、Mistral、Gemma 1-4和Phi-4背后的团队合作,修复了提高模型准确性的错误。
- 上传图片、音频、PDF、代码、DOCX 等多种文件类型进行聊天。
训练
- 训练和强化学习500 多个模型的速度提高2 倍,VRAM 占用减少高达70% ,且精度不损失。
- 自定义 Triton 和数学内核。请参阅我们与PyTorch和Hugging Face 的一些合作项目。
- 数据配方:从PDF、CSV、DOCX等自动创建数据集。在可视化节点工作流中编辑数据。
- 强化学习(RL):最高效的RL库,对GRPO、 FP8等计算使用更少的VRAM。
- 支持完全微调、强化学习、预训练、4 位、16 位和 FP8 训练。
- 可观测性:实时监控训练,跟踪损失和 GPU 使用情况,并自定义图表。
- 支持多GPU训练,并且即将推出重大改进。
快速安装
Gemma 4 越狱版模型: 【Huggingface 拉取】或【打包下载】
下载后模型后,通过下方的 Unsloth Studio 直接本地加载模型即可!
1、Windows 版:
在Powershell下执行下方的一键安装命令:
irm https://unsloth.ai/install.ps1 | iex
安装完成后在浏览器上访问本地连接:http://127.0.0.1:8888 即可使用
![]()
![]()
2、macOS、Linux、WSL:
curl -fsSL https://unsloth.ai/install.sh | sh
3、Docker部署:
docker run -d -e JUPYTER_PASSWORD="mypassword" \
-p 8888:8888 -p 8000:8000 -p 2222:22 \
-v $(pwd)/work:/workspace/work \
--gpus all \
unsloth/unsloth
Google 把 AI 搜索搬进 Windows!这款官方 App,可能会改变你的使用习惯
还在打开浏览器、输入关键词、翻一堆网页找答案吗?现在,你可能不需要了。Google 最近推出了一款专为 Windows 打造的 Google App,把「AI 搜索」直接整合进系统里,让你随时随地都能调用。
![]()
而且重点是:它不只是搜索,更像一个随叫随到的 AI 助手。
一键呼出搜索:Alt + 空格
安装完成之后,你只需要按下:Alt + 空格
搜索框就会瞬间弹出。不需要打开浏览器,不需要切换窗口,甚至不用打断你当前的工作流程这种体验,很像 Spotlight,但更“聪明”。
AI 模式:不只是搜索,而是“对话式探索”
传统搜索是:
输入 → 查看网页 → 自己总结
![]()
而现在变成:
输入 → AI直接给答案 → 继续追问
![]()
你可以:
- 输入问题
- 上传图片
- 上传文件
然后开启 AI 模式,让系统帮你做:
总结
分析
延伸回答
甚至可以连续追问,就像聊天一样。
不只是网页:它还能搜索你的“全部数据”
这才是这款 App 真正强的地方。
除了网页内容,它还可以:
- 搜索 Google 云端硬碟文件
- 搜索本地电脑文件(需授权)
- 搜索应用程序
换句话说:
你的整个电脑 + 云端,都变成了搜索范围
这比传统搜索引擎高了一个维度。
![]()
屏幕即搜索:你看到什么,就能搜什么
这里有两个非常“未来感”的功能:
屏幕内容识别(Share Screen)
你可以让 AI 直接“看”你的屏幕:打开一个复杂网页,或一段英文资料,然后问:「帮我总结重点」AI 会直接帮你提炼内容、甚至翻译。
结合 Google Lens 的能力:直接圈选屏幕中的任意内容,人物 / 商品 / 场景 / 文本,AI 会立刻识别并给出结果
简单说就是:
看到什么,就搜什么
![]()
系统要求 & 获取方式
- 支持:Windows 10 及以上 、Mac
- 当前:主要为英文版本
- 获取:Google 官方下载
值得一提的是,Google 也为 Mac 提供了独立的 AI 应用(Gemini App),但定位略有不同,更偏向个人助手。
![]()
内置的集成模型
目前内置的AI模型是Google最新最强的Gemini 3模型,同时内置了AI生图功能,使用的是 Google 最强的Nano Banana 2 模型,可以自由切换需要的功能!
![]()
比如我使用下方的人物图片,按照我的提示词,使其生成Labubu风格样式的图片
![]()
提示词:
请根据这张照片的人物特征(如发型、衣着),生成一个 Labubu 风格的 3D 盲盒公仔(Blind Box Toy)。请一并生成带有透明视窗的包装纸盒,盒上印有『GEMINI AI TOY SERIES』及『1/1 LIMITED EDITION』字样,采用高画质及影棚打光效果。
最终生成的效果相当不错
![]()
ChatGPT,别再「稳稳接住我」了|附指南
![]()
晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。
都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。
盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。
![]()
▲ChatGPT 的常用口癖
除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。
有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。
社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。
表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。
▲图片来源:小红书@Lijie_11
还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。
这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。
无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。
![]()
▲项目地址:https://not-a-devstudio.github.io/jiezhu/
举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」
OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。
![]()
漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」
自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。
我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。
用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。
AI 第一句被全民模仿的中文台词
在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。
一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。
但翻译成中文之后,它变得又长又戏剧化。
我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗
其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。
![]()
有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。
这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。
它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。
这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。
![]()
而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。
所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。
问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。
一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。
另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。
![]()
久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。
类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。
深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。
每个「人」都有自己的口癖
本以为换个模型,耳根就能清净清净。
![]()
事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。
Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。
![]()
前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。
![]()
但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」
将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。
![]()
没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。
之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。
情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。
![]()
在知乎上有一个类似的问题,底下有一条回答特别有意思。
他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。
确实,我想真正在场的人,从不需要宣告自己在场。
最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。
![]()
▲提示词来源:https://linux.do/t/topic/1924570
硬约束
– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构
沟通
– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节
中文输出规范
适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。
GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):
暴力倾向类(把技术操作比喻成暴力行为):
– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门
废话连篇类(无意义的开头、总结或过渡):
– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对
庸医问诊类(把代码问题比喻成看病/诊断):
– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型
不说人话类(生造的口语化/黑话表达):
– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的
单音节动词滥用(在技术语境中不自然的单字动词):
– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”
机械感/工业感比喻(把代码比喻成机械零件或物理操作):
– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实
过度主动/逼迫用户确认(制造虚假紧迫感):
– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…
谄媚/讨好类(过度吹捧用户或制造情感依赖):
– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗
虚假确定性(对自己的修复过度自信):
– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以
整句模式(典型 GPT 句式,正常人不会这么说):
– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”
正面锚点:
– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
谷歌发布安卓 AI 系统,这就是苹果想象中的自己
![]()
和去年一样,在正式的 Google I/O 开发者大会之前,谷歌为 Android 单独开了一次小型发布会。
本次 Android Show 上,谷歌几乎是一股脑将未来一年有关 Android 和整个 AI 产品生态的「宏愿」抖了出来。
![]()
除了作为基底的 Android 17 之外,我们这次还迎来了一些意料之外的平台更新和几款硬件产品的发布。
重点在于:虽然产品不多、距离 Android 17 广泛推送还有一段时间,但我们已经足以看到谷歌未来五年甚至十年,对于人工智能生态的计划了。
更要命的是,今晚的谷歌,刚好是苹果梦想里进入 AI 时代之后的自己。
操作系统到智能系统
活动刚开场,谷歌就宣布了一项意义重大的举措:
Android 将不再是一个单纯的操作系统(Operating System),而是一个智能系统(Intelligence System)。
![]()
图|Google
换句话说,曾经以「用户手动操作」为绝对主流的软硬件使用方式,在谷歌看来已经是上一个时代的符号了。
从今天起,Android 作为一个智能功能的集群,会更加主动地介入到用户操作流程的更前端,想你所想、做你所做。
![]()
图|Google
这也是为什么在本次活动上,Android 17 这个具体的系统版本出现的次数屈指可数,Gemini Intelligence 却成为了系统的代名词。
首先,Gemini Intelligence 作为谷歌 Gemini 在手机硬件上的最新形态,极大强化了它多模态、跨环境、高度整合的运行模式。
比如作为系统输入的第一入口,默认键盘 Gboard 就得到了一次功能强化。
基于 Gemini Intelligence 的多模态能力,原本在键盘功能中存在感不高的「自动填入」功能极大地拓展了它的信息来源:
![]()
图|Google
除了手动保存的各种密码之外,Gboard 还将会支持自动填入图库里面的证照信息、聊天提到的地址信息、邮件撰写的日程信息等等。
更直白地说:Gemini Intelligence 已经远超「帮忙记住密码」的水平,而是真正像个助理一样帮你记住和建议各种来源、各种类型的信息。
另一种有效利用这些多模态信息的方式,则是 Android 的桌面小组件(widget)。
在 Android 17 中,Gemini Intelligence 将会支持一项名为「Create my widget」的功能,但不是第一时间上线、而是目标今年晚些时候。
![]()
图|Google
这个新功能主要做的,就是用类似 vibe coding 的模式,根据你的指令在桌面上创建新的小组件,打破了小组件只能是 app 预置的那些。
举例来说,相比功能单一的记录卡路里的 app,我可以和 Gemini 说:做一个每周工作日向我推荐两次高蛋白餐的小组件。
![]()
图|Google
这样一来,桌面小组件就真正变成了一项复合任务的入口,本质上和人 vibe coding 一个 app 的性质是完全相同的。
此外,喜欢语音输入的用户也有福了——新版 Gboard 将会支持类似 Typeless 的高智能化语音输入功能,名字叫做 Rambler。
相比以前要亲口说「逗号…句号…」,Rambler 可以将一整段充满了「嗯嗯啊啊」的口述转译、清洗、整理成一段整洁的文字:
![]()
图|Google
另一方面,Gemini Intelligence 的自动执行功能也得到了进一步加强。
去年的 Google I/O 和发布会上,谷歌演示过给 Gemini 下命令,让它自动帮你点外卖、叫车、订票之类的操作,正式上线之后反响不错。
而在 Android 17 中,Gemini 升级成 Gemini Intelligence,这种「代操作」也支持多步骤任务了。
比如以前只支持简单的「帮我订一张票」,你现在可以在 Gemini 对话框里直接拍下旅游宣传册,和 Gemini 说「在携程上帮我找一个类似的双人团行程」:
![]()
图|Google
重点不在于 Gemini 能够执行什么任务,而是它拥有了更强大的「多做一步」的能力,有时候就是多的这一步,让 AI 从「能用」变成了「有用」。
当然 Android 17 的更新也不是 Gemini 的独角戏,谷歌同样对很多「Android 核心体验」进行了优化。
在 Android 17 中,谷歌和 Meta 达成了合作,在 Facebook、Instagram 等等 app 里支持了调用原生相机功能,比如 Ultra HDR、超级防抖、夜景视频等等。
而谷歌使用了好多年的平面风格 emoji 也迎来了一次更新——从原本的纯 2D 变成了 2.5D,在风格上更接近 iOS 使用的 emoji 了:
![]()
图|Google
而我们此前介绍过的 QuickShare 兼容 AirDrop 的功能,也将在 Android 17 上支持更多厂商的设备。
除了三星和 Pixel 之外,(国际版)OPPO、Vivo、一加和荣耀的较新机型也将在今年下半年陆续更新兼容 AirDrop 的固件:
![]()
图|Google
谷歌的 AI PC
在 Gemini Intelligence 之外,谷歌也没有忘记给这些更复杂、更强大的 AI 功能打造一套量身定制的硬件。
这个新硬件的形态,既不是吊坠,也不是耳机,更不是手表手环——而是曾经的 Chromebook。
没错,在 AI 时代,谷歌又双叒给自己的笔记本改名了。
从 Pixelbook,到 Chromebook,再到最新的 Googlebook:
![]()
图|Google
和 Chromebook 一样,Googlebook 并不是某一款具体的笔记本电脑,而是同样和第三方厂商合作、只要符合标准的都可以叫这个名字。
而 Googlebook,就是「第一款为 Gemini Intelligence 量身打造」的硬件产品。
除了上面的全新 Gemini Intelligence 功能之外,Googlebook 在日常使用最频繁的基础人机交互层面,做出了堪称革命性的创新——
在 Googlebook 上呼出 Gemini 功能,既不需要说话、也不需要按键、更不是右键菜单,只需要「摇一摇光标」就行。
![]()
图|Google
基于 Gemini Intelligence 的多模态能力,推荐的 AI 指令甚至可以根据光标下面的内容、选中的内容、屏幕上可以进行的操作等等因素自动调整。
在如今电脑端 AI 功能越来越密集、笔记本键盘空间不够充裕的情况下,Googlebook 的「魔法指针」无疑是最直观且优雅的解决方案之一。
此外,Googlebook 还解决了 ChromeOS 历史上的老大难问题:它是谷歌的产品,却跑不了 Android app。
换句话说,所有 Android 手机里面的 app,在 Googlebook 上都可以直接运行,基本看齐了如今 macOS 跑 iOS 软件的水平。
这一切的基础,就是爱范儿之前文章中提到的谷歌大力推行的 GKI(通用内核镜像)计划,正在让 Android 脱离手机的桎梏、无缝衔接到更多形态的设备上。
虽然谷歌目前没有提到这个功能的兼容情况,但我们猜测,依据处理器规格和网络状态,Googlebook 应该同时支持本地运行和画面投屏手机 app 两种方式。
![]()
图|Google
根据活动消息,首批 Googlebook 的生产厂商还是那几个熟悉的身影:宏碁、华硕、戴尔、惠普、联想等等,首批产品预计在今年内上市。
![]()
图|Google
除了笔记本电脑,Android 17 同样更新了一部分 Android Auto 车机系统的功能。
比如更像 OpenClaw 能力的 Gemini Intelligence 代操作、优化的 3D 道路画面、更加智能化的流媒体播放功能等等。
当然也支持把手机上自创的自定义 widget 显示在车机上。
![]()
图|Google
同时,原生支持 Android Auto 的品牌范围也在增加,部分型号甚至支持记忆当前车辆信息,类似后备箱尺寸、仪表盘规格等等。
这样一来,用户在使用 Gemini 问答的时候,车机就能给出具体回答,比如「能不能同时放俩 27 寸旅行箱?」或者「那个像是刺客的警示灯是什么意思」之类的。
可惜的是,这项功能目前也不会立即上线,同样预计为「今年晚些时候」才会有产品搭载。
总的来说,本次活动只是今年 Google I/O 的开胃菜,但它涉及到的理念变革却是非常根本性的——
其实在活动的开头,谷歌就指出了:好用的人工智能技术,就应该是让人感受不到的,它会融入进每一层软件和硬件的体验。
![]()
图|Google
而这正是 Gemini Intelligence 在做的。
无论是 Pixel 手机、Android Auto 车机还是 Googlebook,这些硬件最终都只是 Gemini 智能的一种体现方式而已。
值得玩味的是——谷歌今天晚上所做的,刚好就是苹果削尖脑袋想要实现的那套 AI 生态。
让 iPhone、手表和 Mac 共用一套智能体系,用户无论在哪里使用,功能和体验都是高度相似的,硬件只区分交互方式、不影响智能水平。
![]()
图|Apple
可惜的是,苹果挣扎了这么久,也没有搞定「模型」的部分,反而让自己的硬件成了别家模型的嫁衣。
将来的智能系统(Intelligence System),形式比现在更多样、但核心却比现在更加统一。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Windows 本地 AI 又升级了!llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL,一键跑 GGUF 无审查模型!
最近,llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说,这次更新可以说相当实用。
因为现在官方已经开始真正意义上的:“降低 Windows 本地 AI 的使用门槛”!
![]()
![]()
以前很多人第一次接触本地大模型,最头疼的其实不是模型本身,而是各种环境问题:
- CUDA 版本不匹配
- DLL 缺失
- 驱动不兼容
- CMake 编译失败
- 环境变量错误
- Vulkan / HIP 配置复杂
- Windows 编译过程报错
尤其很多新手,教程还没看完,就已经被环境问题劝退了。
但现在不一样了。
在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多情况下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对算是一件好事。
![]()
llama.cpp 是什么?
llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。
![]()
官方下载:【点击前往】 或 【网盘下载】、【整合下载】
很多大家熟悉的本地模型,其实都可以通过 llama.cpp 运行:
- Qwen
- Llama
- DeepSeek
- Gemma
- Hermes
- Dolphin
- Mistral
- Mixtral
尤其现在 GGUF 生态越来越成熟,很多模型都会第一时间发布 GGUF 量化版本。
视频教程:
而 llama.cpp 最大的优势就是:
轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF
而且现在甚至已经支持:
多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面
llama.cpp 最新 Windows 版本支持什么?
目前官方 Release 页面已经直接提供:
- Windows x64 CPU
- Windows x64 CUDA 12.4
- Windows x64 CUDA 13.1
- Windows x64 Vulkan
- Windows x64 HIP Radeon
- Windows x64 SYCL
- Windows ARM64 CPU
这意味着:
NVIDIA 用户
可以直接选择:CUDA 12.4 或者 CUDA 13.1
如果你是:
- RTX 3060
- RTX 4060
- RTX 4070
- RTX 4080
- RTX 4090
基本建议优先 CUDA。
AMD 用户
现在终于不用完全依赖 ROCm 了。
你可以:HIP 或者 Vulkan
很多情况下,Vulkan 反而比 HIP 更稳定。
Intel 用户
现在 Intel 核显、Arc 独显也终于有得玩了。
可以尝试:SYCL 或者 Vulkan
虽然性能和 NVIDIA 还有差距,但已经能正常跑很多 GGUF 小模型。
如何启动 GGUF 模型?
例如:gemma-4-31b-jang-crack-Q4_K_M.gguf
启动方式其实非常简单。
进入 llama.cpp 目录:
llama-server.exe -m models\你的模型.gguf -ngl 999
其中:-ngl 999 代表尽量把模型全部加载到 GPU。
启动成功后,浏览器打开:http://127.0.0.1:8080
即可进入网页聊天界面。
如何启动 GGUF 多模态视觉模型?
加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件
目前支持较好的包括:
Qwen2-VL / Qwen2.5-VL
目前中文视觉能力最强之一:
- OCR
- 截图理解
- 网页识别
- 中文图片问答
表现都非常强。
主模型下载:【点击前往】或 【网盘下载】、【备用下载】
![]()
比如我让它给做视频封面的点击率测试,居然可以做到100%正确!当然它的功能远不止这些…….
多模态模型启用:
llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999
无审查模型:
1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型
支持中文、日文和英语,非常适合角色扮演。
模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式
下载合并为GGUF模型格式
huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False
然后用 llama.cpp 转 GGUF:
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp pip install -r requirements.txt python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf
需要量化成 Q4_K_M的话可以命令:
llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M
![]()
2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型
这是一个在本地跑:听话、高效、不乱加道德判断的AI
- 推理能力扎实:在数学和代码相关任务上表现突出,尤其长上下文处理(原生支持128K,部分可扩展到256K)。你甚至可以把整个项目代码库或一本技术手册一次性喂给它,它不会轻易“失忆”。
- 参数效率高:
26B MoE版本激活参数不多,跑起来相对轻快,在很多基准上效率比同级别模型更好。 - 开源友好:
Apache 2.0协议,允许修改、商用和二次分发,这对想自己折腾或做副业的朋友来说非常实用。
官方版的主要问题是安全对齐层比较厚,很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术(abliteration等)移除了这部分限制,保留了绝大部分原始能力。
模型下载:【点击前往】或 【打包下载】、【备用下载】
![]()
更多越狱模型:
1、Hermes-3 【点击下载】
2、Qwen 越狱模型【点击下载】
3、Deepseek 越狱模型【点击下载】
多种模态自由切换运行:
如果我们同时下载了多种不同的模型,为了方便统一管理,在运行的时候我们可以使用零度的这个脚本,来实现多模型自由切换运行,注意将里面的模型名称改成你自己的!
@echo off chcp 65001 >nul cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-13.1-x64 echo 请选择模型: echo 1. Gemma 31B echo 2. Qwen VL 多模态 echo 3. DeepSeek set /p choice=输入数字: if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999 if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999 if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999 pause
将上方的命令保存到文本文档里,另存为的时候选择utf-8格式,最后将txt后缀改成bat即可!双击运行即可看到下方的选项
![]()
输入模型对应的数字就可以成功启动模型
![]()
![]()
Google 重塑搜索框,进化 50 亿人的上网习惯
![]()
在品尝过「会前甜点」Android Show 之后,真正的重头戏谷歌开发者大会 Google I/O 2026 正式揭开了帷幕。
不出所料,在时长接近两个小时的活动中,Gemini 占据了绝对的 C 位。
![]()
图|Google
除了更新基础模型和周边能力之外,Gemini 也更加深入的集成到了谷歌 app 全家桶里面,甚至还给 iOS 和 macOS 带来了一些更新。
比较可惜的是,上周亮相的 Googlebook 和 Android 17,在本次 I/O 开场活动上都没有被提及。
我们唯一看到的硬件产品,是与三星联合开发的智能眼镜:
![]()
图|Google
总之,谷歌借助本次 I/O 大会传达的信息已经很明确了:
Gemini 的能力将会越来越强、存在感将会越来越高,与全球十几亿谷歌产品用户的「物理生活」的集成也会越来越紧密。
从夸张的角度想—— Gemini 距离接管大部分人的日常工作,似乎就只差一个人形机器人了。
底层模型更新
整场活动里最重磅的,就是围绕着 Gemini 的几款底层模型的更新了。
首先是正式的 Gemini 3.5 版本发布,用户最先可以体验到的版本则是 Gemini 3.5 Flash。
它在多个维度上展现出媲美之前 2.5 Pro 的能力,并且保持了 Flash 系列的速度:
![]()
图|Google
得益于速度和性能的平衡,Gemini 3.5 Flash 最擅长的场景之一就是处理长期、大规模的智能任务,同时还能省下大量 token 开销。
同时,最新的 Antigravity 集成也让 Gemini 3.5 Flash 拥有了更丰富的输出形式——
执行分类代码、根据论文编写游戏、转换上古代码库、构建 3D 场景、交互式 Web 界面等等。
![]()
将遗留代码库转换成 Next.js|Google
此外还有规模最大的「世界模型」Gemini Omni,用谷歌的宏愿来描述 Gemini Omni 则是:
它可以根据任何输入内容,输出任何你想要的东西(Generate any output with any input)。
Omni 的首款模型产品则是 Gemini Omni Flash,除了 Gemini app,它也集成到了 Google Flow 和 YouTube Shorts 里面,支持用户使用自然语言生成「最像真的」的视频。
![]()
图|Google
相对应的,谷歌也调整了自己的 Google One 订阅模式,在原本最高等级的 AI Ultra 方案里新增了一个 100 美元/月的分类。
这个新的订阅同属于 AI Ultra 级别,包含 Gemini 3.5 Flash、Antigravity 2.0 和其他新功能的优先访问权等等。
当然,传统的 20TB 云空间和 YouTube Premium 权限也同样包含,主要面向开发者和高级创作者之类的群体。
![]()
图|Google
同时,原本 250 美元的最高等级 AI Ultra 订阅则迎来了降价,现在只需要 200 美元/月就能享受到包括最高 20 倍于 AI Pro 的使用额等等特权。
另一个重大的收费模式变革则是 Gemini app 本身。
![]()
图|Google I/O
在新闻稿里,谷歌宣布将 Gemini 的每日限额从「提示词额度」改成了「使用量计算」。
这样算下来,图片、视频和代码的消耗变多、文本任务消耗量则变少,整体是一种更灵活的算力计费模式。
实际业务落地
与 OpenAI、Anthropic 之类的公司不同,谷歌最大的特点在于,它真的有一套能够直达全球十几亿用户的产品生态。
在上述基础模型之外,谷歌本次展示的策略,重点是将这些「抽象」的 AI 模型能力,整合进普罗大众每天都在使用的 app 里面。
![]()
图|SlashGear
而这种整合大体上分成三步:传统搜索业务变革、手机系统智能化、视觉智能融合。
「搜索引擎」作为谷歌的起家业务,在今年的 I/O 上迎来了一次彻头彻尾的 AI 改造,谷歌称之为「AI 搜索的新时代」。
这种业务转变背后的逻辑很简单:相比 20 年前,人们只在搜索框里输入单词或短语,现在的人更习惯在里面输入复杂的复合指令。
![]()
图|Google
换言之:谷歌把传统的搜索框(search box)变成了一个通用对话框(chatbox)。
除了搜索,用户可以在里面要求任何形式的内容。
这刚好也是本次 I/O 活动的重点更新内容——具有智能体能力的搜索。
首先,AI Mode 的基础模型会升级到 Gemini 3.5,你的搜索框会自动推荐和补全输入的内容,让你的关键词变得更详细或者更广泛。
![]()
图|Google
此外还有全新的生成式 UI(Generative UI)回答,谷歌会根据你询问的东西智能生成最合适的回答形式。
比如搜索股票走势,回答里不仅有文本,还会生成折线图;问装修灵感,回答里就生成图片……
甚至你搜索物理问题,它还能调用 Antigravity 快速编写一个互动式的 Web 演示:
![]()
图|Google
使用了这么多年的「多模态搜索」之后,我们终于进入了「多模态回答」的时代。
谷歌搜索结合 Antigravity 的能力不止于此,它还可以更进一步,根据你在搜索框里输入的内容实时生成 Web 形式的仪表盘或追踪器。
用人话来说,就是谷歌搜索框为你的需求直接编写了一个专门的 app。
这种多模态能力是非常恐怖的,甚至有可能彻底改变人们检索信息的方式——
毕竟我们搜东西,大多是为了将搜索结果用在别的任务里面,而新的谷歌搜索可以直接帮你做完下一步操作。
![]()
图|Google
至于这种「代办」的具体方式,则是 Gemini Spark。
简单来说,Gemini Spark 本质上是类似 OpenClaw 的「语义理解-自动执行」功能,一个谷歌 Claw。
其中 Gemini Spark 基于最新的 Gemini 3.5 模型,支持 7 天 24 小时不间断运行。
并且由于运行载体是 Google Cloud,还可以执行跨端代理操作——在手机上布置任务,在电脑上查收结果。
![]()
图|Google
Gemini Spark 目前支持所有谷歌套件 app,后续则会拓展 MCP 平台以兼容第三方 app 的内部功能,同时支持用户自己上传 Skill。
谷歌还宣布 Gemini Spark 后续会集成到 Chrome 和 Android Halo 中,为浏览器和手机带来智能体自动操作的功能。
![]()
Android Halo|Google
最后一步棋,则是 Gemini 与视觉智能的融合。
在本次 I/O 活动上,谷歌发布了首个与三星联合开发的「纯音频智能眼镜」产品,分别使用 Gentle Monster 和 Warby Parker 镜架:
![]()
图|Google
单纯从功能上讲,这个纯音频眼镜与市面上已经有的智能眼镜相差不大,主要优势是可以直接调用 Gemini 的多模态功能,用来调用前面提到的其他复杂能力。
另一方面,XREAL 与谷歌合作的那款带屏幕的智能眼镜 Project Aura 在本次活动上又有了更新。
根据介绍,Project Aura 搭载了 XREAL 自研的 X1S 空间计算芯片,并为了佩戴舒适采用了分体式的设计。
也就是说,Project Aura 的眼镜部分只负责显示,真正的处理芯片、电池包和触控板需要通过数据线连接到一个外置的随身单元上:
![]()
图|TheVerge
至于实际的生活功能方面,Project Aura 将会支持 Google Maps 沉浸式导航、巨幕/窗口化视频播放、YouTube VR 视频、WebXR 三维绘画、DP 拓展笔记本屏幕等等用法。
![]()
图|TECHEBLOG
总体来说,Android XR 是一套完全基于空间计算的视觉化的操作系统,与 Gemini 的能力搭配起来,为我们画出了一套未来智能眼镜的线路图。
更重要的是,虽然现在 Android XR 和 Android 17 是两个完全独立的系统,但就像 Android 和 ChromeOS 融合那样,它们未来大概率也会合二为一、变成一个「视觉智能系统」类似物。
Gemini 能接管一切吗
熬夜看完整场 Google I/O 之后,除了 Gemini 3.5 和它的小伙伴们带来的惊讶之外,我们难免也诧异于 AI 对于人类基础行为的革命。
无论是 Gemini 3.5 Flash、Antigravity、Gemini Spark,它们都隐藏在了一个简洁的「搜索对话框」背后,将搜索这一行为从「获取信息」进化成了「完成任务」。
![]()
图|Google Search
我们很难说这种进化在长期来看会对我们使用网络和人工智能产生什么影响,但我们至少可以从里面看到谷歌的野心——
为一套强悍的 AI 模型赋予前所未有丰富的功能,并且将这些功能集成进自己覆盖全球几十亿用户的网络产品里,共同提升这几十亿人的效率。
![]()
Gemini 同时切进所有这些网络产品,副作用是「应用」这个概念正在变薄——
Agent 越能办事,应用内部和搜索结果页的存在价值就越被稀释。
至于这层智能会把多少旧规则一起重写,现在没人能答,谷歌自己也答不上来。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Google I/O 彻底炸了!Gemini 3.5 Flash + Gemini Omni,AI 开始进入“执行时代”
今年的 Google I/O,终于有点“AI 革命”的味道了。以前很多发布会,本质上只是模型参数升级、跑分提升。但这次 Google 给人的感觉完全不一样。因为 Google 已经不只是想做“聊天 AI”。而是在全面推进:Agent、实时多模态、视频生成、AI 操作系统。
![]()
尤其是这次发布的:
- Gemini 3.5 Flash
- Gemini Omni
![]()
可以说,Google 正在疯狂提速。而且最关键的是:很多能力,普通用户现在就能直接免费体验。
接下来我们就来深度拆解一下:
- Gemini 3.5 Flash 到底强在哪?
- 为什么开发者开始疯狂关注它?
- Gemini Omni 到底意味着什么?
- 普通用户现在到底能免费用什么?
Gemini 3.5 Flash:Google 开始“掀桌子”
先说最重磅的:Gemini 3.5 Flash。Google 官方对它的定位非常明确:这是他们目前主打“高速 + Agent + Coding”的核心模型。
重点来了:它并不是 Pro 系列。而是 Flash 系列。但问题是:这次它的能力,已经开始逼近旗舰模型了。Google 官方甚至直接表示:Gemini 3.5 Flash 在很多 Agent 与编程任务中,已经超过 Gemini 3.1 Pro。这意味着什么?意味着:Google 已经开始重新定义“轻量模型”。
真正恐怖的:速度
这次 Gemini 3.5 Flash 最大的特点,其实不是推理能力。而是:快。非常快。Google 官方甚至表示:它的输出速度,最高可达到其它 Frontier 模型的 4 倍。
![]()
很多人可能觉得:“快一点有什么意义?”但实际上,这件事非常关键。因为现在 AI 行业最大的瓶颈之一:并不是模型不聪明。而是:太慢。
尤其是 AI Agent。
AI Agent 最怕什么?
举个例子。
如果你让 AI 自动完成一个任务:
- 搜索网页
- 分析内容
- 修改代码
- 生成 UI
- 调用 API
- 自动测试
- 修复错误
这可能是一个 20~30 步的工作流。如果每一步都等几秒,用户会直接崩溃。所以 Google 现在其实是在走另一条路线:不一定追求“最强推理”。但一定要:
- 更快
- 更低延迟
- 更适合 Agent
因为未来 AI 的核心竞争力,很可能已经不是聊天。而是:执行任务。
Gemini 3.5 Flash 已经开始“Agent 化”
Google 这次重点强调了几个方向:
- 自动代码修复
- 长链路任务执行
- 多步骤推理
- 多 Agent 协同
- UI 自动生成
- 自动化工作流
这些以前基本都是:Claude Opus、GPT-5、高级 Agent 系统才敢碰的领域。但现在,Flash 系列已经开始全面进入。而且速度更快。
这其实已经说明:Google 的目标,不是聊天机器人。而是:AI 执行系统。
更狠的是:Google 开始打价格战
除了速度,这次另一个非常夸张的点:成本。Google 官方明确表示:Gemini 3.5 Flash 的很多任务成本,甚至低于其它 Frontier 模型的一半。
这意味着什么?
意味着:
以后很多:
- AI SaaS
- AI IDE
- 自动化工具
- AI Agent 平台
都可能开始大量切换 Gemini。
因为 Agent 类任务,
Token 消耗极其恐怖。
如果模型:又贵、又慢、那根本没法商业化。而 Google 现在明显是:准备用 Flash 系列,直接卷爆整个市场。
普通用户现在能免费用什么?
这个才是很多人最关心的。目前 Gemini 3.5 Flash 已经开始陆续开放。
1、Gemini App
Google 已经确认:Gemini 3.5 Flash 正在全球上线。也就是说:普通用户现在已经可以直接体验。
下载方式
1、iOS版下载:【点击下载】
3、mac 版下载:【点击前往】
注意:如果你之前已经安装过,务必将其升级到最新版,才会显示 Gemini 3.5 Flash 模型
![]()
2、Google AI Studio(最推荐)
这个其实是目前最香的入口。
因为:
开发者可以直接:
- 免费测试 Prompt
- 调用 API
- 跑多模态任务
- 测试 Agent
- 做自动化
很多能力甚至比 Gemini 网页版开放更多。
而且:
Google AI Studio 现在对开发者其实非常友好。
Google AI Studio:【点击前往】
3、Android Studio
Google 现在已经开始疯狂推进 AI 编程生态。
未来 Android 开发,
很可能会彻底进入:
AI 辅助开发时代。
Android Studio 【点击前往】
![]()
真正炸裂的是:Gemini Omni
如果说 Gemini 3.5 Flash 是:高速 Agent 模型。那么 Gemini Omni:就是 Google 对未来 AI 的真正野心。Google 官方对它的描述非常直接:
“Create anything from any input.”
翻译过来就是:任何输入,生成任何输出。
![]()
什么叫 Any-to-Any?
简单来说:
你输入:
- 文字
- 图片
- 视频
- 音频
它都可以继续生成:
- 视频
- 图片
- 动画
- 音频
- 新内容
这已经不是传统意义上的“文生图”了。
而是:
真正的多模态生成系统。
举个例子
比如:
你上传一张照片。
它直接帮你生成动态视频。
你上传一段视频。
它可以:
- 自动改场景
- 修改人物
- 补全镜头
- 重做剧情
- 自动生成转场
甚至未来:
一句话改完整视频。
Gemini Omni 免费使用方式:
1、Gemini 网页版 【链接直达】
2、Google Flow 【链接直达】
3、Gemini APP :
1、iOS版下载:【点击下载】
![]()
Google 最恐怖的地方:不是模型
很多人忽略了一件事。
Google 最大的优势,
其实从来不是模型。
而是:
生态。
因为 Google 拥有:
- YouTube
- Android
- Chrome
- 搜索
- Workspace
现在 Google 已经开始把 Omni 接入:
- Gemini App
- YouTube Shorts
- Google Flow
这意味着:
Google 正在打通:
生成 → 编辑 → 分发 → 推荐
这一整套 AI 内容生态。
这个才是真正恐怖的地方。
AI 行业已经开始进入“执行时代”
过去两年,
AI 的核心逻辑是:
聊天。
但现在已经开始变了。
未来 AI 的核心竞争力:
可能不是“回答问题”。
而是:
真正替你完成任务。
包括:
- 自动写代码
- 自动剪视频
- 自动生成网站
- 自动运营内容
- 自动办公
- 自动工作流执行
而 Google,
现在明显正在疯狂推进这条路线。
最后总结
这次 Google I/O,
其实释放了一个非常明显的信号:
AI 行业,
已经开始从:
“聊天 AI”
进入:
“执行 AI”。
Gemini 3.5 Flash 的核心:
- 超高速
- 超低成本
- Agent 化
- 更适合工作流
而 Gemini Omni:
则是 Google 对未来多模态 AI 的真正布局。
未来的 AI,
可能不再只是陪你聊天。
而是:
真正帮你完成工作。