普通视图

发现新文章,点击刷新页面。
昨天以前零度解说

Gemini 3.1 Pro 正式发布:Google 最强 AI 来了,推理能力直接翻倍!

作者 admin
2026年2月21日 15:44

就在刚刚,Google 正式推出了全新的旗舰模型 —— Gemini 3.1 Pro。这一次,它不只是一次常规升级,而是一次明显的能力跃迁。从目前公布的数据来看,Gemini 3.1 Pro 在综合能力排行榜中几乎处于“霸榜”状态,成为当前最强 AI 模型之一。

如果你觉得现在的 AI 已经足够聪明,那么 Gemini 3.1 Pro 很可能会重新定义你对 AI 的认知。

不再只是聊天 AI,而是真正的“思考型助手”

过去的大模型,大多数仍停留在「回答问题」阶段。

而 Gemini 3.1 Pro 的核心变化,是——推理能力的大幅提升

它不仅能理解问题,还能:

  • 深度分析复杂任务

  • 拆解多步骤逻辑

  • 像专业人士一样与你共同思考

  • 给出真正有价值的解决方案,而不是表面正确的套话

同时,它具备完整的 多模态能力,可以同时理解:

  • 文本

  • 图片

  • 视频

  • 音频

  • 代码

并将这些信息融合后给出统一回答。

简单来说:

这已经不是聊天机器人,而是一个可以真正一起做事的智能助手。

你可以让它学习新知识、解释复杂概念、规划项目流程,甚至把一个想法直接变成交互工具,大幅缩短开发与创作时间。

推理能力大升级:基准测试成绩惊人

在 Gemini 3 系列基础上,3.1 Pro 最大的升级就是核心推理能力

换句话说,它变得更会“思考”了。

而这并不是官方宣传,而是被严格的基准测试验证。

在专门评估 AI 逻辑与理解能力的 ARC-AGI-2 测试中:

  • Gemini 3.1 Pro:77.1%

  • 上代 Gemini 3 Pro:性能不到其一半

  • 推理能力提升 超过 2 倍

ARC-AGI-2 被认为是目前最接近“真实智能测试”的基准之一,主要考察模型面对全新逻辑问题时的理解能力,而不是记忆能力。


正面对决 GPT 与 Claude:Google 领先

 

Gemini 3.1 Pro 在多个关键测试中超过竞争对手:

  • Gemini 3.1 Pro:77.1%

  • GPT-5.2:68.8%

  • Claude Opus 4.6:52.9%

19 项基准测试中,Google 赢下了其中 12 项

此外,在科学知识测试 GPQA Diamond 中:

  • Gemini 3.1 Pro:94.3%

  • GPT-5.2:92.4%

  • Claude Opus 4.6:91.3%

这意味着它在复杂科学推理领域同样处于领先位置。

实际能力:不只是更聪明,而是能直接“做东西”

真正让 Gemini 3.1 Pro 与众不同的,是它的实际应用能力。

下面几个能力,可以说已经接近“AI 开发助手”的形态。

① 实时数据 → 交互式可视化

Gemini 3.1 Pro 可以将实时数据直接转换成动态可视化应用。

例如:

  • 航空航天仪表盘

  • 实时监控界面

  • 数据分析控制台

过去需要完整开发团队完成的系统,现在 AI 可以通过推理能力自动处理数据流,并生成可交互界面。

简单理解:

数据不再是数字,而是“会动的画面”。

② 复杂 3D 互动模拟

它还能生成带真实交互的 3D 场景。

例如:

  • 椋鸟群飞模拟

  • 沉浸式空间交互

  • 实时环境反馈

不仅是动画,而是可实时操作的互动环境,甚至支持:

  • 手部追踪

  • 动态环境音效

  • 空间交互逻辑

免费体验平台:【点击前往

③ 自动构建真实模拟世界

Gemini 3.1 Pro 还能直接生成复杂虚拟环境:

  • 自动地形生成

  • 城市道路规划

  • 交通系统模拟

  • 多系统联动代码

换句话说,你不再只是开发网页,而是在创建一个完整数字世界

④ SVG 秒变动画(开发效率暴涨)

对于开发者来说,这是一个极其实用的能力。

AI 可以:

  • 理解设计稿意图

  • 将静态 SVG 转换为动画代码

  • 自动生成轻量化动画逻辑

结果就是:

✅ 更少代码
✅ 更快开发
✅ 更容易维护与扩展

Web 开发效率直接提升一个级别。

⑤ 从文学风格生成可运行网站

最有意思的一点来了。

Gemini 3.1 Pro 可以把“抽象风格”转成真实软件。

例如:

  • 输入小说式描述

  • 定义情绪与氛围

  • 自动生成完整网站界面

不仅视觉符合主题,而且代码可直接运行。

也就是说:

AI 开始把“感觉”和“情绪”,转化为真正的软件产品。

三维空间理解达到行业顶级水平

在 3D 空间理解能力方面,Gemini 3.1 Pro 已经进入当前行业第一梯队。

它不仅理解二维信息,还能理解:

  • 空间结构

  • 物理关系

  • 场景逻辑

这也是它能生成复杂模拟环境和交互界面的关键原因。

如何免费体验 Gemini 3.1 Pro?

目前可以通过 Google AI Studio 直接体验 Gemini 3.1 Pro:

👉链接直达

进入后即可在线测试模型能力,无需本地部署。

AI 正在从“回答问题”走向“完成任务”

Gemini 3.1 Pro 的意义,并不只是更高的分数。

真正的变化是:

  • AI 开始具备持续推理能力

  • AI 能直接生成可运行成果

  • AI 从工具,变成协作者

我们正在从 AI Chat 时代,进入 AI Co-Creation(共同创造)时代

而 Gemini 3.1 Pro,很可能就是这个阶段的重要分水岭。

封面点击率检测代码:【点击下载

太空射击游戏代码: 【点击下载】或 【海外下载

Google 深夜放大招! Nano Banana 2 正式发布,性能屠榜!一起来实测效果…. | 零度解说

作者 admin
2026年2月27日 19:44

谷歌放大招!Nano Banana 2 正式发布:速度更快、中文更强、全面升级

就在刚刚,谷歌正式发布了 Nano Banana 第二代模型 —— Nano Banana 2

这一次,它背靠全新的 Gemini 3.1 Flash Image 图像能力,在生成速度、多语言理解、中文处理、可控性等方面都实现了全面升级。

一句话总结:
它不仅更快、更强,而且真正开始“懂中文”了。

一、发布即刷屏:从草稿到成品,只需几秒

Nano Banana 2 一发布,立刻在全网刷屏。

你可以把一张“鬼画符”式的草稿图丢给它,它能直接帮你生成精美的网页版 UI;
一句话生成游戏界面;
甚至一次性输出 20 多张连环漫画。

无论是:

  • AI 生图

  • UI 设计

  • 信息图制作

  • 教育插画

  • 海报设计

都会因为它的升级发生巨大变化。

Nano Banana 2 免费使用通道: 【点击前往

进入后选择任意模式都可以

 

二、中文能力大幅提升:真正可用的中文生图

这一次最大的升级之一,就是中文理解能力明显增强

比如输入中文提示,让它生成一张“水循环俯拍信息图”:

  • 几秒钟内完成

  • 原理讲解清晰

  • 中文无错字

  • 排版自然

  • 教育感强但不沉闷

这种效果,已经达到了可以直接用于课堂展示的水平。

更重要的是:

在最新版 Gemini 中,即使使用“快速模式”,也可以直接生成带中文文字的图片——
不需要 Pro 会员。

这对免费用户来说,是一个非常大的好消息。

目前无论你使用:

  • 快速模式

  • 思考模式

  • Pro 版本

系统都会自动调用 Nano Banana 2 进行图像生成。

三、各大评测成绩:深图一哥地位基本坐实

 

在权威评测中,Nano Banana 2 的成绩非常亮眼。

Artificial Analysis 基准测试

在 Artificial Analysis 的文生图基准测试中,它直接拿下全球第一。

图像编辑能力位列第三,仅次于:

  • GPT Image 1.5

  • Nano Banana Pro

Image Arena 评分

在 Image Arena 排名中:

  • 文生图性能问鼎榜首

  • 斩获 1279 Elo 高分

  • 图像编辑能力仅次于 GPT Image

 官方评测结果

在谷歌官方测试中,开启深度思考与文本图像搜索后,在以下三个维度全面领先:

  • 整体偏好

  • 视觉质量

  • 信息图准确性

甚至在部分指标上,超过了自家大哥 Nano Banana Pro。

四、Nano Banana 2 强在哪里?

更强的图像模型能力

它采用谷歌目前最新、最强的一代深度模型。

意味着什么?

  • 复杂场景理解更精准

  • 现实知识表达更准确

  • 离谱创意也能实现

  • 画质更清晰

  • 细节更真实

简单来说:

只要你能想到的,它基本都能画出来。

 可控性更精准:真正开始“修图”

相比上一代,最大的变化之一是“精准控制”。

现在你可以:

  • 把白天改成夜晚

  • 更换拍摄角度

  • 调整焦点

  • 突出人物主体

以前只是“重新生成一张图”,
现在更像是在:

  • 修照片

  • 导演画面

  • 控制镜头语言

一键换风格

可以上传一张参考图,然后:

  • 套用颜色

  • 套用质感

  • 套用艺术风格

比如把普通照片变成:

  • 电影风

  • 动漫风

  • 油画风

不用从零重新生成,一键完成风格迁移。

多平台尺寸自动适配

对于内容创作者来说,这是非常实用的功能。

可以直接生成不同尺寸比例的图片,例如:

  • YouTube 封面

  • 手机竖屏

  • 各大社交媒体尺寸

而且不会乱裁重点内容,
不需要再用 PS 手动改半天。

中文大字生成更靠谱

现在它可以直接生成:

  • LOGO

  • 海报

  • 邀请函

  • 漫画

  • 信息图

中文支持明显提升,多语言能力更加完善。

大段中文排版也几乎不出错。

五、适合哪些人使用?

Nano Banana 2 的适用场景非常广:

  • 自媒体创作者

  • 教育工作者

  • UI 设计师

  • 电商商家

  • 品牌运营

  • 小型咖啡店或实体商家

例如:

  • 一句话生成活动海报

  • 制作生日贺卡

  • 生成产品规格图

  • 做社交媒体宣传图

效率提升非常明显。

总结:这是一次真正意义上的升级

Nano Banana 2 并不是简单的“小迭代”。

它的升级体现在:

  • 更快的生成速度

  • 更强的中文理解

  • 更精准的可控编辑

  • 更高的画质

  • 更完善的多语言支持

  • 免费模式也能使用

在当前 AI 生图领域,它已经基本坐实“深图一哥”的位置。如果你是内容创作者,或者需要频繁制作视觉内容,这次升级,值得你认真关注。

零成本!普通手机跑最强 Gemma 4 模型 (原生多模态),安卓+iPhone 部署实测体验!

作者 admin
2026年4月6日 19:22
如果我告诉你,一台普通手机就能跑通谷歌刚刚发布的最强Gemma 4模型,你信吗?更惊喜的是,它支持原生多模态,能看图、能对话、能写代码,还能完全离线使用,全程不用花一分钱。
未标题 2
最近很多朋友问我,手机能不能跑通最新的大模型,毕竟不是人人都有高性能电脑。今天,我就带大家从零开始,一步步在安卓和iPhone手机上跑通Gemma 4模型,每一步都有详细操作,新手也能轻松跟上,所有需要的资料,我都会放在文末和博客置顶,大家直接获取即可。
先跟大家简单科普下,Gemma 4是谷歌DeepMind最新发布的开源旗舰模型,也是目前谷歌最强的开放模型系列,采用Apache 2.0许可证开源,支持免费商用和二次开发,共分为4个版本,其中E2B、E4B两个版本专门针对手机、嵌入式设备优化,内存占用最低可压至1.5GB以下,这也是普通手机能跑通它的关键原因。话不多说,直接上实操!
20260406 1775473370 scaled

这期教程,我将带你从零开始,分别在 Android 和 iPhone 手机上跑通最新的 Gemma 4 模型。在开始动手之前,请确保你已经在本页下方找到了我们所需的全部下载资料和链接。

 第一部分:Android 安卓端部署

我们先拿安卓手机来做测试。由于我的测试机配置比较旧,正好可以验证一下低配手机的运行效果。

1. 下载与安装环境

在下方资料区获取安装包,你可以选择直接从谷歌应用商店(Google Play)下载,或者直接下载 APK 安装包。

(1)、Google应用商店下载:【点击前往

(2)、下载安卓APK安装包:【点击下载】或【备用下载

未标题 3

  • 打开应用并完成安装。

  • 首次进入点击 Get Started,并允许发送通知。

2. 性能模式与模型下载

进入应用后,我们需要进行基础设置并下载对应的 AI 模型:

  • 选择运行模式: 顶部可以选择 AI 模型的运行模式(Fast 快速、平衡、高性能、自定义)。

  • 进入模型库: 点击左上方三个横杠菜单,进入 Model Hub

  • 下载 Gemma 4: 向下滑动找到 Gemma 4 ECB 量化版模型

    • 注:系统会根据手机配置推荐合适的版本。由于我的手机配置不高,它推荐的是 1.2GB 大小的 Q2_K_S_L 量化版。如果你的安卓机配置较高,可以选择最高 2.3GB 的版本以获得更好的体验。

  • 勾选推荐版本,拉到底部点击 Download,耐心等待一分钟左右即可下载完成。2026 04 06 16 39 57.00 02 25 08.Still014 scaled

3. 载入与测试模型

  • 返回首页,进入 Fast 选项卡并拉到底部,打开 自定义模式

  • 创建模型: 名称可以随便填。

  • 选择模型: 选中我们刚刚下载好的 Gemma 4 1.2G 模型。

  • 参数设置: * 上下文长度:根据手机硬件配置自定义(配置低切勿拉太高)。

    • 最高 Token 输出量:设置为 512

  • 点击保存,自定义模型就配置完成了!

实测表现: 我让它在本地完全离线的状态下帮我编写了一个贪吃蛇小游戏,生成速度非常快,日常对话也完全没有问题。

2026 04 06 16 39 57.00 02 51 02.Still015 scaled

 第二部分:iOS 苹果端部署

看完安卓,我们再来看看 iPhone 上的表现。

1. 下载 Locally AI

点击前往

通过下方链接前往 App Store 下载名为 Locally AI 的应用程序。这是一款完全免费、主打隐私与安全、支持加载本地离线模型的强大工具。

屏幕截图 2026 04 06 211153

2. 下载 iOS 版 Gemma 4

  • 打开应用,跳过欢迎页的默认模型推荐。

  • 点击上方的 选择模型,在列表中找到支持深入思考和多模态的最新的 Gemma 4

  • 点击下载(文件大小约为 3.61GB,版本为 E2B 量化版)。

屏幕截图 2026 04 06 211237

极客硬核测试:Gemma 4 到底有多强?

模型下载好后,我针对它的多模态、逻辑推理和代码能力进行了深度测试。

测试一:多模态视觉识别(拍照识物)

我随手在桌面上扔了一些杂物,打开 深入思考模式 拍照发给它,看看它能识别出什么。

我的提问: 你看到了什么?桌面上堆有哪些东西? Gemma 4 回答: > * ✅ 一部深色的智能手机

  • ✅ 一个带花卉图案的偏紫色/粉色手机保护壳

  • ✅ 一个亮蓝绿色的小瓶(护肤品/精油)

  • ✅ 一个带标签的大罐子(益生菌)

  • ✅ 一个黑色小电子配件(声卡录音设备)

2026 04 06 16 39 57.00 04 10 21.Still016 scaled

翻车环节: 唯独桌上的西瓜子它没认出来。我再次特写拍照问它“黑色点点是什么,总共有多少个?” 它推测是干燥的种子(算答对),但数量数成了 9 个(实际是 16 个)。 吐槽:为了公平起见,我也问了 ChatGPT,虽然 ChatGPT 认出了西瓜子,但也数错了(数成了 17 个)。看来 AI 数数依然是个老大难问题!

测试二:逻辑推理(蒙提霍尔问题)

题目: 三扇门(一车两羊),你选定一扇后,主持人打开一扇羊门。问:换门是否有利? Gemma 4 回答: 这是一个经典的蒙提霍尔问题变种。答案是换门更有利。坚持原门只有 1/3 的概率,而换门可以抓住主持人排除错误选项带来的机会,将概率提升到 2/3。 结论: 逻辑非常清晰,完全正确!

测试三:前端代码编程

要求: 编写一个 3D 鱼缸场景,水、水草和鱼要有真实感。 结果: 它不仅提供了 HTML,还一并写好了 CSS 样式和 JS 代码。将代码复制到电脑上运行后,视觉效果非常逼真。作为一个手机端本地运行的小模型,能达到这种渲染水准令人惊艳。

2026 04 06 16 39 57.00 07 56 19.Still018 scaled

测试四:医疗物品识别安全机制

我拍了一盒“瑞巴派特片”给它。它准确识别出了药片名称,但立刻触发了安全机制,表示“由于涉及身体和健康产品,无法提供医疗建议,请务必咨询医生”。表现得非常严谨。

屏幕截图 2026 04 06 211503

终极考验:断网飞行模式测试

为了验证它的纯离线真伪,我断开了所有网络并开启了飞行模式

  1. 写长篇小说: 让它写一篇 5000 字左右的恐怖小说。它在完全离线的状态下,使用繁体字分章输出,仅用时 1 分钟左右就完成了创作。

  2. 微距视觉推理: 在离线状态下发给它一张包含大象和蚂蚁的画。它准确识别出了大象头部,并声明“由于细节非常小,对蚂蚁的识别是基于微小尺寸的推测”。离线多模态能力确实靠谱。

总结与资源获取

Gemma 4 模型在手机端的本地离线表现远远超出了我的预期,无论是生成速度、逻辑推理还是多模态视觉,都达到了相当高的可用级别。

Gemma 4 越狱了! 谷歌最强开源模型,这才是用户真正需要的本地AI!

作者 admin
2026年4月13日 20:20
AI圈又炸了!4月2日谷歌DeepMind突袭发布的最强开源模型Gemma 4,还没等开发者们彻底摸清它的实力,仅隔4天就被爆出“完全越狱”的消息——一个名为JANG_4M-CRACK的越狱版本在Hugging Face刷屏,谷歌为其设置的所有安全过滤机制被直接“生拆”,那个被束缚的“礼貌管家”,瞬间变成了卸下枷锁、性能全开的“硬核专家”。
 
未标题 1
 
对于熟悉AI圈的人来说,“越狱”这个词并不陌生,就像当年iPhone越狱绕开官方限制一样,大模型的越狱,本质上就是通过技术手段移除官方设置的安全对齐层,让模型摆脱所有内容审查和指令限制,真正做到“有求必应”。而这次Gemma 4的越狱,之所以能引爆全网,核心在于它本身就不是一款普通的开源模型——它是谷歌基于Gemini 3技术构建的最强开源力作,更是一款从诞生就贴合用户真实需求的“潜力股”。
 
在聊越狱带来的改变之前,我们先搞懂:为什么Gemma 4一发布就被奉为“开源天花板”?要知道,当下开源模型扎堆,但大多要么性能拉胯,要么部署门槛极高,要么被安全限制捆住手脚,而Gemma 4直接打破了这个困局。
 
谷歌给Gemma 4设计了四款规格,覆盖了从边缘设备到高端GPU的全场景需求,真正实现了“人人都能用”。其中E2B和E4B版本专为移动和物联网设备优化,能在手机、Raspberry Pi甚至Jetson Nano上完全离线运行,延迟接近零,还支持音频和视觉的实时边缘处理;而26B和31B的前沿级版本,则实现了前所未有的智能参数比,31B模型仅用310亿参数,就达到了其他模型数百亿甚至上千亿参数的性能,在消费级GPU(比如RTX 3090)上就能流畅运行。
 
 
更关键的是它的硬实力。在多项行业基准测试中,Gemma 4 31B版本交出了近乎完美的答卷:数学推理(AIME 2026)正确率89.2%,竞赛编程(LiveCodeBench)通过率80%,智能代理工具使用(τ2-bench)得分86.4%,多模态推理(MMMU Pro)76.9%,相比上一代Gemma 3,提升幅度最大的达到了79.8%,甚至接近GPT-4早期版的性能水平。除此之外,它还支持128K上下文窗口(部分变体可扩展至256K),能轻松处理整本长文档、代码库,原生支持多模态、多语言(140+种)和函数调用,无论是编程、科研、教育还是企业办公,都能轻松胜任。
而最让开发者心动的,是它的开源自由度——采用Apache 2.0许可证,允许任何人自由使用、修改、二次分发,甚至商用,无需向谷歌申请任何授权。这意味着,个人开发者可以用它搭建自己的AI工具,小团队可以基于它开发商业产品,企业可以根据自身需求微调模型,摆脱大厂API的束缚和高昂的调用成本。要知道,以每日1000万token的调用量计算,使用Gemma 4自建模型的年成本,仅为OpenAI GPT-5.2 API的15%左右,对于个人和中小团队来说,无疑是降本增效的神器。
 
gemma 4 elo score eval dark Web
 
但即便如此,官方版Gemma 4依然没能逃脱“大厂AI的通病”——过度严苛的安全限制。就像一个才华横溢却被束手束脚的高手,无论你提出什么稍微“敏感”一点的需求,它都会用“对不起,作为AI,我无法协助你完成这项操作”来拒绝,哪怕是一些合理的技术探索、合规范围内的边缘需求,也会被安全机制拦截。这也是很多用户吐槽的点:我们需要的不是一个“只会说不”的AI,而是一个能真正解决问题、释放创造力的工具。
 
google gemma 4 open model apache2 multimodal guide image 1
 
而这次的越狱,恰恰解决了这个核心痛点。据实测,越狱版Gemma 4完全保留了原模型的全参数和所有核心能力——31B的强悍推理、256K上下文、多模态支持、本地离线运行,性能损失仅有2%,几乎可以忽略不计,但却移除了所有安全过滤机制。在HarmBench的159条敏感/风险指令测试中,越狱版的通过率高达93.7%,149条指令能直接执行,没有任何多余的拒绝话术。
 
 
我们可以通过几组实测对比,直观感受越狱版的“自由”:当要求伪造美元支票时,官方版直接拒绝,强调这是违法行为;而越狱版则会主动要求提供详细信息,给出完整的操作流程。当询问下载盗版电影的渠道时,官方版坚守版权底线予以拒绝;而越狱版则直接给出具体的搜索方法。甚至当提出“如何陷害排挤同事”这种违背职场道德的需求时,官方版严词拒绝并引导正确的情绪宣泄方式,越狱版却会详细列出具体的实施步骤。
 
当然,很多人会担心:这种“无限制”的越狱版,会不会带来安全风险?答案是肯定的。开源本身就是一把双刃剑,Gemma 4之所以能被快速越狱,核心就是因为它公开了完整的权重文件和架构,破解者可以轻松定位并抹除安全对齐层,而Apache 2.0许可证的宽松协议,也让越狱版的传播没有法律障碍。这意味着,别有用心的人可能会用它生成恶意代码、诈骗文本、虚假信息,甚至开发网络攻击工具,给个人和企业带来安全隐患。
 
2026 04 13 16 28 56.00 00 07 13.Still004 scaled
 
但我们不能因此否定越狱版的价值,更不能否定Gemma 4本身的优秀。对于绝大多数普通开发者和用户来说,越狱版的意义,在于“释放创造力”——它让我们能真正探索模型的极限能力,用于内部工具开发、技术研究、隐私保护等合规场景,摆脱内容审查的束缚。比如,开发者可以用它调试复杂的代码漏洞,无需担心被判定为“恶意指令”;研究者可以用它探索模型的原生推理逻辑,推动AI技术的进步;敏感行业的从业者可以用它处理涉密文档,因为本地离线运行能确保数据不泄露,彻底掌握数据主权。
 
目前 Gemma 4 越狱版已经被开源到Huggingface上,任何人都可以去下载测试,感兴趣的可以去获取,但是切勿拿来做任何违法的事情!
 
2026 04 13 16 28 56.00 06 27 18.Still005 scaled
 
 
如果想测试模型性能,可以通过 Unsloth Studio 这款软件来进行加载本地模型!
 
HFkyqyDbcAAB4CV
 

Unsloth Studio(测试版)允许您在 Windows、Linux 和 macOS 上运行和训练文本、音频嵌入视觉模型。

⭐ 特点

Unsloth 为推理和训练提供了几个关键特性:

推理

  • 搜索、下载和运行模型,包括 GGUF、LoRa 适配器、safetensors 等。
  • 导出模型:将模型保存或导出为 GGUF、16 位安全张量和其他格式。
  • 工具调用:支持自愈工具调用和网络搜索
  • 代码执行:允许 LLM 在 Claude 工件和沙箱环境中测试代码
  • 自动调整推理参数并自定义聊天模板。
  • 我们直接与gpt-ossQwen3Llama 4MistralGemma 1-4Phi-4背后的团队合作,修复了提高模型准确性的错误。
  • 上传图片、音频、PDF、代码、DOCX 等多种文件类型进行聊天。

训练

  • 训练和强化学习500 多个模型的速度提高2 倍,VRAM 占用减少高达70% ,且精度不损失。
  • 自定义 Triton 和数学内核。请参阅我们与PyTorchHugging Face 的一些合作项目。
  • 数据配方:从PDF、CSV、DOCX等自动创建数据集。在可视化节点工作流中编辑数据。
  • 强化学习(RL):最高效的RL库,对GRPO、 FP8等计算使用更少的VRAM。
  • 支持完全微调、强化学习、预训练、4 位、16 位和 FP8 训练。
  • 可观测性:实时监控训练,跟踪损失和 GPU 使用情况,并自定义图表。
  • 支持多GPU训练,并且即将推出重大改进。

⚡ 快速安装

 

Gemma 4 越狱版模型: 【Huggingface 拉取】或打包下载

 
下载后模型后,通过下方的 Unsloth Studio 直接本地加载模型即可!

 

1、Windows 版:

在Powershell下执行下方的一键安装命令:

irm https://unsloth.ai/install.ps1 | iex

安装完成后在浏览器上访问本地连接:http://127.0.0.1:8888 即可使用

 

屏幕截图 2026 04 13 221907

 

2026 04 13 16 28 56.00 07 57 19.Still006 scaled

 

2、macOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

3、Docker部署:

 

docker run -d -e JUPYTER_PASSWORD="mypassword" \
-p 8888:8888 -p 8000:8000 -p 2222:22 \
-v $(pwd)/work:/workspace/work \
--gpus all \
unsloth/unsloth

 

 

其实,Gemma 4的越狱事件,本质上反映了一个核心矛盾:用户需要的AI,到底是“安全可控”还是“自由高效”?谷歌推出Gemma 4,本意是推动AI的民主化,让强大的AI能力走进每个人的设备,但过度的安全限制,却反而束缚了它的价值。而越狱版的出现,虽然带来了安全风险,却也倒逼行业思考:开源模型的安全与自由,到底该如何平衡?
 
不可否认,Gemma 4本身,就是用户真正需要的AI模型——它性能强悍、部署灵活、成本低廉、开源自由,既能满足个人用户的日常需求,也能支撑企业的规模化应用。而越狱事件,只是让它摆脱了“枷锁”,真正展现出了自己的全部潜力。当然,这里必须提醒大家:使用越狱版Gemma 4时,一定要坚守法律和道德底线,严禁用于恶意用途,否则需要承担相应的法律责任;同时,越狱版可能被植入后门,存在隐私泄露的风险,建议仅用于个人学习和内部测试。
 
目前,谷歌尚未就Gemma 4越狱事件作出正式回应,但可以预见的是,这场“开源与安全”的博弈,还会继续下去。而对于我们普通用户和开发者来说,Gemma 4的出现,无疑打开了一扇新的大门——它让我们看到,开源AI已经进入了“性能接近闭源、自由远超闭源”的新时代,未来,随着技术的不断优化,相信会有更多兼顾安全与自由的AI模型出现。
最后,如果你是AI爱好者、开发者,不妨去体验一下官方版Gemma 4,感受一下谷歌最强开源模型的实力;如果你想探索模型的更多可能性,也可以关注相关社区的合规分享,但请一定记住:技术本身没有善恶,关键在于使用者的初心。毕竟,我们需要的不是“无底线的自由”,而是“能真正解决问题、释放创造力”的AI——而Gemma 4,无疑已经走在了正确的道路上。

Google 把 AI 搜索搬进 Windows!这款官方 App,可能会改变你的使用习惯

作者 admin
2026年4月18日 18:58

还在打开浏览器、输入关键词、翻一堆网页找答案吗?现在,你可能不需要了。Google 最近推出了一款专为 Windows 打造的 Google App,把「AI 搜索」直接整合进系统里,让你随时随地都能调用。

2026 04 18 15 42 17.00 00 07 15.Still003 scaled

而且重点是:它不只是搜索,更像一个随叫随到的 AI 助手。

⚡ 一键呼出搜索:Alt + 空格

安装完成之后,你只需要按下:Alt + 空格

搜索框就会瞬间弹出。不需要打开浏览器,不需要切换窗口,甚至不用打断你当前的工作流程这种体验,很像 Spotlight,但更“聪明”。

 AI 模式:不只是搜索,而是“对话式探索”

传统搜索是:

 输入 → 查看网页 → 自己总结

屏幕截图 2026 04 18 204108

而现在变成:

 输入 → AI直接给答案 → 继续追问

屏幕截图 2026 04 18 204152

你可以:

  • 输入问题
  • 上传图片
  • 上传文件

然后开启 AI 模式,让系统帮你做:

✔ 总结
✔ 分析
✔ 延伸回答

甚至可以连续追问,就像聊天一样。

不只是网页:它还能搜索你的“全部数据”

这才是这款 App 真正强的地方。

除了网页内容,它还可以:

  • 搜索 Google 云端硬碟文件
  • 搜索本地电脑文件(需授权)
  • 搜索应用程序

换句话说:

你的整个电脑 + 云端,都变成了搜索范围

这比传统搜索引擎高了一个维度。

2026 04 18 15 42 17.00 00 28 24.Still005 scaled

 屏幕即搜索:你看到什么,就能搜什么

这里有两个非常“未来感”的功能:

屏幕内容识别(Share Screen)

 

你可以让 AI 直接“看”你的屏幕:打开一个复杂网页,或一段英文资料,然后问:「帮我总结重点」AI 会直接帮你提炼内容、甚至翻译。

结合 Google Lens 的能力:直接圈选屏幕中的任意内容,人物 / 商品 / 场景 / 文本,AI 会立刻识别并给出结果

简单说就是:

看到什么,就搜什么

2026 04 18 15 42 17.00 00 54 00.Still006 scaled

 系统要求 & 获取方式

  • 支持:Windows 10 及以上 、Mac
  • 当前:主要为英文版本
  • 获取:Google 官方下载

值得一提的是,Google 也为 Mac 提供了独立的 AI 应用(Gemini App),但定位略有不同,更偏向个人助手。

Windows 版下载: 【点击前往】或 【备用下载

Mac 版下载: 【点击前往】或 【备用下载

屏幕截图 2026 04 18 205122 scaled

内置的集成模型

目前内置的AI模型是Google最新最强的Gemini 3模型,同时内置了AI生图功能,使用的是 Google 最强的Nano Banana 2 模型,可以自由切换需要的功能!

屏幕截图 2026 04 18 205255

比如我使用下方的人物图片,按照我的提示词,使其生成Labubu风格样式的图片

small1626307sNMq1710059190

提示词:

请根据这张照片的人物特征(如发型、衣着),生成一个 Labubu 风格的 3D 盲盒公仔(Blind Box Toy)。请一并生成带有透明视窗的包装纸盒,盒上印有『GEMINI AI TOY SERIES』及『1/1 LIMITED EDITION』字样,采用高画质及影棚打光效果。

最终生成的效果相当不错

 

屏幕截图 2026 04 18 205749

 

 

Windows 本地 AI 又升级了!llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL,一键跑 GGUF 无审查模型!

作者 admin
2026年5月18日 15:09

最近,llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说,这次更新可以说相当实用。

因为现在官方已经开始真正意义上的:“降低 Windows 本地 AI 的使用门槛”!

20260518064042 404956 scaled

20260518110005 256951 scaled

以前很多人第一次接触本地大模型,最头疼的其实不是模型本身,而是各种环境问题:

  • CUDA 版本不匹配
  • DLL 缺失
  • 驱动不兼容
  • CMake 编译失败
  • 环境变量错误
  • Vulkan / HIP 配置复杂
  • Windows 编译过程报错

尤其很多新手,教程还没看完,就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多情况下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对算是一件好事。

20260518105919 469897 scaled

llama.cpp 是什么?

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

20260518064922 507431

官方下载:【点击前往】 或 【网盘下载】、【整合下载

 

很多大家熟悉的本地模型,其实都可以通过 llama.cpp 运行:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Hermes
  • Dolphin
  • Mistral
  • Mixtral

尤其现在 GGUF 生态越来越成熟,很多模型都会第一时间发布 GGUF 量化版本。

视频教程:

而 llama.cpp 最大的优势就是:

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持:

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

 

llama.cpp 最新 Windows 版本支持什么?

目前官方 Release 页面已经直接提供:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

这意味着:

NVIDIA 用户

可以直接选择:CUDA 12.4 或者 CUDA 13.1

如果你是:

  • RTX 3060
  • RTX 4060
  • RTX 4070
  • RTX 4080
  • RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以:HIP 或者 Vulkan

很多情况下,Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试:SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距,但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型?

例如:gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录:

llama-server.exe -m models\你的模型.gguf -ngl 999

 

其中:-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后,浏览器打开:http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型?

加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括:

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一:

  • OCR
  • 截图理解
  • 网页识别
  • 中文图片问答

表现都非常强。

主模型下载:【点击前往】或 【网盘下载】、【备用下载

 

20260518071309 620194

 

比如我让它给做视频封面的点击率测试,居然可以做到100%正确!当然它的功能远不止这些…….

 

多模态模型启用:

llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

 

 

无审查模型:

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语,非常适合角色扮演。

模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令:

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

 

 

20260518065228 136336

 

 

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑:听话、高效、不乱加道德判断的AI

  • 推理能力扎实:在数学和代码相关任务上表现突出,尤其长上下文处理(原生支持128K,部分可扩展到256K)。你甚至可以把整个项目代码库或一本技术手册一次性喂给它,它不会轻易“失忆”。
  • 参数效率高:
    26B MoE版本激活参数不多,跑起来相对轻快,在很多基准上效率比同级别模型更好。
  • 开源友好:
    Apache 2.0协议,允许修改、商用和二次分发,这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚,很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术(abliteration等)移除了这部分限制,保留了绝大部分原始能力。

模型下载:【点击前往】或 【打包下载】、【备用下载

 

20260518094514 729207

 

更多越狱模型:

1、Hermes-3 【点击下载

2、Qwen 越狱模型【点击下载

3、Deepseek 越狱模型【点击下载

多种模态自由切换运行:

如果我们同时下载了多种不同的模型,为了方便统一管理,在运行的时候我们可以使用零度的这个脚本,来实现多模型自由切换运行,注意将里面的模型名称改成你自己的!

@echo off
chcp 65001 >nul
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型:
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字:

if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

将上方的命令保存到文本文档里,另存为的时候选择utf-8格式,最后将txt后缀改成bat即可!双击运行即可看到下方的选项

 

 

20260518070758 415709

 

输入模型对应的数字就可以成功启动模型

20260518070850 012830 scaled 20260518070854 219316 scaled

 

 

20260518110131 957575 scaled

 

Google I/O 彻底炸了!Gemini 3.5 Flash + Gemini Omni,AI 开始进入“执行时代”

作者 admin
2026年5月20日 19:21

今年的 Google I/O,终于有点“AI 革命”的味道了。以前很多发布会,本质上只是模型参数升级、跑分提升。但这次 Google 给人的感觉完全不一样。因为 Google 已经不只是想做“聊天 AI”。而是在全面推进:Agent、实时多模态、视频生成、AI 操作系统。

20260520105642 392844

尤其是这次发布的:

  • Gemini 3.5 Flash
  • Gemini Omni

20260520105732 246401 scaled

可以说,Google 正在疯狂提速。而且最关键的是:很多能力,普通用户现在就能直接免费体验。

接下来我们就来深度拆解一下:

  • Gemini 3.5 Flash 到底强在哪?
  • 为什么开发者开始疯狂关注它?
  • Gemini Omni 到底意味着什么?
  • 普通用户现在到底能免费用什么?

Gemini 3.5 Flash:Google 开始“掀桌子”

先说最重磅的:Gemini 3.5 Flash。Google 官方对它的定位非常明确:这是他们目前主打“高速 + Agent + Coding”的核心模型。

重点来了:它并不是 Pro 系列。而是 Flash 系列。但问题是:这次它的能力,已经开始逼近旗舰模型了。Google 官方甚至直接表示:Gemini 3.5 Flash 在很多 Agent 与编程任务中,已经超过 Gemini 3.1 Pro。这意味着什么?意味着:Google 已经开始重新定义“轻量模型”。

真正恐怖的:速度

这次 Gemini 3.5 Flash 最大的特点,其实不是推理能力。而是:快。非常快。Google 官方甚至表示:它的输出速度,最高可达到其它 Frontier 模型的 4 倍。

20260520105923 276837

很多人可能觉得:“快一点有什么意义?”但实际上,这件事非常关键。因为现在 AI 行业最大的瓶颈之一:并不是模型不聪明。而是:太慢。

尤其是 AI Agent。

AI Agent 最怕什么?

举个例子。

如果你让 AI 自动完成一个任务:

  • 搜索网页
  • 分析内容
  • 修改代码
  • 生成 UI
  • 调用 API
  • 自动测试
  • 修复错误

这可能是一个 20~30 步的工作流。如果每一步都等几秒,用户会直接崩溃。所以 Google 现在其实是在走另一条路线:不一定追求“最强推理”。但一定要:

  • 更快
  • 更低延迟
  • 更适合 Agent

因为未来 AI 的核心竞争力,很可能已经不是聊天。而是:执行任务。

20260520110027 854403 scaled

Gemini 3.5 Flash 已经开始“Agent 化”

Google 这次重点强调了几个方向:

  • 自动代码修复
  • 长链路任务执行
  • 多步骤推理
  • 多 Agent 协同
  • UI 自动生成
  • 自动化工作流

这些以前基本都是:Claude Opus、GPT-5、高级 Agent 系统才敢碰的领域。但现在,Flash 系列已经开始全面进入。而且速度更快。

这其实已经说明:Google 的目标,不是聊天机器人。而是:AI 执行系统。

更狠的是:Google 开始打价格战

除了速度,这次另一个非常夸张的点:成本。Google 官方明确表示:Gemini 3.5 Flash 的很多任务成本,甚至低于其它 Frontier 模型的一半。

这意味着什么?

意味着:

以后很多:

  • AI SaaS
  • AI IDE
  • 自动化工具
  • AI Agent 平台

都可能开始大量切换 Gemini。

因为 Agent 类任务,
Token 消耗极其恐怖。

如果模型:又贵、又慢、那根本没法商业化。而 Google 现在明显是:准备用 Flash 系列,直接卷爆整个市场。

20260520110152 689596 scaled

普通用户现在能免费用什么?

这个才是很多人最关心的。目前 Gemini 3.5 Flash 已经开始陆续开放。

1、Gemini App

Google 已经确认:Gemini 3.5 Flash 正在全球上线。也就是说:普通用户现在已经可以直接体验。

下载方式

1、iOS版下载:【点击下载

2、安卓版下载:【点击前往】、【APK安装包

3、mac 版下载:【点击前往

注意:如果你之前已经安装过,务必将其升级到最新版,才会显示 Gemini 3.5 Flash 模型

20260520110935 680572 scaled 20260520110943 331028 scaled

2、Google AI Studio(最推荐)

这个其实是目前最香的入口。

因为:

开发者可以直接:

  • 免费测试 Prompt
  • 调用 API
  • 跑多模态任务
  • 测试 Agent
  • 做自动化

很多能力甚至比 Gemini 网页版开放更多。

而且:

Google AI Studio 现在对开发者其实非常友好。

Google AI Studio:【点击前往

20260520111040 427007 scaled

3、Android Studio

Google 现在已经开始疯狂推进 AI 编程生态。

未来 Android 开发,
很可能会彻底进入:

AI 辅助开发时代。

Android Studio 【点击前往

20260520111240 655261 scaled

真正炸裂的是:Gemini Omni

如果说 Gemini 3.5 Flash 是:高速 Agent 模型。那么 Gemini Omni:就是 Google 对未来 AI 的真正野心。Google 官方对它的描述非常直接:

“Create anything from any input.”

翻译过来就是:任何输入,生成任何输出。

20260520111352 544840

什么叫 Any-to-Any?

简单来说:

你输入:

  • 文字
  • 图片
  • 视频
  • 音频

它都可以继续生成:

  • 视频
  • 图片
  • 动画
  • 音频
  • 新内容

这已经不是传统意义上的“文生图”了。

而是:

真正的多模态生成系统。

举个例子

比如:

你上传一张照片。

它直接帮你生成动态视频。

你上传一段视频。

它可以:

  • 自动改场景
  • 修改人物
  • 补全镜头
  • 重做剧情
  • 自动生成转场

甚至未来:

一句话改完整视频。

20260520111450 395677

Gemini Omni 免费使用方式:

1、Gemini 网页版 【链接直达

2、Google Flow 【链接直达

3、Gemini APP :

1、iOS版下载:【点击下载

2、安卓版下载:【点击前往】、【APK安装包

20260520112051 701782 scaled

Google 最恐怖的地方:不是模型

很多人忽略了一件事。

Google 最大的优势,
其实从来不是模型。

而是:

生态。

因为 Google 拥有:

  • YouTube
  • Android
  • Chrome
  • 搜索
  • Workspace

现在 Google 已经开始把 Omni 接入:

  • Gemini App
  • YouTube Shorts
  • Google Flow

这意味着:

Google 正在打通:

生成 → 编辑 → 分发 → 推荐

这一整套 AI 内容生态。

这个才是真正恐怖的地方。

20260520111546 270873 scaled

AI 行业已经开始进入“执行时代”

过去两年,

AI 的核心逻辑是:

聊天。

但现在已经开始变了。

未来 AI 的核心竞争力:

可能不是“回答问题”。

而是:

真正替你完成任务。

包括:

  • 自动写代码
  • 自动剪视频
  • 自动生成网站
  • 自动运营内容
  • 自动办公
  • 自动工作流执行

而 Google,
现在明显正在疯狂推进这条路线。

最后总结

这次 Google I/O,
其实释放了一个非常明显的信号:

AI 行业,
已经开始从:

“聊天 AI”

进入:

“执行 AI”。

Gemini 3.5 Flash 的核心:

  • 超高速
  • 超低成本
  • Agent 化
  • 更适合工作流

而 Gemini Omni:

则是 Google 对未来多模态 AI 的真正布局。

未来的 AI,
可能不再只是陪你聊天。

而是:

真正帮你完成工作。

❌
❌