普通视图

发现新文章，点击刷新页面。

昨天以前首页

零度解说
谷歌正式发布 Gemma 4 ：最强开源本地大模型，支持多模态+离线运行，附部署教程！
2026年4月4日 19:28

谷歌正式发布 Gemma 4 ：最强开源本地大模型，支持多模态+离线运行，附部署教程！

零度解说

作者 admin

2026年4月4日 19:28

就在昨天，谷歌正式发布了迄今为止最智能的开源大模型 —— Gemma 4。这次发布可以说在AI圈引发了不小的轰动，因为它主打两个关键词：

本地运行
多模态能力

一经上线，评价普遍非常高，甚至被认为是当前最值得关注的开源模型之一。

2026 04 04 14 46 49.00 00 08 07.Still006 scaled

一、Gemma 4 有哪些版本？

这次谷歌一共推出了 4个不同规模的模型版本，覆盖从手机到高端GPU的全场景使用。

轻量级（移动端 / IoT）

2B（20亿参数）
4B（40亿参数）

特点：

更低延迟
强调多模态能力
可运行在手机甚至物联网设备上

高性能（本地GPU）

26B（专家混合模型）
31B（稠密模型）

特点：

支持复杂推理
可用于编程助手、Agent系统
完全支持离线运行

二、性能到底有多强？

谷歌表示：
Gemma 4 在“单位参数智能水平”上达到了前所未有的高度。

在 Arena-Hard 排行榜中：

31B → 排名第3
26B → 排名第6

20260404 1775301224

甚至超过了一些规模大20倍的模型。

这意味着：
效率 > 参数量，真正实现“小模型干大事”

20260404 1775301175

三、核心能力一览

Gemma 4 不只是一个文本模型，它已经是一个完整的 AI 系统能力集合：

多模态能力

图像识别（OCR）
视频理解
音频输入（小模型支持）

编程能力

离线代码生成
Web开发支持
自动生成 Docker 配置

Agent能力

自动任务执行
工具调用
工作流自动化

多语言支持

支持 140+ 语言

隐私 & 本地化

完全离线运行
数据不上传云端
更适合企业/个人隐私场景
可以轻松对接 OpenClaw 小龙虾进行使用

四、开源协议（重点）

Gemma 4 使用的是：

Apache 2.0 协议

意味着：

免费商用
可修改
可二次开发
可私有部署

这一点对开发者来说非常重要

五、本地部署配置要求

根据官方说明，不同版本对显存要求如下：

模型	显存需求
量化版（Q4）	最低约 3GB
26B	~18GB
31B	~20GB
31B BF16 满血版	~63GB

举个例子：

RTX 4090（24GB）可以运行 26B / 31B 量化版

六、如何本地安装（Ollama方式）

推荐使用：Ollama

第一步：下载 Ollama

【点击前往】

20260404 1775301487

进入官网下载安装（支持）：

Windows
Mac
Linux

第二步：下载 Gemma 4 模型

【HuggingFace】、【Ollama】或 下载满血版【模型打包下载】

安装 Ollama 后在CMD终端下执行：

ollama run gemma4

或者选择适合你显卡的版本（非常重要）

20260404 1775301658

第三步：对接OpenClaw

在Powershell下以管理员身份运行：

powershell -c "irm https://openclaw.ai/install.ps1 | iex"

安装最新版的小龙虾

安装后在执行命令：

ollama launch openclaw

即可启动！

20260404 1775301984 scaled

第四步：对接Claude Code

1、Windows CMD:

curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

2、macOS, Linux, WSL:

curl -fsSL https://claude.ai/install.sh | bash

安装后再执行

ollama launch claude

20260404 1775301926

七、实测效果展示

根据实际测试，Gemma 4 表现非常亮眼：

1. 逻辑推理能力

输入问题：

为什么端口映射后外网无法访问？

模型可以：

自动分析网络结构
找出逻辑矛盾
给出排查步骤

推理能力非常稳定

20260404 1775302038 scaled

2. 图像 + 编程能力

上传一张架构图，它可以：

自动识别系统结构
生成完整 Docker 部署方案

真正做到：看图写代码

3. AI生成游戏

仅通过一张截图：

自动生成一个可运行的小游戏

测试结果：

游戏可运行
有完整逻辑
体验流畅

4. Agent自动化能力

结合工具后可以实现：

自动抓取新闻
自动翻译
自动生成博客（Markdown）

已接近自动内容生产系统

八、使用建议（非常重要）

根据你的显卡来选模型：

8GB 显存选择小模型
12GB 中等量化版
24GB 推荐 26B 或 31B

不要盲目上最大模型，否则会：

卡顿严重
推理速度慢

九、总结

这次 Gemma 4 的发布，可以说是：

开源AI的一次重大突破

它带来的核心变化是：

更强推理
真正多模态
完全本地运行
原生支持Agent

一句话总结

如果你想要一个能本地运行、性能强、还能做自动化工作的AI模型，Gemma 4 是目前最值得尝试的选择之一。

㊣軟體玩家
Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）
2026年5月10日 09:41

Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）

㊣軟體玩家

作者阿正老師

2026年5月10日 09:41

就在 2026 年 4 月 2 日，Google DeepMind 悄悄丟出一顆震撼彈——Gemma 4 正式 […]

這篇文章 Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）最早出現於軟體玩家。

零度解说
Hermes Agent 部署 UI + 本地模型 Gemma 4，对接微信（完全免费，无需 Tokens）
2026年4月15日 13:38

Hermes Agent 部署 UI + 本地模型 Gemma 4，对接微信（完全免费，无需 Tokens）

零度解说

作者 admin

2026年4月15日 13:38

如果你想打造一个完全本地运行、无需 API Key、可接入微信的 AI 助手系统，这套方案可以说是目前最香的组合之一：Hermes Agent + WebUI + Ollama + Gemma 4 ,不仅免费，而且隐私可控、可扩展性极强，非常适合做自动化助手、私域 AI、甚至商业化探索。

2026 04 15 14 20 57.00 03 36 11.Still001 scaled

一、整体架构说明

先快速理解一下整体结构：

Ollama + Gemma 4 本地大模型推理
Hermes Agent AI Agent 调度核心
Hermes WebUI 可视化操作界面
微信接入 实现真实应用场景

二、下载本地模型（Ollama + Gemma 4）

首先，我们需要准备本地大模型环境。

安装 Ollama

官网安装：【点击前往】下载最新版

安装完成后，拉取 Gemma 4 模型：

ollama run gemma4

（你也可以选择更大版本，比如 26B / 31B，看你电脑配置）

获取 API 地址

Ollama 默认会启动本地服务：http://127.0.0.1:11434

但 Hermes Agent 需要用你局域网 IP来访问。

在 CMD 输入：

ipconfig

找到类似： IPv4 地址 . . . . . . . . . . . : 192.168.1.228

那么你的 API 地址就是： http://192.168.1.228:11434/v1

这个地址非常关键，后面要填到 Hermes 配置里！

三、部署 WSL 2（Linux 子系统）

Hermes Agent 官方推荐 Linux 环境，这里我们用 WSL2。

前期准备：

在开始之前，建议大家安装下 Windows Terminal，它是一款新式、快速、高效、强大且高效的Windows 的终端程序，适用于命令行工具和命令提示符，PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统！

【点击下载】

20260317 1773716384

一、安装 WSL2

在 PowerShell（管理员）执行：

wsl –install

安装完成后重启电脑，然后安装Ubuntu，

wsl –install -d Ubuntu

检查版本：

wsl –version

确保输出结果是：WSL2

四、部署 Hermes Agent + UI

进入 Ubuntu 后，开始核心部署。

安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装完成后，可以执行：

hermes doctor

检查环境是否正常。

安装 Hermes WebUI

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
./start.sh

启动后，一般访问：

http://127.0.0.1:8787

即可打开 UI 页面 🎉

Mac 系统一键部署命令:

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
python3 bootstrap.py

引导程序将：

检测 Hermes Agent，如果缺少，则尝试使用官方安装程序（curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash）。
查找或创建包含 WebUI 依赖项的 Python 环境。
启动 Web 服务器并等待/health。
除非通过验证，否则请打开浏览器--no-browser。
将您直接导入 WebUI 中的首次运行引导向导。

五、配置 Hermes 对接本地 Gemma 4

运行：

hermes setup

进入配置界面后：

关键配置项：

Model Provider：选择 OpenAI Compatible
Base URL：填入你的 Ollama 地址

http://192.168.1.228:11434/v1

Model Name：

gemma4

如果提示上下文不足（比如你之前遇到的 8K 限制问题）：

可以修改：

model:
  context_length: 8192

或者换更大的模型。

六、Hermes Agent 对接微信（重点）

进入配置

hermes setup

选择微信接入

找到：

messaging platforms

选择：

weixin / wechat

扫码登录

系统会弹出二维码：

用微信扫码登录即可完成绑定

完成效果

完成后你就拥有：

一个微信 AI 助手
基于本地模型（无需 API）
可执行自动化任务（Agent能力）

七、最终效果展示

部署完成后，你的系统具备：

本地 AI（Gemma 4）
可视化 UI 管理
微信实时对话
无需 Token / 无费用
完全私有化部署

八、常见问题（避坑指南）

1. 模型上下文不足报错

错误示例：

context window too small

解决：

换更大模型（如 7B+）
或手动设置 context_length

2. Ollama 无法被访问

检查：

是否用的是 127.0.0.1（）
是否改为局域网 IP（）

3. WebUI 无法打开

尝试：

./start.sh

或者检查端口占用。

4. 微信掉线问题

这是微信协议限制，建议：

保持 Hermes 常驻运行
避免频繁重启

九、总结

这套方案的核心价值在于：

零成本 + 本地化 + 可扩展 AI Agent

相比传统 OpenAI API 方案：

不用花钱
不怕封号
数据更安全

如果你做：

私域流量运营
自动客服
AI 工具开发

这套架构非常值得你深入研究。

零度解说
Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！
2026年5月18日 15:09

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

零度解说

作者 admin

2026年5月18日 15:09

最近，llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说，这次更新可以说相当实用。

因为现在官方已经开始真正意义上的：“降低 Windows 本地 AI 的使用门槛”！

20260518064042 404956 scaled

20260518110005 256951 scaled

以前很多人第一次接触本地大模型，最头疼的其实不是模型本身，而是各种环境问题：

CUDA 版本不匹配
DLL 缺失
驱动不兼容
CMake 编译失败
环境变量错误
Vulkan / HIP 配置复杂
Windows 编译过程报错

尤其很多新手，教程还没看完，就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中，官方已经直接提供了多种 Windows 预编译版本，很多情况下已经可以做到：下载 → 解压 → 双击运行！这对于 Windows 本地 AI 用户来说，绝对算是一件好事。

20260518105919 469897 scaled

llama.cpp 是什么？

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

20260518064922 507431

官方下载：【点击前往】或【网盘下载】、【整合下载】

很多大家熟悉的本地模型，其实都可以通过 llama.cpp 运行：

Qwen
Llama
DeepSeek
Gemma
Hermes
Dolphin
Mistral
Mixtral

尤其现在 GGUF 生态越来越成熟，很多模型都会第一时间发布 GGUF 量化版本。

视频教程：

而 llama.cpp 最大的优势就是：

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持：

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

llama.cpp 最新 Windows 版本支持什么？

目前官方 Release 页面已经直接提供：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

这意味着：

NVIDIA 用户

可以直接选择：CUDA 12.4 或者 CUDA 13.1

如果你是：

RTX 3060
RTX 4060
RTX 4070
RTX 4080
RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以：HIP 或者 Vulkan

很多情况下，Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试：SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距，但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型？

例如：gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录：

llama-server.exe -m models\你的模型.gguf -ngl 999

其中：-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后，浏览器打开：http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型？

加载视觉模型需要2个文件，一个是主模型文件，另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括：

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一：

OCR
截图理解
网页识别
中文图片问答

表现都非常强。

主模型下载：【点击前往】或【网盘下载】、【备用下载】

20260518071309 620194

比如我让它给做视频封面的点击率测试，居然可以做到100%正确！当然它的功能远不止这些…….

多模态模型启用：

llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

无审查模型：

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语，非常适合角色扮演。

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令：

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

20260518065228 136336

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑：听话、高效、不乱加道德判断的AI

推理能力扎实：在数学和代码相关任务上表现突出，尤其长上下文处理（原生支持128K，部分可扩展到256K）。你甚至可以把整个项目代码库或一本技术手册一次性喂给它，它不会轻易“失忆”。
参数效率高：
26B MoE版本激活参数不多，跑起来相对轻快，在很多基准上效率比同级别模型更好。
开源友好：
Apache 2.0协议，允许修改、商用和二次分发，这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚，很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术（abliteration等）移除了这部分限制，保留了绝大部分原始能力。

模型下载：【点击前往】或【打包下载】、【备用下载】

20260518094514 729207

OpenAI Codex 彻底免费了！Ollama 接管 AI 编程 Agent，本地大模型开始自动干活！真爽

零度解说

作者 admin

2026年5月26日 18:26

过去很长一段时间里，很多人都认为，像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具，必须依赖云端运行。因为它们需要强大的模型推理能力，所以几乎都离不开 OpenAI API、Claude API 或者 Gemini API。也正因为如此，AI 编程虽然很强，但成本一直都不低。

20260526102301 534113

尤其是大型项目。一次完整的代码分析、项目扫描、Agent 推理，往往就会消耗大量 Token。很多开发者可能只是测试几个小时，API 费用就已经开始快速上涨。

但现在，这件事情开始发生变化了。因为最新版的 Ollama，已经正式支持接入 Codex App。也就是说，你本地运行的大模型，现在已经可以直接变成 AI 自动编程 Agent。

20260526102326 219645 scaled

而且最离谱的是：整个过程，甚至不需要联网。以前很多人对本地大模型的印象，其实还停留在“聊天机器人”阶段。比如本地运行一个 Qwen、DeepSeek、Gemma，然后进行简单对话、文本生成、代码补全等等。

但现在已经完全不同了。因为 AI Agent 和普通聊天机器人，本质上是两回事。聊天机器人只能回答问题，但 Agent 已经开始“执行任务”了。

比如：

自动分析项目结构。

自动扫描代码。

自动寻找 Bug。

自动修改文件。

自动创建项目。

甚至自动操作浏览器。

这意味着，本地 AI 已经开始真正具备“干活”的能力。

20260526102444 818964 scaled

我这次测试的时候，最让我震惊的，并不是 AI 能聊天，而是它真的开始接管电脑了。比如我故意准备了一个已经崩掉的空战游戏项目。这个游戏原本已经报错，甚至无法正常运行。

正常情况下，如果是人工修复，我们可能需要：先查看控制台报错。再检查代码逻辑。然后逐步定位问题。最后再尝试修复。但这次，我直接把整个项目丢给了 AI Agent。

结果它会自动开始：

扫描项目文件。

分析代码结构。

定位错误逻辑。

自动修改代码。

修复 Bug。

最后重新运行整个游戏。

最离谱的是，修复完成之后，游戏居然真的恢复正常运行了。整个过程，几乎不需要人工干预。

20260526102519 647440 scaled

而且这还不是最夸张的。真正让我觉得离谱的是：哪怕断网。它依然可以继续工作。因为它调用的是我本地 GPU 上的大模型。整个 AI 推理过程，全部都在本地完成。没有任何 OpenAI API，也没有任何 Token 消耗。以前很多 AI 工具，一旦断网，直接就废了。

但现在，本地 AI Agent 已经开始具备真正的离线能力。这一点，其实非常重要。因为这意味着，未来很多 AI 工作流，可能都会开始从“云端依赖”逐渐转向“本地运行”。

本地部署

1、安装 OpenAI Codex

下载方式：【点击前往】或【备用下载】

如果你下载的是macOS版，注意选择intel 、M 芯片

2、安装新版 Ollama

目前只有最新版Ollama 0.24 版本才完全适配Codex，所以如果你安装的是旧版ollama，一定要将其升级到最新版

下载方式：【点击前往】或【备用下载】

3、下载模型：

在4B~40B消费级显卡能跑的开源模型，首推 Qwen3.6 以及谷歌的 Gemma 4 开源模型，因为无论是模型智力、代码编写、逻辑推理、中文理解等方面，这两款模型的综合评分都是数一数二的！

20260526102120 679379 scaled

Qwen3.6 开源模型

安装命令：

ollama run qwen3.6
ollama run qwen3.6:27b

mac 电脑上请选择mlx结尾的适配版

ollama run qwen3.6:27b-mlx
ollama run qwen3.6:35b-mlx

Qwen 3.6 其它尺寸的模型【获取链接】

Qwen 3.6 越狱版模型：【点击下载】

Gemma 4 开源模型

安装命令：

ollama run gemma4
ollama run gemma4:26b
ollama run gemma4:31b

mac 电脑可选模型

ollama run gemma4:e2b-mlx
ollama run gemma4:e4b-mlx
ollama run gemma4:26b-mlx

Gemma 4 其它尺寸模型：【获取链接】

Gemma 4 越狱版模型：【点击下载】

4、对接命令：

ollama launch codex-app

注意：如果需要使用之前的模型，可以通过下方的命令进行恢复：

ollama launch codex-app --restore

【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型

1、修改Codex的配置文件：

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_reasoning_effort = "low"
profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_provider = "llamacpp"
model_reasoning_effort = "low"

[profiles.llamacpp-codex.windows]
sandbox = "elevated"

[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

[windows]
sandbox = "elevated"

2、llama.cpp 的启动命令:

llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080

里面的模型改成你自己的

llama.cpp 部署教程：

Qwen3.6-35B-A3B 越狱版来了！目前最强“无审查”开源模型？6G 显存都能跑，本地 AI 彻底自由了

另外一点让我感触很深的是，现在本地 AI 的硬件门槛，其实已经没有大家想象中那么高了。

很多人以前一提到 AI Agent，第一反应就是：

必须 RTX 4090。

必须 80G 显存。

必须企业级 GPU。

但实际上，现在很多小模型已经完全可以胜任基础 AI 编程任务。

比如：

Qwen 系列。

DeepSeek Coder。

Gemma。

甚至一些 7B、14B 的模型。

最低 6G、8G 显存，现在都已经可以跑起来了。

虽然速度肯定没办法和 4090 相比，但对于很多普通用户来说，已经足够体验“本地 AI 自动编程”这件事情了。

除了修 Bug 之外，我还测试了另外一个非常有意思的玩法：

让 AI 自动开发小游戏。

比如我直接告诉它：

帮我做一个打地鼠小游戏。

结果 AI 会自动创建 HTML、CSS、JavaScript 文件，甚至连 UI 界面和游戏逻辑都会一起完成。

几分钟时间，一个小游戏居然真的能运行起来。

而且效果其实还不错。

最关键的是，这种过程特别有“未来感”。

因为你会明显感觉到：

AI 已经不是在“回答问题”。

而是在真正执行开发任务。

接着，我又测试了另外一个场景。

我让它创建一个苹果官网风格的 AI 产品首页。

结果 AI 自动完成了页面布局、动画、响应式设计、UI 风格，甚至还会自动调整细节。

最终效果，已经开始接近商业级网页设计了。

以前这种事情，可能需要：

UI 设计师。

前端工程师。

动画设计。

CSS 工程师。

但现在，一个 AI Agent，已经开始逐渐具备独立完成整个流程的能力。

这件事情，其实是非常恐怖的。

更夸张的是，现在很多 Agent 已经不仅仅局限于代码开发。

它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件，然后自动完成整个操作流程。

这已经越来越像真正的 AI 助手了。

很多人现在才开始意识到：

AI 的真正方向，可能根本不是聊天。

而是：

Agent。

也就是：

真正帮你执行任务的 AI。

而 Ollama，现在正在成为整个本地 AI 生态里非常核心的一环。

以前很多人觉得，Ollama 只是一个简单的本地模型启动工具。

但现在，它已经开始连接越来越多的 AI Agent 工具。

比如：

Codex App。

Continue。

OpenHands。

RooCode。

Aider。

Open WebUI。

这些工具，现在都已经开始支持本地大模型接入。

这意味着：

本地 AI 正在进入真正的 Agent 时代。

以前，AI 更多只是辅助工具。

但现在，它已经开始：

自己分析项目。

自己修改代码。

自己修复 Bug。

自己开发网站。

自己创建游戏。

甚至开始自己操作电脑。

AI 的角色，正在从“聊天工具”，逐渐变成“执行工具”。

而这，可能才是真正 AI 时代的开始。

普通视图

一、Gemma 4 有哪些版本？

轻量级（移动端 / IoT）

高性能（本地GPU）

二、性能到底有多强？

三、核心能力一览

多模态能力

编程能力

Agent能力

多语言支持

隐私 & 本地化

四、开源协议（重点）

五、本地部署配置要求

六、如何本地安装（Ollama方式）

第一步：下载 Ollama

【点击前往】

第二步：下载 Gemma 4 模型

第三步：对接OpenClaw

第四步：对接Claude Code

七、实测效果展示

1. 逻辑推理能力

2. 图像 + 编程能力

3. AI生成游戏

4. Agent自动化能力

八、使用建议（非常重要）

九、总结

一句话总结

一、整体架构说明

二、下载本地模型（Ollama + Gemma 4）

安装 Ollama

（你也可以选择更大版本，比如 26B / 31B，看你电脑配置）

获取 API 地址

三、部署 WSL 2（Linux 子系统）

前期准备：

【点击下载】

一、安装 WSL2

四、部署 Hermes Agent + UI

安装 Hermes Agent

安装 Hermes WebUI

Mac 系统一键部署命令:

五、配置 Hermes 对接本地 Gemma 4

关键配置项：

六、Hermes Agent 对接微信（重点）

进入配置

选择微信接入

扫码登录

完成效果

七、最终效果展示

八、常见问题（避坑指南）

1. 模型上下文不足报错

2. Ollama 无法被访问

3. WebUI 无法打开

4. 微信掉线问题

九、总结

llama.cpp 是什么？

官方下载：【点击前往】 或 【网盘下载】、【整合下载】

视频教程：

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或 【网盘下载】、【备用下载】

无审查模型：

模型下载：【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或 【打包下载】、【备用下载】

更多越狱模型：

多种模态自由切换运行：

本地部署

【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型

官方下载：【点击前往】或【网盘下载】、【整合下载】

主模型下载：【点击前往】或【网盘下载】、【备用下载】

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或【打包下载】、【备用下载】