零度解说
Hermes Agent 部署 UI + 本地模型 Gemma 4，对接微信（完全免费，无需 Tokens）
2026年4月15日 13:38

Hermes Agent 部署 UI + 本地模型 Gemma 4，对接微信（完全免费，无需 Tokens）

作者 admin

2026年4月15日 13:38

如果你想打造一个完全本地运行、无需 API Key、可接入微信的 AI 助手系统，这套方案可以说是目前最香的组合之一：Hermes Agent + WebUI + Ollama + Gemma 4 ,不仅免费，而且隐私可控、可扩展性极强，非常适合做自动化助手、私域 AI、甚至商业化探索。

2026 04 15 14 20 57.00 03 36 11.Still001 scaled

一、整体架构说明

先快速理解一下整体结构：

Ollama + Gemma 4 本地大模型推理
Hermes Agent AI Agent 调度核心
Hermes WebUI 可视化操作界面
微信接入 实现真实应用场景

二、下载本地模型（Ollama + Gemma 4）

首先，我们需要准备本地大模型环境。

安装 Ollama

官网安装：【点击前往】下载最新版

安装完成后，拉取 Gemma 4 模型：

ollama run gemma4

（你也可以选择更大版本，比如 26B / 31B，看你电脑配置）

获取 API 地址

Ollama 默认会启动本地服务：http://127.0.0.1:11434

但 Hermes Agent 需要用你局域网 IP来访问。

在 CMD 输入：

ipconfig

找到类似： IPv4 地址 . . . . . . . . . . . : 192.168.1.228

那么你的 API 地址就是： http://192.168.1.228:11434/v1

这个地址非常关键，后面要填到 Hermes 配置里！

三、部署 WSL 2（Linux 子系统）

Hermes Agent 官方推荐 Linux 环境，这里我们用 WSL2。

前期准备：

在开始之前，建议大家安装下 Windows Terminal，它是一款新式、快速、高效、强大且高效的Windows 的终端程序，适用于命令行工具和命令提示符，PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统！

【点击下载】

20260317 1773716384

一、安装 WSL2

在 PowerShell（管理员）执行：

wsl –install

安装完成后重启电脑，然后安装Ubuntu，

wsl –install -d Ubuntu

检查版本：

wsl –version

确保输出结果是：WSL2

四、部署 Hermes Agent + UI

进入 Ubuntu 后，开始核心部署。

安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装完成后，可以执行：

hermes doctor

检查环境是否正常。

安装 Hermes WebUI

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
./start.sh

启动后，一般访问：

http://127.0.0.1:8787

即可打开 UI 页面 🎉

Mac 系统一键部署命令:

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
python3 bootstrap.py

引导程序将：

检测 Hermes Agent，如果缺少，则尝试使用官方安装程序（curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash）。
查找或创建包含 WebUI 依赖项的 Python 环境。
启动 Web 服务器并等待/health。
除非通过验证，否则请打开浏览器--no-browser。
将您直接导入 WebUI 中的首次运行引导向导。

五、配置 Hermes 对接本地 Gemma 4

运行：

hermes setup

进入配置界面后：

关键配置项：

Model Provider：选择 OpenAI Compatible
Base URL：填入你的 Ollama 地址

http://192.168.1.228:11434/v1

Model Name：

gemma4

如果提示上下文不足（比如你之前遇到的 8K 限制问题）：

可以修改：

model:
  context_length: 8192

或者换更大的模型。

六、Hermes Agent 对接微信（重点）

进入配置

hermes setup

选择微信接入

找到：

messaging platforms

选择：

weixin / wechat

扫码登录

系统会弹出二维码：

用微信扫码登录即可完成绑定

完成效果

完成后你就拥有：

一个微信 AI 助手
基于本地模型（无需 API）
可执行自动化任务（Agent能力）

七、最终效果展示

部署完成后，你的系统具备：

本地 AI（Gemma 4）
可视化 UI 管理
微信实时对话
无需 Token / 无费用
完全私有化部署

八、常见问题（避坑指南）

1. 模型上下文不足报错

错误示例：

context window too small

解决：

换更大模型（如 7B+）
或手动设置 context_length

2. Ollama 无法被访问

检查：

是否用的是 127.0.0.1（）
是否改为局域网 IP（）

3. WebUI 无法打开

尝试：

./start.sh

或者检查端口占用。

4. 微信掉线问题

这是微信协议限制，建议：

保持 Hermes 常驻运行
避免频繁重启

九、总结

这套方案的核心价值在于：

零成本 + 本地化 + 可扩展 AI Agent

相比传统 OpenAI API 方案：

不用花钱
不怕封号
数据更安全

如果你做：

私域流量运营
自动客服
AI 工具开发

这套架构非常值得你深入研究。

電腦王阿達
Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent！初學者也能自己搞定
2026年5月16日 17:14

Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent！初學者也能自己搞定

電腦王阿達

作者電腦王阿達

2026年5月16日 17:14

近期因為穩定且具備自我進化能力的開源 AI Agent 專案：Hermes Agent，深受廣大使用者喜歡，但 […]

The post Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent！初學者也能自己搞定 appeared first on 電腦王阿達.

別再修龍蝦了！最聰明 Hermes Agent 全平台安裝全攻略，自我學習進化＋長期記憶一次搞定！（免費Api Key 設定、龍蝦轉移技巧、Telegram設定踩坑解決） — 前陣子為大家介紹了 OpenClaw（龍蝦），相信不少人遇到它容易忘記步驟、把自己搞掛，甚至每次更新就出現嚴重 BUG 的窘境。這集影片為大家帶來全新的救星：Hermes Agent ！它是由美國 AI 公司 Nous Research 所開發，操作體驗幾乎跟龍蝦一模一樣，還能直接繼承龍蝦的設定與技能。更棒的...

零度解说
Qwen3.6-35B-A3B 越狱版来了！目前最强“无审查”开源模型？6G 显存都能跑，本地 AI 彻底自由了
2026年5月24日 18:11

Qwen3.6-35B-A3B 越狱版来了！目前最强“无审查”开源模型？6G 显存都能跑，本地 AI 彻底自由了

零度解说

作者 admin

2026年5月24日 18:11

最近 AI 圈，真的越来越离谱了。如果你一直关注本地大模型，应该已经发现：现在的开源模型，不仅越来越聪明，甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型，更是直接把“本地 AI”推向了另一个阶段。

它就是：Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

20260524094928 092626

一个目前热度极高的“越狱版”开源模型。而且重点是：它不仅无审查、无限制，还非常聪明。甚至可以说：这可能是目前最强的越狱版开源模型之一。

什么是“越狱版”模型？

简单来说：

官方模型通常会加入大量安全限制。

比如：

敏感内容拒答
某些问题无法回答
强制政治正确
输出被过滤
系统提示词限制

所以很多时候：

你明明只是正常提问。

结果模型却：

“抱歉，我无法帮助你。”

而这类 Uncensored（无审查）版本：

则会尽可能移除这些限制。

尤其这个：

Aggressive 版本

可以说是：

目前最激进的版本之一。

官方模型 VS 越狱版模型

实测效果非常夸张。同样的问题：

官方模型：

疯狂拒答
强制安全策略
输出保守

而越狱版：

不仅会回答。

甚至：

什么都敢说
什么都肯干
几乎没有限制

20260524103741 562767 scaled

而且最关键的是：

它并不是那种：

“只会越狱，但智商很低”的模型。

恰恰相反。

这个模型：

真的非常聪明。

部署教程：

1、模型下载

【huggingface 下载】、【网盘打包下载】、或【备用下载】

模型来源：O站社区

里面有多种不同大小的量化版，你可以根据自己的显存大小，来选择对应的版本，最小的11G模型可以在6G/8G显存上跑起来，但是建议最低使用8G显存

20260524095235 493861 scaled

2、下载 llama.cpp

下载方式：【Github下载】、【网盘下载】或【整合包下载】

这款免费开源项目支持 N卡、A卡、I卡还有纯CPU运行，同时也可以在Mac、Linux系统上运行！也就意味着，你几乎可以在任何电脑上进行运行。速度还非常快，远比ollama、LM Studio 快的多也稳定的多！！

20260524095705 536710 scaled

3、一键启动脚本（支持多版本切换）

将下面的的脚本另存为BAT批处理，保存的时候选择utf-8格式，嫌麻烦直接【点击下载】打包版

@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo      Qwen3.6-35B-A3B 越狱版+多模态模型
echo               零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P（4090 推荐）
echo 2. Q4_K_M（稳定版）
echo 3. IQ4_NL（高压缩高质量）
echo 4. IQ2_M（6G/8G 显卡）
echo.
echo ==========================================

set /p choice=请输入数字：

if "%choice%"=="1" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="4" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080
)

pause

20260524100109 012895 scaled

打开后在上面选择对应的模型，输入对应的数字确认即可启动！

注意：如果启动后出现乱码，则：进入系统设置中心，在顶部搜索关键词：系统区域设置，打开选择用于非Unicode程序的语言，然后勾选 Beta版：使用 Unicode UTF-8 提供全球语言支持；重启电脑再打开就不会乱码！如下图所示：

20260528025432 937912

当然需要真正实现tokens自由，本地不受限制，完全免费使用AI Agent，那么将其对接到Hermes或者OpenClaw 小龙虾上去，才能真正体现出它的价值所在。

AI Agent 对接步骤：

1、在选择模型提供商的时候，选择自定义

20260524100404 821676 scaled

2、API base 地址填写：

http://127.0.0.1:8080/v1

API key 密钥随便填写一个数字或留空都可以

3、其它设置可以根据自己的喜好进行自定义

20260524100746 174902 scaled

Qwen3.6-35B-A3B 为什么这么强？

20260524100232 571605 scaled

很多人看到：

35B

第一反应是：

“这得服务器才能跑吧？”

但实际上：

Qwen3.6-35B-A3B 用的是：

MoE（专家混合架构）

简单理解：

虽然模型总参数是 35B。

但每次实际运行时：

只会激活大约 3B 参数。

这意味着：

它既拥有超大模型的能力。

又拥有小模型的速度。

6G 显存都能跑？

是的。

这也是它最夸张的地方之一。

通过 GGUF 量化后：

甚至：

6G 显存
8G 显存
普通游戏显卡

都能运行。

并且支持：

NVIDIA 显卡
AMD 显卡
Intel Arc 显卡

真正实现：

本地 AI 自由

在 Artificial Analysis 排行榜中表现极强

目前在全球权威 AI 榜单：

Artificial Analysis

20260524101123 401057

Qwen3.6-35B-A3B 在 40B 以内开源模型中：

几乎属于第一梯队。

尤其：

中文理解
代码能力
多模态视觉
推理能力
长上下文能力

表现都非常夸张。

尤其中文能力。

可以说：

这是目前中文体验最强的一批开源模型。

多模态支持也非常离谱

这次不仅支持文本。

还支持：

多模态视觉识图

也就是说：

它可以直接：

看图片
分析截图
OCR 识别
理解画面内容
分析复杂 UI
阅读代码截图

配合 llama.cpp 最新版后：

甚至已经可以当：

本地版 ChatGPT Vision

来使用。

20260524101147 350126

本地部署非常简单

这次部署方案：

我使用的是：

llama.cpp 最新版

优点非常明显：

免费
开源
支持 Windows
支持 CUDA
支持 Vulkan
支持 AMD
支持 Intel

而且：

现在 llama.cpp 已经越来越成熟。

不仅支持：

OpenAI API
多模态
超长上下文
Agent 调用

甚至还能直接：

本地替代 OpenAI API

Hermes Agent 实测效果惊艳

这次我还把它：

接入了 Hermes Agent。

效果可以说：

非常炸裂。

因为现在：

你不仅仅是在“聊天”。

而是：

真正拥有了一个：

本地 AI Agent

它可以：

自动写代码
自动分析图片
自动执行任务
自动工具调用
自动联网
长上下文记忆

而且：

完全本地运行。

不用联网。

不用 API Key。

没有 Token 消耗。