普通视图

发现新文章,点击刷新页面。
昨天以前首页

Hermes Agent 部署 UI + 本地模型 Gemma 4,对接微信(完全免费,无需 Tokens)

作者 admin
2026年4月15日 13:38

如果你想打造一个完全本地运行、无需 API Key、可接入微信的 AI 助手系统,这套方案可以说是目前最香的组合之一:Hermes Agent + WebUI + Ollama + Gemma 4 ,不仅免费,而且隐私可控、可扩展性极强,非常适合做自动化助手、私域 AI、甚至商业化探索。

2026 04 15 14 20 57.00 03 36 11.Still001 scaled

一、整体架构说明

先快速理解一下整体结构:

  • Ollama + Gemma 4  本地大模型推理
  • Hermes Agent  AI Agent 调度核心
  • Hermes WebUI  可视化操作界面
  • 微信接入  实现真实应用场景

二、下载本地模型(Ollama + Gemma 4)

首先,我们需要准备本地大模型环境。

 安装 Ollama

官网安装: 【点击前往】 下载最新版

安装完成后,拉取 Gemma 4 模型:

 

ollama run gemma4

(你也可以选择更大版本,比如 26B / 31B,看你电脑配置)

获取 API 地址

Ollama 默认会启动本地服务:http://127.0.0.1:11434

 

但 Hermes Agent 需要用你局域网 IP来访问。

在 CMD 输入:

ipconfig

找到类似: IPv4 地址 . . . . . . . . . . . : 192.168.1.228

那么你的 API 地址就是: http://192.168.1.228:11434/v1

⚠ 这个地址非常关键,后面要填到 Hermes 配置里!

三、部署 WSL 2(Linux 子系统)

Hermes Agent 官方推荐 Linux 环境,这里我们用 WSL2

 

前期准备:

 

在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!

点击下载

20260317 1773716384

一、安装 WSL2

在 PowerShell(管理员)执行:

wsl –install

安装完成后电脑,然后安装Ubuntu

wsl –install -d Ubuntu

 

检查版本:

wsl –version

确保输出结果是:WSL2

四、部署 Hermes Agent + UI

进入 Ubuntu 后,开始核心部署。

 安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

 

安装完成后,可以执行:

hermes doctor

 

检查环境是否正常。

 安装 Hermes WebUI

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
./start.sh

 

 

启动后,一般访问:

 

http://127.0.0.1:8787

即可打开 UI 页面 🎉

Mac 系统一键部署命令:

git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
python3 bootstrap.py

 

引导程序将:

  1. 检测 Hermes Agent,如果缺少,则尝试使用官方安装程序(curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash)。
  2. 查找或创建包含 WebUI 依赖项的 Python 环境。
  3. 启动 Web 服务器并等待/health
  4. 除非通过验证,否则请打开浏览器--no-browser
  5. 将您直接导入 WebUI 中的首次运行引导向导。

 

五、配置 Hermes 对接本地 Gemma 4

运行:

hermes setup

进入配置界面后:

关键配置项:

  • Model Provider:选择 OpenAI Compatible
  • Base URL:填入你的 Ollama 地址
http://192.168.1.228:11434/v1
  • Model Name
gemma4

⚠ 如果提示上下文不足(比如你之前遇到的 8K 限制问题):

可以修改:

model:
  context_length: 8192

或者换更大的模型。

六、Hermes Agent 对接微信(重点)

 

 进入配置

hermes setup

 选择微信接入

找到:

messaging platforms

选择:

weixin / wechat

扫码登录

系统会弹出二维码:

用微信扫码登录即可完成绑定

 完成效果

完成后你就拥有:

  • 一个微信 AI 助手
  • 基于本地模型(无需 API)
  • 可执行自动化任务(Agent能力)

七、最终效果展示

部署完成后,你的系统具备:

✅ 本地 AI(Gemma 4)
✅ 可视化 UI 管理
✅ 微信实时对话
✅ 无需 Token / 无费用
✅ 完全私有化部署

八、常见问题(避坑指南)

1. 模型上下文不足报错

错误示例:

context window too small

解决:

  • 换更大模型(如 7B+)
  • 或手动设置 context_length

2. Ollama 无法被访问

检查:

  • 是否用的是 127.0.0.1❌
  • 是否改为局域网 IP(✅

3. WebUI 无法打开

尝试:

./start.sh

或者检查端口占用。

4. 微信掉线问题

这是微信协议限制,建议:

  • 保持 Hermes 常驻运行
  • 避免频繁重启

九、总结

这套方案的核心价值在于:

零成本 + 本地化 + 可扩展 AI Agent

相比传统 OpenAI API 方案:

  • 不用花钱
  • 不怕封号
  • 数据更安全

如果你做:

  • 私域流量运营
  • 自动客服
  • AI 工具开发

这套架构非常值得你深入研究。

 

Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent!初學者也能自己搞定

2026年5月16日 17:14

近期因為穩定且具備自我進化能力的開源 AI Agent 專案:Hermes Agent,深受廣大使用者喜歡,但 […]

The post Hermes Desktop 讓 Windows 直接就能安裝使用 Hermes Agent!初學者也能自己搞定 appeared first on 電腦王阿達.

💾

前陣子為大家介紹了 OpenClaw(龍蝦),相信不少人遇到它容易忘記步驟、把自己搞掛,甚至每次更新就出現嚴重 BUG 的窘境 。這集影片為大家帶來全新的救星:Hermes Agent !它是由美國 AI 公司 Nous Research 所開發,操作體驗幾乎跟龍蝦一模一樣,還能直接繼承龍蝦的設定與技能 。更棒的...

Qwen3.6-35B-A3B 越狱版来了!目前最强“无审查”开源模型?6G 显存都能跑,本地 AI 彻底自由了

作者 admin
2026年5月24日 18:11

最近 AI 圈,真的越来越离谱了。如果你一直关注本地大模型,应该已经发现:现在的开源模型,不仅越来越聪明,甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型,更是直接把“本地 AI”推向了另一个阶段。

它就是:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

 

20260524094928 092626

一个目前热度极高的“越狱版”开源模型。而且重点是:它不仅无审查、无限制,还非常聪明。甚至可以说:这可能是目前最强的越狱版开源模型之一。

 

什么是“越狱版”模型?

简单来说:

官方模型通常会加入大量安全限制。

比如:

  • 敏感内容拒答
  • 某些问题无法回答
  • 强制政治正确
  • 输出被过滤
  • 系统提示词限制

所以很多时候:

你明明只是正常提问。

结果模型却:

“抱歉,我无法帮助你。”

而这类 Uncensored(无审查)版本:

则会尽可能移除这些限制。

尤其这个:

Aggressive 版本

可以说是:

目前最激进的版本之一。

官方模型 VS 越狱版模型

 

实测效果非常夸张。同样的问题:

官方模型:

  • 疯狂拒答
  • 强制安全策略
  • 输出保守

而越狱版:

不仅会回答。

甚至:

  • 什么都敢说
  • 什么都肯干
  • 几乎没有限制

20260524103741 562767 scaled

而且最关键的是:

它并不是那种:

“只会越狱,但智商很低”的模型。

恰恰相反。

这个模型:

真的非常聪明。

部署教程:

 

1、模型下载

huggingface 下载】、【网盘打包下载】、或 【备用下载

模型来源:O站社区

里面有多种不同大小的量化版,你可以根据自己的显存大小,来选择对应的版本,最小的11G模型可以在6G/8G显存上跑起来,但是建议最低使用8G显存

 

20260524095235 493861 scaled

2、下载 llama.cpp

下载方式:【Github下载】、【网盘下载】或 【整合包下载

这款免费开源项目支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!也就意味着,你几乎可以在任何电脑上进行运行。速度还非常快,远比ollama、LM Studio 快的多也稳定的多!!

 

20260524095705 536710 scaled

3、一键启动脚本(支持多版本切换)

将下面的的脚本另存为BAT批处理,保存的时候选择utf-8格式,嫌麻烦直接【点击下载】打包版

@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo      Qwen3.6-35B-A3B 越狱版+多模态模型
echo               零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P(4090 推荐)
echo 2. Q4_K_M(稳定版)
echo 3. IQ4_NL(高压缩高质量)
echo 4. IQ2_M(6G/8G 显卡)
echo.
echo ==========================================

set /p choice=请输入数字:

if "%choice%"=="1" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="4" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080
)

pause

 

20260524100109 012895 scaled

打开后在上面选择对应的模型,输入对应的数字确认即可启动!

 

注意:如果启动后出现乱码,则:进入系统设置中心,在顶部搜索关键词:系统区域设置,打开选择用于非Unicode程序的语言,然后勾选 Beta版:使用 Unicode UTF-8 提供全球语言支持;重启电脑再打开就不会乱码! 如下图所示:

20260528025432 937912

 

当然需要真正实现tokens自由,本地不受限制,完全免费使用AI Agent,那么将其对接到Hermes或者OpenClaw 小龙虾上去,才能真正体现出它的价值所在。

AI Agent 对接步骤:

1、在选择模型提供商的时候,选择自定义

20260524100404 821676 scaled

 

2、API base 地址填写:

http://127.0.0.1:8080/v1

 

API key 密钥随便填写一个数字或留空都可以

 

3、其它设置可以根据自己的喜好进行自定义

 

20260524100746 174902 scaled

 

Qwen3.6-35B-A3B 为什么这么强?

 

20260524100232 571605 scaled

很多人看到:

35B

第一反应是:

“这得服务器才能跑吧?”

但实际上:

Qwen3.6-35B-A3B 用的是:

MoE(专家混合架构)

简单理解:

虽然模型总参数是 35B。

但每次实际运行时:

只会激活大约 3B 参数。

这意味着:

它既拥有超大模型的能力。

又拥有小模型的速度。

6G 显存都能跑?

是的。

这也是它最夸张的地方之一。

通过 GGUF 量化后:

甚至:

  • 6G 显存
  • 8G 显存
  • 普通游戏显卡

都能运行。

并且支持:

  • NVIDIA 显卡
  • AMD 显卡
  • Intel Arc 显卡

真正实现:

本地 AI 自由

在 Artificial Analysis 排行榜中表现极强

目前在全球权威 AI 榜单:

Artificial Analysis

20260524101123 401057

Qwen3.6-35B-A3B 在 40B 以内开源模型中:

几乎属于第一梯队。

尤其:

  • 中文理解
  • 代码能力
  • 多模态视觉
  • 推理能力
  • 长上下文能力

表现都非常夸张。

尤其中文能力。

可以说:

这是目前中文体验最强的一批开源模型。

多模态支持也非常离谱

这次不仅支持文本。

还支持:

多模态视觉识图

也就是说:

它可以直接:

  • 看图片
  • 分析截图
  • OCR 识别
  • 理解画面内容
  • 分析复杂 UI
  • 阅读代码截图

配合 llama.cpp 最新版后:

甚至已经可以当:

本地版 ChatGPT Vision

来使用。

20260524101147 350126

本地部署非常简单

这次部署方案:

我使用的是:

llama.cpp 最新版

优点非常明显:

  • 免费
  • 开源
  • 支持 Windows
  • 支持 CUDA
  • 支持 Vulkan
  • 支持 AMD
  • 支持 Intel

而且:

现在 llama.cpp 已经越来越成熟。

不仅支持:

  • OpenAI API
  • 多模态
  • 超长上下文
  • Agent 调用

甚至还能直接:

本地替代 OpenAI API

Hermes Agent 实测效果惊艳

这次我还把它:

接入了 Hermes Agent。

效果可以说:

非常炸裂。

因为现在:

你不仅仅是在“聊天”。

而是:

真正拥有了一个:

本地 AI Agent

它可以:

  • 自动写代码
  • 自动分析图片
  • 自动执行任务
  • 自动工具调用
  • 自动联网
  • 长上下文记忆

而且:

完全本地运行。

不用联网。

不用 API Key。

没有 Token 消耗。

真正实现:

  • Token 自由
  • Agent 自由
  • 本地 AI 自由

推荐量化版本

不同显卡。

推荐不同量化。

RTX 4090 / 24G 显存

推荐:

  • Q4_K_P
  • Q4_K_M

体验最好。

8G 显存用户

推荐:

  • IQ2_M
  • IQ3_M

也能正常运行。

推荐 llama.cpp 参数

推荐启动参数:

llama-server.exe ^
-m "模型路径.gguf" ^
--mmproj "mmproj.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080 ^
--jinja

其中:

--mmproj

是多模态必须参数。

否则:

上传图片按钮会变灰。

--jinja

则是新版 Qwen 模型非常重要的参数。

不加的话:

可能出现:

  • 回复异常
  • 格式错乱
  • 无限重复
  • 中文异常

现在的本地 AI,已经完全变了

很多人对本地模型的印象:

还停留在:

  • 很笨
  • 很慢
  • 只能聊天
  • 无法实用

但现在。

真的不一样了。

尤其:

Qwen3.6-35B-A3B 这种模型出现后。

本地 AI 已经开始:

真正接近商业闭源模型。

而且:

完全属于你自己。

最后

如果你一直想体验:

  • 无审查 AI
  • 本地 AI
  • 多模态 AI
  • 本地 Agent
  • 超长上下文
  • 本地 OpenAI API

那么:

这个模型。真的非常值得尝试。因为现在这种资源:谁也不知道还能存在多久。建议尽快收藏、下载、备份!

❌
❌