普通视图
[2026 必裝] 自己的 AI 自己養!阿正老師推這款「Ollama」:一鍵在你的電腦跑超強 AI,斷網也能用、資料不外洩!
這幾年 AI 發展實在太快了,但我們也越來越依賴大公司的雲端服務。有時候阿正老師在學校處理一些行政的文件時,心 […]
這篇文章 [2026 必裝] 自己的 AI 自己養!阿正老師推這款「Ollama」:一鍵在你的電腦跑超強 AI,斷網也能用、資料不外洩! 最早出現於 軟體玩家。

[2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用?
「阿正老師,我想在自己電腦跑 AI,但看到 Ollama、LM Studio、Jan 這三個工具,完全不知道要 […]
這篇文章 [2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用? 最早出現於 軟體玩家。

Google 剛發布!Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學(2026 最新)
就在 2026 年 4 月 2 日,Google DeepMind 悄悄丟出一顆震撼彈——Gemma 4 正式 […]
這篇文章 Google 剛發布!Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學(2026 最新) 最早出現於 軟體玩家。

Hermes Agent Desktop 教學:不用打指令!圖形介面讓你輕鬆駕馭自我進化 AI
在阿正老師上一篇 Hermes Agent 完整教學 裡,有讀者問:「阿正老師,指令複製貼上我還是搞不定,有沒 […]
這篇文章 Hermes Agent Desktop 教學:不用打指令!圖形介面讓你輕鬆駕馭自我進化 AI 最早出現於 軟體玩家。

Windows 本地 AI 又升级了!llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL,一键跑 GGUF 无审查模型!
最近,llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说,这次更新可以说相当实用。
因为现在官方已经开始真正意义上的:“降低 Windows 本地 AI 的使用门槛”!
![]()
![]()
以前很多人第一次接触本地大模型,最头疼的其实不是模型本身,而是各种环境问题:
- CUDA 版本不匹配
- DLL 缺失
- 驱动不兼容
- CMake 编译失败
- 环境变量错误
- Vulkan / HIP 配置复杂
- Windows 编译过程报错
尤其很多新手,教程还没看完,就已经被环境问题劝退了。
但现在不一样了。
在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多情况下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对算是一件好事。
![]()
llama.cpp 是什么?
llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。
![]()
官方下载:【点击前往】 或 【网盘下载】、【整合下载】
很多大家熟悉的本地模型,其实都可以通过 llama.cpp 运行:
- Qwen
- Llama
- DeepSeek
- Gemma
- Hermes
- Dolphin
- Mistral
- Mixtral
尤其现在 GGUF 生态越来越成熟,很多模型都会第一时间发布 GGUF 量化版本。
视频教程:
而 llama.cpp 最大的优势就是:
轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF
而且现在甚至已经支持:
多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面
llama.cpp 最新 Windows 版本支持什么?
目前官方 Release 页面已经直接提供:
- Windows x64 CPU
- Windows x64 CUDA 12.4
- Windows x64 CUDA 13.1
- Windows x64 Vulkan
- Windows x64 HIP Radeon
- Windows x64 SYCL
- Windows ARM64 CPU
这意味着:
NVIDIA 用户
可以直接选择:CUDA 12.4 或者 CUDA 13.1
如果你是:
- RTX 3060
- RTX 4060
- RTX 4070
- RTX 4080
- RTX 4090
基本建议优先 CUDA。
AMD 用户
现在终于不用完全依赖 ROCm 了。
你可以:HIP 或者 Vulkan
很多情况下,Vulkan 反而比 HIP 更稳定。
Intel 用户
现在 Intel 核显、Arc 独显也终于有得玩了。
可以尝试:SYCL 或者 Vulkan
虽然性能和 NVIDIA 还有差距,但已经能正常跑很多 GGUF 小模型。
如何启动 GGUF 模型?
例如:gemma-4-31b-jang-crack-Q4_K_M.gguf
启动方式其实非常简单。
进入 llama.cpp 目录:
llama-server.exe -m models\你的模型.gguf -ngl 999
其中:-ngl 999 代表尽量把模型全部加载到 GPU。
启动成功后,浏览器打开:http://127.0.0.1:8080
即可进入网页聊天界面。
如何启动 GGUF 多模态视觉模型?
加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件
目前支持较好的包括:
Qwen2-VL / Qwen2.5-VL
目前中文视觉能力最强之一:
- OCR
- 截图理解
- 网页识别
- 中文图片问答
表现都非常强。
主模型下载:【点击前往】或 【网盘下载】、【备用下载】
![]()
比如我让它给做视频封面的点击率测试,居然可以做到100%正确!当然它的功能远不止这些…….
多模态模型启用:
llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999
无审查模型:
1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型
支持中文、日文和英语,非常适合角色扮演。
模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式
下载合并为GGUF模型格式
huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False
然后用 llama.cpp 转 GGUF:
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp pip install -r requirements.txt python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf
需要量化成 Q4_K_M的话可以命令:
llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M
![]()
2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型
这是一个在本地跑:听话、高效、不乱加道德判断的AI
- 推理能力扎实:在数学和代码相关任务上表现突出,尤其长上下文处理(原生支持128K,部分可扩展到256K)。你甚至可以把整个项目代码库或一本技术手册一次性喂给它,它不会轻易“失忆”。
- 参数效率高:
26B MoE版本激活参数不多,跑起来相对轻快,在很多基准上效率比同级别模型更好。 - 开源友好:
Apache 2.0协议,允许修改、商用和二次分发,这对想自己折腾或做副业的朋友来说非常实用。
官方版的主要问题是安全对齐层比较厚,很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术(abliteration等)移除了这部分限制,保留了绝大部分原始能力。
模型下载:【点击前往】或 【打包下载】、【备用下载】
![]()
更多越狱模型:
1、Hermes-3 【点击下载】
2、Qwen 越狱模型【点击下载】
3、Deepseek 越狱模型【点击下载】
多种模态自由切换运行:
如果我们同时下载了多种不同的模型,为了方便统一管理,在运行的时候我们可以使用零度的这个脚本,来实现多模型自由切换运行,注意将里面的模型名称改成你自己的!
@echo off chcp 65001 >nul cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-13.1-x64 echo 请选择模型: echo 1. Gemma 31B echo 2. Qwen VL 多模态 echo 3. DeepSeek set /p choice=输入数字: if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999 if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999 if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999 pause
将上方的命令保存到文本文档里,另存为的时候选择utf-8格式,最后将txt后缀改成bat即可!双击运行即可看到下方的选项
![]()
输入模型对应的数字就可以成功启动模型
![]()
![]()
Qwen3.6-35B-A3B 越狱版来了!目前最强“无审查”开源模型?6G 显存都能跑,本地 AI 彻底自由了
最近 AI 圈,真的越来越离谱了。如果你一直关注本地大模型,应该已经发现:现在的开源模型,不仅越来越聪明,甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型,更是直接把“本地 AI”推向了另一个阶段。
它就是:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive
![]()
一个目前热度极高的“越狱版”开源模型。而且重点是:它不仅无审查、无限制,还非常聪明。甚至可以说:这可能是目前最强的越狱版开源模型之一。
什么是“越狱版”模型?
简单来说:
官方模型通常会加入大量安全限制。
比如:
- 敏感内容拒答
- 某些问题无法回答
- 强制政治正确
- 输出被过滤
- 系统提示词限制
所以很多时候:
你明明只是正常提问。
结果模型却:
“抱歉,我无法帮助你。”
而这类 Uncensored(无审查)版本:
则会尽可能移除这些限制。
尤其这个:
Aggressive 版本
可以说是:
目前最激进的版本之一。
官方模型 VS 越狱版模型
实测效果非常夸张。同样的问题:
官方模型:
- 疯狂拒答
- 强制安全策略
- 输出保守
而越狱版:
不仅会回答。
甚至:
- 什么都敢说
- 什么都肯干
- 几乎没有限制
![]()
而且最关键的是:
它并不是那种:
“只会越狱,但智商很低”的模型。
恰恰相反。
这个模型:
真的非常聪明。
部署教程:
1、模型下载
【huggingface 下载】、【网盘打包下载】、或 【备用下载】
模型来源:O站社区
里面有多种不同大小的量化版,你可以根据自己的显存大小,来选择对应的版本,最小的11G模型可以在6G/8G显存上跑起来,但是建议最低使用8G显存
![]()
2、下载 llama.cpp
下载方式:【Github下载】、【网盘下载】或 【整合包下载】
这款免费开源项目支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!也就意味着,你几乎可以在任何电脑上进行运行。速度还非常快,远比ollama、LM Studio 快的多也稳定的多!!
![]()
3、一键启动脚本(支持多版本切换)
将下面的的脚本另存为BAT批处理,保存的时候选择utf-8格式,嫌麻烦直接【点击下载】打包版
@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版
cd /d "%~dp0"
:menu
cls
echo ==========================================
echo Qwen3.6-35B-A3B 越狱版+多模态模型
echo 零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P(4090 推荐)
echo 2. Q4_K_M(稳定版)
echo 3. IQ4_NL(高压缩高质量)
echo 4. IQ2_M(6G/8G 显卡)
echo.
echo ==========================================
set /p choice=请输入数字:
if "%choice%"=="1" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="2" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="3" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)
if "%choice%"=="4" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 8192 ^
-n 4096 ^
--host 127.0.0.1 ^
--port 8080
)
pause
![]()
打开后在上面选择对应的模型,输入对应的数字确认即可启动!
注意:如果启动后出现乱码,则:进入系统设置中心,在顶部搜索关键词:系统区域设置,打开选择用于非Unicode程序的语言,然后勾选 Beta版:使用 Unicode UTF-8 提供全球语言支持;重启电脑再打开就不会乱码! 如下图所示:
![]()
当然需要真正实现tokens自由,本地不受限制,完全免费使用AI Agent,那么将其对接到Hermes或者OpenClaw 小龙虾上去,才能真正体现出它的价值所在。
AI Agent 对接步骤:
1、在选择模型提供商的时候,选择自定义
![]()
2、API base 地址填写:
http://127.0.0.1:8080/v1
API key 密钥随便填写一个数字或留空都可以
3、其它设置可以根据自己的喜好进行自定义
![]()
Qwen3.6-35B-A3B 为什么这么强?
![]()
很多人看到:
35B
第一反应是:
“这得服务器才能跑吧?”
但实际上:
Qwen3.6-35B-A3B 用的是:
MoE(专家混合架构)
简单理解:
虽然模型总参数是 35B。
但每次实际运行时:
只会激活大约 3B 参数。
这意味着:
它既拥有超大模型的能力。
又拥有小模型的速度。
6G 显存都能跑?
是的。
这也是它最夸张的地方之一。
通过 GGUF 量化后:
甚至:
- 6G 显存
- 8G 显存
- 普通游戏显卡
都能运行。
并且支持:
- NVIDIA 显卡
- AMD 显卡
- Intel Arc 显卡
真正实现:
本地 AI 自由
在 Artificial Analysis 排行榜中表现极强
目前在全球权威 AI 榜单:
Artificial Analysis
![]()
Qwen3.6-35B-A3B 在 40B 以内开源模型中:
几乎属于第一梯队。
尤其:
- 中文理解
- 代码能力
- 多模态视觉
- 推理能力
- 长上下文能力
表现都非常夸张。
尤其中文能力。
可以说:
这是目前中文体验最强的一批开源模型。
多模态支持也非常离谱
这次不仅支持文本。
还支持:
多模态视觉识图
也就是说:
它可以直接:
- 看图片
- 分析截图
- OCR 识别
- 理解画面内容
- 分析复杂 UI
- 阅读代码截图
配合 llama.cpp 最新版后:
甚至已经可以当:
本地版 ChatGPT Vision
来使用。
![]()
本地部署非常简单
这次部署方案:
我使用的是:
llama.cpp 最新版
优点非常明显:
- 免费
- 开源
- 支持 Windows
- 支持 CUDA
- 支持 Vulkan
- 支持 AMD
- 支持 Intel
而且:
现在 llama.cpp 已经越来越成熟。
不仅支持:
- OpenAI API
- 多模态
- 超长上下文
- Agent 调用
甚至还能直接:
本地替代 OpenAI API
Hermes Agent 实测效果惊艳
这次我还把它:
接入了 Hermes Agent。
效果可以说:
非常炸裂。
因为现在:
你不仅仅是在“聊天”。
而是:
真正拥有了一个:
本地 AI Agent
它可以:
- 自动写代码
- 自动分析图片
- 自动执行任务
- 自动工具调用
- 自动联网
- 长上下文记忆
而且:
完全本地运行。
不用联网。
不用 API Key。
没有 Token 消耗。
真正实现:
- Token 自由
- Agent 自由
- 本地 AI 自由
推荐量化版本
不同显卡。
推荐不同量化。
RTX 4090 / 24G 显存
推荐:
- Q4_K_P
- Q4_K_M
体验最好。
8G 显存用户
推荐:
- IQ2_M
- IQ3_M
也能正常运行。
推荐 llama.cpp 参数
推荐启动参数:
llama-server.exe ^ -m "模型路径.gguf" ^ --mmproj "mmproj.gguf" ^ -ngl 999 ^ -c 131072 ^ -n 8192 ^ --host 127.0.0.1 ^ --port 8080 ^ --jinja
其中:
--mmproj
是多模态必须参数。
否则:
上传图片按钮会变灰。
--jinja
则是新版 Qwen 模型非常重要的参数。
不加的话:
可能出现:
- 回复异常
- 格式错乱
- 无限重复
- 中文异常
现在的本地 AI,已经完全变了
很多人对本地模型的印象:
还停留在:
- 很笨
- 很慢
- 只能聊天
- 无法实用
但现在。
真的不一样了。
尤其:
Qwen3.6-35B-A3B 这种模型出现后。
本地 AI 已经开始:
真正接近商业闭源模型。
而且:
完全属于你自己。
最后
如果你一直想体验:
- 无审查 AI
- 本地 AI
- 多模态 AI
- 本地 Agent
- 超长上下文
- 本地 OpenAI API
那么:
这个模型。真的非常值得尝试。因为现在这种资源:谁也不知道还能存在多久。建议尽快收藏、下载、备份!
免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型
不只是 Claude cowork,現在 Codex 桌面版也能輕鬆串連本地 AI 模型來使用,意味著完全免費且沒有任何額度限制,而且方法還非常簡單!於 5 月中推出的 Ollama v0.24.0,正式加入 Codex 桌面版的支援性,只要輸入一個指令,就能將 Codex 桌面版改成你選擇的 AI 模型,下面就來教你操作。
The post 免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型 appeared first on 電腦王阿達.