保姆级教程：零基础用VPS搭建私人AI大模型（Ollama+DeepSeek/Llama3）

作者兔哥

2025年12月8日 21:28

告别昂贵的API调用！本文详细演示如何在Linux VPS上使用Ollama部署本地化AI模型（支持DeepSeek-R1/Llama 3）。从SSH连接、显存规划到Open WebUI搭建，全图文解析，手把手带你避开端口映射与环境配置的坑，轻松打造个人专属ChatGPT。”

[2026 必裝] 自己的 AI 自己養！阿正老師推這款「Ollama」：一鍵在你的電腦跑超強 AI，斷網也能用、資料不外洩！

㊣軟體玩家

作者阿正老師

2026年4月5日 18:11

這幾年 AI 發展實在太快了，但我們也越來越依賴大公司的雲端服務。有時候阿正老師在學校處理一些行政的文件時，心 […]

這篇文章 [2026 必裝] 自己的 AI 自己養！阿正老師推這款「Ollama」：一鍵在你的電腦跑超強 AI，斷網也能用、資料不外洩！最早出現於軟體玩家。

㊣軟體玩家
[2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI，哪個最好用？
2026年4月6日 16:00

[2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI，哪個最好用？

㊣軟體玩家

作者阿正老師

2026年4月6日 16:00

「阿正老師，我想在自己電腦跑 AI，但看到 Ollama、LM Studio、Jan 這三個工具，完全不知道要 […]

這篇文章 [2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI，哪個最好用？最早出現於軟體玩家。

㊣軟體玩家
Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）
2026年5月10日 09:41

Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）

㊣軟體玩家

作者阿正老師

2026年5月10日 09:41

就在 2026 年 4 月 2 日，Google DeepMind 悄悄丟出一顆震撼彈——Gemma 4 正式 […]

這篇文章 Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）最早出現於軟體玩家。

㊣軟體玩家
Hermes Agent Desktop 教學：不用打指令！圖形介面讓你輕鬆駕馭自我進化 AI
2026年5月17日 21:00

Hermes Agent Desktop 教學：不用打指令！圖形介面讓你輕鬆駕馭自我進化 AI

㊣軟體玩家

作者阿正老師

2026年5月17日 21:00

在阿正老師上一篇 Hermes Agent 完整教學裡，有讀者問：「阿正老師，指令複製貼上我還是搞不定，有沒 […]

這篇文章 Hermes Agent Desktop 教學：不用打指令！圖形介面讓你輕鬆駕馭自我進化 AI 最早出現於軟體玩家。

零度解说
Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！
2026年5月18日 15:09

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

零度解说

作者 admin

2026年5月18日 15:09

最近，llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说，这次更新可以说相当实用。

因为现在官方已经开始真正意义上的：“降低 Windows 本地 AI 的使用门槛”！

20260518064042 404956 scaled

20260518110005 256951 scaled

以前很多人第一次接触本地大模型，最头疼的其实不是模型本身，而是各种环境问题：

CUDA 版本不匹配
DLL 缺失
驱动不兼容
CMake 编译失败
环境变量错误
Vulkan / HIP 配置复杂
Windows 编译过程报错

尤其很多新手，教程还没看完，就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中，官方已经直接提供了多种 Windows 预编译版本，很多情况下已经可以做到：下载 → 解压 → 双击运行！这对于 Windows 本地 AI 用户来说，绝对算是一件好事。

20260518105919 469897 scaled

llama.cpp 是什么？

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

20260518064922 507431

官方下载：【点击前往】或【网盘下载】、【整合下载】

很多大家熟悉的本地模型，其实都可以通过 llama.cpp 运行：

Qwen
Llama
DeepSeek
Gemma
Hermes
Dolphin
Mistral
Mixtral

尤其现在 GGUF 生态越来越成熟，很多模型都会第一时间发布 GGUF 量化版本。

视频教程：

而 llama.cpp 最大的优势就是：

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持：

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

llama.cpp 最新 Windows 版本支持什么？

目前官方 Release 页面已经直接提供：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

这意味着：

NVIDIA 用户

可以直接选择：CUDA 12.4 或者 CUDA 13.1

如果你是：

RTX 3060
RTX 4060
RTX 4070
RTX 4080
RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以：HIP 或者 Vulkan

很多情况下，Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试：SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距，但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型？

例如：gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录：

llama-server.exe -m models\你的模型.gguf -ngl 999

其中：-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后，浏览器打开：http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型？

加载视觉模型需要2个文件，一个是主模型文件，另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括：

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一：

OCR
截图理解
网页识别
中文图片问答

表现都非常强。

主模型下载：【点击前往】或【网盘下载】、【备用下载】

20260518071309 620194

比如我让它给做视频封面的点击率测试，居然可以做到100%正确！当然它的功能远不止这些…….

多模态模型启用：

llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

无审查模型：

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语，非常适合角色扮演。

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令：

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

20260518065228 136336

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑：听话、高效、不乱加道德判断的AI

推理能力扎实：在数学和代码相关任务上表现突出，尤其长上下文处理（原生支持128K，部分可扩展到256K）。你甚至可以把整个项目代码库或一本技术手册一次性喂给它，它不会轻易“失忆”。
参数效率高：
26B MoE版本激活参数不多，跑起来相对轻快，在很多基准上效率比同级别模型更好。
开源友好：
Apache 2.0协议，允许修改、商用和二次分发，这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚，很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术（abliteration等）移除了这部分限制，保留了绝大部分原始能力。

模型下载：【点击前往】或【打包下载】、【备用下载】

20260518094514 729207

Qwen3.6-35B-A3B 越狱版来了！目前最强“无审查”开源模型？6G 显存都能跑，本地 AI 彻底自由了

零度解说

作者 admin

2026年5月24日 18:11

最近 AI 圈，真的越来越离谱了。如果你一直关注本地大模型，应该已经发现：现在的开源模型，不仅越来越聪明，甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型，更是直接把“本地 AI”推向了另一个阶段。

它就是：Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

20260524094928 092626

一个目前热度极高的“越狱版”开源模型。而且重点是：它不仅无审查、无限制，还非常聪明。甚至可以说：这可能是目前最强的越狱版开源模型之一。

什么是“越狱版”模型？

简单来说：

官方模型通常会加入大量安全限制。

比如：

敏感内容拒答
某些问题无法回答
强制政治正确
输出被过滤
系统提示词限制

所以很多时候：

你明明只是正常提问。

结果模型却：

“抱歉，我无法帮助你。”

而这类 Uncensored（无审查）版本：

则会尽可能移除这些限制。

尤其这个：

Aggressive 版本

可以说是：

目前最激进的版本之一。

官方模型 VS 越狱版模型

实测效果非常夸张。同样的问题：

官方模型：

疯狂拒答
强制安全策略
输出保守

而越狱版：

不仅会回答。

甚至：

什么都敢说
什么都肯干
几乎没有限制

20260524103741 562767 scaled

而且最关键的是：

它并不是那种：

“只会越狱，但智商很低”的模型。

恰恰相反。

这个模型：

真的非常聪明。

部署教程：

1、模型下载

【huggingface 下载】、【网盘打包下载】、或【备用下载】

模型来源：O站社区

里面有多种不同大小的量化版，你可以根据自己的显存大小，来选择对应的版本，最小的11G模型可以在6G/8G显存上跑起来，但是建议最低使用8G显存

20260524095235 493861 scaled

2、下载 llama.cpp

下载方式：【Github下载】、【网盘下载】或【整合包下载】

这款免费开源项目支持 N卡、A卡、I卡还有纯CPU运行，同时也可以在Mac、Linux系统上运行！也就意味着，你几乎可以在任何电脑上进行运行。速度还非常快，远比ollama、LM Studio 快的多也稳定的多！！

20260524095705 536710 scaled

3、一键启动脚本（支持多版本切换）

将下面的的脚本另存为BAT批处理，保存的时候选择utf-8格式，嫌麻烦直接【点击下载】打包版

@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo      Qwen3.6-35B-A3B 越狱版+多模态模型
echo               零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P（4090 推荐）
echo 2. Q4_K_M（稳定版）
echo 3. IQ4_NL（高压缩高质量）
echo 4. IQ2_M（6G/8G 显卡）
echo.
echo ==========================================

set /p choice=请输入数字：

if "%choice%"=="1" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="4" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080
)

pause

20260524100109 012895 scaled

打开后在上面选择对应的模型，输入对应的数字确认即可启动！

注意：如果启动后出现乱码，则：进入系统设置中心，在顶部搜索关键词：系统区域设置，打开选择用于非Unicode程序的语言，然后勾选 Beta版：使用 Unicode UTF-8 提供全球语言支持；重启电脑再打开就不会乱码！如下图所示：

20260528025432 937912

当然需要真正实现tokens自由，本地不受限制，完全免费使用AI Agent，那么将其对接到Hermes或者OpenClaw 小龙虾上去，才能真正体现出它的价值所在。

AI Agent 对接步骤：

1、在选择模型提供商的时候，选择自定义

20260524100404 821676 scaled

2、API base 地址填写：

http://127.0.0.1:8080/v1

API key 密钥随便填写一个数字或留空都可以

3、其它设置可以根据自己的喜好进行自定义

20260524100746 174902 scaled

Qwen3.6-35B-A3B 为什么这么强？

20260524100232 571605 scaled

很多人看到：

35B

第一反应是：

“这得服务器才能跑吧？”

但实际上：

Qwen3.6-35B-A3B 用的是：

MoE（专家混合架构）

简单理解：

虽然模型总参数是 35B。

但每次实际运行时：

只会激活大约 3B 参数。

这意味着：

它既拥有超大模型的能力。

又拥有小模型的速度。

6G 显存都能跑？

是的。

这也是它最夸张的地方之一。

通过 GGUF 量化后：

甚至：

6G 显存
8G 显存
普通游戏显卡

都能运行。

并且支持：

NVIDIA 显卡
AMD 显卡
Intel Arc 显卡

真正实现：

本地 AI 自由

在 Artificial Analysis 排行榜中表现极强

目前在全球权威 AI 榜单：

Artificial Analysis

20260524101123 401057

Qwen3.6-35B-A3B 在 40B 以内开源模型中：

几乎属于第一梯队。

尤其：

中文理解
代码能力
多模态视觉
推理能力
长上下文能力

表现都非常夸张。

尤其中文能力。

可以说：

这是目前中文体验最强的一批开源模型。

多模态支持也非常离谱

这次不仅支持文本。

还支持：

多模态视觉识图

也就是说：

它可以直接：

看图片
分析截图
OCR 识别
理解画面内容
分析复杂 UI
阅读代码截图

配合 llama.cpp 最新版后：

甚至已经可以当：

本地版 ChatGPT Vision

来使用。

20260524101147 350126

本地部署非常简单

这次部署方案：

我使用的是：

llama.cpp 最新版

优点非常明显：

免费
开源
支持 Windows
支持 CUDA
支持 Vulkan
支持 AMD
支持 Intel

而且：

现在 llama.cpp 已经越来越成熟。

不仅支持：

OpenAI API
多模态
超长上下文
Agent 调用

甚至还能直接：

本地替代 OpenAI API

Hermes Agent 实测效果惊艳

这次我还把它：

接入了 Hermes Agent。

效果可以说：

非常炸裂。

因为现在：

你不仅仅是在“聊天”。

而是：

真正拥有了一个：

本地 AI Agent

它可以：

自动写代码
自动分析图片
自动执行任务
自动工具调用
自动联网
长上下文记忆

而且：

完全本地运行。

不用联网。

不用 API Key。

没有 Token 消耗。

真正实现：

Token 自由
Agent 自由
本地 AI 自由

现在的本地 AI，已经完全变了

很多人对本地模型的印象：

还停留在：

很笨
很慢
只能聊天
无法实用

但现在。

真的不一样了。

尤其：

Qwen3.6-35B-A3B 这种模型出现后。

本地 AI 已经开始：

真正接近商业闭源模型。

而且：

完全属于你自己。

最后

如果你一直想体验：

无审查 AI
本地 AI
多模态 AI
本地 Agent
超长上下文
本地 OpenAI API

那么：

这个模型。真的非常值得尝试。因为现在这种资源：谁也不知道还能存在多久。建议尽快收藏、下载、备份！

電腦王阿達
免費無限使用 Codex 桌面版！一個指令，就能透過 Ollama 輕鬆串接本地 AI 模型
2026年5月27日 16:22

免費無限使用 Codex 桌面版！一個指令，就能透過 Ollama 輕鬆串接本地 AI 模型

電腦王阿達

作者 Rocky

2026年5月27日 16:22

不只是 Claude cowork，現在 Codex 桌面版也能輕鬆串連本地 AI 模型來使用，意味著完全免費且沒有任何額度限制，而且方法還非常簡單！於 5 月中推出的 Ollama v0.24.0，正式加入 Codex 桌面版的支援性，只要輸入一個指令，就能將 Codex 桌面版改成你選擇的 AI 模型，下面就來教你操作。

The post 免費無限使用 Codex 桌面版！一個指令，就能透過 Ollama 輕鬆串接本地 AI 模型 appeared first on 電腦王阿達.

普通视图

llama.cpp 是什么？

官方下载：【点击前往】 或 【网盘下载】、【整合下载】

视频教程：

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或 【网盘下载】、【备用下载】

无审查模型：

模型下载：【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或 【打包下载】、【备用下载】

更多越狱模型：

多种模态自由切换运行：

什么是“越狱版”模型？

Aggressive 版本

官方模型 VS 越狱版模型

部署教程：

1、模型下载

2、下载 llama.cpp

这款免费开源项目支持 N卡、A卡、I卡 还有纯CPU运行，同时也可以在Mac、Linux系统上运行！也就意味着，你几乎可以在任何电脑上进行运行。速度还非常快，远比ollama、LM Studio 快的多也稳定的多！！

3、一键启动脚本（支持多版本切换）

打开后在上面选择对应的模型，输入对应的数字确认即可启动！

AI Agent 对接步骤：

Qwen3.6-35B-A3B 为什么这么强？

35B

MoE（专家混合架构）

6G 显存都能跑？

本地 AI 自由

在 Artificial Analysis 排行榜中表现极强

Artificial Analysis

多模态支持也非常离谱

多模态视觉识图

本地版 ChatGPT Vision

本地部署非常简单

llama.cpp 最新版

本地替代 OpenAI API

Hermes Agent 实测效果惊艳

本地 AI Agent

推荐量化版本

RTX 4090 / 24G 显存

8G 显存用户

推荐 llama.cpp 参数

--mmproj

--jinja

现在的本地 AI，已经完全变了

最后

官方下载：【点击前往】或【网盘下载】、【整合下载】

主模型下载：【点击前往】或【网盘下载】、【备用下载】

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或【打包下载】、【备用下载】

这款免费开源项目支持 N卡、A卡、I卡还有纯CPU运行，同时也可以在Mac、Linux系统上运行！也就意味着，你几乎可以在任何电脑上进行运行。速度还非常快，远比ollama、LM Studio 快的多也稳定的多！！

`--mmproj`

`--jinja`