普通视图

发现新文章,点击刷新页面。
昨天以前首页

保姆级教程:零基础用VPS搭建私人AI大模型(Ollama+DeepSeek/Llama3)

作者 兔哥
2025年12月8日 21:28
告别昂贵的API调用!本文详细演示如何在Linux VPS上使用Ollama部署本地化AI模型(支持DeepSeek-R1/Llama 3)。从SSH连接、显存规划到Open WebUI搭建,全图文解析,手把手带你避开端口映射与环境配置的坑,轻松打造个人专属ChatGPT。”

Windows 本地 AI 又升级了!llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL,一键跑 GGUF 无审查模型!

作者 admin
2026年5月18日 15:09

最近,llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说,这次更新可以说相当实用。

因为现在官方已经开始真正意义上的:“降低 Windows 本地 AI 的使用门槛”!

20260518064042 404956 scaled

20260518110005 256951 scaled

以前很多人第一次接触本地大模型,最头疼的其实不是模型本身,而是各种环境问题:

  • CUDA 版本不匹配
  • DLL 缺失
  • 驱动不兼容
  • CMake 编译失败
  • 环境变量错误
  • Vulkan / HIP 配置复杂
  • Windows 编译过程报错

尤其很多新手,教程还没看完,就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多情况下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对算是一件好事。

20260518105919 469897 scaled

llama.cpp 是什么?

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

20260518064922 507431

官方下载:【点击前往】 或 【网盘下载】、【整合下载

 

很多大家熟悉的本地模型,其实都可以通过 llama.cpp 运行:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Hermes
  • Dolphin
  • Mistral
  • Mixtral

尤其现在 GGUF 生态越来越成熟,很多模型都会第一时间发布 GGUF 量化版本。

视频教程:

而 llama.cpp 最大的优势就是:

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持:

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

 

llama.cpp 最新 Windows 版本支持什么?

目前官方 Release 页面已经直接提供:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

这意味着:

NVIDIA 用户

可以直接选择:CUDA 12.4 或者 CUDA 13.1

如果你是:

  • RTX 3060
  • RTX 4060
  • RTX 4070
  • RTX 4080
  • RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以:HIP 或者 Vulkan

很多情况下,Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试:SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距,但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型?

例如:gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录:

llama-server.exe -m models\你的模型.gguf -ngl 999

 

其中:-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后,浏览器打开:http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型?

加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括:

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一:

  • OCR
  • 截图理解
  • 网页识别
  • 中文图片问答

表现都非常强。

主模型下载:【点击前往】或 【网盘下载】、【备用下载

 

20260518071309 620194

 

比如我让它给做视频封面的点击率测试,居然可以做到100%正确!当然它的功能远不止这些…….

 

多模态模型启用:

llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

 

 

无审查模型:

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语,非常适合角色扮演。

模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令:

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

 

 

20260518065228 136336

 

 

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑:听话、高效、不乱加道德判断的AI

  • 推理能力扎实:在数学和代码相关任务上表现突出,尤其长上下文处理(原生支持128K,部分可扩展到256K)。你甚至可以把整个项目代码库或一本技术手册一次性喂给它,它不会轻易“失忆”。
  • 参数效率高:
    26B MoE版本激活参数不多,跑起来相对轻快,在很多基准上效率比同级别模型更好。
  • 开源友好:
    Apache 2.0协议,允许修改、商用和二次分发,这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚,很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术(abliteration等)移除了这部分限制,保留了绝大部分原始能力。

模型下载:【点击前往】或 【打包下载】、【备用下载

 

20260518094514 729207

 

更多越狱模型:

1、Hermes-3 【点击下载

2、Qwen 越狱模型【点击下载

3、Deepseek 越狱模型【点击下载

多种模态自由切换运行:

如果我们同时下载了多种不同的模型,为了方便统一管理,在运行的时候我们可以使用零度的这个脚本,来实现多模型自由切换运行,注意将里面的模型名称改成你自己的!

@echo off
chcp 65001 >nul
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型:
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字:

if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

将上方的命令保存到文本文档里,另存为的时候选择utf-8格式,最后将txt后缀改成bat即可!双击运行即可看到下方的选项

 

 

20260518070758 415709

 

输入模型对应的数字就可以成功启动模型

20260518070850 012830 scaled 20260518070854 219316 scaled

 

 

20260518110131 957575 scaled

 

Qwen3.6-35B-A3B 越狱版来了!目前最强“无审查”开源模型?6G 显存都能跑,本地 AI 彻底自由了

作者 admin
2026年5月24日 18:11

最近 AI 圈,真的越来越离谱了。如果你一直关注本地大模型,应该已经发现:现在的开源模型,不仅越来越聪明,甚至已经开始挑战很多闭源商业 AI。而今天要介绍的这个模型,更是直接把“本地 AI”推向了另一个阶段。

它就是:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

 

20260524094928 092626

一个目前热度极高的“越狱版”开源模型。而且重点是:它不仅无审查、无限制,还非常聪明。甚至可以说:这可能是目前最强的越狱版开源模型之一。

 

什么是“越狱版”模型?

简单来说:

官方模型通常会加入大量安全限制。

比如:

  • 敏感内容拒答
  • 某些问题无法回答
  • 强制政治正确
  • 输出被过滤
  • 系统提示词限制

所以很多时候:

你明明只是正常提问。

结果模型却:

“抱歉,我无法帮助你。”

而这类 Uncensored(无审查)版本:

则会尽可能移除这些限制。

尤其这个:

Aggressive 版本

可以说是:

目前最激进的版本之一。

官方模型 VS 越狱版模型

 

实测效果非常夸张。同样的问题:

官方模型:

  • 疯狂拒答
  • 强制安全策略
  • 输出保守

而越狱版:

不仅会回答。

甚至:

  • 什么都敢说
  • 什么都肯干
  • 几乎没有限制

20260524103741 562767 scaled

而且最关键的是:

它并不是那种:

“只会越狱,但智商很低”的模型。

恰恰相反。

这个模型:

真的非常聪明。

部署教程:

 

1、模型下载

huggingface 下载】、【网盘打包下载】、或 【备用下载

模型来源:O站社区

里面有多种不同大小的量化版,你可以根据自己的显存大小,来选择对应的版本,最小的11G模型可以在6G/8G显存上跑起来,但是建议最低使用8G显存

 

20260524095235 493861 scaled

2、下载 llama.cpp

下载方式:【Github下载】、【网盘下载】或 【整合包下载

这款免费开源项目支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!也就意味着,你几乎可以在任何电脑上进行运行。速度还非常快,远比ollama、LM Studio 快的多也稳定的多!!

 

20260524095705 536710 scaled

3、一键启动脚本(支持多版本切换)

将下面的的脚本另存为BAT批处理,保存的时候选择utf-8格式,嫌麻烦直接【点击下载】打包版

@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo      Qwen3.6-35B-A3B 越狱版+多模态模型
echo               零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P(4090 推荐)
echo 2. Q4_K_M(稳定版)
echo 3. IQ4_NL(高压缩高质量)
echo 4. IQ2_M(6G/8G 显卡)
echo.
echo ==========================================

set /p choice=请输入数字:

if "%choice%"=="1" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="4" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080
)

pause

 

20260524100109 012895 scaled

打开后在上面选择对应的模型,输入对应的数字确认即可启动!

 

注意:如果启动后出现乱码,则:进入系统设置中心,在顶部搜索关键词:系统区域设置,打开选择用于非Unicode程序的语言,然后勾选 Beta版:使用 Unicode UTF-8 提供全球语言支持;重启电脑再打开就不会乱码! 如下图所示:

20260528025432 937912

 

当然需要真正实现tokens自由,本地不受限制,完全免费使用AI Agent,那么将其对接到Hermes或者OpenClaw 小龙虾上去,才能真正体现出它的价值所在。

AI Agent 对接步骤:

1、在选择模型提供商的时候,选择自定义

20260524100404 821676 scaled

 

2、API base 地址填写:

http://127.0.0.1:8080/v1

 

API key 密钥随便填写一个数字或留空都可以

 

3、其它设置可以根据自己的喜好进行自定义

 

20260524100746 174902 scaled

 

Qwen3.6-35B-A3B 为什么这么强?

 

20260524100232 571605 scaled

很多人看到:

35B

第一反应是:

“这得服务器才能跑吧?”

但实际上:

Qwen3.6-35B-A3B 用的是:

MoE(专家混合架构)

简单理解:

虽然模型总参数是 35B。

但每次实际运行时:

只会激活大约 3B 参数。

这意味着:

它既拥有超大模型的能力。

又拥有小模型的速度。

6G 显存都能跑?

是的。

这也是它最夸张的地方之一。

通过 GGUF 量化后:

甚至:

  • 6G 显存
  • 8G 显存
  • 普通游戏显卡

都能运行。

并且支持:

  • NVIDIA 显卡
  • AMD 显卡
  • Intel Arc 显卡

真正实现:

本地 AI 自由

在 Artificial Analysis 排行榜中表现极强

目前在全球权威 AI 榜单:

Artificial Analysis

20260524101123 401057

Qwen3.6-35B-A3B 在 40B 以内开源模型中:

几乎属于第一梯队。

尤其:

  • 中文理解
  • 代码能力
  • 多模态视觉
  • 推理能力
  • 长上下文能力

表现都非常夸张。

尤其中文能力。

可以说:

这是目前中文体验最强的一批开源模型。

多模态支持也非常离谱

这次不仅支持文本。

还支持:

多模态视觉识图

也就是说:

它可以直接:

  • 看图片
  • 分析截图
  • OCR 识别
  • 理解画面内容
  • 分析复杂 UI
  • 阅读代码截图

配合 llama.cpp 最新版后:

甚至已经可以当:

本地版 ChatGPT Vision

来使用。

20260524101147 350126

本地部署非常简单

这次部署方案:

我使用的是:

llama.cpp 最新版

优点非常明显:

  • 免费
  • 开源
  • 支持 Windows
  • 支持 CUDA
  • 支持 Vulkan
  • 支持 AMD
  • 支持 Intel

而且:

现在 llama.cpp 已经越来越成熟。

不仅支持:

  • OpenAI API
  • 多模态
  • 超长上下文
  • Agent 调用

甚至还能直接:

本地替代 OpenAI API

Hermes Agent 实测效果惊艳

这次我还把它:

接入了 Hermes Agent。

效果可以说:

非常炸裂。

因为现在:

你不仅仅是在“聊天”。

而是:

真正拥有了一个:

本地 AI Agent

它可以:

  • 自动写代码
  • 自动分析图片
  • 自动执行任务
  • 自动工具调用
  • 自动联网
  • 长上下文记忆

而且:

完全本地运行。

不用联网。

不用 API Key。

没有 Token 消耗。

真正实现:

  • Token 自由
  • Agent 自由
  • 本地 AI 自由

推荐量化版本

不同显卡。

推荐不同量化。

RTX 4090 / 24G 显存

推荐:

  • Q4_K_P
  • Q4_K_M

体验最好。

8G 显存用户

推荐:

  • IQ2_M
  • IQ3_M

也能正常运行。

推荐 llama.cpp 参数

推荐启动参数:

llama-server.exe ^
-m "模型路径.gguf" ^
--mmproj "mmproj.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080 ^
--jinja

其中:

--mmproj

是多模态必须参数。

否则:

上传图片按钮会变灰。

--jinja

则是新版 Qwen 模型非常重要的参数。

不加的话:

可能出现:

  • 回复异常
  • 格式错乱
  • 无限重复
  • 中文异常

现在的本地 AI,已经完全变了

很多人对本地模型的印象:

还停留在:

  • 很笨
  • 很慢
  • 只能聊天
  • 无法实用

但现在。

真的不一样了。

尤其:

Qwen3.6-35B-A3B 这种模型出现后。

本地 AI 已经开始:

真正接近商业闭源模型。

而且:

完全属于你自己。

最后

如果你一直想体验:

  • 无审查 AI
  • 本地 AI
  • 多模态 AI
  • 本地 Agent
  • 超长上下文
  • 本地 OpenAI API

那么:

这个模型。真的非常值得尝试。因为现在这种资源:谁也不知道还能存在多久。建议尽快收藏、下载、备份!

免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型

作者 Rocky
2026年5月27日 16:22

不只是 Claude cowork,現在 Codex 桌面版也能輕鬆串連本地 AI 模型來使用,意味著完全免費且沒有任何額度限制,而且方法還非常簡單!於 5 月中推出的 Ollama v0.24.0,正式加入 Codex 桌面版的支援性,只要輸入一個指令,就能將 Codex 桌面版改成你選擇的 AI 模型,下面就來教你操作。

The post 免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型 appeared first on 電腦王阿達.

❌
❌