OpenAI Codex 彻底免费了!Ollama 接管 AI 编程 Agent,本地大模型开始自动干活!真爽
过去很长一段时间里,很多人都认为,像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具,必须依赖云端运行。因为它们需要强大的模型推理能力,所以几乎都离不开 OpenAI API、Claude API 或者 Gemini API。也正因为如此,AI 编程虽然很强,但成本一直都不低。
![]()
尤其是大型项目。一次完整的代码分析、项目扫描、Agent 推理,往往就会消耗大量 Token。很多开发者可能只是测试几个小时,API 费用就已经开始快速上涨。
但现在,这件事情开始发生变化了。因为最新版的 Ollama,已经正式支持接入 Codex App。也就是说,你本地运行的大模型,现在已经可以直接变成 AI 自动编程 Agent。
![]()
而且最离谱的是:整个过程,甚至不需要联网。以前很多人对本地大模型的印象,其实还停留在“聊天机器人”阶段。比如本地运行一个 Qwen、DeepSeek、Gemma,然后进行简单对话、文本生成、代码补全等等。
但现在已经完全不同了。因为 AI Agent 和普通聊天机器人,本质上是两回事。聊天机器人只能回答问题,但 Agent 已经开始“执行任务”了。
比如:
自动分析项目结构。
自动扫描代码。
自动寻找 Bug。
自动修改文件。
自动创建项目。
甚至自动操作浏览器。
这意味着,本地 AI 已经开始真正具备“干活”的能力。
![]()
我这次测试的时候,最让我震惊的,并不是 AI 能聊天,而是它真的开始接管电脑了。比如我故意准备了一个已经崩掉的空战游戏项目。这个游戏原本已经报错,甚至无法正常运行。
正常情况下,如果是人工修复,我们可能需要:先查看控制台报错。再检查代码逻辑。然后逐步定位问题。最后再尝试修复。但这次,我直接把整个项目丢给了 AI Agent。
结果它会自动开始:
扫描项目文件。
分析代码结构。
定位错误逻辑。
自动修改代码。
修复 Bug。
最后重新运行整个游戏。
最离谱的是,修复完成之后,游戏居然真的恢复正常运行了。整个过程,几乎不需要人工干预。
![]()
而且这还不是最夸张的。真正让我觉得离谱的是:哪怕断网。它依然可以继续工作。因为它调用的是我本地 GPU 上的大模型。整个 AI 推理过程,全部都在本地完成。没有任何 OpenAI API,也没有任何 Token 消耗。以前很多 AI 工具,一旦断网,直接就废了。
但现在,本地 AI Agent 已经开始具备真正的离线能力。这一点,其实非常重要。因为这意味着,未来很多 AI 工作流,可能都会开始从“云端依赖”逐渐转向“本地运行”。
本地部署
1、安装 OpenAI Codex
如果你下载的是macOS版,注意选择intel 、M 芯片
2、安装新版 Ollama
目前只有最新版Ollama 0.24 版本才完全适配Codex,所以如果你安装的是旧版ollama,一定要将其升级到最新版
3、下载模型:
在4B~40B消费级显卡能跑的开源模型,首推 Qwen3.6 以及 谷歌的 Gemma 4 开源模型,因为无论是模型智力、代码编写、逻辑推理、中文理解等方面,这两款模型的综合评分都是数一数二的!
![]()
Qwen3.6 开源模型
安装命令:
ollama run qwen3.6 ollama run qwen3.6:27b
mac 电脑上请选择mlx结尾的适配版
ollama run qwen3.6:27b-mlx ollama run qwen3.6:35b-mlx
Qwen 3.6 其它尺寸的模型 【获取链接】
Qwen 3.6 越狱版模型: 【点击下载】
Gemma 4 开源模型
安装命令:
ollama run gemma4 ollama run gemma4:26b ollama run gemma4:31b
mac 电脑可选模型
ollama run gemma4:e2b-mlx ollama run gemma4:e4b-mlx ollama run gemma4:26b-mlx
Gemma 4 其它尺寸模型:【获取链接】
Gemma 4 越狱版模型:【点击下载】
4、对接命令:
ollama launch codex-app
注意:如果需要使用之前的模型,可以通过下方的命令进行恢复:
ollama launch codex-app --restore
【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型
1、修改Codex的配置文件:
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_reasoning_effort = "low" profile = "llamacpp-codex" model_provider = "llamacpp" [profiles.llamacpp-codex] model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_provider = "llamacpp" model_reasoning_effort = "low" [profiles.llamacpp-codex.windows] sandbox = "elevated" [model_providers.llamacpp] name = "llama.cpp" base_url = "http://127.0.0.1:8080/v1/" wire_api = "responses" [windows] sandbox = "elevated"
2、llama.cpp 的启动命令:
llama-server.exe ^ -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^ -ngl 999 ^ -c 16384 ^ -n 2048 ^ -fa on ^ --jinja ^ --host 127.0.0.1 ^ --port 8080
里面的模型改成你自己的
llama.cpp 部署教程:
另外一点让我感触很深的是,现在本地 AI 的硬件门槛,其实已经没有大家想象中那么高了。
很多人以前一提到 AI Agent,第一反应就是:
必须 RTX 4090。
必须 80G 显存。
必须企业级 GPU。
但实际上,现在很多小模型已经完全可以胜任基础 AI 编程任务。
比如:
Qwen 系列。
DeepSeek Coder。
Gemma。
甚至一些 7B、14B 的模型。
最低 6G、8G 显存,现在都已经可以跑起来了。
虽然速度肯定没办法和 4090 相比,但对于很多普通用户来说,已经足够体验“本地 AI 自动编程”这件事情了。
除了修 Bug 之外,我还测试了另外一个非常有意思的玩法:
让 AI 自动开发小游戏。
比如我直接告诉它:
帮我做一个打地鼠小游戏。
结果 AI 会自动创建 HTML、CSS、JavaScript 文件,甚至连 UI 界面和游戏逻辑都会一起完成。
几分钟时间,一个小游戏居然真的能运行起来。
而且效果其实还不错。
最关键的是,这种过程特别有“未来感”。
因为你会明显感觉到:
AI 已经不是在“回答问题”。
而是在真正执行开发任务。
接着,我又测试了另外一个场景。
我让它创建一个苹果官网风格的 AI 产品首页。
结果 AI 自动完成了页面布局、动画、响应式设计、UI 风格,甚至还会自动调整细节。
最终效果,已经开始接近商业级网页设计了。
以前这种事情,可能需要:
UI 设计师。
前端工程师。
动画设计。
CSS 工程师。
但现在,一个 AI Agent,已经开始逐渐具备独立完成整个流程的能力。
这件事情,其实是非常恐怖的。
更夸张的是,现在很多 Agent 已经不仅仅局限于代码开发。
它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件,然后自动完成整个操作流程。
这已经越来越像真正的 AI 助手了。
很多人现在才开始意识到:
AI 的真正方向,可能根本不是聊天。
而是:
Agent。
也就是:
真正帮你执行任务的 AI。
而 Ollama,现在正在成为整个本地 AI 生态里非常核心的一环。
以前很多人觉得,Ollama 只是一个简单的本地模型启动工具。
但现在,它已经开始连接越来越多的 AI Agent 工具。
比如:
Codex App。
Continue。
OpenHands。
RooCode。
Aider。
Open WebUI。
这些工具,现在都已经开始支持本地大模型接入。
这意味着:
本地 AI 正在进入真正的 Agent 时代。
以前,AI 更多只是辅助工具。
但现在,它已经开始:
自己分析项目。
自己修改代码。
自己修复 Bug。
自己开发网站。
自己创建游戏。
甚至开始自己操作电脑。
AI 的角色,正在从“聊天工具”,逐渐变成“执行工具”。
而这,可能才是真正 AI 时代的开始。