OpenAI Codex + Ollama 爆了本地大模型接管 AI 编程 Agent,开始自己干活
不是普通代码补全,而是让本地模型参与项目分析、文件修改、命令执行和 Bug 修复。
OpenAI Codex + Ollama:本地 AI 编程 Agent 方案
过去很长一段时间,很多人都认为,像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具,必须依赖云端运行。
因为它们需要强大的模型推理能力,所以几乎都离不开 OpenAI API、Claude API 或 Gemini API。
也正因为如此,AI 编程虽然很强,但成本一直都不低。尤其是大型项目分析、多轮 Agent 调用、自动修 Bug,一跑起来 Token 就会快速上涨。
但现在,这件事情开始变了:Ollama 已经可以把本地模型接入 Codex App。
换句话说,你电脑上运行的 Qwen、Gemma 等本地模型,不再只是聊天机器人,而是可以参与代码分析、文件修改、项目运行和 Bug 修复。
这篇文章就用小白能看懂的方式,讲清楚:Codex + Ollama 是什么、怎么部署、适合做什么,以及哪些地方不要过度神化。
先说清楚:这里说的“本地更自由”,主要是指推理可以走本地模型,不再按云端 API Token 计费。Codex App / Codex CLI 本身仍以官方当前规则和账号权限为准。

云端 AI 编程工具强大,但长任务 Token 消耗明显
一、Codex + Ollama 到底是什么?
先把关系说清楚。
Codex 是 AI 编程 Agent 的外壳和工作流入口;Ollama 是本地大模型运行平台;你下载的 Qwen、Gemma 等模型,就是真正参与推理的大脑。
| 组件 | 小白理解 |
|---|---|
| Codex App | AI 编程 Agent 的桌面入口 |
| Codex CLI | 终端里的 AI 编程 Agent |
| Ollama | 在本地运行开源模型的平台 |
| Qwen / Gemma | 本地模型大脑 |
| 项目目录 | AI 要分析和修改的代码仓库 |
一句话:Codex 负责干活流程,Ollama 提供本地模型大脑。
二、为什么这件事值得关注?
以前本地大模型,很多人的印象还停留在聊天机器人阶段。
比如本地跑一个 Qwen、DeepSeek、Gemma,然后让它写文章、聊天、补全代码。
但 AI Agent 和聊天机器人不一样。聊天机器人只能回答问题,Agent 会尝试执行任务。
它可以做什么?
- 自动分析项目结构
- 自动扫描代码
- 自动寻找 Bug
- 自动修改文件
- 自动创建项目
- 自动运行命令
- 根据报错继续修复
这意味着,本地 AI 已经开始从“能聊天”,走向“能干活”。

Ollama 接入 Codex App 后,本地模型开始参与 Agent 流程
三、它能解决什么痛点?
AI 编程工具最让人又爱又怕的地方,就是 Token 消耗。
小问题还好,如果是大型项目,AI 需要读文件、分析目录、理解依赖、修改代码、运行命令、根据报错再修一轮。
整个过程不是一次请求,而是很多轮。
| 传统云端 Agent | Codex + Ollama 本地模型 |
|---|---|
| 能力强 | 能力取决于本地模型 |
| 需要云端推理 | 可以走本地推理 |
| 长任务成本高 | 主要消耗本机算力 |
| 速度受网络和云端影响 | 更多取决于本机性能 |
| 适合复杂项目 | 更适合中小型项目 |
所以 Codex + Ollama 的价值不是让本地模型瞬间超越云端旗舰模型,而是给开发者多了一个选择:把低风险、重复性、轻量级开发任务交给本地模型来做。
四、部署前需要准备什么?
部署前你需要准备这些东西:
| 工具 | 作用 |
|---|---|
| Codex App | 桌面端 AI 编程 Agent |
| Ollama | 本地模型运行平台 |
| 本地模型 | 例如 Qwen、Gemma 等 |
| Git / Node / Python | 根据项目需要安装 |
| 足够的硬件 | 显卡、内存越好,体验越好 |
如果你的电脑配置一般,不建议一上来就选最大模型。小模型先跑通,大模型再慢慢试。
五、小白部署步骤
1安装 Codex App
先安装 OpenAI Codex App。安装完成后,打开一次,确认软件可以正常运行。Codex App 是面向代码任务的桌面体验,适合并行处理 Codex 线程、Git 工作流和项目操作。
2安装最新版 Ollama
安装 Ollama,并确认命令行可以执行 ollama。Ollama 官方文档中已经提供了 Codex App 集成方式。
3下载本地模型
根据自己电脑配置选择模型。显存越小,模型越要保守。可以先从 Qwen 或 Gemma 的中小尺寸开始。

根据显卡和内存选择适合的本地模型
示例命令:
ollama run qwen3.6 ollama run qwen3.6:27b ollama run gemma4 ollama run gemma4:26b ollama run gemma4:31b
如果你是 Mac,并且模型库提供 mlx 适配版,可以选择对应的 mlx 版本。
ollama run qwen3.6:27b-mlx ollama run qwen3.6:35b-mlx ollama run gemma4:26b-mlx
4让 Ollama 接管 Codex App
确认 Ollama 已经运行后,在终端执行对接命令。
ollama launch codex-app
如果要指定模型,可以使用:
ollama launch codex-app --model gemma4:31b
如果想恢复之前配置,可以执行:
ollama launch codex-app --restore
Ollama 官方文档说明,如果 Codex App 已经运行但没有切换模型,可以允许 Ollama 重启它,或退出 Codex App 后重新执行 ollama launch codex-app。
六、进阶玩法:通过 llama.cpp 接入本地 GGUF 模型
如果你更熟悉 llama.cpp,也可以让 Codex 通过本地兼容服务连接 GGUF 模型。
这种玩法更适合有经验的用户。小白建议先用 Ollama 官方集成跑通。
示例配置思路:
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_reasoning_effort = "low" profile = "llamacpp-codex" model_provider = "llamacpp" [profiles.llamacpp-codex] model = "Qwen3.6-27B-UD-Q5_K_XL.gguf" model_provider = "llamacpp" model_reasoning_effort = "low" [model_providers.llamacpp] name = "llama.cpp" base_url = "http://127.0.0.1:8080/v1/" wire_api = "responses"
llama.cpp 启动示例:
llama-server.exe ^ -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^ -ngl 999 ^ -c 16384 ^ -n 2048 ^ -fa on ^ --jinja ^ --host 127.0.0.1 ^ --port 8080
注意:模型文件名、路径、端口都要改成你自己的。进阶玩法更容易遇到兼容问题,先跑通 Ollama 方案更稳。
七、实际体验:它真的会自己干活吗?
最有意思的地方,不是 AI 能聊天,而是它真的开始接管项目。
比如准备一个已经报错、无法运行的小游戏项目。正常情况下,人工修复需要先看控制台报错,再检查代码逻辑,然后定位问题,最后尝试修复。
但把项目交给 Agent 后,它会尝试:
- 扫描项目文件
- 分析代码结构
- 定位错误逻辑
- 自动修改代码
- 修复 Bug
- 重新运行整个项目
如果项目规模不大、错误比较明确,本地模型确实已经能给人一种“AI 在真正工作”的感觉。

本地 AI Agent 已经不只是聊天,而是开始执行任务

示例:让 Agent 分析并修复项目问题
八、适合做什么?
| 场景 | 适合程度 |
|---|---|
| HTML 页面 | 很适合 |
| 小游戏 Demo | 适合 |
| 简单 Bug 修复 | 适合 |
| 脚本生成 | 适合 |
| 配置文件修改 | 适合 |
| Docker / 环境排查 | 可以尝试 |
| 大型工程重构 | 谨慎 |
| 复杂架构设计 | 不建议完全依赖 |
| 关键生产操作 | 必须人工审核 |
小项目很爽,大项目谨慎;自动化很香,关键操作必须人工确认。
九、本地模型的短板也很明显
这部分一定要讲清楚。
本地模型不是魔法,尤其在复杂工程里,它和云端旗舰模型仍然有差距。
常见问题包括:
- 长上下文能力不足
- 大型项目理解不稳定
- 多步骤推理容易跑偏
- 可能修改错误文件
- 可能陷入反复修 Bug
- 生成代码看起来合理但不可运行
所以不要把它当成完全自动程序员。更合理的定位是:本地 AI 开发助手。
十、配置建议
| 电脑配置 | 建议 |
|---|---|
| 8G 显存 | 选小模型,适合轻量任务 |
| 12G / 16G 显存 | 可以尝试更强代码模型 |
| 32GB 内存 | 入门可用 |
| 64GB 内存 | 多轮任务更稳 |
| SSD | 强烈建议,模型加载更快 |
模型选择原则:
- 显存小,选小模型
- 任务轻,不用盲目追大模型
- 中文需求多,优先中文能力强的模型
- 代码任务多,优先代码能力强的模型
- 长任务多,上下文能力比参数大小更重要
十一、常见问题
1. Codex App 没有切换模型怎么办?
先退出 Codex App,再重新执行:
ollama launch codex-app
2. 想恢复原来的 Codex 配置怎么办?
ollama launch codex-app --restore
3. 模型运行太慢怎么办?
换小模型、减少上下文、关闭其他占显存的软件,优先保证能跑通。
4. AI 自动改错文件怎么办?
使用 Git 管理项目。每次让 AI 改动前先提交一次,方便回滚。
5. 能不能完全离线?
本地模型推理可以离线,但 Codex App、账号、模型下载、工具更新等部分仍可能需要联网。实际以你的环境和官方当前规则为准。
最后总结
OpenAI Codex + Ollama 这套玩法真正让人兴奋的地方,不是简单一句“免费”。
更准确地说,它让 AI 编程 Agent 的一部分推理能力,从云端回到了本地。
这意味着开发者可以用自己的显卡、内存和本地模型,去承担一部分低风险、重复性、轻量级的开发任务。
本地大模型不再只是聊天工具,而是开始进入项目、修改文件、运行命令、修复错误。
当然,它还不能完全替代云端最强模型,也不能保证复杂项目一次成功。
但它已经足够说明一个趋势:AI 编程正在从“代码补全”,进入“本地 Agent 执行”阶段。
一句话总结:Codex + Ollama 不是让本地模型一夜之间超越云端模型,而是让开发者第一次真正感受到,本地 AI Agent 已经开始能干活了。
更多推荐

所有评论(0)