不是普通代码补全,而是让本地模型参与项目分析、文件修改、命令执行和 Bug 修复。

OpenAI Codex + Ollama:本地 AI 编程 Agent 方案

过去很长一段时间,很多人都认为,像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具,必须依赖云端运行。

因为它们需要强大的模型推理能力,所以几乎都离不开 OpenAI API、Claude API 或 Gemini API。

也正因为如此,AI 编程虽然很强,但成本一直都不低。尤其是大型项目分析、多轮 Agent 调用、自动修 Bug,一跑起来 Token 就会快速上涨。

但现在,这件事情开始变了:Ollama 已经可以把本地模型接入 Codex App。

换句话说,你电脑上运行的 Qwen、Gemma 等本地模型,不再只是聊天机器人,而是可以参与代码分析、文件修改、项目运行和 Bug 修复。

这篇文章就用小白能看懂的方式,讲清楚:Codex + Ollama 是什么、怎么部署、适合做什么,以及哪些地方不要过度神化。

先说清楚:这里说的“本地更自由”,主要是指推理可以走本地模型,不再按云端 API Token 计费。Codex App / Codex CLI 本身仍以官方当前规则和账号权限为准。

云端 AI 编程工具强大,但长任务 Token 消耗明显

云端 AI 编程工具强大,但长任务 Token 消耗明显

一、Codex + Ollama 到底是什么?

先把关系说清楚。

Codex 是 AI 编程 Agent 的外壳和工作流入口;Ollama 是本地大模型运行平台;你下载的 Qwen、Gemma 等模型,就是真正参与推理的大脑。

组件 小白理解
Codex App AI 编程 Agent 的桌面入口
Codex CLI 终端里的 AI 编程 Agent
Ollama 在本地运行开源模型的平台
Qwen / Gemma 本地模型大脑
项目目录 AI 要分析和修改的代码仓库

一句话:Codex 负责干活流程,Ollama 提供本地模型大脑。

二、为什么这件事值得关注?

以前本地大模型,很多人的印象还停留在聊天机器人阶段。

比如本地跑一个 Qwen、DeepSeek、Gemma,然后让它写文章、聊天、补全代码。

但 AI Agent 和聊天机器人不一样。聊天机器人只能回答问题,Agent 会尝试执行任务。

它可以做什么?

  • 自动分析项目结构
  • 自动扫描代码
  • 自动寻找 Bug
  • 自动修改文件
  • 自动创建项目
  • 自动运行命令
  • 根据报错继续修复

这意味着,本地 AI 已经开始从“能聊天”,走向“能干活”。

Ollama 接入 Codex App 后,本地模型开始参与 Agent 流程

Ollama 接入 Codex App 后,本地模型开始参与 Agent 流程

三、它能解决什么痛点?

AI 编程工具最让人又爱又怕的地方,就是 Token 消耗。

小问题还好,如果是大型项目,AI 需要读文件、分析目录、理解依赖、修改代码、运行命令、根据报错再修一轮。

整个过程不是一次请求,而是很多轮。

传统云端 Agent Codex + Ollama 本地模型
能力强 能力取决于本地模型
需要云端推理 可以走本地推理
长任务成本高 主要消耗本机算力
速度受网络和云端影响 更多取决于本机性能
适合复杂项目 更适合中小型项目

所以 Codex + Ollama 的价值不是让本地模型瞬间超越云端旗舰模型,而是给开发者多了一个选择:把低风险、重复性、轻量级开发任务交给本地模型来做。

四、部署前需要准备什么?

部署前你需要准备这些东西:

工具 作用
Codex App 桌面端 AI 编程 Agent
Ollama 本地模型运行平台
本地模型 例如 Qwen、Gemma 等
Git / Node / Python 根据项目需要安装
足够的硬件 显卡、内存越好,体验越好

如果你的电脑配置一般,不建议一上来就选最大模型。小模型先跑通,大模型再慢慢试。

五、小白部署步骤

1安装 Codex App

先安装 OpenAI Codex App。安装完成后,打开一次,确认软件可以正常运行。Codex App 是面向代码任务的桌面体验,适合并行处理 Codex 线程、Git 工作流和项目操作。

2安装最新版 Ollama

安装 Ollama,并确认命令行可以执行 ollama。Ollama 官方文档中已经提供了 Codex App 集成方式。

3下载本地模型

根据自己电脑配置选择模型。显存越小,模型越要保守。可以先从 Qwen 或 Gemma 的中小尺寸开始。

根据显卡和内存选择适合的本地模型

根据显卡和内存选择适合的本地模型

示例命令:

ollama run qwen3.6
ollama run qwen3.6:27b

ollama run gemma4
ollama run gemma4:26b
ollama run gemma4:31b

如果你是 Mac,并且模型库提供 mlx 适配版,可以选择对应的 mlx 版本。

ollama run qwen3.6:27b-mlx
ollama run qwen3.6:35b-mlx

ollama run gemma4:26b-mlx

4让 Ollama 接管 Codex App

确认 Ollama 已经运行后,在终端执行对接命令。

ollama launch codex-app

如果要指定模型,可以使用:

ollama launch codex-app --model gemma4:31b

如果想恢复之前配置,可以执行:

ollama launch codex-app --restore

Ollama 官方文档说明,如果 Codex App 已经运行但没有切换模型,可以允许 Ollama 重启它,或退出 Codex App 后重新执行 ollama launch codex-app。

六、进阶玩法:通过 llama.cpp 接入本地 GGUF 模型

如果你更熟悉 llama.cpp,也可以让 Codex 通过本地兼容服务连接 GGUF 模型。

这种玩法更适合有经验的用户。小白建议先用 Ollama 官方集成跑通。

示例配置思路:

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_reasoning_effort = "low"
profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_provider = "llamacpp"
model_reasoning_effort = "low"

[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

llama.cpp 启动示例:

llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080

注意:模型文件名、路径、端口都要改成你自己的。进阶玩法更容易遇到兼容问题,先跑通 Ollama 方案更稳。

七、实际体验:它真的会自己干活吗?

最有意思的地方,不是 AI 能聊天,而是它真的开始接管项目。

比如准备一个已经报错、无法运行的小游戏项目。正常情况下,人工修复需要先看控制台报错,再检查代码逻辑,然后定位问题,最后尝试修复。

但把项目交给 Agent 后,它会尝试:

  • 扫描项目文件
  • 分析代码结构
  • 定位错误逻辑
  • 自动修改代码
  • 修复 Bug
  • 重新运行整个项目

如果项目规模不大、错误比较明确,本地模型确实已经能给人一种“AI 在真正工作”的感觉。

本地 AI Agent 已经不只是聊天,而是开始执行任务

本地 AI Agent 已经不只是聊天,而是开始执行任务

示例:让 Agent 分析并修复项目问题

示例:让 Agent 分析并修复项目问题

八、适合做什么?

场景 适合程度
HTML 页面 很适合
小游戏 Demo 适合
简单 Bug 修复 适合
脚本生成 适合
配置文件修改 适合
Docker / 环境排查 可以尝试
大型工程重构 谨慎
复杂架构设计 不建议完全依赖
关键生产操作 必须人工审核

小项目很爽,大项目谨慎;自动化很香,关键操作必须人工确认。

九、本地模型的短板也很明显

这部分一定要讲清楚。

本地模型不是魔法,尤其在复杂工程里,它和云端旗舰模型仍然有差距。

常见问题包括:

  • 长上下文能力不足
  • 大型项目理解不稳定
  • 多步骤推理容易跑偏
  • 可能修改错误文件
  • 可能陷入反复修 Bug
  • 生成代码看起来合理但不可运行

所以不要把它当成完全自动程序员。更合理的定位是:本地 AI 开发助手。

十、配置建议

电脑配置 建议
8G 显存 选小模型,适合轻量任务
12G / 16G 显存 可以尝试更强代码模型
32GB 内存 入门可用
64GB 内存 多轮任务更稳
SSD 强烈建议,模型加载更快

模型选择原则:

  • 显存小,选小模型
  • 任务轻,不用盲目追大模型
  • 中文需求多,优先中文能力强的模型
  • 代码任务多,优先代码能力强的模型
  • 长任务多,上下文能力比参数大小更重要

十一、常见问题

1. Codex App 没有切换模型怎么办?

先退出 Codex App,再重新执行:

ollama launch codex-app

2. 想恢复原来的 Codex 配置怎么办?

ollama launch codex-app --restore

3. 模型运行太慢怎么办?

换小模型、减少上下文、关闭其他占显存的软件,优先保证能跑通。

4. AI 自动改错文件怎么办?

使用 Git 管理项目。每次让 AI 改动前先提交一次,方便回滚。

5. 能不能完全离线?

本地模型推理可以离线,但 Codex App、账号、模型下载、工具更新等部分仍可能需要联网。实际以你的环境和官方当前规则为准。

最后总结

OpenAI Codex + Ollama 这套玩法真正让人兴奋的地方,不是简单一句“免费”。

更准确地说,它让 AI 编程 Agent 的一部分推理能力,从云端回到了本地。

这意味着开发者可以用自己的显卡、内存和本地模型,去承担一部分低风险、重复性、轻量级的开发任务。

本地大模型不再只是聊天工具,而是开始进入项目、修改文件、运行命令、修复错误。

当然,它还不能完全替代云端最强模型,也不能保证复杂项目一次成功。

但它已经足够说明一个趋势:AI 编程正在从“代码补全”,进入“本地 Agent 执行”阶段。

一句话总结:Codex + Ollama 不是让本地模型一夜之间超越云端模型,而是让开发者第一次真正感受到,本地 AI Agent 已经开始能干活了。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐