OpenAI Codex + Ollama 爆了本地大模型接管 AI 编程 Agent，开始自己干活

Hello.Reader

749人浏览 · 2026-05-28 11:06:06

Hello.Reader · 2026-05-28 11:06:06 发布

不是普通代码补全，而是让本地模型参与项目分析、文件修改、命令执行和 Bug 修复。

OpenAI Codex + Ollama：本地 AI 编程 Agent 方案

过去很长一段时间，很多人都认为，像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具，必须依赖云端运行。

因为它们需要强大的模型推理能力，所以几乎都离不开 OpenAI API、Claude API 或 Gemini API。

也正因为如此，AI 编程虽然很强，但成本一直都不低。尤其是大型项目分析、多轮 Agent 调用、自动修 Bug，一跑起来 Token 就会快速上涨。

但现在，这件事情开始变了：Ollama 已经可以把本地模型接入 Codex App。

换句话说，你电脑上运行的 Qwen、Gemma 等本地模型，不再只是聊天机器人，而是可以参与代码分析、文件修改、项目运行和 Bug 修复。

这篇文章就用小白能看懂的方式，讲清楚：Codex + Ollama 是什么、怎么部署、适合做什么，以及哪些地方不要过度神化。

先说清楚：这里说的“本地更自由”，主要是指推理可以走本地模型，不再按云端 API Token 计费。Codex App / Codex CLI 本身仍以官方当前规则和账号权限为准。

云端 AI 编程工具强大，但长任务 Token 消耗明显

一、Codex + Ollama 到底是什么？

先把关系说清楚。

Codex 是 AI 编程 Agent 的外壳和工作流入口；Ollama 是本地大模型运行平台；你下载的 Qwen、Gemma 等模型，就是真正参与推理的大脑。

组件	小白理解
Codex App	AI 编程 Agent 的桌面入口
Codex CLI	终端里的 AI 编程 Agent
Ollama	在本地运行开源模型的平台
Qwen / Gemma	本地模型大脑
项目目录	AI 要分析和修改的代码仓库

一句话：Codex 负责干活流程，Ollama 提供本地模型大脑。

二、为什么这件事值得关注？

以前本地大模型，很多人的印象还停留在聊天机器人阶段。

比如本地跑一个 Qwen、DeepSeek、Gemma，然后让它写文章、聊天、补全代码。

但 AI Agent 和聊天机器人不一样。聊天机器人只能回答问题，Agent 会尝试执行任务。

它可以做什么？

自动分析项目结构
自动扫描代码
自动寻找 Bug
自动修改文件
自动创建项目
自动运行命令
根据报错继续修复

这意味着，本地 AI 已经开始从“能聊天”，走向“能干活”。

Ollama 接入 Codex App 后，本地模型开始参与 Agent 流程

三、它能解决什么痛点？

AI 编程工具最让人又爱又怕的地方，就是 Token 消耗。

小问题还好，如果是大型项目，AI 需要读文件、分析目录、理解依赖、修改代码、运行命令、根据报错再修一轮。

整个过程不是一次请求，而是很多轮。

传统云端 Agent	Codex + Ollama 本地模型
能力强	能力取决于本地模型
需要云端推理	可以走本地推理
长任务成本高	主要消耗本机算力
速度受网络和云端影响	更多取决于本机性能
适合复杂项目	更适合中小型项目

所以 Codex + Ollama 的价值不是让本地模型瞬间超越云端旗舰模型，而是给开发者多了一个选择：把低风险、重复性、轻量级开发任务交给本地模型来做。

四、部署前需要准备什么？

部署前你需要准备这些东西：

工具	作用
Codex App	桌面端 AI 编程 Agent
Ollama	本地模型运行平台
本地模型	例如 Qwen、Gemma 等
Git / Node / Python	根据项目需要安装
足够的硬件	显卡、内存越好，体验越好

如果你的电脑配置一般，不建议一上来就选最大模型。小模型先跑通，大模型再慢慢试。

五、小白部署步骤

1安装 Codex App

先安装 OpenAI Codex App。安装完成后，打开一次，确认软件可以正常运行。Codex App 是面向代码任务的桌面体验，适合并行处理 Codex 线程、Git 工作流和项目操作。

2安装最新版 Ollama

安装 Ollama，并确认命令行可以执行 ollama。Ollama 官方文档中已经提供了 Codex App 集成方式。

3下载本地模型

根据自己电脑配置选择模型。显存越小，模型越要保守。可以先从 Qwen 或 Gemma 的中小尺寸开始。

根据显卡和内存选择适合的本地模型

示例命令：

ollama run qwen3.6
ollama run qwen3.6:27b

ollama run gemma4
ollama run gemma4:26b
ollama run gemma4:31b

如果你是 Mac，并且模型库提供 mlx 适配版，可以选择对应的 mlx 版本。

ollama run qwen3.6:27b-mlx
ollama run qwen3.6:35b-mlx

ollama run gemma4:26b-mlx

4让 Ollama 接管 Codex App

确认 Ollama 已经运行后，在终端执行对接命令。

ollama launch codex-app

如果要指定模型，可以使用：

ollama launch codex-app --model gemma4:31b

如果想恢复之前配置，可以执行：

ollama launch codex-app --restore

Ollama 官方文档说明，如果 Codex App 已经运行但没有切换模型，可以允许 Ollama 重启它，或退出 Codex App 后重新执行 ollama launch codex-app。

六、进阶玩法：通过 llama.cpp 接入本地 GGUF 模型

如果你更熟悉 llama.cpp，也可以让 Codex 通过本地兼容服务连接 GGUF 模型。

这种玩法更适合有经验的用户。小白建议先用 Ollama 官方集成跑通。

示例配置思路：

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_reasoning_effort = "low"
profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_provider = "llamacpp"
model_reasoning_effort = "low"

[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

llama.cpp 启动示例：

llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080

注意：模型文件名、路径、端口都要改成你自己的。进阶玩法更容易遇到兼容问题，先跑通 Ollama 方案更稳。

七、实际体验：它真的会自己干活吗？

最有意思的地方，不是 AI 能聊天，而是它真的开始接管项目。

比如准备一个已经报错、无法运行的小游戏项目。正常情况下，人工修复需要先看控制台报错，再检查代码逻辑，然后定位问题，最后尝试修复。

但把项目交给 Agent 后，它会尝试：

扫描项目文件
分析代码结构
定位错误逻辑
自动修改代码
修复 Bug
重新运行整个项目

如果项目规模不大、错误比较明确，本地模型确实已经能给人一种“AI 在真正工作”的感觉。

本地 AI Agent 已经不只是聊天，而是开始执行任务

示例：让 Agent 分析并修复项目问题

八、适合做什么？

场景	适合程度
HTML 页面	很适合
小游戏 Demo	适合
简单 Bug 修复	适合
脚本生成	适合
配置文件修改	适合
Docker / 环境排查	可以尝试
大型工程重构	谨慎
复杂架构设计	不建议完全依赖
关键生产操作	必须人工审核

小项目很爽，大项目谨慎；自动化很香，关键操作必须人工确认。

九、本地模型的短板也很明显

这部分一定要讲清楚。

本地模型不是魔法，尤其在复杂工程里，它和云端旗舰模型仍然有差距。

常见问题包括：

长上下文能力不足
大型项目理解不稳定
多步骤推理容易跑偏
可能修改错误文件
可能陷入反复修 Bug
生成代码看起来合理但不可运行

所以不要把它当成完全自动程序员。更合理的定位是：本地 AI 开发助手。

十、配置建议

电脑配置	建议
8G 显存	选小模型，适合轻量任务
12G / 16G 显存	可以尝试更强代码模型
32GB 内存	入门可用
64GB 内存	多轮任务更稳
SSD	强烈建议，模型加载更快

模型选择原则：

显存小，选小模型
任务轻，不用盲目追大模型
中文需求多，优先中文能力强的模型
代码任务多，优先代码能力强的模型
长任务多，上下文能力比参数大小更重要

十一、常见问题

1. Codex App 没有切换模型怎么办？

先退出 Codex App，再重新执行：

ollama launch codex-app

2. 想恢复原来的 Codex 配置怎么办？

ollama launch codex-app --restore

3. 模型运行太慢怎么办？

换小模型、减少上下文、关闭其他占显存的软件，优先保证能跑通。

4. AI 自动改错文件怎么办？

使用 Git 管理项目。每次让 AI 改动前先提交一次，方便回滚。

5. 能不能完全离线？

本地模型推理可以离线，但 Codex App、账号、模型下载、工具更新等部分仍可能需要联网。实际以你的环境和官方当前规则为准。

最后总结

OpenAI Codex + Ollama 这套玩法真正让人兴奋的地方，不是简单一句“免费”。

更准确地说，它让 AI 编程 Agent 的一部分推理能力，从云端回到了本地。

这意味着开发者可以用自己的显卡、内存和本地模型，去承担一部分低风险、重复性、轻量级的开发任务。

本地大模型不再只是聊天工具，而是开始进入项目、修改文件、运行命令、修复错误。

当然，它还不能完全替代云端最强模型，也不能保证复杂项目一次成功。

但它已经足够说明一个趋势：AI 编程正在从“代码补全”，进入“本地 Agent 执行”阶段。

一句话总结：Codex + Ollama 不是让本地模型一夜之间超越云端模型，而是让开发者第一次真正感受到，本地 AI Agent 已经开始能干活了。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

vLLM推理引擎从入门到精通

vLLM框架通过PagedAttention技术革新了LLM推理的内存管理，将KV缓存分块存储并支持动态共享，使内存利用率提升至80%以上。其核心架构包含调度器、块管理器、工作引擎和内存池四大组件，采用动态批处理消除请求阻塞，实现高吞吐与低延迟的统一。

AMD开发者中国社区

Fast-GitHub：彻底告别国内GitHub访问缓慢的智能加速方案

你是否曾在深夜调试代码时，面对GitHub克隆速度只有几KB/s的绝望？当你急需下载一个开源项目，却只能眼睁睁看着进度条缓慢爬行，宝贵的开发时间就这样被消耗？作为国内开发者，访问GitHub的速度问题已经成为阻碍工作效率的最大瓶颈。今天，我要向你介绍一个能够彻底改变这种状况的智能解决方案——Fast-GitHub浏览器插件，让你的GitHub访问速度实现质的飞跃！Fast-GitHub是一款专