学习目标:认识 Codex Desktop 的产品定位,完成安装配置,并掌握在真实项目中使用桌面 Agent 的基本方法。

完成标志:你能独立创建 Codex 项目、授权它读取本地文件、让它执行命令、管理记忆与插件,并知道什么时候应该交给 Codex、什么时候需要自己把关。

前面几部分我们重点学习了 Claude Code、Skills、MCP 和项目实战。到了这一部分,我们换一个视角:用 OpenAI 的 Codex Desktop 来理解“桌面 Agent”到底能帮我们做什么。

不要把 Codex 只理解成一个聊天窗口。它更像是运行在你电脑旁边的执行型助手:能读项目文件、调用终端、创建文档、部署网站、连接外部服务,也能在你授权后完成一些跨软件的操作。本章的重点不是把每个按钮背下来,而是建立一套使用桌面 Agent 的工作习惯。

1 Codex Desktop 适合解决什么问题

Codex 和 Claude Code 都属于编程 Agent,但二者的侧重点不完全一样。Claude Code 以终端开发工作流起家,现在也有 IDE、Desktop 和 Web 入口,适合深度编码、代码审查、复杂重构;Codex Desktop 更强调图形界面、本地项目管理、插件连接和日常自动化,对零基础用户更友好。

对比维度 Claude Code Codex Desktop
主要入口 终端 CLI,也支持 IDE / Desktop / Web 等入口 桌面应用,也可配合 CLI / VSCode 插件
学习门槛 终端形态需要熟悉命令行 更接近 ChatGPT 的对话体验
项目上下文 当前工作目录 + CLAUDE.md 本地项目文件夹 + agents.md
典型优势 编码、重构、规划、代码审查 文件处理、图形化管理、插件、自动化任务
扩展方式 Skills、MCP、Hooks 等 Skills、MCP、插件、自动化等
适合人群 有一定开发经验的用户 新手、非技术用户、希望用 GUI 管理任务的人

实际选型可以简单一点:

  • 刚入门,害怕终端:优先从 Codex Desktop 开始。
  • 已经在做工程项目:Claude Code 和 Codex 可以一起用,一个偏深度开发,一个偏日常执行。
  • 要处理文件、部署、安装软件、定时任务:Codex Desktop 的桌面形态会更顺手。
  • 要做复杂代码设计和长链路重构:Claude Code 的工程化体验通常更适合。

不必纠结“只能选谁”。Agent 工具之间不是互斥关系,关键是让不同工具承担它擅长的工作。

2 安装与首次启动

2.1 准备账号

使用 Codex Desktop 需要 ChatGPT 账号。免费账号通常也可以体验,但额度和能力会受限制;付费套餐的可用额度更多,适合高频使用。具体价格、额度和模型名称会随官方策略变化,正式使用前以 OpenAI 页面显示为准。

2.2 下载客户端

官方下载入口:

https://chatgpt.com/codex/download

下载完成后按安装向导操作即可。首次启动时,系统可能会询问你的主要用途,例如日常办公、学习或编程。这个选择只是为了初始化体验,不需要太紧张,后面可以继续调整。

在这里插入图片描述

2.3 认识主界面

Codex Desktop 的界面大体可以分成三块:

区域 作用
左侧栏 查看项目、会话、任务状态和插件入口
中间区域 输入需求、阅读回复、确认计划
右侧栏 展示预览、文件内容、浏览器页面或任务细节

第一次打开时,不需要把所有入口都研究一遍。建议先创建一个测试项目,用一个无风险的小任务熟悉流程,例如“帮我整理这个文件夹里的 Markdown 文件标题”。桌面 Agent 的学习方式和传统软件不同,边交代任务边观察它如何申请权限、如何拆解步骤,会比单纯看菜单更快。

在这里插入图片描述

3 权限模式:先理解安全边界

Codex 能读写本地文件、执行命令、连接插件,所以权限设置非常重要。它不是普通聊天机器人,而是可能真正改变你电脑文件状态的执行工具。

在这里插入图片描述

权限模式 含义 建议使用场景
自动审查模式 常规操作自动执行,高风险操作再请求确认 日常学习和普通项目,推荐新手使用
手动审查模式 涉及工具调用时更频繁地等待你确认 重要目录、生产环境、敏感文件
完全自动模式 尽量减少确认步骤,让任务连续执行 临时项目、沙盒环境、你明确知道风险时

新手建议从自动审查模式开始。它能减少频繁弹窗,又不会完全放开高风险操作。对于公司代码、客户资料、生产配置等重要目录,建议切换到更谨慎的模式,并在执行前要求 Codex 先给出计划。

一个好习惯是:

先让 Codex 说明它准备读哪些文件、改哪些文件、执行哪些命令,再让它动手。

4 核心能力一:管理本地文件

Codex Desktop 的“项目”本质上对应你电脑上的一个文件夹。你选择了某个文件夹,它才能在授权范围内读取、分析和修改里面的内容。

4.1 项目文件夹就是上下文边界

进入项目工作区后,Codex 会把该文件夹视为当前任务的主要上下文。它可以根据文件内容回答问题,也可以生成、移动、重命名或修改文件。

适合练习的任务包括:

  • 批量整理课程资料文件名
  • 把零散笔记合并成一份 Markdown 文档
  • 根据图片或视频素材生成清单
  • 检查项目目录结构是否混乱
  • 把已有文档改写成更适合发布的版本

建议一开始用副本文件夹测试,确认行为符合预期后,再让 Codex 处理正式资料。

4.2 同一项目可以开多个会话

一个项目里可以并行存在多个会话。你可以让一个会话分析需求,让另一个会话整理文档,也可以把不同任务拆开,避免上下文互相干扰。

不过,并行不等于随意。涉及同一批文件的任务,最好避免同时修改,否则容易出现覆盖或冲突。更稳妥的做法是:一个会话负责写,另一个会话只负责审查或给建议。

4.3 产物会落在本地

Codex 在项目中生成的 Markdown、图片、PDF、PPT、代码文件等,都会保存到你的本地文件夹里。这一点很关键:它不是只在聊天记录里给你一段文本,而是能把结果变成真实文件。

记住一句话:项目文件夹既是 Codex 的工作台,也是它能看见的主要上下文。

5 核心能力二:调用终端和安装工具

Codex 可以在你授权后运行终端命令。对非技术用户来说,这个能力尤其有价值,因为很多开发环境配置、依赖安装和部署操作,本质上都是一串命令。

5.1 安装基础环境

例如你可以直接说:

请检查我电脑上是否已经安装 Node.js 和 Git。如果没有,请给出安装方案,确认后再执行。

相比直接说“帮我安装”,更推荐加上“先检查、再说明、确认后执行”。这样你可以知道它准备做什么,也能避免重复安装或装错版本。

5.2 安装其他开发工具

当你想安装某个新工具、CLI 或 Agent 时,可以让 Codex 先搜索官方文档,再根据系统环境选择安装方式。例如:

帮我安装 Hermes。请优先查官方仓库或官方文档,安装后验证版本,并告诉我启动方式。

这个提示词比单纯一句“帮我装一下”更可靠,因为它明确要求了来源、验证和交付结果。

5.3 安装 Skills、MCP 或插件相关依赖

对于不太知名的工具,最好把 GitHub 仓库、官网文档或安装说明链接直接发给 Codex。这样能减少它误判同名项目的概率。

这是我要安装的 Skill 仓库链接:xxx。请阅读 README,说明安装位置和启用方式,确认后再修改我的配置。
5.4 并行任务要有边界

Codex 支持同时运行多个任务,但不建议把多个会写同一目录的任务同时放出去。可以并行的任务通常有这些:

  • 一个任务安装工具,另一个任务阅读文档
  • 一个任务生成方案,另一个任务做资料整理
  • 一个任务部署项目,另一个任务准备发布文案

涉及同一份代码或同一批文件时,先排队,再执行,会更稳。

6 常用操作:上下文、额度与模型

6.1 上下文管理

对话越长,模型需要携带的历史信息越多。Codex 会用界面上的上下文指示器提醒你当前会话的占用情况。当上下文接近上限时,它可能会自动压缩历史。

一个任务完成后,也可以主动让它总结当前状态:

请把当前项目进展、已修改文件、未完成事项和下一步建议压缩成一份简短摘要。

如果界面支持斜杠命令,也可以使用对应的压缩或状态命令。命令名称可能会随版本变化,按你当前客户端显示为准。

6.2 查看额度

额度通常可以在设置或状态面板中查看。有些版本也支持在对话中通过状态命令显示当前会话的上下文、短周期额度和周期额度。

这里要注意两点:

  • 复杂任务、长上下文、高速模式或高推理强度通常会消耗更多额度。
  • 额度、刷新周期和套餐权益会变化,不建议在教程里写死太多数字。
6.3 选择模型和推理强度

日常文件整理、文档改写、简单脚本,可以选择默认或中等智能程度。涉及架构设计、复杂调试、跨文件重构时,再提高模型能力或推理强度。

一个实用原则是:

低风险任务追求速度,高风险任务追求可解释和可确认。

7 核心能力三:持久记忆与 agents.md

Codex 的持久记忆可以分成两类:一类是你主动写下来的规则,另一类是系统自动总结的记忆。对教程学习者来说,最值得掌握的是 agents.md

1 全局规则

全局规则适合存放跨项目都适用的偏好,例如:

- 默认使用中文回答。
- 修改文件前先说明计划。
- 重要操作前先列出影响范围。
- 文档改写时保留原意,不制造未经确认的数据。

这些规则相当于你对 Codex 的长期工作约定。写得越清楚,后续沟通成本越低。

2 项目规则

项目级 agents.md 只服务当前项目,适合记录技术栈、目录结构、运行命令、测试方式、提交规范和禁止事项。

推荐在项目初步成型后,让 Codex 读取项目并生成一版草稿:

请阅读当前项目结构,帮我生成一份项目级 agents.md。内容包括技术栈、常用命令、目录说明、开发约束和测试要求。先给我预览,不要直接写入。

审核通过后再写入,比一开始凭空写规则更贴合实际。

3 自动记忆

自动记忆适合作为补充,不适合作为唯一依赖。它可能会根据对话和任务自动总结信息,但触发时机、记录内容和召回方式不一定完全可控。

明确、稳定、重要的要求,仍然建议写进 agents.md;临时偏好和低风险背景,可以交给自动记忆辅助。

8 核心能力四:计划模式与实战开发

做复杂任务时,不要急着让 Codex 直接写文件。先进入计划模式,让它把需求拆开、列出步骤、说明风险,再决定是否执行。

8.1 用个人主页练手

你可以创建一个空项目,输入:

我想做一个个人主页。请先用计划模式和我确认目标用户、内容模块、视觉风格、技术栈和部署方式,不要立刻写代码。

Codex 通常会追问你一些选择题或开放问题,例如页面内容、风格偏好、是否需要响应式、是否部署等。你确认方案后,它再开始初始化项目。

8.2 执行中及时纠偏

当 Codex 生成过程中方向不对,不需要等它全部做完再说。你可以直接补充:

当前风格太像营销页了,请改成更像作品集:少用大段宣传语,多展示项目和联系方式。

很多时候,反馈会在下一轮工具调用前被加入上下文。这样既保留了当前进度,也能及时修正方向。

8.3 使用 Fork 保留好上下文

如果前半段讨论很有价值,但后面走偏了,可以从某条回复 Fork 出一个新会话。它相当于从历史分岔点重新开始,适合保留前面已经整理好的需求、方案和约束。

8.4 预览与批注

前端项目尤其适合使用内置预览。你可以边看页面边提出修改意见,有些版本还支持直接在预览区域批注具体元素。

修改页面时,尽量给 Codex 可执行的反馈:

  • “按钮太靠下,移动到首屏右上角”
  • “移动端标题换行不好看,请调整字号和宽度”
  • “这张图与主题不符,请换成更贴近产品的图片”

比起“优化一下”,这类反馈更容易得到稳定结果。

9 核心能力五:插件系统

插件的作用,是让 Codex 连接外部平台和工具。不同版本、账号和系统环境下可见插件可能不同,但常见方向大致包括部署、浏览器操作、代码托管和外部应用连接。

插件类型 典型用途
部署类 将网站发布到 Vercel、Netlify 等平台
代码托管类 读取仓库、创建分支、处理 Issue 或 PR
浏览器类 打开网页、点击按钮、填写表单、截图验证
桌面操作类 在授权后控制部分本地应用或系统界面
9.1 部署网站

以前端项目为例,可以让 Codex 先检查构建命令,再连接部署平台:

请检查这个项目是否可以部署到 Netlify。先运行构建验证,说明需要的环境变量和部署步骤,确认后再连接插件执行部署。

部署完成后,让它返回访问链接、构建日志摘要和后续维护建议。

9.2 浏览器操作类插件

浏览器能力很适合做网页验证、后台配置、资料搜集和表单测试。但涉及账号、付款、删除、提交审批等敏感动作时,一定要求 Codex 停下来让你确认。

可以加一条长期规则:

凡是涉及登录、付款、删除、发布、提交表单的操作,必须先说明影响并等待我确认。

10 核心能力六:Skills

Skills 是把可复用流程沉淀下来的机制。前面我们已经详细讲过 Skills,在 Codex 中也可以用类似思路:把高频、稳定、步骤清晰的任务封装成技能。

适合做成 Skill 的任务包括:

  • 每周生成技术资讯摘要
  • 把课堂录音整理成讲义
  • 检查前端页面的响应式问题
  • 根据固定模板生成项目周报
  • 按统一标准润色课程文档

创建 Skill 有两种常用路径。

第一种:先描述目标,让 Codex 帮你起草。

我想创建一个“课程文档润色”Skill,用于把口语稿改成正式教程。请先和我确认输入、输出、规则和示例。

第二种:先跑通一次真实任务,再沉淀。

这种方式更推荐。因为你已经知道流程中哪些步骤有效、哪些检查必须保留,生成出来的 Skill 会更实用。

11 核心能力七:MCP

MCP 可以理解为让 Agent 连接外部数据源或工具服务的一种协议。对于初学者,不需要一开始就深入配置细节,先知道它解决什么问题即可:当 Codex 需要访问某个外部知识库、数据库、文档系统或业务工具时,MCP 可能就是连接方式之一。

安装 MCP 时建议遵循三个原则:

  • 优先使用官方文档或可信仓库。
  • 安装前让 Codex 说明配置文件位置、权限范围和凭据保存方式。
  • 安装后用一个最小任务验证是否真的连通。

示例提示词:

请根据这个 MCP 官方文档帮我完成配置。先说明它会访问哪些数据、需要哪些密钥、配置会写到哪里,等我确认后再执行。

12 核心能力八:自动化任务

自动化任务的价值,不是“定个闹钟让 AI 说一句话”,而是把一套可重复流程交给 Agent 定时执行。

例如:

  • 每周一汇总 GitHub 趋势项目,生成中文推荐稿
  • 每天早上检查网站是否可访问,并整理异常日志
  • 每三天汇总课程资料文件夹,生成新增内容清单
  • 每周生成一次学习进度报告
12.1 创建自动化的两种方式

你可以在自动化面板里手动创建,通常需要填写任务提示词、触发时间、模型和推理强度。

也可以直接在对话中描述:

请帮我创建一个自动化任务:每周一上午 9 点,读取我的项目资料文件夹,生成一份本周新增资料摘要。创建前先展示任务内容、执行频率和输出格式。

自动化任务要特别注意边界:它会在你不盯着屏幕的时候运行,所以提示词必须写清楚输入来源、允许做什么、禁止做什么、结果发到哪里。

13 手机端远程控制

部分版本支持通过 ChatGPT 手机 App 连接电脑上的 Codex,从手机端发起任务。这个能力适合临时下发轻量任务,例如让家里电脑继续整理资料、检查项目状态或生成草稿。

一般流程是:

  1. 手机 ChatGPT 和电脑 Codex 都更新到支持该功能的版本。
  2. 在手机端进入 Codex 入口。
  3. 按提示完成电脑端配对。
  4. 在电脑上确认允许该设备远程控制。

远程控制的便利性很高,但也意味着风险更高。建议只对可信设备开启,并避免在手机端随手发起删除、部署、付款、批量修改等高影响操作。

14 本部分小结

这一部分我们从“会安装”走到了“会安排任务”。Codex Desktop 的核心能力可以压缩成这张表:

能力 你应该掌握的重点
本地文件 项目文件夹就是 Codex 的工作范围和主要上下文
终端命令 先检查、再说明、确认后执行,避免盲目安装
上下文管理 长任务要阶段性总结,重要信息写入规则文件
持久记忆 全局偏好写全局规则,项目约束写项目 agents.md
计划模式 复杂任务先讨论方案,再进入执行
插件 连接部署、浏览器、代码托管等外部服务
Skills 把高频流程变成可复用能力
MCP 连接外部知识库和工具系统
自动化 把重复任务变成定时执行的流程
手机控制 远程下发任务,但要控制权限和风险

学完本章,请记住两件事。

第一,Codex 不是“更会聊天的搜索框”,而是可以在你电脑上执行任务的工作代理。它能节省时间,也需要你设定边界。

第二,使用 Agent 的能力不只在于会提问,更在于会管理:给清楚的目标,提供必要上下文,要求它先计划,执行中及时纠偏,最后验收结果。你越会管理任务,AI 编程工具越能发挥价值。

Codex 和 Claude Code 怎么搭配?

使用场景 推荐选择
零基础上手、图形界面学习 Codex Desktop
深度编码、代码审查、复杂重构 Claude Code
文件整理、部署、安装工具 Codex Desktop
编写 Skills、沉淀工作流 两者都可以
想获得更完整的 Agent 体验 两者搭配使用

附录

附录A:常用命令速查表

Claude Code 命令速查
命令 功能
claude 启动交互式会话
claude --model <model> 使用指定模型启动
claude -p "prompt" 单次执行模式
/help 显示帮助
/model 查看/切换模型
/compact 压缩上下文
/clear 清空对话
/memory 管理记忆
/cost 查看费用
/review 代码审查
/init 初始化CLAUDE.md
Ctrl+C 中断操作
Esc 取消生成
Git 命令速查
命令 功能
git init 初始化仓库
git status 查看状态
git add . 暂存所有修改
git commit -m "msg" 提交
git push 推送到远程
git pull 拉取远程更新
git checkout . 撤销所有未提交的修改
git log --oneline 查看提交历史
git diff 查看修改内容
npm 命令速查
命令 功能
npm init -y 初始化项目
npm install <包名> 安装依赖
npm install -g <包名> 全局安装
npm run dev 启动开发服务器
npm run build 构建项目
npm test 运行测试
终端基础命令速查
命令 功能 Windows 替代
pwd 查看当前目录 pwd (PowerShell)
ls 列出文件 dir
cd <路径> 切换目录 同左
mkdir <名称> 创建目录 同左
clear 清屏 cls

附录B:Prompt 模板库

项目初始化模板
我要创建一个 [项目类型] 项目。

项目名称:[名称]
简述:[一句话描述]
技术栈:[前端框架] + [后端框架] + [数据库]

核心功能(MVP):
1. [功能1]
2. [功能2]
3. [功能3]

请先创建项目结构和基础配置文件,暂不实现具体功能。
功能实现模板
请在 [指定目录/文件] 中实现 [功能名称]。

具体需求:
1. [需求点1]
2. [需求点2]
3. [需求点3]

技术约束:
- 参考 [已有文件/模块] 的风格
- 使用 [指定技术/库]
- 返回格式遵循 [项目约定的格式]

请先说明实现计划,确认后再开始编码。
Bug 修复模板
发现一个Bug,需要修复:

现象:[实际看到的行为]
期望:[应该是什么行为]
复现步骤:
1. [步骤1]
2. [步骤2]

错误信息:
[粘贴完整的错误堆栈]

我已经尝试过:[你尝试的解决方案]

请定位问题原因并修复。
代码审查模板
请对 [文件路径或范围] 进行代码审查。

审查重点:
1. 安全性(输入验证、XSS防护、SQL注入)
2. 错误处理(异常是否被正确捕获和处理)
3. 性能(是否有明显的性能问题)
4. 代码质量(可读性、命名规范、重复代码)

请按严重程度分级:Critical / Warning / Info
并给出具体的修复建议。
架构设计模板
我需要设计一个 [系统/功能] 的架构。

业务需求:[描述]
性能要求:[QPS/响应时间/并发用户数]
技术约束:[必须使用的技术/限制条件]

请给出:
1. 系统架构图(文字描述即可)
2. 技术选型建议及理由
3. 数据模型设计
4. API 接口设计
5. 潜在的技术风险和应对方案

附录C:常见问题排查指南(FAQ 汇总)

类别 问题 解决方案
安装 npm install -g 报权限错误 macOS: 前加 sudo;Windows: 管理员运行
安装 下载超时 设置npm镜像: npm config set registry https://registry.npmmirror.com
安装 claude: command not found 检查npm全局路径是否在PATH中: npm config get prefix
连接 Invalid API Key (401) 检查Key是否完整复制,环境变量是否正确设置
连接 网络超时 国内用户使用中转服务或国产模型
连接 Rate limit exceeded 等待1分钟后重试,或升级API套餐
使用 AI修改了不该改的文件 Prompt中明确指定文件范围,或用 git checkout . 回退
使用 AI陷入修复循环 git checkout . 回退 + /clear 清空对话 + 重新描述需求
使用 对话太长AI遗忘 使用 /compact 压缩上下文
使用 AI推荐不存在的npm包 先到 npmjs.com 搜索确认包是否存在
费用 不确定花了多少钱 使用 /cost 查看当前会话费用
费用 想控制费用 简单任务用 Haiku/DeepSeek;设置月度预算
项目 数据库报错 运行 npx prisma db push 同步数据库
项目 端口被占用 杀掉占用端口的进程,或在命令中指定其他端口
部署 Vercel构建失败 检查构建日志中的错误信息,通常是依赖问题

附录E:术语表

英文术语 中文释义 简要说明
AI-Assisted Programming AI辅助编程 使用AI工具帮助编写代码
Agent 智能体 能自主执行任务的AI系统
Agentic Engineering 智能体工程化 系统化的AI驱动开发方法论
API 应用程序接口 程序之间通信的规则
API Key API密钥 访问AI服务的身份凭证
CLI 命令行界面 通过文字命令操作电脑
Context Window 上下文窗口 AI一次能处理的最大内容量
CRUD 增删改查 Create/Read/Update/Delete
Hallucination 幻觉 AI编造不存在的信息
IDE 集成开发环境 编写代码的专业软件
LLM 大语言模型 如Claude、GPT等AI模型
MCP 模型上下文协议 AI工具的扩展能力标准
MVP 最小可行产品 只包含核心功能的第一个版本
ORM 对象关系映射 用代码操作数据库的工具(如Prisma)
PRD 产品需求文档 描述产品"做什么"的文档
Prompt 提示词 给AI的指令/问题
RAG 检索增强生成 结合搜索和AI生成的技术
SDD 规范驱动开发 先写规范再让AI执行的方法
Skill 技能 封装的可复用AI指令集
SPEC 技术规范 描述产品"怎么做"的文档
Token 令牌 AI处理文本的基本单位
Vibe Coding 氛围编程 凭感觉和意图驱动的AI编程方式

结语

请记住五个核心原则:

  1. 动手大于阅读 —— 学到的知识必须通过实践才能变成技能
  2. 项目驱动学习 —— 带着目标去学,效率最高
  3. 拥抱错误 —— AI会犯错,你也会,但每次错误都是学习
  4. 持续迭代 —— 先做出来,再做好,没有一步到位的完美
  5. 记录与分享 —— 把经验写下来,分享出去,帮助他人也巩固自己

AI编程领域发展极快,保持学习的节奏,关注新工具和新技术。

祝你在AI编程的世界里,创造出令自己骄傲的作品!


本教程中的价格、版本信息已在 2026-05-18 做过一次核对,请以各服务商官网最新信息为准。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐