OpenAI的AI程序员上线人类仅需点按钮

昨夜，OpenAI推出一款基于云的软件工程Agent（智能体）——Codex的预览版。Codex可并行处理多项任务，例如编程、解答代码库相关问题、修复错误以及提交拉取请求以供审核等，在云上运行并预加载用户代码库。

Codex由codex-1模型提供支持。codex-1是OpenAI o3针对软件工程优化后的版本。目前，Codex已面向ChatGPT Pro、Team和Enterprise用户上线，即将面向Plus用户上线。

OpenAI同步推出codex-1的精简版本，基于o4-mini专为轻量级开源编码Agent“Codex CLI”而打造，API定价为1.5美元/100万 tokens输入， 6美元/100万tokens输出，即时缓存打七五折。

体验地址：

01.

自己写代码提交更改

跑一次1-30分钟

现在，用户可以通过ChatGPT的侧边栏访问Codex，通过输入提示并点击“代码（Code）”按钮下达编程任务，也可以点击“Ask（提问）”向Codex询问有关代码库的问题。每个任务都在预加载了用户代码库的独立隔离环境中独立处理。

Codex可以读取和编辑文件，以及运行包括测试工具、类型检查器等在内的命令。任务完成通常需要1-30分钟，具体取决于复杂程度，用户可以实时监控Codex的进度。

Codex完成任务后，会在其环境中提交更改。通过引用终端日志和测试输出，Codex来提供其操作的可验证证据，让用户可以追踪任务完成过程中的每个步骤。

用户可以查看结果、请求进一步修订、提交GitHub拉取请求，或直接将更改集成到本地环境中。在产品中，用户可以配置Codex环境，使其尽可能与实际开发环境匹配。

Codex可以通过放置在用户代码库中的AGENTS.md文件进行引导。这些文本文件类似于README.md，用户可以在其中告知Codex如何导航代码库、运行哪些命令进行测试以及如何最好地遵循项目的标准实践。与人类开发人员一样，Codex在配置好开发环境、可靠的测试设置和清晰的文档后，性能最佳。

在编码评估和内部基准测试中，即使没有AGENTS.md文件或自定义代码生成器，codex-1也表现出强劲的性能。

23个无法在OpenAI内部基础架构上运行的SWE-Bench Verified样本被排除在外。codex-1的测试设置最大上下文长度为192k tokens，推理难度为中等，这也是目前产品中可用的设置。

02.

报错自动告知用户，过程可检测

在安全和透明度方面，用户可以通过引用、终端日志和测试结果来检查Codex的工作。

当不确定或面临测试失败时，Codex会明确地告知这些问题，使用户能够就如何继续进行做出正确决策。

训练codex-1的主要目标，是让它的输出与人类的编程偏好和标准更接近。

如下图所示，与OpenAI o3模型相比，codex-1始终能够生成更清晰的补丁，可供立即进行人工审核并集成到标准工作流程中。

为了平衡安全性和实用性，Codex经过了训练，能够识别并精准拒绝旨在开发恶意软件的请求，同时清晰区分并支持合法任务；还增强了政策框架，并纳入了严格的安全评估。

Codex完全在云端安全隔离的容器中运行。

在任务执行期间，互联网访问被禁用，Agent的交互仅限于通过GitHub代码库明确提供的代码以及用户通过安装脚本配置的预安装项。Agent无法访问外部网站、API或其他服务。

03.

Pro用户可免费体验

API收费1.5美元/100万 tokens输入

上个月，我们推出了Codex CLI，一款在终端中运行的轻量级开源编码Agent。它将o3和o4-mini等模型功能引入到用户的本地工作流程中。

今天，OpenAI还发布了codex-1的精简版本，这是专为Codex CLI使用而设计的o4-mini版本。

这个新模型支持CLI中更快的工作流程，并针对低延迟代码问答和编辑进行了优化，同时保留了指令遵循和样式方面的相同优势。它现在是Codex CLI中的默认模型，并在API中以codex-mini-latest的形式提供。

使用ChatGPT登录Codex CLI的Plus和Pro用户，今天晚些时候即可开始兑换价值5美元和50美元的免费API积分，有效期为30天。

对于使用codex-mini-latest构建的开发人员，该模型可在Responses API上使用，价格为1.5美元/100万 tokens（输入）， 6美元/100万 tokens（输出），享受75%的即时缓存折扣。

OpenAI的技术团队已开始将Codex纳入其日常工具包。

工程师们最常使用它来卸载那些重复且范围明确的任务，例如重构、重命名和编写测试。它同样适用于构建新功能、连接组件、修复错误以及起草文档。

在发布之前，OpenAI还与一小群外部测试人员合作。

比如，思科正在探索Codex如何帮助其工程团队更快地将想法付诸实践，并向OpenAI团队提供反馈；Temporal⁠使用Codex加速功能开发、调试问题、编写和执行测试以及重构大型代码库等。

根据早期经验，OpenAI建议同时将范围明确的任务分配给多个Agent，并尝试不同类型的任务和提示，以有效地探索模型的功能。

04.

结语：Codex仍处早期阶段

未来或成主流

OpenAI坦言，Codex的开发仍处于早期阶段。作为研究预览版，它目前缺少一些功能，例如用于前端工作的图像输入，以及在Agent工作时对其进行方向修正的功能。此外委托给远程Agent比交互式编辑耗时更长，都需要时间改进。

这仅仅是一个开始，可以预测，Codex在ChatGPT中引入的异步多Agent工作流将成为工程师编写高质量代码的主流方式，实时配对和任务委托两种交互模式将逐渐融合。