OpenAI发布可连续执行超过24小时任务的GPT-5.1-Codex-Max

OpenAI于周三（11月19日）发布了GPT-5.1-Codex-Max。Codex是一款以编程开发为核心设计的AI模型，新版专注于处理长时间且精细的任务，可连续运行超过24小时，同时也是首个专门针对Windows环境进行训练的模型。GPT-5.1-Codex-Max将取代此前的GPT-5.1-Codex，成为所有Codex界面的默认模型。

OpenAI指出，Codex-Max最大的突破在于能够处理超大规模上下文。通过一种名为“压缩”（Compaction）的机制，模型在任务执行过程中会自动摘要关键内容、移除冗余细节，从而跨越多个上下文窗口，在单一任务中连贯处理数百万个Token。

这使得以往因上下文限制而难以完成的大型重构、系统级修复或跨文件依赖追踪等复杂工程任务成为可能；开发者可以让模型连续运行数小时甚至一整天，而不会中断或丢失上下文。

在基准测试中，Codex-Max在多项指标上全面超越旧版。在SWE-Bench Verified（评估AI修复真实项目Bug能力）中取得77.9%的准确率；在SWE-Lancer IC SWE（模拟工程师日常开发任务）中，准确率从66.3%提升至79.9%；在TerminalBench 2.0（评估AI在命令行环境中的实际操作能力）中提升至58.1%。

OpenAI表示，新模型在保持同等质量的前提下，可减少约30%的思考Token用量，并在真实任务中提升约27%至42%的执行速度，使开发者能在相同成本下完成更多工作。

这些性能差异在实际测试中表现显著。以GPT-5.1-Codex-Max与前代模型对比，在相同任务下，前代需消耗约3.8万个Token，而Max仅需1.6万个；生成的代码行数从667行减少至529行；整体速度提升超过40%。在其他测试中，Token用量也从2.6万降至1.6万，或从1.2万降至8000。

此外，Codex-Max是首个专门针对Windows环境训练的模型，能更精准地执行命令行操作，弥补了过去Mac系统在该领域占据优势的不足。OpenAI透露，公司内部已有95%的工程师每周使用Codex，自引入以来，团队的Pull Request产出量增加了约70%，表明AI编程助手已深度融入日常开发流程。

目前，Codex-Max已向ChatGPT Plus、Pro、Business、Edu与Enterprise用户开放访问，API也将于近期上线。

AI Agent OpenAI GPT-5.1-Codex-Max long-term task execution

CB科技站

OpenAI发布可连续执行超过24小时任务的GPT-5.1-Codex-Max

与本文相关的文章