最新消息:关注人工智能 AI赋能新媒体运营

OpenAI发布可连续执行超过24小时任务的GPT-5.1-Codex-Max

科技资讯 admin 浏览

OpenAI于周三(11月19日)发布了GPT-5.1-Codex-Max。Codex是一款以编程开发为核心设计的AI模型,新版专注于处理长时间且精细的任务,可连续运行超过24小时,同时也是首个专门针对Windows环境进行训练的模型。GPT-5.1-Codex-Max将取代此前的GPT-5.1-Codex,成为所有Codex界面的默认模型。

OpenAI指出,Codex-Max最大的突破在于能够处理超大规模上下文。通过一种名为“压缩”(Compaction)的机制,模型在任务执行过程中会自动摘要关键内容、移除冗余细节,从而跨越多个上下文窗口,在单一任务中连贯处理数百万个Token。

这使得以往因上下文限制而难以完成的大型重构、系统级修复或跨文件依赖追踪等复杂工程任务成为可能;开发者可以让模型连续运行数小时甚至一整天,而不会中断或丢失上下文。

在基准测试中,Codex-Max在多项指标上全面超越旧版。在SWE-Bench Verified(评估AI修复真实项目Bug能力)中取得77.9%的准确率;在SWE-Lancer IC SWE(模拟工程师日常开发任务)中,准确率从66.3%提升至79.9%;在TerminalBench 2.0(评估AI在命令行环境中的实际操作能力)中提升至58.1%。

OpenAI表示,新模型在保持同等质量的前提下,可减少约30%的思考Token用量,并在真实任务中提升约27%至42%的执行速度,使开发者能在相同成本下完成更多工作。

这些性能差异在实际测试中表现显著。以GPT-5.1-Codex-Max与前代模型对比,在相同任务下,前代需消耗约3.8万个Token,而Max仅需1.6万个;生成的代码行数从667行减少至529行;整体速度提升超过40%。在其他测试中,Token用量也从2.6万降至1.6万,或从1.2万降至8000。

此外,Codex-Max是首个专门针对Windows环境训练的模型,能更精准地执行命令行操作,弥补了过去Mac系统在该领域占据优势的不足。OpenAI透露,公司内部已有95%的工程师每周使用Codex,自引入以来,团队的Pull Request产出量增加了约70%,表明AI编程助手已深度融入日常开发流程。

目前,Codex-Max已向ChatGPT Plus、Pro、Business、Edu与Enterprise用户开放访问,API也将于近期上线。