OpenAI周四(3月5日)发布新一代大型语言模型GPT-5.4,并同步在ChatGPT、API和编程开发工具Codex中上线。OpenAI表示,GPT-5.4整合了推理、编程开发与AI代理能力,是目前最适合处理专业工作任务的前沿模型之一。新模型不仅强化了专业工作能力,还首次提供原生计算机操作能力,使AI代理能够通过图形界面直接操作应用程序和浏览器。

在模拟真实职场的GDPval评估中,GPT-5.4在83%的任务中表现与人类专业人士相当或更优。GDPval评估涵盖金融、制造、医疗、政府与信息服务等9个行业、44种职业,任务包括编制财务预算表、制作销售演示文稿、安排排班计划和设计工程流程等,并由相关领域专家进行盲评打分。
此外,与GPT-5.2相比,GPT-5.4在可靠性方面也有显著提升。在用户曾标记为错误的提示测试中,新模型整体回答出错的概率降低18%,单个事实陈述出错的概率降低33%,显示出模型在专业场景中的稳定性进一步增强。
在软件开发方面,GPT-5.4在SWE-Bench Pro调试评估中的得分为57.7%,略高于GPT-5.3-Codex的56.8%;但在测试多步骤开发流程的Terminal-Bench 2.0中,GPT-5.4得分为75.1%,低于GPT-5.3-Codex的77.3%。
此次更新的一项重要突破是新增了计算机操作能力。根据OpenAI的说法,GPT-5.4可通过屏幕截图理解计算机界面,并利用鼠标和键盘指令操作软件与网页。例如,AI代理可在浏览器中阅读邮件、下载附件、整理数据并填入电子表格,或在不同应用程序间完成多步骤任务,使AI能够直接在真实软件环境中执行工作。
此外,GPT-5.4也增强了AI代理的工具使用能力。OpenAI在API中新增了“工具搜索”机制,使模型在需要调用外部工具时,可先检索可用工具并动态加载其定义,而无需在每次请求中加载全部工具信息。OpenAI表示,该机制可在保持准确性的前提下减少约47%的Token使用量,使AI代理在包含大量工具与API的系统中更高效地完成复杂任务。

GPT-5.4在API与Codex中支持最高100万个Token的上下文长度,但在ChatGPT中仍维持与GPT-5.2相同的27.2万个Token限制。
OpenAI已逐步在ChatGPT的Plus、Team与Pro版本中上线GPT-5.4,预计将取代原有的GPT-5.2 Thinking模型。同时,还推出了性能更强的GPT-5.4 Pro版本,供需要处理复杂任务的企业和开发者使用。