OpenAI推出GPT-5.4，增强专业能力并首次支持AI操作电脑

OpenAI周四（3月5日）发布新一代大型语言模型GPT-5.4，并同步在ChatGPT、API和编程开发工具Codex中上线。OpenAI表示，GPT-5.4整合了推理、编程开发与AI代理能力，是目前最适合处理专业工作任务的前沿模型之一。新模型不仅强化了专业工作能力，还首次提供原生计算机操作能力，使AI代理能够通过图形界面直接操作应用程序和浏览器。

在模拟真实职场的GDPval评估中，GPT-5.4在83%的任务中表现与人类专业人士相当或更优。GDPval评估涵盖金融、制造、医疗、政府与信息服务等9个行业、44种职业，任务包括编制财务预算表、制作销售演示文稿、安排排班计划和设计工程流程等，并由相关领域专家进行盲评打分。

此外，与GPT-5.2相比，GPT-5.4在可靠性方面也有显著提升。在用户曾标记为错误的提示测试中，新模型整体回答出错的概率降低18%，单个事实陈述出错的概率降低33%，显示出模型在专业场景中的稳定性进一步增强。

在软件开发方面，GPT-5.4在SWE-Bench Pro调试评估中的得分为57.7%，略高于GPT-5.3-Codex的56.8%；但在测试多步骤开发流程的Terminal-Bench 2.0中，GPT-5.4得分为75.1%，低于GPT-5.3-Codex的77.3%。

此次更新的一项重要突破是新增了计算机操作能力。根据OpenAI的说法，GPT-5.4可通过屏幕截图理解计算机界面，并利用鼠标和键盘指令操作软件与网页。例如，AI代理可在浏览器中阅读邮件、下载附件、整理数据并填入电子表格，或在不同应用程序间完成多步骤任务，使AI能够直接在真实软件环境中执行工作。

此外，GPT-5.4也增强了AI代理的工具使用能力。OpenAI在API中新增了“工具搜索”机制，使模型在需要调用外部工具时，可先检索可用工具并动态加载其定义，而无需在每次请求中加载全部工具信息。OpenAI表示，该机制可在保持准确性的前提下减少约47%的Token使用量，使AI代理在包含大量工具与API的系统中更高效地完成复杂任务。

GPT-5.4在API与Codex中支持最高100万个Token的上下文长度，但在ChatGPT中仍维持与GPT-5.2相同的27.2万个Token限制。

OpenAI已逐步在ChatGPT的Plus、Team与Pro版本中上线GPT-5.4，预计将取代原有的GPT-5.2 Thinking模型。同时，还推出了性能更强的GPT-5.4 Pro版本，供需要处理复杂任务的企业和开发者使用。

CB科技站

OpenAI推出GPT-5.4，增强专业能力并首次支持AI操作电脑

与本文相关的文章