最新消息:关注人工智能 AI赋能新媒体运营

OpenAI发布GPT-5.5,能力强大,迈向超级应用

科技资讯 admin 浏览

本周刚发布设计模型ChatGPT Images 2.0,OpenAI(4月23日)昨日又推出了基础语言模型GPT-5.5,其理解和分析能力更强,能够支持处理复杂多步骤任务,且不降低速度,同时更节省成本,适用于代理式编程、知识工作者和早期科学研究。

GPT-5.5号称是OpenAI最聪明、最直观的模型,增强了对计算机工具的使用能力,以协助完成“真实的工作”。GPT-5.5综合具备编写程序与调试、在线研究、数据分析、制作文档和表格、操作软件、调用工具等能力,直至完成任务。用户可交给它一项头绪繁多、多步骤的任务,由模型自行规划、调用工具、检查进度,逐步推进。这些能力特别适合代理式编程、计算机操作和早期科学研究。

另一方面,OpenAI表示,通常模型越大速度越慢,但即使GPT-5.5能力更强大,实际使用时每token的延迟表现并不低于GPT-5.4。在相同的Codex任务中,GPT-5.5使用的token数量还少于GPT-5.4,意味着它在提升能力的同时也提高了效率。

GPT-5.5已部署至Plus、Pro、Business及Enterprise用户的ChatGPT和Codex。Business和Enterprise用户还可通过ChatGPT使用GPT-5.5 Pro版本。不久后,OpenAI将把GPT-5.5及GPT-5.5 Pro部署到API。

测试结果

根据OpenAI官方发布的第三方基准测试数据,GPT-5.5在核心通用智能方面,于ARC-AGI-2测试中达到85.0%,在科学推理测试GPQA Diamond中获得93.6%的高分,显示出其在处理高度专业化和学术性问题上的卓越能力。

在编程能力方面,根据测试复杂命令行工作流程的Terminal-Bench 2.0、评估解决GitHub问题能力的SWE-Bench Pro,以及OpenAI内部长期编程任务的Expert-SWE等基准测试,GPT-5.5均超越GPT-5.4,且使用更少的token。

图片来源/OpenAI

在知识工作能力上,在Codex环境下,GPT-5.5生成文档、表格和演示文稿的表现优于GPT-5.4。在计算机操作技能方面,GPT-5.5展现出理解屏幕内容、点击、打字、操作界面,并精准切换工具的能力。此外,该模型在GDPval知识工作测试中以84.9%的得分领先于GPT-5.4,以及竞品模型Claude 4.7和Gemini 3.1 Pro。

在特定领域的知识工作能力上,GPT-5.5在安全与医疗问答测试HealthBench的“困难专业题”上表现有限,但在科学研究领域的GeneBench测试中显著优于GPT-5.4,在BixBench中已达公开模型最佳水平。在法律/专业任务的BigLaw Bench测试中得分达91.7%,已达到“接近专业助手”级别。

OpenAI强调模型的安全性,已通过内部和外部安全演练团队对其高级网络安全和生物学能力进行测试,并由近200家早期试用合作伙伴提供反馈意见。