OpenAI本周发布了首个整合推理能力的图像生成模型,并向所有ChatGPT用户开放,推出ChatGPT Images 2.0。该模型不仅能生成精美图像,还能整合多语言文字与多样化版面设计,适用于制作漫画、海报或宣传展板。目前该功能已全面上线,包括免费版用户均可使用。
ChatGPT Images 2.0是继去年12月发布的ChatGPT Images 1.5之后的升级版本。它是OpenAI首个融合推理能力的图像生成模型:当(付费版)用户启用“思考”模式后,Images 2.0会实时检索网络信息生成图像,支持一次生成多张图片,并能反复验证输出结果。它还能处理图文混合的复杂任务,尤其适用于需要精准、最新信息,以及视觉风格统一的场景。
在图像生成方面,ChatGPT Images 2.0提升了对详细指令的遵从能力,可精准定位物体、生成丰富文字内容,并支持多种宽高比的图像输出。它能生成复杂精细的图像,准确保留用户指定的细节,实现过去图像模型难以处理的元素,如小段文字、图标设计、UI元素、复杂构图与排版,所有图像均提供2K分辨率,甚至能在单张图像中生成分镜脚本,或包含多栏文字与图表的杂志级设计。

ChatGPT Images 2.0的另一大亮点是多语言支持。此前的Images 1.5仅支持简单的英文和拉丁语系文字,而Images 2.0具备完整的多语言理解能力,不仅能生成中文、日文、韩文、北印度语、孟加拉语等非拉丁文字,还能生成自然流畅的文本。它不只是翻译标签或短语,而是将文字有机融入整体设计,因此可生成海报、手写字体、漫画、广告等图文融合的视觉作品。
OpenAI表示,结合推理能力与视觉理解的ChatGPT Images 2.0不仅是图像生成工具,更是一种策略性设计助手,能帮助用户将创意转化为可分享、教学或用于专业设计的成果。
目前,所有ChatGPT用户、Codex及API接口均可使用ChatGPT Images 2.0。但根据VentureBeat报道,免费版用户仅能使用基础的图像生成模型,Pro和Plus用户才能启用“思考”功能,而Pro用户还可额外获得ImageGen Pro模型。
该工具发布前不久,Anthropic推出了可用于产品设计图、原型、演示文稿、单页简报等文档制作的Claude Design。