阿里巴巴开源首个图像生成模型Qwen-Image

图片来源:

Qwen

阿里巴巴旗下的AI团队通义千问（Tongyi Qianwen，Qwen）继开源Qwen语言模型、多模态模型Qwen-VL之后，周一（8/4）开源了首个图像生成模型Qwen-Image。

Qwen-Image採用MMDiT（Masked Multimodal Diffusion Transformer）架构，具备200亿个参数，支援使用者输入文字或图像以产生图像，也能控制图像的样式，并针对于图像中嵌入中文及英文进行了最佳化。

在Qwen-Image执行的许多图像生成与图像编辑基準测试中，它都轻易地超越了GPT Image 1、Seedream 3.0或Bagel等竞争对手，也在中/英文字渲染的基準测试表现亮眼。

Qwen团队特别展示了如何以文字提示要求Qwen-Image生成含有大量文字的图像，以展示该模型的确能够根据提示生成正确的文字，不管是中文还是英文。

科技专栏作家Mehul Gupta认为，Qwen-Image是少数能够準确对齐看板文字、正确渲染文字，同时兼顾风格与结构的开源图像生成模型，而且具备商用品质，可比美封闭API。

使用者可直接透过Qwen Chat平台试用Qwen-Image，或是藉由Hugging Face与GitHub下载。Qwen团队亦提供了完整的Qwen-Image技术报告。

CB科技站