
Qwen
阿里巴巴旗下的AI团队通义千问(Tongyi Qianwen,Qwen)继开源Qwen语言模型、多模态模型Qwen-VL之后,周一(8/4)开源了首个图像生成模型Qwen-Image。
Qwen-Image採用MMDiT(Masked Multimodal Diffusion Transformer)架构,具备200亿个参数,支援使用者输入文字或图像以产生图像,也能控制图像的样式,并针对于图像中嵌入中文及英文进行了最佳化。
在Qwen-Image执行的许多图像生成与图像编辑基準测试中,它都轻易地超越了GPT Image 1、Seedream 3.0或Bagel等竞争对手,也在中/英文字渲染的基準测试表现亮眼。
Qwen团队特别展示了如何以文字提示要求Qwen-Image生成含有大量文字的图像,以展示该模型的确能够根据提示生成正确的文字,不管是中文还是英文。
科技专栏作家Mehul Gupta认为,Qwen-Image是少数能够準确对齐看板文字、正确渲染文字,同时兼顾风格与结构的开源图像生成模型,而且具备商用品质,可比美封闭API。
使用者可直接透过Qwen Chat平台试用Qwen-Image,或是藉由Hugging Face与GitHub下载。Qwen团队亦提供了完整的Qwen-Image技术报告。