最新消息:关注人工智能 AI赋能新媒体运营

阿里巴巴开源首个图像生成模型Qwen-Image

科技智能 admin 浏览 评论
图片来源:

Qwen

阿里巴巴旗下的AI团队通义千问(Tongyi Qianwen,Qwen)继开源Qwen语言模型、多模态模型Qwen-VL之后,周一(8/4)开源了首个图像生成模型Qwen-Image。

Qwen-Image採用MMDiT(Masked Multimodal Diffusion Transformer)架构,具备200亿个参数,支援使用者输入文字或图像以产生图像,也能控制图像的样式,并针对于图像中嵌入中文及英文进行了最佳化。

在Qwen-Image执行的许多图像生成与图像编辑基準测试中,它都轻易地超越了GPT Image 1、Seedream 3.0或Bagel等竞争对手,也在中/英文字渲染的基準测试表现亮眼。

Qwen团队特别展示了如何以文字提示要求Qwen-Image生成含有大量文字的图像,以展示该模型的确能够根据提示生成正确的文字,不管是中文还是英文。

科技专栏作家Mehul Gupta认为,Qwen-Image是少数能够準确对齐看板文字、正确渲染文字,同时兼顾风格与结构的开源图像生成模型,而且具备商用品质,可比美封闭API。

使用者可直接透过Qwen Chat平台试用Qwen-Image,或是藉由Hugging Face与GitHub下载。Qwen团队亦提供了完整的Qwen-Image技术报告。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论