Ideogram 开源 93 亿参数文生图模型 4.0
6月3日,AI图像生成平台Ideogram正式发布开放权重的文生图模型Ideogram4.0。该模型参数规模为93亿(9.3B),在官方基准测试中进入当前开源图像生成模型前列。
Ideogram4.0采用单流架构。文本Token与图像Token被置于统一的自注意力序列中进行联合建模,以此强化图文协同生成能力。模型技术底座包含Qwen3-VL-8B-Instruct文本编码器、34层可训练单流扩散Transformer(DiT)、Euler Flow Matching采样器以及冻结的KL自动编码器。这套组合用于兼顾图像质量、文本理解与生成效率。

文字渲染能力是此次更新的重点。以往文生图模型常出现画面文字错乱或拼写错误,新模型针对长文本呈现进行了优化。训练阶段引入了对象与文本边界框数据,并配合结构化JSON字幕进行微调。用户现在可以通过提示词直接设定对象位置、文本布局和整体版式,操作逻辑更接近专业设计工具。模型已能处理人物、场景、海报、品牌视觉等多种生成需求。

在DesignArena的榜单中,Ideogram4.0位列第四,名次超过Nano Banana Pro。该榜单隐藏模型来源,由人工评审对生成结果进行盲测打分,侧重反映真实视觉表现。
模型权重与代码已公开。访问地址:https://github.com/ideogram-oss/ideogram4