Ideogram 发布 9.3B 开源文生图模型
人工智能初创公司 Ideogram 近日发布了 Ideogram 4.0 开放权重文生图模型。该模型核心参数规模为 9.3B( 93 亿)。业内测试数据显示,其在当前开源图像生成 AI 中性能表现靠前。
模型采用单流架构,文本与图像标志(tokens)在同一个自注意力序列中直接融合。底层架构接入了 Qwen3-VL-8B-Instruct 文本编码器,配合 34 层单流扩散 Transformer(DiT)与 Euler 流匹配采样器。这一结构重点优化了图像内的文字绘制能力。模型能够输出清晰准确的长文本,有效减少字母错乱与拼写错误,成品可直接用于海报与封面排版。
训练阶段,研发团队引入了对象和文本的边界框数据,并结合结构化 JSON 字幕进行训练。模型对画面空间关系的掌握更明确。用户现在可以通过提示词直接指定整体版式、物体坐标与文字布局。出图结果不再依赖随机抽卡,位置控制变得精确。
图形评估平台 DesignArena 的榜单显示,Ideogram 4.0 目前位列全球第四,排名超过 Nano Banana Pro。该榜单采用隐藏模型名称的盲测机制。人类评审仅凭视觉观感进行打分。这一评估方式验证了该模型在开源生图领域的实际表现。