最新消息:关注人工智能 AI赋能新媒体运营

Ideogram 4.0开源:93亿参数文字生成AI位列DesignArena第四

科技资讯 admin 浏览

Ideogram 开源 93 亿参数文生图模型 4.0

6月3日,AI图像生成平台Ideogram正式发布开放权重的文生图模型Ideogram4.0。该模型参数规模为93亿(9.3B),在官方基准测试中进入当前开源图像生成模型前列。

Ideogram4.0采用单流架构。文本Token与图像Token被置于统一的自注意力序列中进行联合建模,以此强化图文协同生成能力。模型技术底座包含Qwen3-VL-8B-Instruct文本编码器、34层可训练单流扩散Transformer(DiT)、Euler Flow Matching采样器以及冻结的KL自动编码器。这套组合用于兼顾图像质量、文本理解与生成效率。

Ideogram4.0生成的人物与商业设计图片

文字渲染能力是此次更新的重点。以往文生图模型常出现画面文字错乱或拼写错误,新模型针对长文本呈现进行了优化。训练阶段引入了对象与文本边界框数据,并配合结构化JSON字幕进行微调。用户现在可以通过提示词直接设定对象位置、文本布局和整体版式,操作逻辑更接近专业设计工具。模型已能处理人物、场景、海报、品牌视觉等多种生成需求。

Ideogram4.0文字排版与长文本渲染效果

在DesignArena的榜单中,Ideogram4.0位列第四,名次超过Nano Banana Pro。该榜单隐藏模型来源,由人工评审对生成结果进行盲测打分,侧重反映真实视觉表现。

模型权重与代码已公开。访问地址:https://github.com/ideogram-oss/ideogram4