谷歌发布实验性模型DiffusionGemma,将扩散机制引入文本生成
2026年6月10日,谷歌正式发布实验性开源语言模型DiffusionGemma。该模型跳出了传统大模型逐字生成的自回归范式,首次将图像AI中的扩散机制引入文本生成领域。它从随机噪声开始反复迭代优化,能一次性并行输出256个标记的词块。
硬件效能表现直接拉升。依托英伟达的深度优化,模型在单GPU单用户模式下的运行速度提升了近四倍。H100显卡处理单条请求时,输出速度可达每秒1000个标记。RTX 5090等高端消费级显卡同样能突破每秒700个标记。
DiffusionGemma拥有260亿参数,依托混合专家架构,单步激活参数仅为38亿。标准基准测试中,其文本生成质量与准确率略逊于传统的Gemma4系列模型。全块感知能力打破了自回归模型只能向后推演的局限。生成过程中所有标记可以相互引用,这使得模型在文本后补、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中优势明显。
目前模型权重已基于Apache2.0协议在Hugging Face开源,全面兼容vLLM、MLX等主流推理框架。这项探索切断了内存带宽对GPU算力的制约,也为后续AI处理复杂逻辑与非线性文本生成留出了新空间。