谷歌联合英伟达开源DiffusionGemma，单卡推理提速4倍

谷歌发布实验性模型DiffusionGemma，将扩散机制引入文本生成

2026年6月10日，谷歌正式发布实验性开源语言模型DiffusionGemma。该模型跳出了传统大模型逐字生成的自回归范式，首次将图像AI中的扩散机制引入文本生成领域。它从随机噪声开始反复迭代优化，能一次性并行输出256个标记的词块。

硬件效能表现直接拉升。依托英伟达的深度优化，模型在单GPU单用户模式下的运行速度提升了近四倍。H100显卡处理单条请求时，输出速度可达每秒1000个标记。RTX 5090等高端消费级显卡同样能突破每秒700个标记。

DiffusionGemma拥有260亿参数，依托混合专家架构，单步激活参数仅为38亿。标准基准测试中，其文本生成质量与准确率略逊于传统的Gemma4系列模型。全块感知能力打破了自回归模型只能向后推演的局限。生成过程中所有标记可以相互引用，这使得模型在文本后补、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中优势明显。

目前模型权重已基于Apache2.0协议在Hugging Face开源，全面兼容vLLM、MLX等主流推理框架。这项探索切断了内存带宽对GPU算力的制约，也为后续AI处理复杂逻辑与非线性文本生成留出了新空间。

CB科技站

谷歌联合英伟达开源DiffusionGemma，单卡推理提速4倍

谷歌发布实验性模型DiffusionGemma，将扩散机制引入文本生成

与本文相关的文章