谷歌发布DiffusionGemma尝试以扩散架构提速AI推理

谷歌开源 DiffusionGemma，尝试以扩散架构提升大模型推理效率

6 月 10 日，谷歌正式推出实验性开源模型 DiffusionGemma。该模型采用文本扩散架构（Text-to-text diffusion），试图跳出传统的生成式路线，为人工智能文本生成提供新的效率方案。

在专用 GPU 上测试，该模型的文本生成速度最高达到传统自回归大语言模型的 4 倍。谷歌明确将产品定位为实验性质，主要面向研究人员与开发者。当前版本的输出质量还无法与标准 Gemma4 相比，官方建议在生产环境中继续沿用标准版本。

速度提升有明确的适用范围。本地设备运行和低并发推理场景能充分释放架构优势。一旦切换到高并发的云端部署，提速效果会相对有限。

谷歌已基于 Apache 2.0 许可证向公众开放代码与权重。开放的授权条款降低了验证门槛，技术社区可以直接用该模型测试非自回归架构的实际推理表现。产品仍处于早期探索期，但已为后续优化大模型推理效率提供了一个清晰的技术样本。