谷歌发布Gemma412B统一多模态模型,取消传统编码器降低本地部署门槛
谷歌于6月3日正式推出Gemma412B统一多模态模型。该模型在底层架构上直接移除了传统多模态模型必备的独立编码器,重点解决了在消费级硬件上部署和推理的效率问题。
处理多模态数据通常需要依赖额外的视觉和音频编码器,将信号转为与文本Token匹配的维度。这一步会增加模型体积和计算复杂度。Gemma412B改用轻量级嵌入层直接读取视觉输入,仅靠单次矩阵乘法、位置嵌入和归一化完成转换。音频信号同样被直接投射到文本维度。省去编码器后,模型的计算环节大幅减少。
参数规模120亿的模型因此跑进了消费级硬件的运行门槛。用户只需配备16GB显存或统一内存,就能在高端笔记本电脑上完成本地部署。视觉和音频任务可以直接离线处理,不需要调用云端算力。
实际测试中,Gemma412B的多步推理与代理工作流能力已经逼近谷歌26B MoE模型。模型加入了多Token预测(MTP)技术,支持同时预测多个Token,端侧的推理响应速度随之加快。
Gemma412B采用Apache2.0许可证开源,模型权重已正式上架。Ollama、LM Studio、MLX、SGLang和vLLM等推理框架均已接入支持。谷歌AI Edge Gallery同步上线了端侧部署包,企业开发者也可以通过谷歌云工具进行集群部署。Gemma4系列模型的累计下载量目前已突破1.5亿次。