谷歌发布Gemma 4 12B 16GB内存可本地运行

谷歌发布Gemma412B统一多模态模型，取消传统编码器降低本地部署门槛

谷歌于6月3日正式推出Gemma412B统一多模态模型。该模型在底层架构上直接移除了传统多模态模型必备的独立编码器，重点解决了在消费级硬件上部署和推理的效率问题。

处理多模态数据通常需要依赖额外的视觉和音频编码器，将信号转为与文本Token匹配的维度。这一步会增加模型体积和计算复杂度。Gemma412B改用轻量级嵌入层直接读取视觉输入，仅靠单次矩阵乘法、位置嵌入和归一化完成转换。音频信号同样被直接投射到文本维度。省去编码器后，模型的计算环节大幅减少。

参数规模120亿的模型因此跑进了消费级硬件的运行门槛。用户只需配备16GB显存或统一内存，就能在高端笔记本电脑上完成本地部署。视觉和音频任务可以直接离线处理，不需要调用云端算力。

实际测试中，Gemma412B的多步推理与代理工作流能力已经逼近谷歌26B MoE模型。模型加入了多Token预测（MTP）技术，支持同时预测多个Token，端侧的推理响应速度随之加快。

Gemma412B采用Apache2.0许可证开源，模型权重已正式上架。Ollama、LM Studio、MLX、SGLang和vLLM等推理框架均已接入支持。谷歌AI Edge Gallery同步上线了端侧部署包，企业开发者也可以通过谷歌云工具进行集群部署。Gemma4系列模型的累计下载量目前已突破1.5亿次。

CB科技站

谷歌发布Gemma 4 12B 16GB内存可本地运行

谷歌发布Gemma412B统一多模态模型，取消传统编码器降低本地部署门槛

与本文相关的文章