谷歌推出Gemma 4 12B模型无需编码器处理视听

谷歌发布Gemma 4 12B多模态模型

谷歌正式推出统一多模态模型Gemma 4 12B。该模型包含12亿个参数，去掉了传统架构中的独立视觉和音频编码器，能够直接处理图像与声音信号。它的运行门槛较低，占用16GB显存或统一内存即可启动。开发者在高端笔记本电脑上就能本地运行，不必依赖云端算力。

新模型用一层轻量级嵌入结构替代了原有的编码器组件。处理视觉数据时，只需执行一次矩阵乘法、位置嵌入和归一化操作。音频信号则直接投影到文本词元的维度空间。计算步骤减少让推理体积更紧凑。在多项基准测试中，它的表现接近谷歌26B MoE大模型，能够胜任多步推理和智能体工作流任务。

Gemma 4 12B内置了多词元预测（MTP）组件，支持同时预测多个词元以缩短生成时间。该模型采用Apache 2.0协议开源，权重文件已上传至Hugging Face与Kaggle。系统兼容LM Studio、Ollama、MLX、SGLang和vLLM等推理框架。谷歌AI Edge Gallery同步提供端侧部署支持，云平台用户也可通过Model Garden等工具快速上线。目前，Gemma 4系列累计下载量已突破1.5亿次。

CB科技站

谷歌推出Gemma 4 12B模型无需编码器处理视听

谷歌发布Gemma 4 12B多模态模型

与本文相关的文章