谷歌发布Gemma 4 12B多模态模型
谷歌正式推出统一多模态模型Gemma 4 12B。该模型包含12亿个参数,去掉了传统架构中的独立视觉和音频编码器,能够直接处理图像与声音信号。它的运行门槛较低,占用16GB显存或统一内存即可启动。开发者在高端笔记本电脑上就能本地运行,不必依赖云端算力。
新模型用一层轻量级嵌入结构替代了原有的编码器组件。处理视觉数据时,只需执行一次矩阵乘法、位置嵌入和归一化操作。音频信号则直接投影到文本词元的维度空间。计算步骤减少让推理体积更紧凑。在多项基准测试中,它的表现接近谷歌26B MoE大模型,能够胜任多步推理和智能体工作流任务。
Gemma 4 12B内置了多词元预测(MTP)组件,支持同时预测多个词元以缩短生成时间。该模型采用Apache 2.0协议开源,权重文件已上传至Hugging Face与Kaggle。系统兼容LM Studio、Ollama、MLX、SGLang和vLLM等推理框架。谷歌AI Edge Gallery同步提供端侧部署支持,云平台用户也可通过Model Garden等工具快速上线。目前,Gemma 4系列累计下载量已突破1.5亿次。