谷歌DeepMind发布Gemma4模型,2GB显存即可端侧运行
谷歌DeepMind正式开源Gemma4。该模型参数规模维持在约300亿,与上一代持平。单位参数的智能密度得到提升,多项核心任务的性能已能匹敌一年半前的闭源大模型。
Gemma4引入全新的E2B架构进行参数卸载。传统Transformer的嵌入层通常占用大量显存,新架构在每一层加入嵌入表,利用查找表机制替代全矩阵乘法计算。在50亿参数的版本中,实际需要加载到GPU显存的有效参数仅为20亿。剩余30亿参数可安全卸载至CPU或磁盘。模型仅需2GB显存即可实现快速推理,智能手机与树莓派等端侧设备的部署门槛随之降低。
此次发布协调了近50家外部合作伙伴。Gemma4已集成至Android Studio。开发者在Agent模式下无需将代码上传至云端API。AI编写Android代码的过程完全在本地离线环境运行。这直接满足了企业对数据隐私和离线办公的需求。
该模型承袭了Gemini3的研究成果。2B和4B规模版本支持140种语言。模型可处理语音识别与语音提问,也能进行30到60秒的短视频分析。其知识储备的绝对体量仍与大模型存在差距。在文本扩散(Diffusion Transformer)探索与专家混合模型(MoE)微调方面,行业公认的挑战依然存在。
谷歌DeepMind方面预计,未来1到2年内智能手机将能在本地流畅运行性能相当于Gemini3Pro级别的模型。届时多数复杂的智能体代理任务会直接在设备端完成。不依赖云端算力的运行方式,或将为下一代消费级应用集成与用户体验带来变化。