谷歌发布Gemma 4，E2B架构提升手机本地AI性能

谷歌DeepMind发布Gemma4模型，2GB显存即可端侧运行

谷歌DeepMind正式开源Gemma4。该模型参数规模维持在约300亿，与上一代持平。单位参数的智能密度得到提升，多项核心任务的性能已能匹敌一年半前的闭源大模型。

Gemma4引入全新的E2B架构进行参数卸载。传统Transformer的嵌入层通常占用大量显存，新架构在每一层加入嵌入表，利用查找表机制替代全矩阵乘法计算。在50亿参数的版本中，实际需要加载到GPU显存的有效参数仅为20亿。剩余30亿参数可安全卸载至CPU或磁盘。模型仅需2GB显存即可实现快速推理，智能手机与树莓派等端侧设备的部署门槛随之降低。

此次发布协调了近50家外部合作伙伴。Gemma4已集成至Android Studio。开发者在Agent模式下无需将代码上传至云端API。AI编写Android代码的过程完全在本地离线环境运行。这直接满足了企业对数据隐私和离线办公的需求。

该模型承袭了Gemini3的研究成果。2B和4B规模版本支持140种语言。模型可处理语音识别与语音提问，也能进行30到60秒的短视频分析。其知识储备的绝对体量仍与大模型存在差距。在文本扩散（Diffusion Transformer）探索与专家混合模型（MoE）微调方面，行业公认的挑战依然存在。

谷歌DeepMind方面预计，未来1到2年内智能手机将能在本地流畅运行性能相当于Gemini3Pro级别的模型。届时多数复杂的智能体代理任务会直接在设备端完成。不依赖云端算力的运行方式，或将为下一代消费级应用集成与用户体验带来变化。

CB科技站

谷歌发布Gemma 4，E2B架构提升手机本地AI性能

谷歌DeepMind发布Gemma4模型，2GB显存即可端侧运行

与本文相关的文章