[新闻简报] 只用 3.8B 参数完成推理,Gemma 4 的 26B 版本是怎么做到的
Google 这次不只是在发布会上吹牛了。Gemma 4 的 31B 版本在 Arena AI 排行榜上拿下全球开放模型第三名,而它的参数量只有竞争对手的二十分之一。换句话说,这不是”开源也不差”的安慰奖,而是真正踢馆的成绩。
为什么重要
开放模型的竞争长期以来以 Meta 的 Llama 系列为主导,Google 一直在追赶。Gemma 4 这次直接用排行榜数字说话,对于想在本地环境、私有云或受监管行业运行 AI 的企业来说,世界级性能加上 Apache 2.0 协议,等于直接把授权成本砍到零。
关键点
- Gemma 4 共四款:E2B、E4B(边缘设备)、26B MoE、31B Dense(工作站级)
- 31B 版本在 Arena AI 排行榜列全球开放模型第三,26B 排第六
- 26B MoE 推理时仅激活 3.8B 参数,速度快、延迟低
- 31B 和 26B 可在单张 80GB NVIDIA(英伟达)H100 GPU 上运行,量化版支持消费级显卡
- E2B、E4B 可完全离线运行于手机、树莓派(Raspberry