Google 这次不只是在发布会上吹牛了。Gemma 4 的 31B 版本在 Arena AI 排行榜上拿下全球开放模型第三名,而它的参数量只有竞争对手的二十分之一。换句话说,这不是”开源也不差”的安慰奖,而是真正踢馆的成绩。
为什么重要
开放模型的竞争长期以来以 Meta 的 Llama 系列为主导,Google 一直在追赶。Gemma 4 这次直接用排行榜数字说话,对于想在本地环境、私有云或受监管行业运行 AI 的企业来说,世界级性能加上 Apache 2.0 协议,等于直接把授权成本砍到零。
关键点
- Gemma 4 共四款:E2B、E4B(边缘设备)、26B MoE、31B Dense(工作站级)
- 31B 版本在 Arena AI 排行榜列全球开放模型第三,26B 排第六
- 26B MoE 推理时仅激活 3.8B 参数,速度快、延迟低
- 31B 和 26B 可在单张 80GB NVIDIA(英伟达)H100 GPU 上运行,量化版支持消费级显卡
- E2B、E4B 可完全离线运行于手机、树莓派(Raspberry Pi)、英伟达 Jetson Orin Nano
- 大型模型支持 256K 上下文窗口,边缘模型支持 128K
- 原生支持超过 140 种语言
- 自 Gemma 第一代发布以来,累计下载超 4 亿次,已衍生超过 10 万个变体版本
- 采用 Apache 2.0 协议,商业使用无限制
大局观
过去两年,开放模型与闭源模型之间的性能差距已从天堑变成沟渠,而 Gemma 4 试图彻底填平它。真正值得关注的是边缘模型的部分:当一个足够聪明的 AI 可以在没有网络的手机上跑,很多我们以为必须靠云端的场景,其实根本不需要。这不只是技术参数的进步,而是 AI 基础设施权力的重新分配。
他们怎么说
Hugging Face 表示:”Gemma 4 在 Apache 2.0 协议下发布是一个重大里程碑,我们非常期待在首发当天就支持 Gemma 4 系列。”
言外之意
Apache 2.0 协议这个选择,背后有更大的战略意图。Google 很清楚,如果开发者生态继续围绕 Meta 的 Llama 系列建立,Google Cloud 就会失去大量潜在的部署客户。把模型开放出来让开发者先用习惯,等到需要扩展规模时,自然会流向 Vertex AI 和 GKE。这是一个典型的”先免费、后收割”的平台策略,只是这次免费的部分确实很硬核。
下一步
对开发者来说,最直接的问题是:Gemma 4 能不能取代现有工作流里的 Llama 3?目前来看很有可能,尤其在需要多语言支持或视觉理解的场景。Android 开发者现在可通过 AICore Developer Preview 开始测试智能体流程,需要大规模部署的企业可通过 Google Cloud 的 Vertex AI 或 GKE 落地。
结语
AI 的平权化正在加速,Google 这次选择的武器不是更贵的订阅方案,而是一纸开放协议。问题来了:当性能足够好的模型可以在你口袋里的手机上离线运行,我们还需要为云端 AI 付多少溢价?这个答案,可能比 Gemma 4 本身更有颠覆性。