只用 3.8B 参数完成推理，Gemma 4 的 26B 版本是怎么做到的

Google 这次不只是在发布会上吹牛了。Gemma 4 的 31B 版本在 Arena AI 排行榜上拿下全球开放模型第三名，而它的参数量只有竞争对手的二十分之一。换句话说，这不是”开源也不差”的安慰奖，而是真正踢馆的成绩。

Table of Contents

为什么重要

开放模型的竞争长期以来以 Meta 的 Llama 系列为主导，Google 一直在追赶。Gemma 4 这次直接用排行榜数字说话，对于想在本地环境、私有云或受监管行业运行 AI 的企业来说，世界级性能加上 Apache 2.0 协议，等于直接把授权成本砍到零。

关键点

Gemma 4 共四款：E2B、E4B（边缘设备）、26B MoE、31B Dense（工作站级）
31B 版本在 Arena AI 排行榜列全球开放模型第三，26B 排第六
26B MoE 推理时仅激活 3.8B 参数，速度快、延迟低
31B 和 26B 可在单张 80GB NVIDIA（英伟达）H100 GPU 上运行，量化版支持消费级显卡
E2B、E4B 可完全离线运行于手机、树莓派（Raspberry Pi）、英伟达 Jetson Orin Nano
大型模型支持 256K 上下文窗口，边缘模型支持 128K
原生支持超过 140 种语言
自 Gemma 第一代发布以来，累计下载超 4 亿次，已衍生超过 10 万个变体版本
采用 Apache 2.0 协议，商业使用无限制

大局观

过去两年，开放模型与闭源模型之间的性能差距已从天堑变成沟渠，而 Gemma 4 试图彻底填平它。真正值得关注的是边缘模型的部分：当一个足够聪明的 AI 可以在没有网络的手机上跑，很多我们以为必须靠云端的场景，其实根本不需要。这不只是技术参数的进步，而是 AI 基础设施权力的重新分配。

他们怎么说

Hugging Face 表示：”Gemma 4 在 Apache 2.0 协议下发布是一个重大里程碑，我们非常期待在首发当天就支持 Gemma 4 系列。”

言外之意

Apache 2.0 协议这个选择，背后有更大的战略意图。Google 很清楚，如果开发者生态继续围绕 Meta 的 Llama 系列建立，Google Cloud 就会失去大量潜在的部署客户。把模型开放出来让开发者先用习惯，等到需要扩展规模时，自然会流向 Vertex AI 和 GKE。这是一个典型的”先免费、后收割”的平台策略，只是这次免费的部分确实很硬核。

下一步

对开发者来说，最直接的问题是：Gemma 4 能不能取代现有工作流里的 Llama 3？目前来看很有可能，尤其在需要多语言支持或视觉理解的场景。Android 开发者现在可通过 AICore Developer Preview 开始测试智能体流程，需要大规模部署的企业可通过 Google Cloud 的 Vertex AI 或 GKE 落地。

结语

AI 的平权化正在加速，Google 这次选择的武器不是更贵的订阅方案，而是一纸开放协议。问题来了：当性能足够好的模型可以在你口袋里的手机上离线运行，我们还需要为云端 AI 付多少溢价？这个答案，可能比 Gemma 4 本身更有颠覆性。

[新闻简报] 只用 3.8B 参数完成推理，Gemma 4 的 26B 版本是怎么做到的

为什么重要

关键点

大局观

他们怎么说

言外之意

下一步

结语

赞过：

想了解更多相关文章?

发表评论取消回复

为什么重要

关键点

大局观

他们怎么说

言外之意

下一步

结语

分享到：

赞过：

想了解更多相关文章?

发表评论 取消回复

发表评论取消回复