Gemma 3n 重新定义了人工智能的标准,显著减小了体积。 谷歌革新推理,其极具性能优势的模型适用于各种设备。 创新架构打破了在有限资源下的性能壁垒。这个多模态 SLM 结合了文本、音频、视频和图像,同时保持了卓越的效率。Gemma 3n 带来的变革可能会重新定义我们与技术的互动,简化对高级人工智能的访问。
Gemma 3n 介绍
谷歌最近在 2025 年 Google I/O 上揭示了 Gemma 3n 模型,这是一个创新的多模态语言系统(SLM)。该模型由 DeepMind 团队开发,具有处理文本、音频、视频和图像等多种形式数据的能力。它的设计经过优化,以便在 CPU 上进行推理,因此可以在资源有限的设备上访问。
创新架构
Gemma 系列模型结合了其前身 Gemini 的技术进步。DeepMind 的工程师采用了一种激进的方法,开发出适用于低功耗设备的新架构。名为 Per-Layer 的主要创新显著减少了 RAM 的消耗。因此,配备5亿或80亿参数的 Gemma 3n 的内存占用远低于类似模型。
性能与基准
在像 Chatbot Arena 这样的基准平台上,Gemma 3n 取得了 1269 的 Elo 分数,紧随 Claude 3.7 Sonnet 之后。对一个如此规模的模型而言,其性能更加显得卓越。在传统基准测试中,如 MMLU 的 64.9% 和 MBPP 的 63.6% 的成绩,进一步确认了它的 优异模型 地位。
技术规格
MatFormer 是架构中的另一项创新,允许整合一个 20 亿参数的子模型。该功能有助于根据任务的复杂性调整模型的大小。开发者可以由此重建不同大小的子模型,最大化所使用资源的效率。
可访问性与使用
Gemma 3n 现在可通过 谷歌 AI Studio 免费访问,用户也可以在 Hugging Face 上下载该模型的权重。目前,已部署的版本仅允许处理文本和图像模式,但更新正在进行中,将会集成所有模式。
使用条款
将此模型用于商业目的不需要支付谷歌任何许可费用或版权费。然而,一些限制条款适用。禁止利用 Gemma 3n 生成受保护或非法的内容。在影响个人权利的领域(如金融或健康)进行自动决策也是禁止的。
推荐应用
Gemma 3n 在开源 SLM 领域建立了新标准。谷歌推荐将其集成用于文本生成、信息摘要、视觉分析和音频转录。它的一个显著特点是优化了移动推理,仅需 3924 MB 的 RAM,这使其非常适合探索新的用途,如在这些项目中提到的: Reachy 2、 OpenAI 以及 企业中的 AI。
关于其优越性的结论
Gemma 3n 将性能与模块化结合在一个紧凑的外观中。这一模型与人工智能的最新进展相吻合,体现了对在 SLM 中对效率日益增长的需求的精准响应。其较小的体积与在特定基准上的优异结果形成鲜明对比,使其能在 技术竞争 中占据领先地位。
关于 Gemma 3n 的用户常见问题:谷歌缩小了尖端人工智能的规模
Gemma 3n 是什么,它与其他人工智能模型有什么不同?
Gemma 3n 是谷歌开发的多模态人工智能模型,旨在高效运行于硬件能力有限的设备。它的主要创新是 Per-Layer 架构,优化 RAM 消耗,同时在各种基准上保持良好性能。
Gemma 3n 如何做到减少内存占用?
Gemma 3n 使用的 Per-Layer Embeddings 技术动态降低了内存使用,通过优化每层的表示,使该模型能实现与具有更少参数的模型相似的性能。
Gemma 3n 可以处理哪些类型的数据?
Gemma 3n 是完全多模态的,设计用于处理文本、音频、视频和图像,尽管当前版本主要集中在文本和图像模式。未来的更新预计将扩展其能力。
Gemma 3n 的性能得分与其他模型相比如何?
在 Chatbot Arena 上,Gemma 3n 达到 1269 的 Elo 分数,紧随 Claude 3.7 Sonnet 之后,且领先于其他模型如 GPT-4.1。此外,它在 MMLU 和 HumanEval 等经典基准测试中也表现出色。
Gemma 3n 是否开源,有哪些使用条款?
是的,Gemma 3n 是开源的。用户可以在商业用途上使用,而无需支付许可费用,但谷歌保留在侵犯其使用条款的情况下限制其使用的权利,特别是涉及受版权保护的内容。
Gemma 3n 推荐的实际应用有哪些?
由于尺寸小且优化用于移动推理,Gemma 3n 被推荐用于多种应用,例如文本生成、聊天机器人使用、信息摘要、视觉分析和音频文件转录。
开发者如何根据需要定制 Gemma 3n?
开发者可以通过 Gemma 3n 的 MatFormer 架构,创建具有多种大小的子模型,该架构支持根据每个任务的复杂性优化一个子模型,从而减少资源需求。