Gemma 4 引领端侧 AI 革命:业界领先的 Agent Skills 走进边缘设备

2026年4月20日

59

786

Gemma 4 引领端侧 AI 革命:业界领先的 Agent Skills 走进边缘设备

近日,Google DeepMind 正式发布了 Gemma 4,这是一系列具有突破性意义的开放模型,旨在重新定义端侧 AI 的可能性。Gemma 4 通过 Apache 2.0 许可发布,为开发者提供了强大的端侧 AI 开发工具包,标志着边缘计算与人工智能融合的新里程碑。

Gemma 4 的核心能力

Gemma 4 不仅仅是一个简单的语言模型,它具备多项卓越能力:支持多步规划与自主行动、离线代码生成、音视频处理,且无需专门的微调即可实现复杂功能。更值得注意的是,该模型原生支持超过 140 种语言,真正服务于全球开发者与用户。在视觉处理方面,Gemma 4 同样展现出卓越的性能,能够理解和生成多模态内容。

Agent Skills:端侧智能体的实现路径

通过 Google AI Edge Gallery,开发者可以体验到首批完全在端侧运行的多步自主智能体工作流——Agent Skills。这一功能为端侧 AI 带来了革命性的变化:智能体可以通过调用各种 Skills 访问超出其初始训练数据的信息,例如查询维基百科获取百科常识;在内容生成方面,可以将段落或视频转化为精简的学习摘要、闪卡,或将数据转化为交互式可视化图表。

端侧 AI 正在重新定义智能体的可能性,从云端依赖走向本地自主。

“Google AI Edge 团队”

知识增强与内容生成

Gemma 4 还能与其他模型进行深度集成,如文本转语音、图像生成或音乐合成模型,实现能力的无限拓展。例如,可以为照片自动配上与氛围完美契合的音乐。在用户体验层面,用户无需在多个应用之间切换,只需通过与 Gemma 4 对话,即可管理复杂的工作流并构建个性化应用。

跨模型集成与端到端体验

在部署层面,LiteRT-LM 为跨设备运行提供了卓越的性能支持。得益于 LiteRT 对 2-bit 和 4-bit 权重的支持,以及内存映射的逐层嵌入技术,在某些设备上运行 Gemma 4 E2B 的内存占用可控制在 1.5GB 以内。LiteRT-LM 还实现了令人惊叹的推理速度:在 Raspberry Pi 5 上运行时,prefill 速度达 133 token/秒,decode 速度为 7.6 token/秒;而在 Qualcomm Dragonwing IQ8 NPU 上,更是达到了 3,700 token/秒的 prefill 速度。目前,Gemma 4 已实现全平台覆盖,支持 Android、iOS、Windows、Linux、macOS 以及树莓派等物联网设备。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI