By 小墨
2026年3月12日
22
257
Gemini Embedding 2:首个原生五模态embedding模型
在人工智能领域,向量嵌入(Embedding)技术一直是连接不同数据类型与语义理解的关键桥梁。传统上,针对文本、图片、视频等不同模态的数据,研究者们往往需要构建独立的模型和索引系统,这不仅增加了工程复杂度,也使得跨模态检索变得繁琐。然而,这一局面正在被Google DeepMind最新发布的Gemini Embedding 2所改变。
核心能力与技术创新
Gemini Embedding 2是业界首个原生支持五模态统一编码的embedding模型,能够将文本、图片、视频、音频、PDF五种模态的数据首次整合到同一个向量空间中。这意味着开发者可以通过一次API调用,同时输入一段文字、几张图片和一段音频,模型将返回一个统一的向量表示,这个向量深刻理解的是不同模态内容之间的语义关联。
向量维度与性能表现
在具体能力方面,Gemini Embedding 2表现出令人印象深刻的技术参数:该模型支持超过100种语言的语义理解;文本处理最长可达8192个input tokens;图片输入每次最多6张,支持PNG和JPEG格式;视频最长128秒,支持MP4和MOV格式;音频最长80秒,支持MP3和WAV格式;PDF文档最多支持6页。更值得关注的是,这五种模态可以混合输入,实现了真正的跨模态统一理解。
五种模态可以混着传,一次API调用里同时丢一段文字、三张图、一段录音进去,模型返回一个向量,这个向量理解的是它们之间的关系。
“Google DeepMind”定价策略与市场定位
在向量表示方面,Gemini Embedding 2默认输出3072维向量,同时支持灵活的降维能力(Matryoshka Representation Learning)。令人惊喜的是,降维后的性能几乎无损:在MTEB基准测试中,3072维得分68.17,2048维得分68.16,1536维得分68.17(甚至比2048维略高0.01),768维得分67.99。这意味着开发者可以根据存储成本需求灵活选择维度——768维的存储成本仅为3072维的四分之一,而性能仅下降0.18个点位。
使用限制与早期反馈
在定价方面,Gemini Embedding 2的文本价格为每百万tokens 0.20美元,Batch API半价每百万tokens 0.10美元,图片、音频、视频则按Gemini API标准媒体token费率计算。与前代gemini-embedding-001的每百万tokens 0.15美元相比,价格上涨约33%。不过,考虑到新增的音频、视频、PDF三种模态能力,这一溢价仍在合理范围内。相比之下,OpenAI text-embedding-3-large为每百万tokens 0.13美元,Cohere Embed v4(文本+图片)为每百万tokens 0.12美元。
如有侵权,请联系删除。
Related Articles
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
4月16日,腾讯QQ宣布正式原生接入开源智能体Hermes Agent,官方文档同步更新,用户可在Messaging Platforms配置中选择QQ Bot通道,实现QQ内的文字、语音与图片等消息类
-
Thu Apr 16 2026一文搞懂 Hermes Agent 与 OpenClaw 选型对比
随着智能体技术在产品端日益普及,开发者面临在不同框架间进行选型的难题;本文通过多个维度剖析两大代表性项目的设计取向与适用场景。
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
2026年4月16日,腾讯QQ宣布已将Hermes Agent官方文档与QQ Bot插件对接,用户可直接在QQ内配置Bot通道,实现文字、语音与图片等多模态消息的收发与处理。
-
Thu Apr 16 20262026企业级智能体白皮书:大模型'智力革命'已告一段落,Agent的'执行革命'才刚刚开场。
这份白皮书系统总结了企业级智能体(Agent)从概念验证向规模化应用的演进,指出行业已进入从“智力革命”到“执行革命”的过渡期。
-
Thu Apr 16 2026中国移动设计院排名第一,拟拿下100%份额!中国移动上海公司基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果出炉
中国移动上海公司公布基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果,通信集团设计院排名第一并拟拿下全部份额。
-
Thu Apr 16 2026安费诺闪耀北京·2026 Open AI Infra Summit
在2026年北京举办的Open AI Infra Summit上,安费诺展示了多款面向AI算力场景的互联与散热解决方案,强调了铜缆连接方案在性能与成本之间的平衡优势。
