微软发布企业级AgenticRAG:让大模型自主掌控信息检索

2026年5月11日

84

461

微软发布企业级AgenticRAG:让大模型自主掌控信息检索

在企业级RAG应用场景中,开发者通常面临一个困境:无论怎样优化向量模型、调整Embedding策略或引入HyDE查询改写,复杂查询的效果始终难以突破瓶颈。传统RAG的根本问题在于,模型在搜索阶段就被锁定在有限的候选集中,无法自主判断信息是否足够、是否需要进一步检索。

核心设计:四种工具构建智能检索循环

微软最新发布的AgenticRAG系统彻底改变了这一局面。该系统赋予大模型四种核心工具:search(广撒网式并行搜索)、find(文档内精确查找)、open(按行窗口打开完整文档)、summarize(上下文压缩)。模型在最多15轮的迭代循环中自主决定每一步调用哪个工具,可以先搜索获取候选列表,再打开最有希望的文档精读,发现信息不足时立即换关键词重新搜索,最终综合所有证据生成带引用的答案。

性能实测:三大基准测试全面碾压

实验数据显示,AgenticRAG在实际运行中平均每个查询仅需4.48至4.79次工具调用,远低于15次上限,说明模型通常在4至5步就能收敛到高质量答案。系统还内置了上下文管理机制,当对话达到128K token阈值时自动触发摘要压缩,保留关键引用材料,确保长推理链不会导致上下文溢出。

RAG的性能天花板不是搜索引擎决定的,而是你愿不愿意让模型自己掌控检索的整个过程。

“技术观察”

消融实验揭示核心洞察

在三个不同领域的基准测试中,AgenticRAG展现出压倒性优势:BRIGHT长文档检索任务中达到49.6% recall@1,比最强嵌入模型Qwen高出21.8个百分点;WixQA企业客服问答达到0.96事实准确率,比最佳基线高13%;FinanceBench金融文档问答达到92%正确率,是传统RAG的3.8倍。更值得关注的是,oracle设定(直接给模型标准答案原文)的正确率是94%,AgenticRAG仅差2个百分点就触碰到了理论上限。

落地价值与启示

消融实验揭示了最重要的发现:效果提升的最大贡献并非来自某个具体工具,而是从「单次检索」到「智能体工具调用」的范式转换。数据显示,单次搜索基线Recall@1仅为8.41%,而采用Agentic架构后,GPT-5-mini提升至43.49%(5.2倍),Claude Sonnet 4.5更是达到49.59%(5.9倍)。此外,两个模型展现出不同的策略偏好:Claude偏好「精读」策略,语义查找使用频率是GPT的3倍;GPT-5-mini则偏好「广撒网」策略。最终Claude凭借深挖策略赢了6.1个百分点,证明在长文档场景下精准深入比广泛浏览更有效。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI