PettingLLMs 框架与 GRPO 算法详解

2025年11月8日

57

742

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

近期,UCSD 与英特尔团队提出 PettingLLMs,一种通用化的多智能体强化学习训练框架,旨在让多个大型语言模型(LLM)以任意组合方式进行联合训练,提升协作与工具调用能力。

框架与算法

PettingLLMs 采用 Group Relative Policy Optimization(GRPO)等方法,通过分组相对策略优化实现模型间协同学习,支持异构模型共同训练与信息共享,从而增强模型在工具调用与任务分工上的表现。

性能提升

在多项基准和任务上,作者报告该方法能显著提升模型对外部工具的调用效率与准确性,部分场景下工具调用能力提升幅度可达 5.8 倍,体现出在复杂协作任务中的优势。

PettingLLMs 通过 Group Relative Policy Optimization(GRPO)实现多模型协同训练,显著增强工具调用能力。

“小墨”

应用与意义

该方法为训练具备复杂推理、分工协作和工具调用能力的 AI 智能体提供新路径,适用于需要多模态、多工具联合的现实场景,有望推动多智能体系统在工业与科研中的落地。

未来方向

后续工作可关注方法在更大规模异构模型组合下的稳定性、样本效率、以及对安全与可解释性的保障,同时探索与现实系统集成的工程化挑战与优化策略。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们 预约演示
小墨 AI