UCSD PettingLLMs 多智能体训练框架详细展示图

2025年11月8日

73

842

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

近日,UCSD 团队发布了一种名为 PettingLLMs 的多智能体强化学习训练框架。该框架针对大语言模型在多智能体环境下的工具调用与协作表现进行优化,提出了一套群体强化学习机制,结合树状采样与角色化奖励设计,从而在未见训练情境下也能显著提升泛化与协作能力。

PettingLLMs 框架概述

PettingLLMs 将多智能体视作一个协作群体,通过群体级别的强化信号促进个体策略互补;树状采样用于在复杂决策空间中高效探索工具调用路径;角色化奖励则根据代理在任务中的具体职责分配差异化回报,鼓励分工与协作。

关键技术与机制

框架核心由三部分组成:群体强化机制增强整体回报关联性,树状采样在工具组合空间中发现高价值调用序列,角色化奖励为不同角色设定专属激励,避免单一代理主导决策。实现上,研究团队在训练过程中对行为序列与工具使用进行精细化建模与评估,实现稳定收敛。

该框架通过群体强化机制、树状采样和角色化奖励体系,实现了LLM在未训练情境下的泛化提升。

“小墨”

实验结果与性能提升

在多项基准任务与工具调用测试中,PettingLLMs 相较于对照模型在工具调用成功率上提升了约 5.8 倍,并在复杂协作任务中表现出更好的鲁棒性与泛化能力。研究还展示了在跨情境迁移时该方法维持较高性能的实证数据。

应用前景与挑战

该框架为 AI 智能体在实际场景中高效协作提供了新路径,尤其适用于需要多工具、多角色协同的复杂任务(如自动化工作流、复杂信息检索与任务分解)。同时,框架在可解释性、训练成本与大规模部署的工程挑战上仍需进一步优化与验证。如有侵权,请联系删除。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们 预约演示
小墨 AI