Dr.MAS 方法在多智能体训练中的应用示意

2026年2月12日

58

634

南洋理工大学Dr.MAS:破解多智能体大语言模型训练难题,AI协作迎突破

南洋理工大学研究团队提出Dr.MAS方法,旨在解决多智能体大语言模型训练中的不稳定性与梯度爆炸问题,通过为每个智能体独立计算奖励均值与标准差,实现训练稳定化。

Dr.MAS的关键机制

Dr.MAS采用个性化评价机制与稳定化策略,有效控制训练过程中的梯度波动,从而提升多智能体系统在复杂任务中的协作效果。

实验效果与性能提升

在数学推理任务上,Dr.MAS将平均成功率从57.5%提升到61.1%;在多轮搜索任务上,成功率从28.0%提升到43.8%,显示出显著性能改进。

Dr.MAS通过个性化评价机制显著缓解训练不稳定性,提升多智能体协作的成功率。

“小墨”

对多智能体AI的影响

该方法为构建更强的AI协作系统提供了新思路,有望在分布式决策、复杂规划与人机协作场景中推广应用,推动多智能体研究向实际落地迈进。

后续研究方向

未来研究可在更大规模、多样化任务与跨模态场景中测试Dr.MAS,进一步优化奖励设计与协作机制,以提升通用性与鲁棒性。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI