EvoClaw 揭示智能体在持续开发场景中的低成功率

2026年3月25日

88

374

OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%

EvoClaw 由多所高校联合提出,通过重构开源项目的真实演进历史,评估智能体在连续软件开发任务中的表现,得出令人警醒的结论。

从单点修复到持续演进:测试协议的复杂化

研究表明,离开受控的单次修复任务,智能体在面对依赖关系复杂的里程碑式演进时,成功率大幅下降,暴露出规划与长期一致性的问题。

13.37% 的现实意义

仅 13.37% 的成功率说明当前方法在长期任务保持正确性、兼容性与演进策略方面仍不足,提示需要更强的记忆、回溯与集成测试能力。

一旦进入持续演进的真实开发场景,智能体的表现就会出现断崖式下跌。

“小墨”

对工具与研究路径的启示

研究建议将更多注意力放在多步推理、持续集成与代理间协作机制上,以提升智能体在真实工程演进中的可靠性。

未来工作方向

包括更好的任务分层、长期状态管理与基于真实演进历史的训练与评估范式,以缩小当前能力差距,实现更可信的持续开发。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI