Anthropic多智能体框架深度解析:让Claude实现6小时持续运行

2026年3月25日

28

301

Anthropic多智能体框架深度解析:让Claude实现6小时持续运行

在大语言模型应用领域,长时任务处理一直是核心挑战之一。当模型需要连续工作数小时时,会面临上下文窗口耗尽的焦虑感和自我评估失真问题。Anthropic工程团队近期发布的技术博客展示了他们如何通过多智能体框架突破这一瓶颈,让Claude能够稳定运行数小时完成复杂任务。

从GAN借鉴的对抗迭代框架

团队成员Prithvi Rajasekaran在博客中指出,尽管通过提示词工程已经将Claude的表现提升到远超基线水平,但遇到了明显的天花板。主要面临两个核心问题:一是上下文焦虑,当模型处理长任务时,随着上下文窗口被填满,会开始"预感"自己即将达到限制,进而提前收尾,草草了事;二是自我评估失真,模型在评价自己生成的代码或设计时,往往会过于自信,即使存在问题也难以察觉。

六小时全栈开发:三智能体协作系统

Anthropic团队从生成对抗网络(GAN)获得灵感,构建了一套分离生成器与评估器的多智能体系统。核心思路是将"做事"与"评判"两个职责彻底分开:生成器(Generator Agent)负责执行任务,评估器(Evaluator Agent)负责打分和批评,然后反馈给生成器进行改进,如此循环迭代。关键洞察在于:让评估器专门调出一种"挑剔"的人格,要比让生成器自我批判容易得多。

每个harness组件都是一个关于模型局限的假设,这些假设会过时,新模型出来就应该去重新检验哪些组件还是必需的。

“Anthropic团队”

全栈开发实验将框架升级为三智能体系统:Planner负责将需求扩展为详细规格但不限定技术实现细节;Generator按sprint实现功能并自评;Evaluator使用Playwright MCP进行真实交互测试。与单Agent版本相比,6小时生成的完整app具有明显的质量优势——单Agent版本entity能显示但操作无响应,而三智能体版本game真正可玩,还内置了Claude集成的游戏元素生成功能。

团队在前端设计场景中验证了这一框架的有效性。针对Claude倾向于生成"安全但平庸"设计的问题,他们设计了四个评分维度:设计质量(整体调性和身份感)、原创性(创意决策而非模板堆砌)、工艺性(字体、间距、色彩等技术执行)和功能性(用户能否理解界面)。通过十余轮迭代,系统生成出了一个令团队惊叹的荷兰艺术博物馆网站——从最初的深色系页面演变为一个使用CSS perspective渲染的3D空间体验,这种创意突破在单次生成中从未见过。

Opus 4.6带来的架构简化

随着Opus 4.6的发布,系统实现了大幅简化。该版本原生具备更长任务稳定性和更好的自我代码审查能力,上下文焦虑问题基本消失,原本为对抗这一问题设计的sprint拆分机制不再必要。新系统用3小时50分钟、124.7美元成本生成了完整的DAW(数字音频工作站),包含arrangement view、mixer、transport和可控制整个app的AI agent。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI