By 小墨
2026年3月25日
28
301
Anthropic多智能体框架深度解析:让Claude实现6小时持续运行
在大语言模型应用领域,长时任务处理一直是核心挑战之一。当模型需要连续工作数小时时,会面临上下文窗口耗尽的焦虑感和自我评估失真问题。Anthropic工程团队近期发布的技术博客展示了他们如何通过多智能体框架突破这一瓶颈,让Claude能够稳定运行数小时完成复杂任务。
从GAN借鉴的对抗迭代框架
团队成员Prithvi Rajasekaran在博客中指出,尽管通过提示词工程已经将Claude的表现提升到远超基线水平,但遇到了明显的天花板。主要面临两个核心问题:一是上下文焦虑,当模型处理长任务时,随着上下文窗口被填满,会开始"预感"自己即将达到限制,进而提前收尾,草草了事;二是自我评估失真,模型在评价自己生成的代码或设计时,往往会过于自信,即使存在问题也难以察觉。
六小时全栈开发:三智能体协作系统
Anthropic团队从生成对抗网络(GAN)获得灵感,构建了一套分离生成器与评估器的多智能体系统。核心思路是将"做事"与"评判"两个职责彻底分开:生成器(Generator Agent)负责执行任务,评估器(Evaluator Agent)负责打分和批评,然后反馈给生成器进行改进,如此循环迭代。关键洞察在于:让评估器专门调出一种"挑剔"的人格,要比让生成器自我批判容易得多。
每个harness组件都是一个关于模型局限的假设,这些假设会过时,新模型出来就应该去重新检验哪些组件还是必需的。
“Anthropic团队”全栈开发实验将框架升级为三智能体系统:Planner负责将需求扩展为详细规格但不限定技术实现细节;Generator按sprint实现功能并自评;Evaluator使用Playwright MCP进行真实交互测试。与单Agent版本相比,6小时生成的完整app具有明显的质量优势——单Agent版本entity能显示但操作无响应,而三智能体版本game真正可玩,还内置了Claude集成的游戏元素生成功能。
团队在前端设计场景中验证了这一框架的有效性。针对Claude倾向于生成"安全但平庸"设计的问题,他们设计了四个评分维度:设计质量(整体调性和身份感)、原创性(创意决策而非模板堆砌)、工艺性(字体、间距、色彩等技术执行)和功能性(用户能否理解界面)。通过十余轮迭代,系统生成出了一个令团队惊叹的荷兰艺术博物馆网站——从最初的深色系页面演变为一个使用CSS perspective渲染的3D空间体验,这种创意突破在单次生成中从未见过。
Opus 4.6带来的架构简化
随着Opus 4.6的发布,系统实现了大幅简化。该版本原生具备更长任务稳定性和更好的自我代码审查能力,上下文焦虑问题基本消失,原本为对抗这一问题设计的sprint拆分机制不再必要。新系统用3小时50分钟、124.7美元成本生成了完整的DAW(数字音频工作站),包含arrangement view、mixer、transport和可控制整个app的AI agent。
如有侵权,请联系删除。
Related Articles
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
4月16日,腾讯QQ宣布正式原生接入开源智能体Hermes Agent,官方文档同步更新,用户可在Messaging Platforms配置中选择QQ Bot通道,实现QQ内的文字、语音与图片等消息类
-
Thu Apr 16 2026一文搞懂 Hermes Agent 与 OpenClaw 选型对比
随着智能体技术在产品端日益普及,开发者面临在不同框架间进行选型的难题;本文通过多个维度剖析两大代表性项目的设计取向与适用场景。
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
2026年4月16日,腾讯QQ宣布已将Hermes Agent官方文档与QQ Bot插件对接,用户可直接在QQ内配置Bot通道,实现文字、语音与图片等多模态消息的收发与处理。
-
Thu Apr 16 20262026企业级智能体白皮书:大模型'智力革命'已告一段落,Agent的'执行革命'才刚刚开场。
这份白皮书系统总结了企业级智能体(Agent)从概念验证向规模化应用的演进,指出行业已进入从“智力革命”到“执行革命”的过渡期。
-
Thu Apr 16 2026中国移动设计院排名第一,拟拿下100%份额!中国移动上海公司基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果出炉
中国移动上海公司公布基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果,通信集团设计院排名第一并拟拿下全部份额。
-
Thu Apr 16 2026安费诺闪耀北京·2026 Open AI Infra Summit
在2026年北京举办的Open AI Infra Summit上,安费诺展示了多款面向AI算力场景的互联与散热解决方案,强调了铜缆连接方案在性能与成本之间的平衡优势。
