By 小墨
2026年3月25日
79
441
Anthropic发出警告:别再等待下一代模型了,现在就做Harness!
在AI领域,一个被忽视的事实正在浮出水面:模型本身的提升固然重要,但模型外围的运行环境——Harness——同样能带来惊人的性能飞跃。同一个模型、同样的数据、同样的提示词,仅仅更换外部运行环境,编程基准测试的成功率就能从42%跃升至78%。这不仅是理论假设,而是经过多次验证的数据。
AI工程的三代进化
Harness这个概念,指的是包裹在模型外层的运行环境、工具链、反馈机制和约束系统的总和。围绕它展开的工程实践,被称为Harness Engineering。2026年,它已成为AI圈最热的话题之一。Anthropic近期发布的工程博客,用实际数据印证了这一趋势:同一句提示词、同一个模型,换一套运行方式,输出质量天差地别。
百万行代码的实践验证
关于Harness的未来,业界存在分歧。OpenAI的Noam Brown认为Harness是“拐杖”,终将被超越。但Anthropic的实验表明:随着模型变强,旧的约束可以拆掉,但新的、更高阶的约束空间会打开。Harness的可能性空间不会缩小,只会平移。每一代模型出来,都得重新审视哪些约束还管用、哪些该拆掉、哪些新空间被打开了。Manus 6个月内重构了5次Harness,LangChain一年内重新架构了3次研究型Agent——这说明Harness不是一次性工程,而是持续演化的系统。
Agent不难,Harness才难。
“Ryan Lopopolo”Stripe的无人值守系统
写代码正在变成一件成本很低的事。设计那套让Agent持续、稳定、高质量写代码的系统,才是真正贵的部分。OpenAI的Codex团队不写代码了,写的是架构规则、linter配置和AGENTS.md;Stripe的工程师不写代码了,写的是Blueprint编排和CI限速策略。真正稀缺的能力,不在模型里面,在模型外面——而且它每隔几个月就得重写一次。
模型不会自我评价
不只是OpenAI在实践。Stripe的内部系统「Minions」每周合并1300多个PR,全部由无人值守的Agent完成。其架构有一个精妙设计:Blueprint编排系统将工作流拆分为确定性节点和Agentic节点。确定性节点——如运行linter、推送更改——按固定路径执行;Agentic节点——如实现功能、修复CI——让模型判断。Stripe还有个硬规则:CI最多跑两轮,第一轮失败Agent自动修复再跑一次,还失败就直接转交人类。他们还发现一个关键规律:更多工具不等于更好表现,给每个Agent精心筛选的子集才是最优解。
如有侵权,请联系删除。
Related Articles
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
4月16日,腾讯QQ宣布正式原生接入开源智能体Hermes Agent,官方文档同步更新,用户可在Messaging Platforms配置中选择QQ Bot通道,实现QQ内的文字、语音与图片等消息类
-
Thu Apr 16 2026一文搞懂 Hermes Agent 与 OpenClaw 选型对比
随着智能体技术在产品端日益普及,开发者面临在不同框架间进行选型的难题;本文通过多个维度剖析两大代表性项目的设计取向与适用场景。
-
Thu Apr 16 2026养完龙虾再养马,腾讯QQ宣布原生接入AI智能体Hermes Agent,具备自我进化、跨会话记忆能力,从任务中自动积累经验,支持全平台通信
2026年4月16日,腾讯QQ宣布已将Hermes Agent官方文档与QQ Bot插件对接,用户可直接在QQ内配置Bot通道,实现文字、语音与图片等多模态消息的收发与处理。
-
Thu Apr 16 20262026企业级智能体白皮书:大模型'智力革命'已告一段落,Agent的'执行革命'才刚刚开场。
这份白皮书系统总结了企业级智能体(Agent)从概念验证向规模化应用的演进,指出行业已进入从“智力革命”到“执行革命”的过渡期。
-
Thu Apr 16 2026中国移动设计院排名第一,拟拿下100%份额!中国移动上海公司基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果出炉
中国移动上海公司公布基于AI.Agent架构的无线网络运维智能化研究及实践采购项目开标结果,通信集团设计院排名第一并拟拿下全部份额。
-
Thu Apr 16 2026安费诺闪耀北京·2026 Open AI Infra Summit
在2026年北京举办的Open AI Infra Summit上,安费诺展示了多款面向AI算力场景的互联与散热解决方案,强调了铜缆连接方案在性能与成本之间的平衡优势。
