Anthropic发出警告:别再等待下一代模型了,现在就做Harness!

2026年3月25日

79

441

Anthropic发出警告:别再等待下一代模型了,现在就做Harness!

在AI领域,一个被忽视的事实正在浮出水面:模型本身的提升固然重要,但模型外围的运行环境——Harness——同样能带来惊人的性能飞跃。同一个模型、同样的数据、同样的提示词,仅仅更换外部运行环境,编程基准测试的成功率就能从42%跃升至78%。这不仅是理论假设,而是经过多次验证的数据。

AI工程的三代进化

Harness这个概念,指的是包裹在模型外层的运行环境、工具链、反馈机制和约束系统的总和。围绕它展开的工程实践,被称为Harness Engineering。2026年,它已成为AI圈最热的话题之一。Anthropic近期发布的工程博客,用实际数据印证了这一趋势:同一句提示词、同一个模型,换一套运行方式,输出质量天差地别。

百万行代码的实践验证

关于Harness的未来,业界存在分歧。OpenAI的Noam Brown认为Harness是“拐杖”,终将被超越。但Anthropic的实验表明:随着模型变强,旧的约束可以拆掉,但新的、更高阶的约束空间会打开。Harness的可能性空间不会缩小,只会平移。每一代模型出来,都得重新审视哪些约束还管用、哪些该拆掉、哪些新空间被打开了。Manus 6个月内重构了5次Harness,LangChain一年内重新架构了3次研究型Agent——这说明Harness不是一次性工程,而是持续演化的系统。

Agent不难,Harness才难。

“Ryan Lopopolo”

Stripe的无人值守系统

写代码正在变成一件成本很低的事。设计那套让Agent持续、稳定、高质量写代码的系统,才是真正贵的部分。OpenAI的Codex团队不写代码了,写的是架构规则、linter配置和AGENTS.md;Stripe的工程师不写代码了,写的是Blueprint编排和CI限速策略。真正稀缺的能力,不在模型里面,在模型外面——而且它每隔几个月就得重写一次。

模型不会自我评价

不只是OpenAI在实践。Stripe的内部系统「Minions」每周合并1300多个PR,全部由无人值守的Agent完成。其架构有一个精妙设计:Blueprint编排系统将工作流拆分为确定性节点和Agentic节点。确定性节点——如运行linter、推送更改——按固定路径执行;Agentic节点——如实现功能、修复CI——让模型判断。Stripe还有个硬规则:CI最多跑两轮,第一轮失败Agent自动修复再跑一次,还失败就直接转交人类。他们还发现一个关键规律:更多工具不等于更好表现,给每个Agent精心筛选的子集才是最优解。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI