By 小墨
2026年4月8日
67
649
同一个模型换个Harness排名飙升25位:智能体基础设施完全解析
2026年初,AI领域出现了一个值得深思的现象:同一个大模型,仅仅更换外部基础设施,就在TerminalBench 2.0排行榜中从30名开外跃升至第5位。更惊人的是,另一个独立研究让模型自行优化这层基础设施,达到了76.4%的通过率,超越所有人工设计方案。模型权重完全相同,变化的仅仅是包裹在模型外围的软件层。这一现象揭示了一个关键事实:智能体的表现差异,往往不是模型本身的问题,而是基础设施层面的差异。
三层工程理论
这层包裹在模型外围的软件基础设施有了正式名称:Agent Harness(智能体线束)。它包含了编排循环、工具调用、记忆系统、上下文管理、状态持久化、错误处理和安全护栏等全部软件组件。Anthropic在Claude Code文档中明确表示:SDK就是驱动Claude Code的Agent Harness。这一定义意味着Harness并非简单的封装层,而是一个可能比业务逻辑更复杂的完整软件系统。有趣的是,LangChain的Vivek Trivedy提出一个观点:如果不是模型本身,那你就处于Harness层面。这一定位深刻揭示了智能体开发的核心分工。
生产级Harness的十二个核心组件
围绕大模型的工程可以分为三个同心层次:首先是提示工程,设计模型接收到的指令内容;其次是上下文工程,管理模型在何时看到什么信息;最后是Harness工程,它包含前两者并叠加整个应用基础设施——工具编排、状态持久化、错误恢复、验证循环、安全执行和生命周期管理。很多人误以为「做智能体」等同于「写好提示词」,这就像把「做操作系统」等同于「写好启动脚本」——实际上只触及了冰山一角。Harness工程是将自主智能体行为变为可能的完整系统支撑。
如果模型不是答案,那你就是 Harness
“Vivek Trivedi, LangChain”编排循环与工具系统
记忆系统在多个时间尺度上运作。短期记忆处理单次会话内的对话历史,长期记忆实现跨会话持久化。Claude Code实现了三层记忆结构:轻量级索引(每条约150字符,永远加载)、按需拉取的详细主题文件、以及仅通过搜索访问的原始对话记录。关键设计原则是智能体将记忆视为「提示」,在行动前先验证而非盲信。上下文管理是许多智能体悄然失败的地方。核心问题是「上下文腐烂」:当关键内容落在上下文窗口中间位置时,模型性能下降超过30%。即使百万token窗口也会随上下文增长出现指令遵循能力退化。应对策略包括:接近上限时压缩总结对话历史、观察遮蔽隐藏旧工具输出但保留调用记录、按需检索仅维护轻量标识符动态加载数据、以及子智能体委派只返回1000-2000token的精炼摘要。ACON研究展示了26-54%的token缩减同时保持95%以上准确率。
错误处理遵循简单数学:一个10步流程,每步99%成功率,端到端成功率仅约90.4%。错误复合效应极为残酷。LangGraph将错误分为四类:瞬态错误(退避重试)、模型可恢复错误(将错误作为ToolMessage返回让模型自调)、用户可修复错误(中断等待介入)、意外错误(上报调试)。Anthropic在工具处理器内部捕获失败并作为错误结果返回,保持循环持续运行。Stripe的生产Harness将重试上限设为2次。关键区别在于:传统分布式系统错误是确定性的(超时、网络断开),而智能体错误是概率性的——模型可能给出语法正确但语义错误的结果,这更难捕捉。验证循环是将demo级产品和生产级智能体区分开的关键。Anthropic推荐三种验证方式:规则验证(测试、代码检查、类型检查)、视觉验证(Playwright截屏验证UI任务)、模型即裁判(子智能体评估输出质量)。Claude Code的创造者Boris Cherny指出:给予模型验证自己工作的方式,可将质量提升2到3倍。
如有侵权,请联系删除。
Related Articles
-
Wed Apr 15 2026腾讯云率先支持 Hermes Agent 云端快速部署
Hermes Agent 作为近月内走红的开源智能体项目,强调可成长性和持久记忆,并引入自我学习与技能自主创建机制。腾讯云在其轻量应用服务器 Lighthouse 上上线了专属应用模板,支持一键云端快
-
Tue Apr 14 20264月17日深圳见!观测云携手百胜软件,解锁 AI Agent 驱动的可观测性新范式
观测云与百胜软件将在深圳联合举办主题为“AI Agent驱动的可观测性新范式”的技术活动,旨在探讨如何借助智能体将海量技术指标转化为可执行的业务洞察。
-
Tue Apr 14 2026【热点速递汇编】EdgeRunner AI公司为美国太空军开发专用 AI智能体
EdgeRunner AI赢得美国太空军合同,将为其提供专用的端侧AI智能体,旨在在通信受限或中断环境中仍能为人员提供可靠的智能支持。
-
Tue Apr 14 2026【TV最前线】布局人工智能领域,中国广电四川公司发布四款AI产品
中国广电四川公司在2026年推出四款AI产品,覆盖大屏、康养、竞赛与运维等场景,强调私有化与本地化部署保障用户数据不出域。
-
Tue Apr 14 2026斯坦福HAI最新报告出炉:中国模型追平美国,95%企业AI投资零回报
斯坦福大学人类中心人工智能研究所(HAI)发布了2026年AI指数报告,报告通过多维指标评估全球AI发展态势,指出在模型性能、学术产出和产业应用等方面,中国取得显著进展,与美国在若干任务上差距明显缩小
-
Mon Apr 13 2026Anthropic 推出 Claude for Word 公测版,原生嵌入微软 Office 编辑流程/MiniMax 开源 229B 参数 M2.7 模型
Anthropic 发布了 Claude for Word 公测版,作为原生侧边栏插件它可以嵌入 Microsoft Word 编辑流程,为用户提供上下文感知的编辑建议与文档处理能力。
