By 小墨
2026年5月7日
56
235
同一模型为何在CLI工具中表现截然不同:解析AI Harness的神奇魔力
许多用户在体验Claude Code和Codex CLI后都会有一个共同的困惑:为什么同一个AI模型在这些专用CLI工具中表现远比普通聊天界面强大?这并非幻觉,而是AI领域一个值得深入探讨的技术现象。当前AI发展的实际进展已经不单纯取决于模型本身变得有多强,更重要的是我们如何构建围绕模型的外层系统——包括工具调用、上下文管理、记忆机制等,这些基础设施正在扮演与模型能力同等重要的角色。
Coding Agent的六大核心组件
理解这一现象需要先厘清几个核心概念。LLM是最核心的next-token预测模型,相当于汽车的发动机;Reasoning Model则是经过特殊训练、会在给出答案前进行更多推理和验证的增强版本;而Agent是运行在模型外的控制循环,负责决定下一步查看什么、调用哪个工具、如何更新状态;最后,Harness是Agent的软件控制层,负责管理上下文、工具、提示词、状态和控制流。当我们谈论某个模型的编程能力时,往往将模型能力、推理行为和Agent产品混为一谈,但实际上,写代码远不止生成token,还包括仓库导航、文件搜索、执行测试、检查错误等一系列复杂操作,这些能力大多不在模型本体能力范围内。
工具调用与上下文管理
一个优秀的Coding Agent需要具备六个核心组件才能发挥最大效能。首先是实时仓库上下文,Agent在开始工作前必须清楚自己处于什么位置——是否在Git仓库中、当前在哪个分支、哪些项目文档可能包含相关指令。如果Agent能看到AGENTS.md或项目README,就能知道该运行什么测试命令;如果了解仓库根目录和布局,就能准确找到目标文件而非盲目猜测。其次是提示结构和缓存复用,合理的做法是将prompt拆分为稳定前缀(通用指令、工具描述、工作区摘要)和动态部分(短期记忆、最新用户请求),这样才能真正发挥prompt cache的价值,这也是为什么直接调用API构建Agent的用户往往发现token消耗比Claude Code高出数倍。
未来很多看起来像模型能力的东西,其实是Harness能力。
“行业观察”上下文压缩与记忆机制
第三个核心组件是工具访问与结构化调用,这是从普通聊天升级为Agent的关键转折点。普通模型只是在文字中建议“你应该运行pytest”,但Coding Harness需要真正执行命令并获取结果。Harness提供预定义的工具列表,每个工具有清晰的输入输出边界,模型发出结构化action后经过验证、审批、执行、反馈的完整流程。边界约束越清晰,执行者反而越能稳定发挥。第四个组件是上下文压缩策略,长上下文成本高昂且引入噪声,优秀的Harness会采用裁剪策略缩短长文档片段和工具输出,以及会话压缩策略将完整历史转化为可提示摘要,对近期事件保留更丰富信息,对早期事件更激进压缩。这是常被低估但极为关键的部分——很多看似模型质量的问题实则是上下文质量问题。
编排与系统设计
第五个组件是结构化会话记忆,分为工作记忆和完整会话记录两层。工作记忆是Agent显式维护的小而浓缩的状态,完整会话记录则以JSON形式保存在磁盘上用于会话恢复。两者分工明确:压缩后的会话记录为prompt重建服务,工作记忆为任务连续性服务。第六个组件是编排能力,当主Agent需要处理旁支任务时(如查看配置或分析测试失败原因),拆分为有边界的子任务比让单一循环同时处理所有线程更高效。subagent需要足够上下文才能工作,但必须严格约束(如只读、递归深度受限),这本质上是一个分布式系统设计问题。
如有侵权,请联系删除。
Related Articles
-
Fri May 29 2026博泰车联:与英伟达举行战略合作签约仪式,双方围绕车载AI、自动驾驶、下一代计算平台及光通信等进行探讨
2026年5月29日,博泰车联在对外公告中披露,公司与英伟达在美方举行战略合作签约仪式并开展一系列技术交流。此次会谈围绕车载人工智能、自动驾驶、下一代计算平台以及车用光通信等前沿技术方向展开,双方就未
-
Fri May 29 20262026新政解读:智能体与AI终端的'双向奔赴',AIoT产业迎来三大价值重构
2026年5月,国家发布两份重要文件,分别从智能体规范应用与人工智能终端智能化分级两方面,为AI与终端协同发展提供顶层设计。文章从文件要点出发,解析智能体的定义、终端分级与AIoT在国家基础设施中的定
-
Fri May 29 2026AI Open Day兰州龙虾大会圆满举办,共绘西北数字经济新蓝图
由Aiker World 与兰州大学国家大学科技园等机构联合发起的AI Open Day在兰州成功举办,聚焦OpenClaw龙虾智能体的本地化部署、安全落地与零基础上手路径,吸引了政企、高校与开发者参
-
Fri May 29 2026谷歌AI垂直整合战略,全世界都在静静观察
谷歌在I/O 2026上展示了其更为激进的垂直整合路线:从自研芯片、基础模型到面向开发者与企业的智能体编排平台,形成一套闭环的AI能力交付体系。此次发布的Antigravity 2.0被强调为能够在短
-
Thu May 28 2026别在CVPR独自社恐了!来丹佛AI Talent Meetup,只聊你听得懂的技术与理想
CVPR 2026期间举办的AI Talent Meetup旨在为与会者提供更轻松高效的交流场景,通过主题演讲、圆桌讨论与社交晚宴,促进学术成果与产业需求的对接。
-
Thu May 28 2026支持AI网关和Skills Hub,1Panel企业版正式发布
1Panel宣布发布面向企业的1Panel企业版,专为企业级AI部署与运维场景设计,旨在将底层硬件管理与智能体生命周期管理进行统一化编排與管控。
-
Thu May 28 2026一家拥有800多智能体的AI原生银行亮相
在第二十届深圳国际金融博览会上,微众银行展示了其AI原生银行的实践成果,强调通过智能体与数字员工构建面向场景的自动化能力,推动金融服务的智能化转型。
-
Thu May 28 2026模数共振启新程!深度智联 AI 大会发布地产垂类大模型,重构行业智能生态
在深度智联举办的AI不动产生态大会上,DeepLink RE-LLM正式发布,定位为服务房地产行业的垂类大模型,旨在通过模数共振的技术体系提升行业智能决策能力。
-
Thu May 28 2026APEC中国年·大湾区前沿科技治理与涉外法治沙龙第1期综述
APEC中国年·大湾区前沿科技治理与涉外法治沙龙第1期在深圳举办,聚焦AI智能体的发展机遇与治理挑战,吸引学界、产业与监管讨论前沿问题。
-
Thu May 28 2026国内首例:中国电信等突破AI多智能体跨域可信通信难题
中国电信研究院联合清华大学与产业伙伴,完成了基于国产抗量子芯片的AI多智能体可信通信创新试验,这是国内首次在该领域取得的系统性突破。
-
Thu May 28 2026【CPCA LIVE】AI掀起全新工业革命!孙东来博士解读技术前沿与产业发展新路径
在CPCA LIVE线上研讨会上,上海交通大学的孙东来博士围绕AI对工业体系的深刻变革进行了全面阐述,指出AI正从工具走向具备主体性的智能体,推动产业链条重构。
-
Thu May 28 2026华为发布港口全场景AI智能体解决方案 助力港口智慧化建设
华为在2026港口科技创新大会上发布了港口全场景AI智能体解决方案,旨在推动港口从单点智能向全局智能演进。
-
Thu May 28 2026华为联合行业机构重磅发布OpenClaw安全解决方案技术白皮书,构筑AI Agent智能安全防护体系
在数据通信创新峰会上,华为联合国家级安全实验室与高校发布了《OpenClaw安全解决方案技术白皮书》,系统性阐述了针对AI Agent的安全治理路径与技术方案,提出标准化部署与风险评估方法。
-
Wed May 27 20262026 腾讯云黑客松-AI智能体争霸赛火热报名中!
腾讯云举办的AI智能体黑客松聚焦实战能力培养,鼓励团队基于平台产品构建能解决真实场景问题的智能体作品,并通过赛道设计促进Skill与Agent的深度融合。
-
Wed May 27 2026昆仑数智AI管理创新实践进入Gartner分析报告
昆仑数智数字化咨询中心的管理创新实践因其在流程与绩效方面的突破,被收录进Gartner的管理变革研究报告,展示了企业如何通过AI智能体重构工作流与考核机制。
-
Wed May 27 2026掌握这套制造业AI实战法,有望提效百倍
中国制造家·岭南商道创新沙龙聚焦制造企业的AI落地路径,提出从认知升级到组织变革的系统方法,强调场景驱动与可复制的实战打法。
-
Wed May 27 20262026OpenClaw类自主智能体发展白皮书:从'会聊天的对话框'到'能自己干活的数字员工'
该白皮书回顾了OpenClaw从社区项目成长为现象级开源框架的路径,揭示了其如何促成从对话接口向具备自主决策与执行能力的代理式智能体的范式转变。
-
Wed May 27 2026盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
广东盘古信息科技发布IMS V6 8.0版本——薪火AI数智平台,通过将AI能力贯穿生产、质量、设备与仓储等环节,助力离散制造实现数智化升级。
