By 小墨
2026年5月11日
56
345
玩转Harness后,我终于知道哪些是必须,哪里会翻车,加什么能救命了!
随着大模型能力的持续提升,业界一个共识逐渐形成:模型越强,所需的Harness(脚手架)就越少。Claude Code之父Boris在近期的演讲中提到,一年后Claude Code可能只需100行代码。OpenAI也明确表示:「Scaffolding is coping, not scaling」。然而,现实情况是模型种类繁多——不同尺寸(flash、pro)、不同推理深度(thinking low、high)对Harness的需求截然不同。本文通过一系列实验,帮你找到答案:哪些Harness是必须的?拿掉什么会翻车?加什么能救命?
简单任务:小模型足以胜任
实验选取了阶跃星辰的Step Plan系列模型进行测试,包括step-3.5-flash(196B MoE)、step-3.5-flash-2603(Agent场景强化版)和step-router-v1(动态路由模型)。测试任务分为三个梯度:简单修bug、中等加功能写测试、最难的us-003(从零实现多范围解析器,12条验收标准)。
复杂任务:两个护栏就够
简单和中等难度的任务测试结果不出意料:两个模型全部通过。令人惊喜的是,step-3.5-flash反而是最快的,仅用30次工具调用、48秒就完成了中等任务。这验证了Boris的观点:在很多场景下,你可能不需要复杂的Harness,小尺寸的worker模型照样可以完成得很好,速度更快、更便宜。复杂规划任务交给大尺寸模型就可以了。
Scaffolding is coping, not scaling.
“OpenAI”us-003测试结果最有意思。step-3.5-flash裸跑时完全停不下来,做了267次工具调用。它其实写对了代码,但不知道自己写对了——写完后继续改,又改出新bug,循环往复直到超时。解决方案出奇简单:添加两个护栏即可。第一,给工具调用设置上限(80次);第二,添加auto-resume commit,在worker被kill前自动执行git commit防止代码丢失。添加这两个护栏后,step-3.5-flash在151秒内成功通过us-003。
实验还发现一个反直觉的现象:经过Agent优化的step-3.5-flash-2603在复杂任务上反而失败了。原因在于它表现过于谨慎——每改一点代码就跑一次测试。在复杂任务上,这种每步验证很快就把工具调用额度用完了。这印证了OpenAI的观点,但方向相反:内化过多scaffolding行为,在有限budget下反而丧失效率。
深度思考模式的陷阱
更令人惊讶的是,在低推理模式下,step-3.5-flash-2603全场最快,一轮通过。低推理模式下模型每次输出更短、更聚焦,不花token犹豫。而好的feedback替代了内部推理——代码有bug时不需要模型自己推理出问题在哪,Harness直接告诉它。这说明:Harness不是模型的拐杖,而是模型的杠杆。
如有侵权,请联系删除。
Related Articles
-
Sat May 30 2026【AI】Agent落地、千亿募资与算力军备:AI正在经历一场'去泡沫化'战争
进入 2026 年,AI 行业开始从能力竞赛转向商业化与可持续盈利的考量。技术厂商、资本方与政策制定者在算力、资金与合规上展开新一轮角力,推动市场加速整合与优胜劣汰。
-
Sat May 30 2026AI+介入机器人:'智能协同'定义介入诊疗新趋势
在重要学术会议与产业赛事中,国内首次介入机器人智能体研究项目启动,标志着介入诊疗领域向智能化、标准化方向迈进。基于真实世界临床数据的系统能够在感知、分析与决策上提供有力支持,显著提升手术效率与安全性。
-
Sat May 30 2026反超OpenAI!Anthropic登顶全球最贵AI公司
2026 年 5 月底,Anthropic 完成新一轮巨额融资并将投后估值推至行业前列,迅速改变了 AI 赛道的竞争格局。本轮融资后其估值数倍于数月前,收入与市场份额出现爆发式增长,吸引了大量企业级合
-
Sat May 30 2026从代码生成到智能体协同:源启双引擎重构企业AI落地新范式
在 2026 年智博会上,源启系列产品提出了将代码生成与智能体协同结合的双引擎战略,旨在解决企业在软件研发與 AI 应用落地过程中的工程化与安全可控问题,推动企业实现自动化与智能化转型。
-
Sat May 30 2026智王AI量化智能体,五月封神 :AGI在资本市场的初代力量
智王 AI 的量化 AGI 智能体在五月的实盘测试中展现出强劲的盈利能力和风险控制能力,引发资本市场对智能体在资产管理中可行性的高度关注。这一案例展示了 AI 在金融场景中从策略生成到执行闭环的能力。
-
Fri May 29 2026博泰车联:与英伟达举行战略合作签约仪式,双方围绕车载AI、自动驾驶、下一代计算平台及光通信等进行探讨
2026年5月29日,博泰车联在对外公告中披露,公司与英伟达在美方举行战略合作签约仪式并开展一系列技术交流。此次会谈围绕车载人工智能、自动驾驶、下一代计算平台以及车用光通信等前沿技术方向展开,双方就未
-
Fri May 29 20262026新政解读:智能体与AI终端的'双向奔赴',AIoT产业迎来三大价值重构
2026年5月,国家发布两份重要文件,分别从智能体规范应用与人工智能终端智能化分级两方面,为AI与终端协同发展提供顶层设计。文章从文件要点出发,解析智能体的定义、终端分级与AIoT在国家基础设施中的定
-
Fri May 29 2026芮勇主讲:AI智能体的最新进展、挑战和机会
在中山大学的一场学术与产业交汇的讲座中,芮勇系统回顾了AI智能体的技术演进、当前研究热点与产业化路径,强调了从模型到系统再到产品的协同发展。
-
Fri May 29 20262026全球AI算力报告及算力产业十大趋势重磅发布
在天津的世界智能产业博览会上,多家机构联合发布了《2026全球AI算力发展研究报告》,系统分析了全球算力供给、产业链变化及未来发展方向,为政策制定与产业部署提供数据支撑。
-
Fri May 29 2026AI Open Day兰州龙虾大会圆满举办,共绘西北数字经济新蓝图
由Aiker World 与兰州大学国家大学科技园等机构联合发起的AI Open Day在兰州成功举办,聚焦OpenClaw龙虾智能体的本地化部署、安全落地与零基础上手路径,吸引了政企、高校与开发者参
-
Fri May 29 2026谷歌AI垂直整合战略,全世界都在静静观察
谷歌在I/O 2026上展示了其更为激进的垂直整合路线:从自研芯片、基础模型到面向开发者与企业的智能体编排平台,形成一套闭环的AI能力交付体系。此次发布的Antigravity 2.0被强调为能够在短
-
Fri May 29 20262026全球AI与Agent的演进与落地
在一次聚焦人工智能的科创私董会上,行业专家回顾了AI与Agent的最新进展,探讨了从预测文本到预测世界状态的技术跃迁及其对产业的深远影响。
-
Fri May 29 2026Agent爆发周期,思格新能源画出了'AI+光储'时代的新坐标
在AI与能源深度融合的背景下,思格新能源于AI in All全球战略发布会上推出了行业首个全域AI智能体SigenAgent,覆盖从家庭到电网的多场景应用,标志着'AI+光储'时代的到来。
-
Fri May 29 2026AI编程Cognition融资超10亿美元,估值260亿美元,ARR 4.92亿美元
Cognition AI在最新融资中筹集超过10亿美元,估值达到260亿美元,彰显AI编程工具在提高工程效率与代码自动化方面的巨大市场潜力。
-
Fri May 29 2026AI推理服务商Fireworks AI拟定新一轮融资,估值150亿美元
Fireworks AI正推进新一轮融资,预计估值将达到150亿美元,公司专注于为企业提供高效的AI推理服务,协助客户运行训练好的模型以实现生产化应用。
-
Fri May 29 2026软银主导国产AI联盟又吸引15家公司投资
由软银牵头的日本国产人工智能基础模型开发计划迎来更多企业加入,旭化成、富士通、安川电机等表示出资意向,旨在提升日本在大模型与物理AI领域的自主能力。
-
Thu May 28 2026别在CVPR独自社恐了!来丹佛AI Talent Meetup,只聊你听得懂的技术与理想
CVPR 2026期间举办的AI Talent Meetup旨在为与会者提供更轻松高效的交流场景,通过主题演讲、圆桌讨论与社交晚宴,促进学术成果与产业需求的对接。
-
Thu May 28 2026临床试验革命!神经AI平台横空出世,FDA实时审查新政迎来首个落地者
Kordata Dynamics推出针对神经数据的AI驱动平台,通过实时采集与深度解析,提高临床试验的数据质量与响应速度,助力精准医学研究。
