2026年5月26日

616

从反馈闭环到工程范式：企业内部 Coding Agent 的实战方法论

进入2024年下半年，大模型发布进入了前所未有的密集期。从Claude Opus到GLM、Kimi、MiniMax再到GPT系列，新模型的迭代速度几乎以周为单位刷新。这种快速跃迁对于专注上层应用构建的团队而言，恰恰构成了最大的架构挑战——当模型能力发生剧烈变化时，如何确保上层Agent框架保持足够的弹性和适应性，成为所有AI应用团队必须面对的核心命题。

双层Loop架构：从工具调用到边界探索

经过一年的内部实践，百度Comate团队在Coding Agent的落地过程中逐渐形成了一套系统性的方法论，覆盖Feedback Loop构建、Benchmark体系设计以及Agent Engineers培养三个维度。这套方法论的核心在于：不追求静态最优的框架设计，而是建立动态适应能力，让Agent能够在模型快速迭代的环境中持续进化。

反馈闭环：让Agent行为可观测

Comate当前采用的Agent框架设计了两层Loop结构。中间层Loop由工具、环境和模型三者构成最基本的Agent闭环框架，这是所有Agent系统的标准配置。外层Loop则赋予了Agent更强大的外部探索能力，包含记忆、技能、规则、MCP以及Agents本身——这些元素构成了所谓的边界条件。值得注意的是，在Claude Code源码泄露事件中，人们发现其边界条件处理逻辑的复杂程度远超预期。这促使团队重新审视Harness的概念：Harness不仅仅是帮助Agent完成各种脏活累活的基础设施层，更是一套将各种边界条件有效限定的工程系统。

当模型能力越来越强时，我们必须动态调整框架，根本不存在一个可以完全确定的静态框架。

“工程实践总结”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

Benchmark构建：关注异常值而非分数

构建有效的Feedback Loop是让Agent持续优化的关键。具体而言，需要统计四类数据，从表层到深层递次展开： **工具层指标**包括调用次数、失败率、失败后的自愈比例，以及Query与Tool Call的比例。这一比例衡量的是Agent完成一个任务需要多少轮交互，是评估Agent效率的核心指标。观察这些数据时，必须按模型做区分——以Claude为基准，同时运行Kimi、GLM、文心等模型，对比它们在完成同类任务时的表现差异。 **上下文层**关注Skill和Memory的唤起情况。在实践中发现，Skill作为渐进式发现的方案，在效果和Token消耗上都是更优选择；相比之下，MCP的批量加载方式容易冲爆上下文。基于这一发现，团队创新性地将Skill的渐进式思路应用到MCP管理中：通过为每个MCP生成描述性元信息，让Agent在真正需要时才加载具体工具，实现按需调用。这一优化最高可节省98%的Token消耗。 **执行结果层**的一个关键信号是：当Agent创建文件后反复调用工具进行修改，这说明问题澄清阶段没有分析到位，需要回溯审视执行轨迹。 **执行轨迹层

Tools执行网络：强化Agent的自愈能力

传统的评测方式过度关注分数本身，但这恰恰掩盖了真正有价值的信息。Comate发现，即使两次评测的分数完全相同，对的题目集合可能完全不同。因此，评测的核心应该转向发现异常值。在评测集构建方面，团队采用了从业务本身挖掘的方法：通过分析Comate的代码提交记录，提取由人工审核后合入的代码作为评测集。具体的流程是：拉取所有人工提交的记录，明确提交者身份，形成Feature评测集；让Agent分析这些Git Log进行信息提取；最后由人工校验评测集有效性。评测采用双参数评估：Outcomes（结果质量）和Execution Score（执行效率）。由Agent自行判定这两个参数，人工验证表明结果质量权重应更高。参数组合后形成四个象限：低结果低效率、高结果低效率、低结果高效率、高结果高效率。真正值得关注的是两个异常象限：高结果低效率——为什么结果这么好但效率这么低？以及低结果高效率——为什么结果这么差但效率这么高？以低结果高效率的20%为例，这代表Agent自认为完成了任务但实际结果不理想，却只调用了少量工具就宣告结束。这揭示了Agent倾向于不做过多自我验证的问题。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

Coding Agent 反馈闭环基准测试工程范式大模型应用积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

从反馈闭环到工程范式：企业内部 Coding Agent 的实战方法论

双层Loop架构：从工具调用到边界探索

反馈闭环：让Agent行为可观测

JimoClaw — 桌面 AI Agent 工作台

Benchmark构建：关注异常值而非分数

Tools执行网络：强化Agent的自愈能力

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

从反馈闭环到工程范式：企业内部 Coding Agent 的实战方法论

双层Loop架构：从工具调用到边界探索

反馈闭环：让Agent行为可观测

JimoClaw — 桌面 AI Agent 工作台

Benchmark构建：关注异常值而非分数

Tools执行网络：强化Agent的自愈能力

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向