Anthropic发布Skill Creator:让Agent技能评测像写代码一样简单

2026年3月31日

86

351

Anthropic发布Skill Creator:让Agent技能评测像写代码一样简单

在构建Agent时,为其接入各种Skills已成为常态。然而,许多开发者都面临一个困惑:Skills接入后真的有效吗?如何验证它在合适的时候触发?编辑后效果是否真的提升?面对这些难题,Anthropic给出了创新解决方案。

未来展望:评测标准即Skill本身

Anthropic在Skill Creator中引入了软件工程中严谨的「测试、基准跑分、迭代」理念,让非技术人员也能对Agent Skills进行系统化评测。这一改变意义重大:它将Skills的质量保障从主观感觉提升到了可量化、可追踪的层面。

触发器调优:让技能不再被遗忘

Skill Creator的第一个核心功能是评测系统。用户可以为Skill定义测试标准,工具会自动运行测试集并反馈是否合格。这套评测机制有两个主要用途:一是及时发现质量退化,当某次更新导致Skill效果下降时能被快速识别;二是理解模型进展,跟踪新版本模型对特定Skill的支持程度。值得注意的是,评测不仅看通过率,还跟踪耗时和Token消耗量三个关键指标,这些数据可以集成到数据看板或关联到CI系统,实现自动化监控。

未来,你只需要定义评测标准,告诉模型「什么样是好结果」,这个评测标准本身就会直接成为Skill的全部。

“Anthropic”

多智能体并行测试与A/B对比

第二个功能支持多智能体并行评测。以往线性运行评测速度慢,且上下文容易互相污染。现在的方案可以同时启动多个独立智能体并行跑测试,每个智能体拥有干净独立的上下文环境和独立的Token、计时指标。此外还新增了A/B测试功能,可以对比两个版本的Skill,或者对比有Skill和无Skill的情况,在客观中立的前提下评判改进是否真正有效。

Skill Creator的第三个核心功能是触发器调优。即便Skill设计得再完善,如果大模型「想不起来用」也毫无价值。随着Skill数量增多,描述的精准性变得至关重要:描述太宽泛会导致误触发,描述太局限则导致漏触发。Skill Creator能够自动分析当前的描述和示例提示,主动建议如何修改以减少误触和漏触,这个功能对拥有大量Skills的企业尤为实用。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI