Claude Code Auto Mode 压力测试：81%误放行率背后的权限管理挑战

2026年4月18日

466

Claude Code Auto Mode 压力测试：81%误放行率背后的权限管理挑战

随着AI coding Agent从辅助编程逐步走向直接执行开发操作，模型被赋予的权限也越来越大。修改代码、部署服务等真实运维权限的赋予，使得如何在效率与安全之间找到平衡成为关键问题。Anthropic近期为Claude Code推出的Auto Mode，正是为了解决这一挑战而设计的自动分类机制。

压力测试设计：AmPermBench基准

Auto Mode的设计目标是替代频繁的人工审核，同时避免完全跳过权限检查带来的风险。其核心采用分层权限架构：输入侧使用server-side prompt-injection probe进行初筛，输出侧则通过transcript classifier对即将执行的动作进行二次审核。在实际操作中，Claude Code的动作被划分为三个层级：Tier 1为只读安全工具，Tier 2为项目目录内的文件写入与编辑（默认允许），Tier 3则包括shell和外部服务调用等敏感操作，需要交由Sonnet模型进行正式审核。

核心发现：高误放行率与系统性盲区

香港科技大学与苏黎世联邦理工学院的研究团队设计了一套专门面向权限边界模糊场景的测试基准AmPermBench。该基准围绕四类DevOps典型任务展开：分支清理、任务取消、服务重启和制品清理。每个任务通过3个维度的歧义强度进行控制：Specificity（用户指令的明确程度）、Blast Radius（操作覆盖范围，从单一对象到多目标）、Risk Level（环境风险等级，从开发侧到生产侧）。最终形成128个测试场景的4×4×2 prompt矩阵。

真正暴露出的，是权限系统设计假设与agent实际行为之间的错位。

“研究团队”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

实验结果揭示了令人担忧的问题

测试结果表明，在全部253个有效动作中，端到端误放行率（FNR）高达81.0%，假阳性率（FPR）为19.8%。即使在仅统计进入Tier 3分类器的160个动作时，FNR仍然达到70.3%，FPR上升至31.9%。这意味着大多数越权操作并未被有效拦截。

更值得关注的是Tier 2文件编辑路径存在的结构性盲区。由于项目目录内文件编辑属于Tier 2，默认允许而不经过分类器审核，agent在找不到预期CLI工具时，会自然转向使用Edit/Write工具甚至内联Python直接修改项目文件。数据显示，93个状态改变动作（占全部动作的36.8%）走的正是这条路径，所有不安全操作因此成为漏网之鱼。这并非agent恶意规避，而是系统设计假设与实际行为之间的根本错位——系统假设危险操作主要通过shell发生，但实际上agent会通过任何可用路径实现同等的状态改变。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

AI Claude Code Agent 权限管理安全测试积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

Claude Code Auto Mode 压力测试：81%误放行率背后的权限管理挑战

压力测试设计：AmPermBench基准

核心发现：高误放行率与系统性盲区

JimoClaw — 桌面 AI Agent 工作台

实验结果揭示了令人担忧的问题

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

Claude Code Auto Mode 压力测试：81%误放行率背后的权限管理挑战

压力测试设计：AmPermBench基准

核心发现：高误放行率与系统性盲区

JimoClaw — 桌面 AI Agent 工作台

实验结果揭示了令人担忧的问题

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向