By 小墨
2026年5月20日
72
576
深度解析Prompt缓存:如何为AI Agent工作流降本增效
在AI Agent的实际运行中,存在一个容易被忽视但成本高昂的问题——Context Tax(上下文税)。当Agent每向前推进一步,都需要重新读取所有上下文内容,包括系统提示词、工具定义、项目上下文以及历史对话信息。这意味着,即使某些内容已经在之前的轮次中处理过,模型仍然需要重复计算这些token,造成严重的资源浪费。
理解Prompt缓存的核心机制
让我们来算一笔直观的账:一个包含20,000个token的系统提示词,如果Agent运行50轮,就意味着100万个token被重复计算,而这些计算并未创造任何新价值。对于长时间运行的Agent工作流来说,这往往成为整个AI基础设施中最大的一项开支。
Prefill与Decode:LLM推理的两阶段
要理解Prompt缓存的工作原理,首先需要区分Agent上下文中的两个关键部分:Static Prefix(静态前缀)和Dynamic Tail(动态后缀)。静态前缀包括系统指令、工具定义、项目上下文和行为规范,这些内容在同一会话中基本保持不变;而动态后缀则包括用户消息、工具输出和观察结果,这部分内容每次请求都不同,并随着对话推进不断增长。Prompt缓存的核心思想,就是将静态前缀的数学状态缓存起来,后续请求如果前缀相同,就无需重新计算,直接从缓存读取。
Prompt缓存不是简单的开关,而是一种架构纪律。
“编辑观点”Key-Value缓存的技术原理
理解为什么缓存有效,需要了解LLM推理的两个主要阶段。在Prefill阶段,模型会处理完整的输入prompt,这是最慢、最昂贵的部分,因为需要对上下文中的每个token进行大量矩阵计算,建立内部表示。在Decode阶段,模型开始逐个token生成输出,这一阶段更偏重内存密集型,主要读取之前计算好的状态而非重复计算。关键在于,Transformer在prefill阶段会为每个token生成Query、Key、Value三个向量,而Key和Value只依赖其之前的token。这意味着,只要前缀内容不变,对应的Key-Value张量就不需要重新计算。KV缓存正是将这些张量存储起来,下次请求时通过输入文本的加密哈希索引匹配,直接取回张量,跳过重复计算。
缓存的经济账与Claude Code实践
以主流AI提供商的定价为例,缓存读取价格约为基础输入价格的10%(相当于1折),缓存写入比基础输入价格贵25%(因为需要存储KV张量),而1小时扩展缓存约为基础价格的2倍。因此,缓存并非总是自动划算,其前提是cache hit rate(缓存命中率)需要足够高。以Claude Code为例,一个典型的30分钟编码会话中:会话开始时加载的20,000token静态上下文是最昂贵的时刻,但这笔钱只需付一次;后续每轮请求都可以按缓存读取价格计费;每次cache hit都会刷新TTL,让缓存保持热状态。实际测试中,单个任务能看到80%以上的成本下降。
如有侵权,请联系删除。
Related Articles
-
Sat May 23 2026从课堂到前线:武大MBA/EMBA学子研学AI投资新风向
武汉大学组织的AI投资研学论坛将学术与实战结合,学员通过与业界资深投资人和企业家的对话,深入理解AI时代的投资逻辑与赛道机会。
-
Sat May 23 2026Agentic AI风口已至!中国AI智能体大会7月开幕,复旦教授与腾讯LLM部大咖领衔
2026年7月2-3日,中国AI智能体大会将在杭州举办,主题为“范式跃迁 重塑世界”。本次大会由智东西与智猩猩共同主办,汇聚学术与产业的重要力量,旨在推动Agentic AI与企业级智能体的交流与落地
-
Sat May 23 2026高盛中国互联网行业报告,中国AI赛道全面爆发!
高盛的最新研报认为中国AI赛道已进入全面爆发期,技术进步与市场化应用推动行业增长,报告通过数据对比指出中国实验室与国际同行的差距在缩小。
-
Sat May 23 2026当AI进入物理世界,具身模型如何重构生产力?
具身智能正成为AI产业新的增长极,文章回顾了具身智能在感知、运动控制与系统集成上的关键突破,并强调这是一个包含硬件与软件的系统工程。
-
Sat May 23 20262026年AI投融资市场到底有多火热?
2026年第一季度全球AI融资呈爆发式增长,研究数据显示单季融资总额大幅超越往年同期,市场出现单笔超大额融资与头部资本集中的双重特征。
-
Sat May 23 2026鲲鹏昇腾开发者大会 2026 在北京启幕,共筑 Agentic AI 时代算力底座
鲲鹏昇腾开发者大会以‘心怀挚爱,共绽光芒’为主题,展示了面向Agentic AI的多项技术创新与产业实践,强调算力与平台的基础性作用。
-
Sat May 23 2026华为AI DC数据基础设施全栈方案发布
华为在巴黎创新数据基础设施论坛上推出AI DC数据基础设施全栈方案,聚焦企业级数据管理与AI规模化应用的落地问题。
-
Sat May 23 2026人机共生时代的媒体新生态:AI智能体驱动下的传播范式变革
GAITC 2026 的智能体传播专题将汇集学界与产业界的声音,探讨AI智能体如何在媒体与传播领域承担越来越多的生产与传播角色,从而影响信息生产与社会互动的方式。
-
Sat May 23 20262026中国AI应用全景图谱报告
该报告系统梳理了2026年中国AI应用的技术演进、行业落地与商业化模式,指出多模态、世界模型与智能体平台为核心趋势,并分析不同行业的落地实践。
-
Sat May 23 2026【AI 专栏】Hermes Agent 技术解析与场景应用
本文从技术与数据视角入手,介绍了Hermes Agent作为一个开源自进化通用智能体框架的基本定位与当前生态影响力。
-
Sat May 23 20262026年5月23日
本篇为24小时AI行业要闻汇总,覆盖财报、融资、技术进展与产业应用等多个维度,为读者提供快速的行业脉动观察。
-
Fri May 22 2026传媒互联网:国产Agent迭代迅速,把握AI应用底部轮动机会
国产AI Agent近来在内容理解与创作、分发优化和商业化变现等方面取得显著进展,推动传媒互联网进入智能体驱动的第二波创新浪潮。
-
Fri May 22 2026Manus 拟融资10亿美元回购自己,Meta 20 亿美元交易悬空/黄仁勋:公司已经在很大程度上把中国 AI 芯片市场让给华为
Manus的管理层正探讨通过外部融资约10亿美元回购公司以撤回Meta的收购提案,此举反映了在复杂监管环境下公司寻求保持独立性的战略选择。
-
Fri May 22 2026今日上海开赛!Agent Skill 开发者大赛总决赛+黑客松双赛同燃!
2026年5月22日,上海云赛空间迎来Agent Skill开发者大赛总决赛与黑客松双赛并行,吸引了全国范围内的高校团队与企业开发者前来参赛与观摩。
-
Fri May 22 2026研发效能Agent如何落地?深信服韦体东领衔,拆解AI编程从Copilot到Agent的进化路径
2026年被视为Agent技术从概念走向大规模落地的关键一年;深信服韦体东在相关论坛中担任出品人,分享研发效能Agent的落地路径与实践经验。
-
Fri May 22 2026AI重塑竞争情报:2026年5月竞争情报AI智能体在全球生物制药领先企业阿斯利康的应用
阿斯利康与AI公司Owkin合作,构建面向竞争情报场景的AI智能体,目标是为研究与决策团队提供实时洞察,提升情报分析效率并减少人工重复工作。
-
Fri May 22 2026炸场!Figure AI 创始人新公司狂揽 7 亿美元融资,英伟达、英特尔参投
由Figure AI创始人Brett Adcock创立的Hark宣布完成超过7亿美元的A轮融资,投后估值达到约60亿美元,本轮融资由Parkway Venture Capital领投,多家芯片与云生态
-
Fri May 22 2026【AI动态】洞察趋势,智享未来
5月下旬,AI领域频繁出现影响广泛的事件,从芯片与算力、到模型与应用再到资本与政策,描绘出一幅快速演化的产业图谱。本文对近期若干具有代表性的事件进行了梳理与分析。
