Anthropic近期对Claude Code的prompt缓存机制进行了调整,将部分请求的缓存TTL(存活时间)从1小时缩短至5分钟。官方称这一变化不会显著增加成本,但不少用户却感受到配额消耗明显加快。
开发者Sean Swanson的分析显示,这一变化并非首次调整:在2月初,系统曾启用1小时缓存,但到3月7日左右又回退为5分钟缓存。他指出,“5分钟TTL对长会话、高上下文的使用场景非常不友好”,而这正是Claude Code的典型工作方式。
在AI编程助手中,“上下文”通常包含大量代码与背景信息,用于提升模型理解能力。但上下文越大,计算成本越高。缓存机制的作用是避免重复计算已使用的内容,从而降低开销。

不过缓存本身也有成本差异:写入5分钟缓存会比基础价格高约25%,而1小时缓存则高达100%。但读取缓存的成本仅约为基础价格的10%。因此,理论上缓存越稳定,越能节省整体算力。
Anthropic内部人员Jarred Sumner则表示,这次回调反而可能降低整体成本,因为很多请求属于“一次性调用”,缓存不会被重复使用。同时,缓存TTL由客户端自动决定,并没有全局手动开关。
但Swanson并不认同这一解释。他指出,自己作为每月200美元订阅用户,过去半年从未触及配额,但在3月后开始频繁受限,“额外的消耗速度让原本好用的服务变得难以使用”。
另一个争议点来自超大上下文窗口(最高可达100万token)。在这种设定下,一旦缓存失效或会话中断超过1小时,就可能触发完整缓存重建,成本急剧上升。有工程师甚至建议默认降至40万token,并允许手动切换。
随着多智能体、长上下文编程任务普及,缓存失效问题被放大。一些用户反馈,甚至Pro版用户(每月20美元)在高负载下“5小时只能完成2次有效提示”。
与此同时,也有人指出系统可能存在缓存bug,导致消耗异常。但也有AI从业者认为,更深层原因可能是整体算力分配或配额策略发生了变化,而不仅仅是缓存机制问题。








苏公网安备32021302001419号