Claude Code缓存机制调整引发争议：配额消耗为何加速？

Anthropic近期对Claude Code的prompt缓存机制进行了调整，将部分请求的缓存TTL（存活时间）从1小时缩短至5分钟。官方称这一变化不会显著增加成本，但不少用户却感受到配额消耗明显加快。

开发者Sean Swanson的分析显示，这一变化并非首次调整：在2月初，系统曾启用1小时缓存，但到3月7日左右又回退为5分钟缓存。他指出，“5分钟TTL对长会话、高上下文的使用场景非常不友好”，而这正是Claude Code的典型工作方式。

在AI编程助手中，“上下文”通常包含大量代码与背景信息，用于提升模型理解能力。但上下文越大，计算成本越高。缓存机制的作用是避免重复计算已使用的内容，从而降低开销。

不过缓存本身也有成本差异：写入5分钟缓存会比基础价格高约25%，而1小时缓存则高达100%。但读取缓存的成本仅约为基础价格的10%。因此，理论上缓存越稳定，越能节省整体算力。

Anthropic内部人员Jarred Sumner则表示，这次回调反而可能降低整体成本，因为很多请求属于“一次性调用”，缓存不会被重复使用。同时，缓存TTL由客户端自动决定，并没有全局手动开关。

但Swanson并不认同这一解释。他指出，自己作为每月200美元订阅用户，过去半年从未触及配额，但在3月后开始频繁受限，“额外的消耗速度让原本好用的服务变得难以使用”。

另一个争议点来自超大上下文窗口（最高可达100万token）。在这种设定下，一旦缓存失效或会话中断超过1小时，就可能触发完整缓存重建，成本急剧上升。有工程师甚至建议默认降至40万token，并允许手动切换。

随着多智能体、长上下文编程任务普及，缓存失效问题被放大。一些用户反馈，甚至Pro版用户（每月20美元）在高负载下“5小时只能完成2次有效提示”。

与此同时，也有人指出系统可能存在缓存bug，导致消耗异常。但也有AI从业者认为，更深层原因可能是整体算力分配或配额策略发生了变化，而不仅仅是缓存机制问题。

浏览量: 68