Anthropic在其API中引入了提示缓存功能,这一创新能够跨API调用记住上下文信息,极大地便利了开发人员,使他们无需反复输入相同的提示。目前,这一功能已在Claude 3.5 Sonnet和Claude 3 Haiku的公开测试版中启用,而更为强大的Claude Opus模型的支持尚在筹备中。
2023年的一篇论文详细阐述了提示缓存的运作机制,它允许用户在会话中保留并复用频繁需要的背景信息。由于模型能够智能记忆这些提示,用户可以在不额外增加成本的前提下,轻松添加丰富的背景资料。这对于需要在单个提示中包含大量上下文信息,并在不同对话轮次中持续引用的用户而言,尤为实用。此外,它还赋予了开发人员和其他用户更多微调模型响应的灵活性。
Anthropic透露,早期采用者已在不同应用场景中体验到显著的速度提升和成本节约——无论是整合完整的知识库、包含上百个示例,还是在提示中嵌入对话的每一环节。
在定价方面,缓存提示展现出其经济优势。Anthropic指出,使用缓存提示的费用远低于基础输入令牌的费用。具体而言,对于Claude 3.5 Sonnet,编写需缓存的提示费用为每百万令牌(MTok)3.75美元,而使用缓存提示时则降至每百万令牌0.30美元,相较于基础价格每百万令牌3美元,这意味着通过提前支付小额额外费用,用户能在后续使用中享受高达10倍的成本节省。
Claude 3 Haiku用户缓存提示的费用同样为每百万令牌0.30美元,但使用时费用更是低至每百万令牌0.03美元。虽然Claude 3 Opus目前暂不支持此功能,但Anthropic已公布了其未来定价策略:缓存编写费用为每百万令牌18.75美元,访问缓存提示则为每百万令牌1.50美元。
然而,值得注意的是,Anthropic的缓存机制具有5分钟的生命周期,并在每次被调用时刷新,这一点由AI领域知名人士Simon Willison在社交媒体上指出。
Anthropic此举并非首次以价格优势挑战市场。在Claude 3系列模型发布前,公司就已下调了令牌价格,现正与其他竞争对手如谷歌和OpenAI,在面向第三方开发者的低价选项上展开激烈竞争。
提示缓存功能在行业内并非孤例。例如,Lamina这一大型语言模型推理系统就通过键值(KV)缓存来降低GPU成本。OpenAI的社区中也不乏关于如何缓存提示的讨论,但值得注意的是,提示缓存与大型语言模型的内置记忆功能并非同一概念。OpenAI的GPT-4等模型虽提供记忆功能,记住用户偏好或细节,但并不直接存储提示和响应的历史,这与提示缓存有着本质的区别。