最新消息:关注人工智能 AI赋能新媒体运营

Anthropic Claude添加提示词快取降低开发者API使用成本

科技智能 admin 浏览 评论

Anthropic在其API服务中推出提示词快取(Prompt Caching)功能,该功能让开发者可以快取经常使用的上下文,使得每次呼叫模型时,不再需要重新提供大量重複的背景资料,官方提到,在长提示词应用场景中,甚至可降低达90%成本,并使延迟减少85%。

提示词快取的概念,是将开发者经常使用的大量提示词上下文进行快取,只要开发者在第一次呼叫API时上传完整背景资料,在后续呼叫时,系统便可直接使用这些快取内容。当使用者发送请求时,系统会检查提示词前缀是否已在最近的查询中被快取,是则直接使用快取版本,否则处理完整的提示词并且快取前缀供后续使用。

该功能的优势在于大幅减少重複性资料传输需求,降低呼叫API的成本和延迟,因此特别适合处理大量资料和多次互动的应用程序,诸如长时间的对话代理、程序开发助理、大型文件或多轮对话处理,以及知识库查询等。

藉由提示词快取功能,开发者可以将完整的知识库或是样本嵌入到提示中,并且在后续请求中重複使用这些资料,达到低成本和快速回应的效果。写入快取的成本比基础输入Token的价格高25%,但在使用快取内容时便宜许多,仅为基本输入Token的10%,这代表当频繁使用快取,则仍可大幅节省成本。

依照定价官方给出提示词快取在不同情境的效益参考,在10万Token提示快取的书籍聊天,延迟从11.5秒减少至2.4秒,同时成本降低了90%,而1万Token的多样本提示,延迟从1.6秒减少到1.1秒,成本也降低86%,而对于具有长系统提示的多轮对话,延迟从10秒减少至2.5秒,成本节省53%。

目前提示词快取已经先在Claude 3.5 Sonnet、Claude 3 Haiku模型上开始公开测试,而Claude 3 Opus模型则会在稍晚的时候支援。

除了Anthropic Claude的提示词快取,市场上也有其他人工智慧服务提供类似的功能,像是OpenAI也有在文件中提到类似的技术,开发者可大量共享提示词前缀,把RAG结果或是历史纪录等动态的部分放在提示的后半部分,就可以使得请求更具键值快取友善(Key-Value Cache Friendly),减少每次请求处理输入的Token数量,进而降低延迟。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论