最新消息:关注人工智能 AI赋能新媒体运营

Google Gemini API加入更省钱的隐含快取功能

科技智能 admin 浏览 评论
图片来源:

Google

?

Google宣布Gemini 2.5模型支援隐含快取(implicit caching)功能,有助于节省用户成本。

Google于2024年5月首先推出内容快取(context caching),协助开发人员将送到模型的重覆性token减少75%。那时是明确快取(explicit caching),上周Google再推出高呼声的隐含快取。

隐含快取不需使用者建立明确快取。当用户对Gemini 2.5模型传送呼叫时,如果本次呼叫和之前的呼叫有相同的前缀(prefix),就能自动适用快取。Google会动态将省下的费用回馈给用户,大约等于省下75%的字词(token)。

为提高适用快取的机会,用户应把呼叫开头的内容维持相同,把用户的问题或其他新增的token加在呼叫尾端。而为提高呼叫字词符合快取的比例,Google也将呼叫最低门槛降低,在Gemini 2.5 Flash为1024 tokens,在2.5 Pro则为2048 tokens。

其他最佳作法则列于Gemini API文件中。

不过如果用户希望能确实省下成本,还是可以使用支援Gemini 2.5及2.0模型的明确快取API。如果使用Gemini 2.5模型,现在就会在使用量的metadata中看到「cached_content_token_count」,说明呼叫中有多少token中包含在快取中,可适用于较低费率。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论