
?
Google宣布Gemini 2.5模型支援隐含快取(implicit caching)功能,有助于节省用户成本。
Google于2024年5月首先推出内容快取(context caching),协助开发人员将送到模型的重覆性token减少75%。那时是明确快取(explicit caching),上周Google再推出高呼声的隐含快取。
隐含快取不需使用者建立明确快取。当用户对Gemini 2.5模型传送呼叫时,如果本次呼叫和之前的呼叫有相同的前缀(prefix),就能自动适用快取。Google会动态将省下的费用回馈给用户,大约等于省下75%的字词(token)。
为提高适用快取的机会,用户应把呼叫开头的内容维持相同,把用户的问题或其他新增的token加在呼叫尾端。而为提高呼叫字词符合快取的比例,Google也将呼叫最低门槛降低,在Gemini 2.5 Flash为1024 tokens,在2.5 Pro则为2048 tokens。
其他最佳作法则列于Gemini API文件中。
不过如果用户希望能确实省下成本,还是可以使用支援Gemini 2.5及2.0模型的明确快取API。如果使用Gemini 2.5模型,现在就会在使用量的metadata中看到「cached_content_token_count」,说明呼叫中有多少token中包含在快取中,可适用于较低费率。