Google Gemini API加入更省钱的隐含快取功能

图片来源:

Google

Google宣布Gemini 2.5模型支援隐含快取（implicit caching）功能，有助于节省用户成本。

Google于2024年5月首先推出内容快取（context caching），协助开发人员将送到模型的重覆性token减少75%。那时是明确快取（explicit caching），上周Google再推出高呼声的隐含快取。

隐含快取不需使用者建立明确快取。当用户对Gemini 2.5模型传送呼叫时，如果本次呼叫和之前的呼叫有相同的前缀（prefix），就能自动适用快取。Google会动态将省下的费用回馈给用户，大约等于省下75%的字词（token）。

为提高适用快取的机会，用户应把呼叫开头的内容维持相同，把用户的问题或其他新增的token加在呼叫尾端。而为提高呼叫字词符合快取的比例，Google也将呼叫最低门槛降低，在Gemini 2.5 Flash为1024 tokens，在2.5 Pro则为2048 tokens。

其他最佳作法则列于Gemini API文件中。

不过如果用户希望能确实省下成本，还是可以使用支援Gemini 2.5及2.0模型的明确快取API。如果使用Gemini 2.5模型，现在就会在使用量的metadata中看到「cached_content_token_count」，说明呼叫中有多少token中包含在快取中，可适用于较低费率。

CB科技站