生成式检索的“胡说八道”问题,终于被解决了
在电商、视频推荐这些场景里,用大语言模型直接“生成”商品ID或视频编号,听起来很酷——模型不用查表,自己“想”出该推什么。但现实是,它经常瞎编:推荐一个根本不存在的编号,或者把下架三个月的商品当新品推给你。用户点不开、系统报错、广告预算打水漂,这事儿没人能忍。
现在,Google DeepMind 和 YouTube 的团队把这个问题彻底干掉了。他们搞了个叫 STATIC 的系统,不靠玄学,靠数学和硬件的极致配合,让大模型在生成推荐内容时,再也不会“造谣”。
把树砍平,让GPU跑得飞快
过去,要让模型只生成合法的商品ID,得一层层查“前缀树”(Trie)——就像查字典,从A开始一个个试,直到找到对的。这在CPU上还行,一上GPU或TPU,效率直接崩盘,因为这些芯片最擅长并行算矩阵,不擅长这种“树状跳转”。
STATIC 的思路很简单粗暴:把整棵树“压扁”成一个矩阵。你不是爱查路径吗?好,我把所有合法路径提前算好,存成一个稀疏矩阵,模型每生成一个字符,系统就用一次矩阵乘法验证——这正是GPU最拿手的活儿。整个过程像在玩拼图,每一块都提前对好了位置,根本不用再翻抽屉。
0.033毫秒,比眨眼还快
实测数据摆在眼前:在30亿参数的模型上,STATIC 每次校验只花 0.033 毫秒。什么意思?你点一下“刷新推荐”,系统在你眼皮还没眨完之前,已经把10个推荐位的合法性全部核验完毕。
对比之前主流方案:
- 比传统CPU查表快了近1000倍
- 比其他硬件加速方案(如FlashTrie)快40倍以上
这不是实验室里的数字游戏——这是真正在YouTube推荐流里跑起来的性能。上线后,工程师甚至没察觉到延迟增加,用户却明显感觉“推荐更准了”。
上线即见效:新鲜视频播放量涨了5.1%
YouTube 拿它干了件最实在的事:确保推荐的视频,必须是过去7天内上传的。以前模型总爱推“经典老片”,虽然点击高,但对创作者和平台生态没好处。STATIC 一上,模型再想偷懒也不行了——它只能从“新鲜”列表里选编号。
结果呢?
- 符合新鲜度标准的视频播放量提升 5.1%
- 整体点击率(CTR)明显上升
- 创作者投稿积极性提高,后台“新内容被埋”投诉下降37%
这不是“优化”,是生态修复。
冷启动?以前是盲人摸象,现在是精准投递
最难的不是已有商品怎么推荐,而是“从来没出现过”的新商品怎么办?比如一个刚上传的独立音乐人视频,或者一个新品牌的小众商品。传统推荐系统压根不知道它存在,LLM 一生成就出错。
STATIC 不靠历史数据,它靠“规则”。只要这个新商品在后台系统里被录入、有合法ID、符合类目和库存规则,哪怕它是今天凌晨00:01刚上架的,模型也能100%准确生成它的编号。冷启动不再是玄学,而是工程问题。
现在,抖音、淘宝、拼多多的推荐团队都在悄悄关注这个方案。不是因为它多“AI”,而是因为它终于让AI不再添乱。
