北大联合OceanBase推出LoVR基准，首创全视频片段级检索新范式，入选WWW 2026

长视频检索迎来“标准答案”：LoVR 被 WWW 2026 正式收录

2026年3月2日，国际顶级会议 WWW（The Web Conference）正式宣布录用由北京大学与国内视频技术领军企业联合研发的长视频多模态检索基准——LoVR（Long Video Retrieval）。这不是又一个实验室里的概念模型，而是一个真正能衡量“你能从一部两小时纪录片里精准找到3分17秒那个镜头”的系统性评测工具。

过去，视频搜索几乎只围着短视频打转：你搜“猫咪跳沙发”，几秒内就能弹出结果。但当你想在一部45分钟的纪录片里找“那只在雨中抖毛的金毛犬，背景是伦敦塔桥”——没有系统能靠谱回答你。LoVR 的出现，第一次让长视频检索有了可衡量、可比较、可复现的标尺。

为什么长视频检索这么难？LoVR 把三道坎都踩平了

不是视频长了就难搜，是长视频里藏着太多“看不见的钩子”。

第一道坎：粒度太单一。以前的系统要么只能搜“整部片子”，要么只能切出几秒片段。LoVR 从头设计，支持你搜“整部剧”——比如“找《舌尖上的中国》里那期做腊肉的 episode”，也能精准定位到“第18分32秒，灶台上那锅冒泡的酱油”。

第二道坎：标注太贵、太慢。人工逐帧写描述？一个人一天标不出200个片段。LoVR 搭建了一套“AI生成+人工校验+动态纠错”的流水线：大模型先生成初稿，系统自动打分，人工只挑出分数低的、有歧义的来修正——效率提升8倍，成本下降70%，却保持了接近人工的精度。

第三道坎：真实场景没人模拟。你搜“老北京胡同里的糖葫芦摊”，结果出来一堆现代商场里的网红摊位——因为训练数据里根本没教AI什么叫“长程语义偏移”。LoVR 的数据集特意收录了大量“信息密度高、节奏慢、镜头跳跃”的真实内容：比如一小时的考古纪录片，中间穿插了三次时间倒叙、五次专家访谈、七次场景切换。AI必须记住“前面说的陶器纹样，和现在镜头里的碎片是同一批”。

4万+片段，不是数字游戏，是真刀真枪的数据库

LoVR 不是纸上谈兵。它背后是：

467部真实长视频，涵盖纪录片、教学课、庭审录像、旅行Vlog、体育赛事集锦，平均时长25分钟，最长一部超3小时；
40,804个精细片段，每个都经过至少两名标注员交叉验证，描述语句口语化、贴近真实用户提问，比如“那个穿蓝衬衫的男人在讲完‘其实我们没找到证据’之后，镜头突然切到窗外的乌云”；
一套“语义锚点”技术，确保系统在生成整部视频摘要时，不会把关键线索“优化”掉——比如你搜“主角第一次哭的场景”，系统不会因为后面哭得更多，就把第一次给删了。

这些数据，全部开源，免费供研究者使用。GitHub 上已开放数据下载、检索API和评估脚本，连标注规范文档都写得明明白白。

不只是技术突破，更是国产AI走向“实用主义”的信号

LoVR 是北大视觉与学习实验室与一家国内头部视频平台联合攻关的成果。它的入选，不是因为算法多花哨，而是因为它解决了行业里没人愿意碰的“脏活累活”。

流媒体平台在推“智能切片”“AI剪辑助手”，但用户抱怨：“你说能帮我找‘我妈说那句‘别吃凉的’的片段’，结果搜出来全是她骂人。”——因为系统没学过真实语境。

教育平台想做“知识点定位”，但一节90分钟的网课，老师讲到第42分钟突然插了句冷笑话，AI就断片了——因为没训练过“非结构化信息”。

LoVR 的价值，就在于它让这些“用户真正会问的问题”有了被解决的可能。它不追求“在榜单上刷第一”，而是追求“你用起来，真的能找回那个你记得模糊却想再看一遍的瞬间”。

现在，全球已有超过120所高校和15家科技公司接入 LoVR 进行测试。有团队用它训练出的模型，已能在B站的纪录片区，把“找某个特定镜头”的准确率从31%提升到76%——这不再是实验室的曲线，是真实用户的体验提升。

长视频时代，不是靠“更长的视频”取胜，而是靠“更准的搜索”赢得用户。LoVR 的出现，标志着我们终于有了通往这个目标的路标。

LoVR 长视频多模态检索多粒度检索语义融合

CB科技站

北大联合OceanBase推出LoVR基准，首创全视频片段级检索新范式，入选WWW 2026

长视频检索迎来“标准答案”：LoVR 被 WWW 2026 正式收录

为什么长视频检索这么难？LoVR 把三道坎都踩平了

4万+片段，不是数字游戏，是真刀真枪的数据库

不只是技术突破，更是国产AI走向“实用主义”的信号

与本文相关的文章