字节跳动发布Vidi2：精准视频理解与问答工具

视频剪辑从此“动嘴就行”？字节跳动发布革命性AI工具Vidi2

你有没有过这样的经历？花两个小时看完一部纪录片，想把其中“主角在雨中奔跑”的片段剪出来发朋友圈，结果翻来覆去手动拖进度条，半小时过去了还没找到准确位置？或者想从一段两小时的家庭录像里，挑出孩子第一次走路的瞬间，却因为画面模糊、人物重叠而无从下手？

现在，这些困扰普通用户的“剪辑噩梦”，正在被一款名为Vidi2的AI工具彻底改变。它不是简单的“语音转字幕”或“自动切片”，而是真正能“看懂视频、听懂你的话”的智能助手——只要你用一句话描述，它就能在几十分钟的视频里，精准定位到那个你想要的瞬间。

Vidi2的核心突破，是它的“时空定位”能力。不是模糊匹配，而是精确到秒、精确到像素。

比如你输入：“穿红色外套的人从沙发站起来，转身拿起茶几上的杯子”，Vidi2不仅能告诉你这段画面发生在第4分17秒，还会在画面上自动框出那个穿红衣的人，哪怕他身后还有三个人在走动，哪怕光线昏暗、镜头晃动，它依然能稳稳锁定目标。

这背后是字节跳动智能创作团队对视觉语义理解的深度重构。传统模型往往只能识别“人”“走”“拿”等简单动作，而Vidi2能理解“从跪姿起身”“侧身躲避”“低头看表”这类复杂、有上下文的动作序列，甚至能区分“同一个人在不同时间点的相似动作”。

为了验证Vidi2不是“实验室里的秀技”，字节跳动专门构建了两个全新评测体系：VUE-STG 和 VUE-TR-V2。

其中VUE-STG包含1600个由真人精心设计的查询指令，覆盖从10秒短视频到30分钟长片，问题包括：“谁在第12分钟说了‘我没想到会这样’？”“那个戴帽子的男人什么时候离开画面？”——这些问题，连专业剪辑师都得反复回放才能找到。

在测试中，Vidi2在“时间定位准确率”上领先GPT-5近23%，在“时空联合定位”上优势更高达31%。尤其在10–30分钟的长视频中，Gemini 3 Pro和Qwen3-VL-32B的准确率断崖式下跌，而Vidi2依然稳定在90%以上。

更关键的是，Vidi2对“口语化表达”的理解能力远超同行。你不用说“目标对象在时间戳T1至T2之间执行动作A”，你只需要说：“那个穿格子衬衫的男生，他什么时候把手机扔了？”——它听懂了。

Vidi2不只是“找片段”，它正在重新定义视频创作的全流程：

自动生成高光集锦：上传一小时的旅行vlog，它能自动识别“日出”“美食特写”“朋友大笑”“惊险瞬间”等情绪高点，配上节奏感强的BGM和动态字幕，一键输出适合抖音、快手发布的15秒爆款视频。
影视级剧情分析：追剧时想理清人物关系？输入“林小雨和陈默在第三集的冲突是怎么开始的？”，Vidi2能梳理出对话线索、眼神互动、道具象征，甚至指出编剧埋下的伏笔。
多视频智能编排：手头有5个不同角度的婚礼录像？告诉它“我想做一部3分钟的回忆短片，要有开场浪漫、中段感动、结尾欢笑”，它会自动挑选最佳镜头、设计转场节奏、生成旁白文案，连配乐风格都推荐适合的网易云歌单。

有自媒体从业者实测后表示：“以前剪一个3分钟的Vlog要3小时，现在15分钟搞定，还能比以前更抓人。”

过去，视频创作是专业团队的专利——要懂分镜、懂剪辑软件、懂节奏把控。而现在，Vidi2让这一切变得像发微信一样简单。

一位妈妈用它把孩子三年的成长录像，自动剪成一部“从爬到跑”的成长纪录片，发到朋友圈收获上千点赞；一位乡村教师用它整理公开课录像，一键生成教学亮点集锦，用于教研分享；甚至有短视频新手，仅凭一句“帮我把这段钓鱼视频剪成‘暴击瞬间’风格”，就做出了播放量破百万的爆款内容。

这不是科幻，是正在发生的现实。

字节跳动没有宣称Vidi2“取代专业剪辑”，它更像一个“超级助手”——把重复劳动交给AI，把创意和情绪留给人。

目前，Vidi2已在字节旗下“剪映”App内测，预计2025年第二季度向公众开放。官方透露，未来还将支持多语言语音指令、跨平台视频调用（如抖音、B站、微信视频号）、甚至与AI数字人联动，实现“你说一段故事，它自动生成完整视频”。

当技术不再成为表达的枷锁，每个人都能成为自己生活的导演。Vidi2，或许正是这场创作平权运动的起点。

Vidi2时空定位演示图

Vidi2在长视频中精准框选目标人物

Vidi2在VUE-STG评测中表现领先