最新消息:关注人工智能 AI赋能新媒体运营

字节跳动发布Vidi2:精准视频理解与问答工具

科技资讯 admin 浏览

视频剪辑从此“动嘴就行”?字节跳动发布革命性AI工具Vidi2

你有没有过这样的经历?花两个小时看完一部纪录片,想把其中“主角在雨中奔跑”的片段剪出来发朋友圈,结果翻来覆去手动拖进度条,半小时过去了还没找到准确位置?或者想从一段两小时的家庭录像里,挑出孩子第一次走路的瞬间,却因为画面模糊、人物重叠而无从下手?

现在,这些困扰普通用户的“剪辑噩梦”,正在被一款名为Vidi2的AI工具彻底改变。它不是简单的“语音转字幕”或“自动切片”,而是真正能“看懂视频、听懂你的话”的智能助手——只要你用一句话描述,它就能在几十分钟的视频里,精准定位到那个你想要的瞬间。

一句话定位:连暗光、多人场景都不怕

Vidi2的核心突破,是它的“时空定位”能力。不是模糊匹配,而是精确到秒、精确到像素。

比如你输入:“穿红色外套的人从沙发站起来,转身拿起茶几上的杯子”,Vidi2不仅能告诉你这段画面发生在第4分17秒,还会在画面上自动框出那个穿红衣的人,哪怕他身后还有三个人在走动,哪怕光线昏暗、镜头晃动,它依然能稳稳锁定目标。

这背后是字节跳动智能创作团队对视觉语义理解的深度重构。传统模型往往只能识别“人”“走”“拿”等简单动作,而Vidi2能理解“从跪姿起身”“侧身躲避”“低头看表”这类复杂、有上下文的动作序列,甚至能区分“同一个人在不同时间点的相似动作”。

全球首个真实场景评测基准,Vidi2碾压GPT-5和Gemini

为了验证Vidi2不是“实验室里的秀技”,字节跳动专门构建了两个全新评测体系:VUE-STG 和 VUE-TR-V2。

其中VUE-STG包含1600个由真人精心设计的查询指令,覆盖从10秒短视频到30分钟长片,问题包括:“谁在第12分钟说了‘我没想到会这样’?”“那个戴帽子的男人什么时候离开画面?”——这些问题,连专业剪辑师都得反复回放才能找到。

在测试中,Vidi2在“时间定位准确率”上领先GPT-5近23%,在“时空联合定位”上优势更高达31%。尤其在10–30分钟的长视频中,Gemini 3 Pro和Qwen3-VL-32B的准确率断崖式下跌,而Vidi2依然稳定在90%以上。

更关键的是,Vidi2对“口语化表达”的理解能力远超同行。你不用说“目标对象在时间戳T1至T2之间执行动作A”,你只需要说:“那个穿格子衬衫的男生,他什么时候把手机扔了?”——它听懂了。

不只是剪辑,还能帮你写脚本、做爆款

Vidi2不只是“找片段”,它正在重新定义视频创作的全流程:

  • 自动生成高光集锦:上传一小时的旅行vlog,它能自动识别“日出”“美食特写”“朋友大笑”“惊险瞬间”等情绪高点,配上节奏感强的BGM和动态字幕,一键输出适合抖音、快手发布的15秒爆款视频。
  • 影视级剧情分析:追剧时想理清人物关系?输入“林小雨和陈默在第三集的冲突是怎么开始的?”,Vidi2能梳理出对话线索、眼神互动、道具象征,甚至指出编剧埋下的伏笔。
  • 多视频智能编排:手头有5个不同角度的婚礼录像?告诉它“我想做一部3分钟的回忆短片,要有开场浪漫、中段感动、结尾欢笑”,它会自动挑选最佳镜头、设计转场节奏、生成旁白文案,连配乐风格都推荐适合的网易云歌单。

有自媒体从业者实测后表示:“以前剪一个3分钟的Vlog要3小时,现在15分钟搞定,还能比以前更抓人。”

普通人也能当“导演”:AI正在让创作零门槛

过去,视频创作是专业团队的专利——要懂分镜、懂剪辑软件、懂节奏把控。而现在,Vidi2让这一切变得像发微信一样简单。

一位妈妈用它把孩子三年的成长录像,自动剪成一部“从爬到跑”的成长纪录片,发到朋友圈收获上千点赞;一位乡村教师用它整理公开课录像,一键生成教学亮点集锦,用于教研分享;甚至有短视频新手,仅凭一句“帮我把这段钓鱼视频剪成‘暴击瞬间’风格”,就做出了播放量破百万的爆款内容。

这不是科幻,是正在发生的现实。

未来已来:AI不是取代剪辑师,而是让创意不再被技术卡住

字节跳动没有宣称Vidi2“取代专业剪辑”,它更像一个“超级助手”——把重复劳动交给AI,把创意和情绪留给人。

目前,Vidi2已在字节旗下“剪映”App内测,预计2025年第二季度向公众开放。官方透露,未来还将支持多语言语音指令、跨平台视频调用(如抖音、B站、微信视频号)、甚至与AI数字人联动,实现“你说一段故事,它自动生成完整视频”。

当技术不再成为表达的枷锁,每个人都能成为自己生活的导演。Vidi2,或许正是这场创作平权运动的起点。

Vidi2时空定位演示图

Vidi2在长视频中精准框选目标人物

Vidi2在VUE-STG评测中表现领先