字节跳动开源 Bernini 视频框架
字节跳动商业化技术团队正式开源视频生成与编辑框架 Bernini。该框架采用“先理解、再生成”的协同机制,主要解决传统模型理解复杂指令不准导致的画面失控与帧间闪烁问题。目前在内部测试中处于第一梯队。推理代码与第二阶段模型 Bernini-R 的权限已放开,完整版本将在近期全面开放。
Bernini 把处理流程拆成语义规划与视觉渲染两个独立环节。多模态大模型规划器先解析输入素材并勾勒语义草图,渲染器随后将目标转化为连续稳定的视频。分工明确后,编辑控制变得更直接。输入指令即可调整画面的天气、季节和视觉风格,也能精准改变镜头视角、焦点与主体动作。
除文本控制外,框架允许使用图片和视频作为视觉参考,提升创作一致性。在编辑场景中,特定材质或海报能被放入目标区域,边界和透视不会错乱。生成新视频时,支持单图或多角度参考,以及关键帧向连续镜头的演变。团队引入了专属位置编码机制,避免模型在串联多个视觉片段时产生混淆。项目主页地址为 https://bernini-ai.github.io/。