字节开源 Bernini 框架，提升 AI 视频编辑可控性

字节跳动开源 Bernini 视频生成与编辑框架

字节跳动商业化技术团队正式开源了视频生成与编辑框架 Bernini。该框架采用“先理解、再生成”的协同机制，将工作流拆分为语义规划与视觉渲染两步，以此应对传统模型无法精准理解复杂指令、容易产生画面失控与帧间闪烁的问题。

系统先通过多模态大模型规划器（MLLM-based planner）解析文本、视频与参考图像，在特征空间中预测目标语义，勾勒出不限定像素的“语义草图”。基于 Diffusion Transformer 的渲染器随后接手，把规划好的语义转化为连续稳定的视频画面。这种分工减少了主体变形和背景漂移的情况。

在编辑环节，一条指令即可改变画面中的天气、季节、材质或视觉风格。系统也能精准控制镜头视角、焦点与主体动作。在保持环境和机位稳定的前提下，视频里动物的动作可以自然调整。模型支持图片和视频作为视觉参考。指定材质、主体或广告海报能植入目标区域，边界与透视不会出错。新视频生成支持单图参考、多角度参考、关键帧到连续镜头的演变，也能将互不相关的单品图像组合到同一角色身上。

多视觉片段串联时，模型容易混淆素材。团队引入 SA-3D RoPE 位置编码机制解决这一问题。它为不同视觉片段分配专属标记，分清参考内容与输出目标，同时保留时空位置关系。内部测试显示该框架处于行业第一梯队。目前，框架推理代码与第二阶段模型 Bernini-R 已开放。包含完整 MLLM 规划器的全版本将在近期全面开放。

CB科技站

字节开源 Bernini 框架，提升 AI 视频编辑可控性

字节跳动开源 Bernini 视频生成与编辑框架

与本文相关的文章