最新消息:关注人工智能 AI赋能新媒体运营

字节开源 Bernini 框架,提升 AI 视频编辑可控性

科技资讯 admin 浏览

字节跳动开源 Bernini 视频生成与编辑框架

字节跳动商业化技术团队正式开源了视频生成与编辑框架 Bernini。该框架采用“先理解、再生成”的协同机制,将工作流拆分为语义规划与视觉渲染两步,以此应对传统模型无法精准理解复杂指令、容易产生画面失控与帧间闪烁的问题。

系统先通过多模态大模型规划器(MLLM-based planner)解析文本、视频与参考图像,在特征空间中预测目标语义,勾勒出不限定像素的“语义草图”。基于 Diffusion Transformer 的渲染器随后接手,把规划好的语义转化为连续稳定的视频画面。这种分工减少了主体变形和背景漂移的情况。

Bernini框架工作流示意

在编辑环节,一条指令即可改变画面中的天气、季节、材质或视觉风格。系统也能精准控制镜头视角、焦点与主体动作。在保持环境和机位稳定的前提下,视频里动物的动作可以自然调整。模型支持图片和视频作为视觉参考。指定材质、主体或广告海报能植入目标区域,边界与透视不会出错。新视频生成支持单图参考、多角度参考、关键帧到连续镜头的演变,也能将互不相关的单品图像组合到同一角色身上。

多视觉片段串联时,模型容易混淆素材。团队引入 SA-3D RoPE 位置编码机制解决这一问题。它为不同视觉片段分配专属标记,分清参考内容与输出目标,同时保留时空位置关系。内部测试显示该框架处于行业第一梯队。目前,框架推理代码与第二阶段模型 Bernini-R 已开放。包含完整 MLLM 规划器的全版本将在近期全面开放。