最新消息:关注人工智能 AI赋能新媒体运营

阿里开源Fun-CineForge:全球首个电影级多模态配音大模型与配套数据集

科技资讯 admin 浏览

Fun-CineForge 开源:让AI配音不再“假”

最近,阿里巴巴通义实验室联合中国科学技术大学,正式开源了一款名为 Fun-CineForge 的影视配音工具。这不是又一个“AI生成语音”的噱头,而是一套真正能解决影视剧配音“口型对不上、声音像机器人、情绪没层次”这些老问题的实用系统。

你有没有看过一部国产剧的外语版,配音听着像机器人念稿?或者国产剧翻拍时,演员嘴型张合和台词对不上,看得人直皱眉?这些问题,Fun-CineForge 从根上在改。

image.png

不是“读稿”,是“演戏”

过去很多AI配音,就是把文字丢进语音合成器,再勉强对个嘴型。但Fun-CineForge不一样——它看的是整段戏。

它用的不是简单的唇部运动追踪,而是基于多模态大模型,能理解角色是谁、在什么情境下说话、情绪是愤怒、颤抖还是强装镇定。比如《三国演义》里诸葛亮在草船借箭时那句“吾料敌必不敢来”,它能听出语气里的从容与算计,不是机械地拉高音调,而是让声音带着那种“胸有成竹”的松弛感。

更关键的是,它能处理多人对话、背景杂音、环境混响——这在以往的AI配音里几乎是“禁区”。现在,哪怕背景是暴雨中的街头对峙,它也能把角色的声音从环境里“拎”出来,自然贴合原片。

数据不是凑的,是真拍出来的

再好的模型,没数据也白搭。Fun-CineForge 背后藏着一个叫 CineDub 的中文配音数据集——这是国内首个大规模、带精细标注的影视配音数据集。

团队不是靠网上爬视频拼凑的,而是用自动化流程,从几十部经典剧集中提取真实配音素材:《红楼梦》里王熙凤的笑声、林黛玉的哽咽,《唐顿庄园》里贵族们慢条斯理的对话、仆人压低声音的汇报……每一段都标注了说话人、情绪标签、口型帧、环境声类型。

这些数据不是“干净样本”,而是包含咳嗽、停顿、换气、语速变化的真实表演痕迹——这正是让AI配音“像人”的关键。

现在就能用,经典剧集免费开放

2026年3月16日,Fun-CineForge 正式开源。不只是代码,连训练好的模型权重都放出来了。开发者可以直接下载,在自己电脑上跑起来,试一试给《甄嬛传》换个声线,或者给《权力的游戏》配上中文。

目前已开放的样本包括:

  • 《红楼梦》(87版)经典片段,含黛玉葬花、宝钗扑蝶等场景
  • 《唐顿庄园》第一季中关键对话段落
  • 《三国演义》赤壁之战、空城计等高情绪段落

你甚至不需要GPU,官方提供了轻量版推理方案,普通笔记本也能跑通Demo。项目官网还提供了详细的使用指南,连“怎么给一个角色换声音”都拍了视频教程。

不只是翻译,是“再造声音”

译制片制作成本高,主要卡在配音演员的档期、语言适配和口型匹配上。一部剧动辄几十人配音,耗时数月。Fun-CineForge 让这个流程可以压缩到几天。

一个独立电影团队,用这套工具给一部非洲题材纪录片配了中文,原本要请3个配音演员,现在只花了一周,成本降了80%。一位B站UP主拿它给老电影《庐山恋》做了“AI重配版”,上传后播放量破百万,弹幕里全是“这声音怎么这么像原版?”

它不是要取代配音演员,而是让那些没资源请专业团队的小制作、纪录片、海外剧引进、甚至高校影视课作业,也能拥有接近专业水准的声音处理能力。

项目官网:https://funcineforge.github.io/

GitHub 开源地址:https://github.com/funcineforge

如果你是影视后期、独立制作人、AI爱好者,或者只是厌倦了那些“AI味太重”的配音——现在,是时候亲自试试了。