腾讯联合清华发布SongGeneration2:普通人也能做出专业级歌曲
2026年3月9日,腾讯与清华大学人机语音交互实验室联合推出新一代音乐生成模型 SongGeneration2。这不是又一次“AI写歌”的概念演示,而是一次真正能被音乐人、独立创作者和普通用户拿起来就用的工具升级。它不再让人觉得“像机器写的”,而是开始让人怀疑:“这真是AI做的?”

告别“塑料感”:AI音乐终于有了呼吸感
过去几年,AI生成的音乐常被吐槽:旋律机械、人声僵硬、编曲像拼贴画。SongGeneration2直接解决了这三个最让人出戏的问题。
首先是编曲有层次。它能同时处理主旋律、贝斯线、鼓组、和声垫、环境音效等多轨信号,不是简单叠加,而是像真人制作人一样,懂得在不同段落做动态平衡。试听样本中,一段民谣风格的歌曲从清冷的指弹吉他过渡到温暖的弦乐铺底,情绪递进自然,没有突兀的“AI转场”。
其次是歌词咬字清晰。过去AI常把“月亮”唱成“月亮”,或在高音处跑调失真。SongGeneration2的音素错误率(PER)低至8.55%,比目前市面上最火的Suno v5还要低近4个百分点,仅次于MiniMax的内部版本。这意味着你输入“我想在雨夜开车去见你”,它不会把“雨夜”唱成“玉叶”,也不会在“见你”时突然变调。
最后是听懂你的意思。你可以说“要像林俊杰2018年《圣所》那种情绪,但更安静一点”,它能理解“安静”不是降低音量,而是减少打击乐、增加空气感混响;你上传一段哼唱的音频,它能自动识别旋律走向,并据此生成完整伴奏,连你没唱准的音都帮你“圆”回来了。
不是AI在作曲,是AI在当制作人
SongGeneration2的核心不是靠一个大模型“猜旋律”,而是分两步走:
第一阶段,由“作曲大脑”(LeLM)负责结构设计——哪段该起鼓、副歌前要不要留白、人声何时进入、情绪如何铺垫。这个模块像一位有经验的制作人,先在脑中画出整首歌的地图。
第二阶段,由“高保真渲染器”(扩散模型)负责细节填充——人声的气声、吉他的弦噪、鼓组的房间反射声。这些曾是AI最弱的一环,现在它连“麦克风距离感”都能模拟出来。
更关键的是,它采用了一种全新的“分层表征”技术,让旋律稳定性和音质细腻度不再互相牺牲。过去你选“高质量”,生成要等十分钟;选“快”,音质又像手机外放。现在,两者可以兼得。

真开源,真能跑:22GB显存就能本地生成
最让创作者心动的,不是技术多炫,而是它真的能“用起来”。
腾讯同步开源了SongGeneration-v2-large模型,参数量40亿,支持中文、英文、粤语等多种语言。你不需要租云服务器,也不用等排队。只要有一台消费级显卡——比如RTX 4070、RTX 3080这类主流显卡(22GB显存以上),就能在自己电脑上运行,生成、修改、导出,全程离线,隐私无虞。
如果你赶时间,项目组还推出了SongGeneration-v2-Fast版本,Hugging Face上一键体验。输入一段文字描述,60秒内就能输出一首完整歌曲(含人声+伴奏),音质虽略打折扣,但已足够用于短视频、播客、Demo创作。
一位独立音乐人测试后说:“我昨晚用它做了首副歌,改了三遍词,生成了五个版本,最后挑了一个最接近我小时候听的那首老歌的感觉。它没替我创作,但它帮我找回了感觉。”
下一步:12GB显存版即将上线,全民创作时代加速
据项目组透露,面向更广泛用户的SongGeneration-v2-medium版本已在内测,仅需12GB显存即可运行,意味着搭载RTX 3060甚至部分笔记本显卡的用户,未来也能本地生成高质量音乐。
同时,一个名为“MelodyEval”的自动化评估框架也将开源,帮助创作者快速判断生成作品的旋律流畅度、和声合理性、情绪一致性,避免“自己觉得好,别人听不懂”的尴尬。
这不是一场技术发布会,而是一次创作工具的降维打击。过去,写歌是专业录音棚的事;现在,它正变成和修图、剪视频一样的日常技能。你不需要懂五线谱,也不需要会弹琴——只要你有情绪,有想法,就能把它变成一首歌。
2026年,AI不再是音乐的替代者,而是每个人的“音乐搭档”。