腾讯联合清华发布SongGeneration 2，音素错误率低至8.55%，挑战Suno

腾讯联合清华发布SongGeneration2：普通人也能做出专业级歌曲

2026年3月9日，腾讯与清华大学人机语音交互实验室联合推出新一代音乐生成模型 SongGeneration2。这不是又一次“AI写歌”的概念演示，而是一次真正能被音乐人、独立创作者和普通用户拿起来就用的工具升级。它不再让人觉得“像机器写的”，而是开始让人怀疑：“这真是AI做的？”

告别“塑料感”：AI音乐终于有了呼吸感

过去几年，AI生成的音乐常被吐槽：旋律机械、人声僵硬、编曲像拼贴画。SongGeneration2直接解决了这三个最让人出戏的问题。

首先是编曲有层次。它能同时处理主旋律、贝斯线、鼓组、和声垫、环境音效等多轨信号，不是简单叠加，而是像真人制作人一样，懂得在不同段落做动态平衡。试听样本中，一段民谣风格的歌曲从清冷的指弹吉他过渡到温暖的弦乐铺底，情绪递进自然，没有突兀的“AI转场”。

其次是歌词咬字清晰。过去AI常把“月亮”唱成“月亮”，或在高音处跑调失真。SongGeneration2的音素错误率（PER）低至8.55%，比目前市面上最火的Suno v5还要低近4个百分点，仅次于MiniMax的内部版本。这意味着你输入“我想在雨夜开车去见你”，它不会把“雨夜”唱成“玉叶”，也不会在“见你”时突然变调。

最后是听懂你的意思。你可以说“要像林俊杰2018年《圣所》那种情绪，但更安静一点”，它能理解“安静”不是降低音量，而是减少打击乐、增加空气感混响；你上传一段哼唱的音频，它能自动识别旋律走向，并据此生成完整伴奏，连你没唱准的音都帮你“圆”回来了。

不是AI在作曲，是AI在当制作人

SongGeneration2的核心不是靠一个大模型“猜旋律”，而是分两步走：

第一阶段，由“作曲大脑”（LeLM）负责结构设计——哪段该起鼓、副歌前要不要留白、人声何时进入、情绪如何铺垫。这个模块像一位有经验的制作人，先在脑中画出整首歌的地图。

第二阶段，由“高保真渲染器”（扩散模型）负责细节填充——人声的气声、吉他的弦噪、鼓组的房间反射声。这些曾是AI最弱的一环，现在它连“麦克风距离感”都能模拟出来。

更关键的是，它采用了一种全新的“分层表征”技术，让旋律稳定性和音质细腻度不再互相牺牲。过去你选“高质量”，生成要等十分钟；选“快”，音质又像手机外放。现在，两者可以兼得。

真开源，真能跑：22GB显存就能本地生成

最让创作者心动的，不是技术多炫，而是它真的能“用起来”。

腾讯同步开源了SongGeneration-v2-large模型，参数量40亿，支持中文、英文、粤语等多种语言。你不需要租云服务器，也不用等排队。只要有一台消费级显卡——比如RTX 4070、RTX 3080这类主流显卡（22GB显存以上），就能在自己电脑上运行，生成、修改、导出，全程离线，隐私无虞。

如果你赶时间，项目组还推出了SongGeneration-v2-Fast版本，Hugging Face上一键体验。输入一段文字描述，60秒内就能输出一首完整歌曲（含人声+伴奏），音质虽略打折扣，但已足够用于短视频、播客、Demo创作。

一位独立音乐人测试后说：“我昨晚用它做了首副歌，改了三遍词，生成了五个版本，最后挑了一个最接近我小时候听的那首老歌的感觉。它没替我创作，但它帮我找回了感觉。”

下一步：12GB显存版即将上线，全民创作时代加速

据项目组透露，面向更广泛用户的SongGeneration-v2-medium版本已在内测，仅需12GB显存即可运行，意味着搭载RTX 3060甚至部分笔记本显卡的用户，未来也能本地生成高质量音乐。

同时，一个名为“MelodyEval”的自动化评估框架也将开源，帮助创作者快速判断生成作品的旋律流畅度、和声合理性、情绪一致性，避免“自己觉得好，别人听不懂”的尴尬。

这不是一场技术发布会，而是一次创作工具的降维打击。过去，写歌是专业录音棚的事；现在，它正变成和修图、剪视频一样的日常技能。你不需要懂五线谱，也不需要会弹琴——只要你有情绪，有想法，就能把它变成一首歌。

2026年，AI不再是音乐的替代者，而是每个人的“音乐搭档”。

SongGeneration2 LLM-扩散架构多轨编曲本地化作曲

CB科技站