中国语音AI新标杆:阶跃星辰杀入全球前三
在最新公布的全球语音合成权威榜单Artificial Analysis Speech Arena Leaderboard中,来自中国的阶跃星辰(StepFun)一举冲进前三,成为榜单上排名最高的中国大模型产品。它的StepAudio2.5TTS模型,没有靠实验室里冷冰冰的数值,而是靠真实用户的耳朵赢下了这场全球对决。
这个榜单的评测方式特别“狠”——完全匿名盲测。你听两段语音,一段来自阶跃星辰,另一段来自OpenAI、Google或ElevenLabs,但你不知道谁是谁。你只能凭感觉选:哪段听起来更像真人?更自然?更有情绪?结果,超过六成的测试者,都更喜欢阶跃星辰的声音。
这不是实验室里的“完美发音”,而是能让人在深夜开车时听出安慰,在客服电话里听出耐心,在孩子睡前故事里听出温柔的声音。它不卡顿、不机械、不“AI味儿十足”,反而像一个懂你情绪的熟人。

不止是说话,它在“活过来”
阶跃星辰的野心,不止于“说得好”。他们最新推出的Realtime模型,目标是让AI拥有“活人感”。什么意思?就是你跟它聊天,它会下意识地停顿、轻笑、吸气、叹气——这些我们平时根本不会注意的小动作,恰恰是人与人交流中最真实的部分。
更夸张的是,它支持千万级人设定制。你可以让它变成一个温柔的姐姐,也可以变成一个幽默的老司机,甚至模仿你已故亲人说话的语调和节奏——仅需3秒录音,就能精准复刻音色。这项技术来自他们开源的Step Audio EditX模型,已经在开发者圈子里引发热议。
而早在几个月前,他们的开源推理模型Step Audio R1.1,已经在全球语音推理榜单上连续四个月稳坐第一。这意味着,不只是声音好听,它的响应速度、理解能力、多轮对话逻辑,也都站在了世界最前沿。
已经开上车了,不是概念
很多人以为AI语音还停留在手机App里,但阶跃星辰的技术,早就在路上了。
吉利银河M9的智能座舱,用的就是他们的语音大模型。你不用喊“小艺小艺”,直接说:“空调调到24度,放点轻音乐,我想一个人静一静。”它能听懂你的情绪,自动降低音量,关闭导航提示音,甚至轻轻说一句:“好,陪你安静一会儿。”
极氪8X的智能交互系统,同样以它为核心。车主反馈说:“以前的语音助手像机器人,现在像副驾驶座上那个懂你的人。”
这不是PPT上的未来,是今天你就能买到、开上、用上的真实体验。
为什么是阶跃星辰?
这家公司没有大张旗鼓地宣传,也没有烧钱做明星代言。他们埋头做了一件事:把语音AI从“工具”变成“伙伴”。
他们不追求100%的识别率,而是关注“你听完会不会想再听一遍”;他们不堆参数,而是研究人说话时的呼吸节奏、语气转折、情绪留白。
在AI越来越像机器的今天,他们让机器,重新学会了“像人一样说话”。