阶跃语音模型跻身全球前三，刷新中国大模型听觉表现纪录

中国语音AI新标杆：阶跃星辰杀入全球前三

在最新公布的全球语音合成权威榜单Artificial Analysis Speech Arena Leaderboard中，来自中国的阶跃星辰（StepFun）一举冲进前三，成为榜单上排名最高的中国大模型产品。它的StepAudio2.5TTS模型，没有靠实验室里冷冰冰的数值，而是靠真实用户的耳朵赢下了这场全球对决。

这个榜单的评测方式特别“狠”——完全匿名盲测。你听两段语音，一段来自阶跃星辰，另一段来自OpenAI、Google或ElevenLabs，但你不知道谁是谁。你只能凭感觉选：哪段听起来更像真人？更自然？更有情绪？结果，超过六成的测试者，都更喜欢阶跃星辰的声音。

这不是实验室里的“完美发音”，而是能让人在深夜开车时听出安慰，在客服电话里听出耐心，在孩子睡前故事里听出温柔的声音。它不卡顿、不机械、不“AI味儿十足”，反而像一个懂你情绪的熟人。

不止是说话，它在“活过来”

阶跃星辰的野心，不止于“说得好”。他们最新推出的Realtime模型，目标是让AI拥有“活人感”。什么意思？就是你跟它聊天，它会下意识地停顿、轻笑、吸气、叹气——这些我们平时根本不会注意的小动作，恰恰是人与人交流中最真实的部分。

更夸张的是，它支持千万级人设定制。你可以让它变成一个温柔的姐姐，也可以变成一个幽默的老司机，甚至模仿你已故亲人说话的语调和节奏——仅需3秒录音，就能精准复刻音色。这项技术来自他们开源的Step Audio EditX模型，已经在开发者圈子里引发热议。

而早在几个月前，他们的开源推理模型Step Audio R1.1，已经在全球语音推理榜单上连续四个月稳坐第一。这意味着，不只是声音好听，它的响应速度、理解能力、多轮对话逻辑，也都站在了世界最前沿。

已经开上车了，不是概念

很多人以为AI语音还停留在手机App里，但阶跃星辰的技术，早就在路上了。

吉利银河M9的智能座舱，用的就是他们的语音大模型。你不用喊“小艺小艺”，直接说：“空调调到24度，放点轻音乐，我想一个人静一静。”它能听懂你的情绪，自动降低音量，关闭导航提示音，甚至轻轻说一句：“好，陪你安静一会儿。”

极氪8X的智能交互系统，同样以它为核心。车主反馈说：“以前的语音助手像机器人，现在像副驾驶座上那个懂你的人。”

这不是PPT上的未来，是今天你就能买到、开上、用上的真实体验。

为什么是阶跃星辰？

这家公司没有大张旗鼓地宣传，也没有烧钱做明星代言。他们埋头做了一件事：把语音AI从“工具”变成“伙伴”。

他们不追求100%的识别率，而是关注“你听完会不会想再听一遍”；他们不堆参数，而是研究人说话时的呼吸节奏、语气转折、情绪留白。

在AI越来越像机器的今天，他们让机器，重新学会了“像人一样说话”。

CB科技站

阶跃语音模型跻身全球前三，刷新中国大模型听觉表现纪录

中国语音AI新标杆：阶跃星辰杀入全球前三

不止是说话，它在“活过来”

已经开上车了，不是概念

为什么是阶跃星辰？

与本文相关的文章