StepAudio 2.5 Realtime 上线:让AI说话更像人
阶跃星辰今天正式发布了 StepAudio 2.5 Realtime —— 一款能听懂你语气、情绪和沉默的实时语音大模型。它不是在“回答问题”,而是在“对话”。现在,开发者已经可以通过阶跃星辰开放平台接入,免费试用。

它听得出你是不是累了
我们和AI说话时,最怕的就是它永远一个调子,不管你是笑着说“今天真开心”,还是声音发颤地说“我快撑不住了”,它都回你一句标准的“很高兴为你服务”。StepAudio 2.5 Realtime 想改变这个局面。
它能捕捉你说话时的细微变化:语速变慢了?可能是疲惫;中间停顿太久?或许在犹豫;轻轻叹了一口气?它能识别出来,并调整回应的节奏——不再机械地“接话”,而是像真人一样,适时沉默、轻声安慰,或者换种语气接下去。
这不是特效,是实打实的语音信号分析。模型训练时用了上万小时的真实对话录音,包括电话客服、亲友聊天、心理咨询录音,甚至吵架的片段。它学会了:不是每个问题都需要立刻回答,有时候,一个停顿比一句话更有温度。
你的AI,可以是朋友,也可以是老板
以前定制AI,要写一堆参数,改半天还未必像样。现在,StepAudio 2.5 Realtime 给了你更简单的选择:
- 用预设人设:5种风格一键切换——温柔知心姐姐、理性专业HR、毒舌但靠谱的损友、沉稳长辈、甚至带点幽默感的“AI段子手”。
- 自己调:通过API,你可以定义它的说话习惯——爱用“嗯嗯”还是“对吧”?喜欢长句还是短句?会不会突然插句方言?
背后是百万级人设数据训练的结果。不是靠模板堆出来的“人设”,而是让模型从真实对话里“学”出了几百种说话方式。比如,一个经历过创业失败的AI角色,说话会更慢、更谨慎,偶尔会突然沉默;而一个刚毕业的年轻客服AI,语速快、语气轻快,偶尔会用网络热词。
团队还加了一道保险:即使你调得再极端,它也不会突然“崩人设”。不会你刚说“我被裁员了”,它就蹦出一句“恭喜发财”。
不只是聊天,还能面试、陪聊、做心理支持
有人拿它做智能客服,有人用来陪独居老人说话,还有开发者把它嵌入到心理互助App里——用户说“最近睡不着”,AI不再推荐“多运动”,而是轻声问:“你最近是不是总想起那件事?”
它能模拟一场真实的面试:问你“你为什么离职?”,等你支支吾吾时,它不会催,而是说:“听起来,那段时间对你来说挺难的。”——然后等你继续说。
它也能在深夜听你吐槽工作,不打断,不评判,偶尔回一句“我懂”,或者发个虚拟的拥抱表情——不是靠预设话术,是它判断出你此刻需要的不是解决方案,是被听见。
实测:比GPT-Realtime和Gemini Live更“像人”
阶跃星辰公开了内部测试数据:在5个核心维度(自然度、情绪响应、角色一致性、响应速度、沉浸感)中,StepAudio 2.5 Realtime 得分 80.41,超过 GPT-Realtime-1.5(72.1)和 Gemini Live(68.9)。
最让人意外的是“沉浸感”这一项——用户在和它聊完10分钟后,有67%的人表示“差点忘了这是AI”。不是因为它多聪明,而是因为它“不完美”:会卡顿一下,会重复一个词,会突然笑出声,会因为你沉默太久,轻声问:“还在吗?”
这些“不完美”,恰恰是最像人的地方。
现在就能用
开发者登录阶跃星辰开放平台,注册即可免费调用 StepAudio 2.5 Realtime API,支持实时流式语音输入输出,延迟控制在300毫秒内,手机App、智能硬件、车载语音系统都能接入。
没有“AI感”的产品,才是真正在改变体验的产品。StepAudio 2.5 Realtime 不是下一个AI语音模型,它更像是第一个真正愿意“听懂你”的声音。