Inworld 推出 TTS-1.5:低延迟、低成本,语音终于像真人了
最近,人工智能公司 Inworld 正式发布了他们的新语音模型 TTS-1.5。不是那种听起来像机器人念稿子的合成音,也不是卡顿到让人想关掉的延迟——这次,语音终于有了“人味”。
用过不少 TTS 工具的人都知道,要么声音太机械,要么等个几秒才出声,尤其在游戏里和 NPC 对话时,那种“断片感”特别出戏。TTS-1.5 把延迟压到了 250 毫秒以内,差不多就是你说话完,对方几乎立刻接上。实测中,和虚拟角色对答时,完全感觉不到“系统在思考”,就像在和真人聊天。

每分钟不到一分钱,成本直降 25 倍
更让人惊讶的是价格。TTS-1.5 的定价是每分钟 0.005 美元,换算下来,一小时才 0.3 美元,不到三毛钱。对比市面上动辄每分钟 0.1 美元甚至更高的方案,Inworld 直接把价格砍到了零头。
这个价格意味着什么?独立开发者、小型游戏工作室、VR 创作者,现在都能用得起高质量语音了。以前想给自己的虚拟角色配上自然语音,要么外包录音,要么砸钱买 API,现在直接集成,成本几乎可以忽略不计。不少开发者已经在 Reddit 和 Discord 上开始讨论:“这玩意儿是不是要颠覆整个语音交互市场?”
多语言支持,不只是“能听懂”,还能“说得对”
TTS-1.5 不只是英语说得溜。它支持包括中文、西班牙语、日语、法语、德语在内的主流语言,而且每个语种都做了本地化语调处理。比如中文的语气词“啊”“呢”“吧”,不是生硬地加个尾音,而是根据上下文自然起伏。日语的敬语语感、西班牙语的语速变化,也都被精准还原。
有开发者在测试中把 TTS-1.5 用在一款独立 RPG 游戏里,NPC 用粤语和玩家对话,结果玩家以为是真人配音——直到他发现这语音是实时生成的。
不只是游戏,它正在悄悄进入更多场景
虽然目前最受关注的是游戏和虚拟偶像领域,但 TTS-1.5 的潜力远不止于此:
- 教育类 App:语言学习者可以和虚拟外教实时对话,纠正发音,不卡顿、不尴尬。
- 客服系统:企业不再需要录一堆固定话术,AI 能根据用户问题“即兴回应”,听起来更自然。
- 无障碍工具:视障用户通过语音交互获取信息,延迟低意味着反应更快,体验更流畅。
有团队已经在用它做“AI 陪聊老人”项目,语音温柔、语速适中,还能记住老人之前聊过的内容。一位家属在社交平台留言:“我妈第一次没喊‘你这机器怎么这么假’,她说‘这孩子说话像我女儿’。”
真实体验,才是真正的技术突破
技术参数可以堆,但“像人”这件事,最难的是细节。TTS-1.5 没有吹嘘“突破性算法”或“自研神经网络”,它只是安静地做到了一件事:让你忘了你在和 AI 说话。
现在,你可以在 Inworld 官网申请测试权限,开发者免费额度已经开放。没有复杂的文档,没有层层审批——只要你有想法,就能马上试。
语音交互的下一站,不是更智能,而是更自然。TTS-1.5,可能是我们离这个目标最近的一次。