Inworld 推出 TTS-1.5：低延迟实时多语言语音合成

Inworld 推出 TTS-1.5：低延迟、低成本，语音终于像真人了

最近，人工智能公司 Inworld 正式发布了他们的新语音模型 TTS-1.5。不是那种听起来像机器人念稿子的合成音，也不是卡顿到让人想关掉的延迟——这次，语音终于有了“人味”。

用过不少 TTS 工具的人都知道，要么声音太机械，要么等个几秒才出声，尤其在游戏里和 NPC 对话时，那种“断片感”特别出戏。TTS-1.5 把延迟压到了 250 毫秒以内，差不多就是你说话完，对方几乎立刻接上。实测中，和虚拟角色对答时，完全感觉不到“系统在思考”，就像在和真人聊天。

每分钟不到一分钱，成本直降 25 倍

更让人惊讶的是价格。TTS-1.5 的定价是每分钟 0.005 美元，换算下来，一小时才 0.3 美元，不到三毛钱。对比市面上动辄每分钟 0.1 美元甚至更高的方案，Inworld 直接把价格砍到了零头。

这个价格意味着什么？独立开发者、小型游戏工作室、VR 创作者，现在都能用得起高质量语音了。以前想给自己的虚拟角色配上自然语音，要么外包录音，要么砸钱买 API，现在直接集成，成本几乎可以忽略不计。不少开发者已经在 Reddit 和 Discord 上开始讨论：“这玩意儿是不是要颠覆整个语音交互市场？”

多语言支持，不只是“能听懂”，还能“说得对”

TTS-1.5 不只是英语说得溜。它支持包括中文、西班牙语、日语、法语、德语在内的主流语言，而且每个语种都做了本地化语调处理。比如中文的语气词“啊”“呢”“吧”，不是生硬地加个尾音，而是根据上下文自然起伏。日语的敬语语感、西班牙语的语速变化，也都被精准还原。

有开发者在测试中把 TTS-1.5 用在一款独立 RPG 游戏里，NPC 用粤语和玩家对话，结果玩家以为是真人配音——直到他发现这语音是实时生成的。

不只是游戏，它正在悄悄进入更多场景

虽然目前最受关注的是游戏和虚拟偶像领域，但 TTS-1.5 的潜力远不止于此：

教育类 App：语言学习者可以和虚拟外教实时对话，纠正发音，不卡顿、不尴尬。
客服系统：企业不再需要录一堆固定话术，AI 能根据用户问题“即兴回应”，听起来更自然。
无障碍工具：视障用户通过语音交互获取信息，延迟低意味着反应更快，体验更流畅。

有团队已经在用它做“AI 陪聊老人”项目，语音温柔、语速适中，还能记住老人之前聊过的内容。一位家属在社交平台留言：“我妈第一次没喊‘你这机器怎么这么假’，她说‘这孩子说话像我女儿’。”

真实体验，才是真正的技术突破

技术参数可以堆，但“像人”这件事，最难的是细节。TTS-1.5 没有吹嘘“突破性算法”或“自研神经网络”，它只是安静地做到了一件事：让你忘了你在和 AI 说话。

现在，你可以在 Inworld 官网申请测试权限，开发者免费额度已经开放。没有复杂的文档，没有层层审批——只要你有想法，就能马上试。

语音交互的下一站，不是更智能，而是更自然。TTS-1.5，可能是我们离这个目标最近的一次。

多语言支持文本转语音低延迟 TTS-1.5

CB科技站