Thinking Machines发布交互模型研究预览，主打近实时语音与视频交互

由前OpenAI技术首席官Mira Murati创立的AI初创公司Thinking Machines，于5月11日发布了互动模型（interaction models）的研究预览，主打将互动能力直接嵌入模型架构，而非依赖外部软件框架模拟实时对话。

Thinking Machines指出，当前多数AI界面仍采用回合制设计，通常需等待用户说完或输入完成之后，模型才开始处理与回应，这限制了用户在对话过程中实时补充、修正或插话的可能性。为改善这一限制，该公司采用多流（multi-stream）、微回合（micro-turn）设计，以200毫秒为单位，持续交错处理输入与输出内容。

此次展示的TML-Interaction-Small采用双模型架构：互动模型负责实时对话与响应，后台模型则异步处理推理、工具调用与网络浏览等任务，并将结果整合进对话流程。官方表示，该模型支持主动语音响应、根据视觉线索实时反馈、与用户同时说话、感知时间流逝，以及同步执行搜索、调用工具或生成用户界面。

根据官方基准测试，在FD-bench V1对话延迟评估中，TML-Interaction-Small的延迟为0.40秒，优于GPT-realtime-2.0（minimal）的1.18秒和Gemini-3.1-flash-live（minimal）的0.57秒；在FD-bench V1.5互动质量评估中，TML-Interaction-Small获得77.8分，高于GPT-realtime-2.0（minimal）的46.8分和Gemini-3.1-flash-live（minimal）的54.3分。Thinking Machines表示，该技术目前仍处于研究预览阶段，未来几个月将先开放有限测试，并计划于今年稍后扩大上线。

与大多数大型语言模型本身不内置时钟、需依赖文本提示明确提供时间信息不同，TML-Interaction-Small具备原生时间感知能力，有望应用于对时间精度要求较高的场景，如工业维护与制药研究。

Thinking Machines 互动模型近即时语音互动视讯互动

CB科技站

Thinking Machines发布交互模型研究预览，主打近实时语音与视频交互

与本文相关的文章