京东开源实时视频交互模型JoyAI-VL-Interaction

京东开源实时视频交互模型 JoyAI-VL-Interaction

京东正式开源实时视频视觉语言交互模型 JoyAI-VL-Interaction。该模型是全球首个全栈开源的交互式视觉模型，底层获得 vLLM-Omni 支持。AI 助手的工作逻辑由此调整，从等待用户提问的被动响应，转为自主观察视频流并实时对话。

传统视频理解需要先上传素材再进行分析，处理动态画面时存在延迟。JoyAI-VL-Interaction 直接面向正在发生的视频流进行即时处理。模型持续观察画面，自行判断介入交流的时机。画面变化与智能响应保持同步。这种处理方式适合安防监控、直播解说和操作指导等场景。

系统采用后台委托机制。遇到生成代码、复杂推理或调用外部工具等任务时，前台负责实时观察的模块会将计算分流给后台 Agent 系统。观察与交互并行运行，模型在处理复杂逻辑时维持与用户的沟通不断线。

该模型兼容摄像头、直播流和各类监控信号输入。开发者可根据业务需求替换语音识别、语音合成、长期记忆模块或外部接口。

京东公布的盲评测试数据显示，该模型在涵盖监控预警、实时翻译、时间感知的58个流式场景中完成了真人测评。总体胜率优于同类产品，在复杂视觉触发交互环节表现稳定。这套开源方案已面向科研探索、安防监控、电商导购及 AI 眼镜等产业应用开放。