京东开源实时视频交互模型 JoyAI-VL-Interaction
京东正式开源实时视频视觉语言交互模型 JoyAI-VL-Interaction。该模型是全球首个全栈开源的交互式视觉模型,底层获得 vLLM-Omni 支持。AI 助手的工作逻辑由此调整,从等待用户提问的被动响应,转为自主观察视频流并实时对话。
传统视频理解需要先上传素材再进行分析,处理动态画面时存在延迟。JoyAI-VL-Interaction 直接面向正在发生的视频流进行即时处理。模型持续观察画面,自行判断介入交流的时机。画面变化与智能响应保持同步。这种处理方式适合安防监控、直播解说和操作指导等场景。
系统采用后台委托机制。遇到生成代码、复杂推理或调用外部工具等任务时,前台负责实时观察的模块会将计算分流给后台 Agent 系统。观察与交互并行运行,模型在处理复杂逻辑时维持与用户的沟通不断线。
该模型兼容摄像头、直播流和各类监控信号输入。开发者可根据业务需求替换语音识别、语音合成、长期记忆模块或外部接口。
京东公布的盲评测试数据显示,该模型在涵盖监控预警、实时翻译、时间感知的58个流式场景中完成了真人测评。总体胜率优于同类产品,在复杂视觉触发交互环节表现稳定。这套开源方案已面向科研探索、安防监控、电商导购及 AI 眼镜等产业应用开放。