京东全栈开源实时视频交互模型JoyAI-VL-Interaction

大模型之家讯 6月22日，京东宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction，为全球首个全栈开源的interaction模型和系统。该模型基于8B参数规模，打破传统一问一答交互范式，支持摄像头、直播流、监控流等多种视频输入，实现边看边说的实时交互。在人机对比评测中，该模型对豆包的总体胜率达77.6%，对Gemini达87.9%。