大模型之家讯 6月22日,京东宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction,为全球首个全栈开源的interaction模型和系统。该模型基于8B参数规模,打破传统一问一答交互范式,支持摄像头、直播流、监控流等多种视频输入,实现边看边说的实时交互。在人机对比评测中,该模型对豆包的总体胜率达77.6%,对Gemini达87.9%。
大模型之家讯 6月22日,京东宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction,为全球首个全栈开源的interaction模型和系统。该模型基于8B参数规模,打破传统一问一答交互范式,支持摄像头、直播流、监控流等多种视频输入,实现边看边说的实时交互。在人机对比评测中,该模型对豆包的总体胜率达77.6%,对Gemini达87.9%。