谷歌发布通用视觉编码器VideoPrism

大模型之家讯谷歌近日提出了一种通用视频编码器VideoPrism，可通过单一冻结模型，处理不同的视频理解任务。VideoPrism在3600万高质量视频字幕对和5.82亿个带有噪声平行文本的视频片段数据集上进行了预训练。研究团队在四大类视频理解任务上对VideoPrism进行了广泛测试，其在33个视频理解基准中的30个实现了性能领先。论文2月20日发表于arXiv预印本平台。