大模型之家讯 谷歌近日提出了一种通用视频编码器VideoPrism,可通过单一冻结模型,处理不同的视频理解任务。VideoPrism在3600万高质量视频字幕对和5.82亿个带有噪声平行文本的视频片段数据集上进行了预训练。研究团队在四大类视频理解任务上对VideoPrism进行了广泛测试,其在33个视频理解基准中的30个实现了性能领先。论文2月20日发表于arXiv预印本平台。
大模型之家讯 谷歌近日提出了一种通用视频编码器VideoPrism,可通过单一冻结模型,处理不同的视频理解任务。VideoPrism在3600万高质量视频字幕对和5.82亿个带有噪声平行文本的视频片段数据集上进行了预训练。研究团队在四大类视频理解任务上对VideoPrism进行了广泛测试,其在33个视频理解基准中的30个实现了性能领先。论文2月20日发表于arXiv预印本平台。