谷歌发布通用视觉编码器VideoPrism

大模型之家讯 谷歌近日提出了一种通用视频编码器VideoPrism,可通过单一冻结模型,处理不同的视频理解任务。VideoPrism在3600万高质量视频字幕对和5.82亿个带有噪声平行文本的视频片段数据集上进行了预训练。研究团队在四大类视频理解任务上对VideoPrism进行了广泛测试,其在33个视频理解基准中的30个实现了性能领先。论文2月20日发表于arXiv预印本平台。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注