斯坦福新研究提升大模型长视频理解能力

大模型之家讯 3月15日,斯坦福研究人员发布论文,推出了一种基于代理(Agent)的系统——VideoAgent,其将大型语言模型作为中央代理,迭代地识别和编译关键信息以回答问题,同时利用视觉语言基础模型作为翻译和检索视觉信息的工具。在EgoSchema和NExT-QA基准测试中,VideoAgent在零样本准确率上分别达到了54.1%和71.3%,平均仅使用了8.4和8.2帧。研究人员称,该测试结果表明该方法在效果和效率上优于当前最先进的方法,在提升长篇视频理解方面有应用潜力。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注