智谱AI开源CogVLM2-Video模型,视频理解技术时间问答能力大幅提升

大模型之家讯 近日,智谱AI在视频理解领域实现重大突破,正式开源CogVLM2-Video模型。该模型通过创新的数据构建方法和多帧视频图像及时间戳输入,有效保留视频时间信息,显著提升回答时间相关问题的能力。在公共视频理解基准上,CogVLM2-Video展现出卓越性能,不仅在视频字幕生成上表现优异,还在时间定位方面取得显著成果。此模型的开源将为视频理解领域的研究和开发者提供强大支持,推动技术持续进步。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注