智谱AI开源CogVLM2-Video模型，视频理解技术时间问答能力大幅提升

大模型之家讯近日，智谱AI在视频理解领域实现重大突破，正式开源CogVLM2-Video模型。该模型通过创新的数据构建方法和多帧视频图像及时间戳输入，有效保留视频时间信息，显著提升回答时间相关问题的能力。在公共视频理解基准上，CogVLM2-Video展现出卓越性能，不仅在视频字幕生成上表现优异，还在时间定位方面取得显著成果。此模型的开源将为视频理解领域的研究和开发者提供强大支持，推动技术持续进步。

智谱AI开源CogVLM2-Video模型，视频理解技术时间问答能力大幅提升

发表回复