字节跳动与中科大联合提出多模态文档大模型DocPedia

大模型之家讯近日，字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限，达到了2560×2560的高分辨率，而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336，无法解析高分辨率的文档图像。这一成果是通过研究团队采用了一种新的方法，解决了现有模型在解析高分辨文档图像方面的不足。
据称，DocPedia不仅能准确识别图像信息，还能结合用户需求调用知识库回答问题，展现高分辨率多模态文档理解的能力。

字节跳动与中科大联合提出多模态文档大模型DocPedia

发表回复