智源研究院发布原生多模态世界模型Emu3

大模型之家讯 10月21日,智源研究院正式发布其原生多模态世界模型Emu3。这款模型基于下一个token预测,无需依赖扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。

智源研究院发布原生多模态世界模型Emu3

Emu3在多个任务中展示了卓越的性能。在图像生成、视频生成以及视觉语言理解等任务中,Emu3的表现均超越了SDXL、LLaVA、OpenSora等知名开源模型。值得注意的是,Emu3在实现这些性能的同时,并未采用扩散模型、CLIP视觉编码器以及预训练的LLM等技术,仅通过预测下一个token便完成了任务。

智源研究院发布原生多模态世界模型Emu3

Emu3的核心优势在于其强大的视觉tokenizer。该tokenizer能够将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一起送入模型中。模型输出的离散token则可以被转换回文本、图像和视频,为Any-to-Any的任务提供了统一的研究范式。

智源研究院发布原生多模态世界模型Emu3

此外,Emu3的下一个token预测框架还具备极高的灵活性,使得直接偏好优化(DPO)可以无缝应用于自回归视觉生成,从而使模型的表现与人类偏好保持一致。

智源研究院发布原生多模态世界模型Emu3

智源研究院的研究结果表明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中展现出先进的性能。通过将复杂的多模态设计收敛到token本身,Emu3在大规模训练和推理中释放出了巨大的潜力。

目前,Emu3已经开源了其关键技术和模型,这一举措在社交媒体和技术社区中引起了广泛的热议。网友们纷纷表示,Emu3将彻底改变多模态AI领域,提供无与伦比的性能和灵活性。对于研究人员来说,Emu3的出现意味着他们可以通过统一的架构探索多模态,无需再将复杂的扩散模型与大语言模型相结合。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/7653

(0)
上一篇 3天前
下一篇 16小时前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注