智源研究院发布原生多模态世界模型Emu3

志斌 • 2024年10月21日下午1:51 • 人工智能

大模型之家讯 10月21日，智源研究院正式发布其原生多模态世界模型Emu3。这款模型基于下一个token预测，无需依赖扩散模型或组合方法，即可实现对文本、图像、视频三种模态数据的理解和生成。

智源研究院发布原生多模态世界模型Emu3

Emu3在多个任务中展示了卓越的性能。在图像生成、视频生成以及视觉语言理解等任务中，Emu3的表现均超越了SDXL、LLaVA、OpenSora等知名开源模型。值得注意的是，Emu3在实现这些性能的同时，并未采用扩散模型、CLIP视觉编码器以及预训练的LLM等技术，仅通过预测下一个token便完成了任务。

智源研究院发布原生多模态世界模型Emu3

Emu3的核心优势在于其强大的视觉tokenizer。该tokenizer能够将视频和图像转换为离散token，这些token可以与文本tokenizer输出的离散token一起送入模型中。模型输出的离散token则可以被转换回文本、图像和视频，为Any-to-Any的任务提供了统一的研究范式。

智源研究院发布原生多模态世界模型Emu3

此外，Emu3的下一个token预测框架还具备极高的灵活性，使得直接偏好优化（DPO）可以无缝应用于自回归视觉生成，从而使模型的表现与人类偏好保持一致。

智源研究院发布原生多模态世界模型Emu3

智源研究院的研究结果表明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中展现出先进的性能。通过将复杂的多模态设计收敛到token本身，Emu3在大规模训练和推理中释放出了巨大的潜力。

目前，Emu3已经开源了其关键技术和模型，这一举措在社交媒体和技术社区中引起了广泛的热议。网友们纷纷表示，Emu3将彻底改变多模态AI领域，提供无与伦比的性能和灵活性。对于研究人员来说，Emu3的出现意味着他们可以通过统一的架构探索多模态，无需再将复杂的扩散模型与大语言模型相结合。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/7653

赞 (0)

0 0

极米科技携多款重磅产品惊艳亮相电博会

上一篇 2024年10月19日下午8:48

昆仑万维2050研究院与北大联合发布MoE++，性能与推理速度全面提升

下一篇 2024年10月22日上午10:11

人工智能

微脉宣布发布国内首款大语言模型健康管理应用CareGPT

8月17日，病程管理平台微脉发布国内首款健康管理领域大语言模型应用——CareGPT。与通用型的大语言模型产品不同，这款基于国内开源大语言模型自主研发的健康管理应用产品，主要致力…

志斌
2023年8月20日
人工智能

首家实现大模型云端边全栈布局！大模型性能超越GPT-4 Turbo，商汤“日日新SenseNova 5.0”全面升级

大模型之家讯 4月23日，商汤科技SenseTime举办技术交流日活动，发布行业首个“云、端、边”全栈大模型产品矩阵，以满足不同规模场景的应用需求，并且全新升级“日日新SenseN…

志斌
2024年4月23日
人工智能

将大模型训练效率提升10倍，阿里云斩获“算力中国”年度突破成果

大模型之家8月21日讯日前，由工业和信息化部、宁夏回族自治区人民政府共同举办的2023中国算力大会在银川举行。会上公布了算力领域最具影响力专家学者共同评选出的算力中国·年度突破成…

志斌
2023年8月21日
人工智能

大模型之家2024年4月热力榜：百度、商汤领衔，多家独角兽上榜

随着“人工智能+”的全面推进，AI技术正逐渐渗透到经济和社会的每一个角落，推动着各行各业的转型升级。特别是大模型的应用上，多家企业已取得突破性进展，这些技术在出行、金融，基建、智能…

admin
2024年5月6日
人工智能

火山方舟File search如何解锁大模型的专属知识库？

在AI大模型蓬勃发展的今天，如何实现自有数据的高效利用，愈发受到行业所关注。据IDC2024年报告显示，全球日均产生的非结构化数据量已接近450EB，但其中超过60%的文档、表格和…

志斌
2025年3月14日
人工智能

通义千问首次落地天玑9300移动平台！阿里云携手MediaTek探索端侧AI智能体

大模型之家讯 3月28日，阿里云与知名半导体公司MediaTek联合宣布，通义千问18亿、40亿参数大模型已成功部署进天玑9300移动平台，可离线流畅运行即时且精准的多轮AI对话应…

王昊达
2024年3月28日
商汤大装置接入DeepSeek R1，推理吞吐性能优于业界头部厂商15%

大模型之家讯 3月26日，商汤科技公布截至2024年12月31日止全年业绩。2024年，商汤集团的总体收入同比增长10.8%，达到37.7亿元人民币；其中，生成式AI收入突破24….

志斌
人工智能 2025年3月26日
人工智能

东方神秘力量上线，DeepSeek APP低调却不奢华？

被外国网友评为“来自东方的神秘力量”，DeepSeek低调的上线了APP，甚至在其官网和公众号中都没有发布这一消息。大模型之家注意到，在1月11日这款名为“DeepSeek”AI…

赵小满
2025年1月13日
人工智能

AI时代的变与不变：在技术浪潮中寻找企业的锚点

6月29日，由北京商丘企业商会和“大模型之家”、“AI营销新鲜事”联合发起的“速途AI引力场”沙龙活动在速途网络北京总部举行。会上，专家学者、产业界的企业家们聚焦“如何利用AI赋能…

志斌
2025年6月30日
人工智能

智谱AI CEO张鹏：做顶天立地的大模型，GLM-4国产全自研大模型今日上线

大模型之家讯（报道:王昊达）1月16日，智谱AI首届技术开放日(Zhipu DevDay)在北京中关村国家自主创新示范区展示中心成功举办。现场，智谱AI团队全面展示了其投身于大模型…

王昊达
2024年1月16日

发表回复