智源多模态大模型Emu3首登《自然》

2026-02-02 10:57:06 来源: 科技日报点击数：

科技日报记者华凌

1月28日，北京智源研究院主导的多模态大模型成果“Emu3”正式上线国际顶级学术期刊《自然》正刊（纸质版预计将于2月12日刊发），这是我国科研机构主导的大模型成果首次登陆该期刊，标志着我国在人工智能原始创新领域取得重大突破。

此前，语言大模型依托“预测下一个词元（NTP）”的自回归路线实现重大突破，但多模态模型仍依赖对比学习、扩散模型等专用路线，自回归能否成为多模态通用路线一直是行业未解之谜。智源团队提出的Emu3模型，将文本、图像、视频统一离散化到同一表示空间，基于单一Transformer架构从零开始联合训练，仅凭“预测下一个词元”就实现了多模态生成与感知的统一。

实验显示，Emu3在文生图任务中性能比肩扩散模型，视觉语言理解能力媲美CLIP与大语言模型融合方案，还能以纯自回归方式生成高保真视频，支持视频延展、图文交错生成及机器人操作建模等多元任务。《自然》编辑点评称，该成果对构建可扩展、统一的多模态智能系统具有重要意义。

值得关注的是，该团队通过大规模消融实验验证了多模态学习的规模定律，证实直接偏好优化（DPO）可无缝适配自回归视觉生成。后续迭代的Emu3.5更实现“预测下一个状态”的能力跃迁，展现出泛化世界建模能力。

作为“悟界”大模型系列核心成果，Emu3的突破确立了自回归路线在生成式AI中的统一地位。智源研究院自2020年启动“悟道”大模型研究以来，持续深耕原始创新，此次成果进一步彰显了我国在人工智能基础研究领域的国际竞争力。

（受访者供图）

责任编辑：王倩

网友评论

最热评论

没有更多评论了

智源多模态大模型Emu3首登《自然》

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览