智源研究院在京发布Emu3.5多模态世界大模型

2025-10-31 11:35:36 来源: 科技日报点击数：

科技日报记者华凌

10月30日，智源研究院在北京举办“悟界·Emu系列技术交流会”，正式发布Emu3.5多模态世界大模型。据悉，该模型突破传统AI语言学习局限，开创多模态Scaling新范式，标志着人工智能加速从数字世界迈向物理世界，为通用人工智能发展奠定关键技术基础。

据了解，作为全球首个原生多模态世界模型Emu3的升级版本，Emu3.5实现核心技术跃迁：在“Next-Token Prediction”范式基础上，创新采用自回归架构达成“Next-State Prediction（NSP）”，获得可泛化的世界建模能力。模型依托超10万亿token的大规模多模态数据训练，视频数据训练时长从15年跃升至790年，参数量从8B提升至34B，成功揭示原生多模态Scaling的核心逻辑。

据介绍，高效推理技术成为一大亮点，Emu3.5创新提出“离散扩散自适应（DiDA）”技术，在不降低性能的前提下，将单图推理速度提升近20倍，首次让自回归模型生成效率媲美顶尖闭源扩散模型。其三大核心科技优势尤为突出：可理解人类高层意图并生成多步骤行动路径，能精准模拟物理动态与长时程因果关系，还能为AI与物理环境泛化交互提供认知基础，实现从“理解”到“行动”的智能跨越。

在应用场景中，Emu3.5展现出强大科技实力：多模态指导具备卓越时序一致性，图文编辑支持自然语言驱动的精准创作与时空变换，多模态叙事可生成沉浸式故事，更能实现跨场景具身操作与长距离一致交互。基准测试显示，该模型性能已超越多款知名闭源模型。

智源研究院院长王仲远表示，Emu3.5为通用人工智能提供了坚实实践路径，AI下一次跃迁将源于对现实世界的深层表征与行动指导能力。这款模型的发布，将推动多模态技术在智能交互、内容创作、具身机器人等领域的创新应用，引领人工智能产业进入全新发展阶段。

责任编辑：陈可轩

网友评论

最热评论

没有更多评论了

智源研究院在京发布Emu3.5多模态世界大模型

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览