智源研究院在京发布Emu3.5多模态世界大模型

2025-10-31 11:35:36 来源: 科技日报 点击数:

科技日报记者 华凌

10月30日,智源研究院在北京举办“悟界·Emu系列技术交流会”,正式发布Emu3.5多模态世界大模型。据悉,该模型突破传统AI语言学习局限,开创多模态Scaling新范式,标志着人工智能加速从数字世界迈向物理世界,为通用人工智能发展奠定关键技术基础。

据了解,作为全球首个原生多模态世界模型Emu3的升级版本,Emu3.5实现核心技术跃迁:在“Next-Token Prediction”范式基础上,创新采用自回归架构达成“Next-State Prediction(NSP)”,获得可泛化的世界建模能力。模型依托超10万亿token的大规模多模态数据训练,视频数据训练时长从15年跃升至790年,参数量从8B提升至34B,成功揭示原生多模态Scaling的核心逻辑。

据介绍,高效推理技术成为一大亮点,Emu3.5创新提出“离散扩散自适应(DiDA)”技术,在不降低性能的前提下,将单图推理速度提升近20倍,首次让自回归模型生成效率媲美顶尖闭源扩散模型。其三大核心科技优势尤为突出:可理解人类高层意图并生成多步骤行动路径,能精准模拟物理动态与长时程因果关系,还能为AI与物理环境泛化交互提供认知基础,实现从“理解”到“行动”的智能跨越。

在应用场景中,Emu3.5展现出强大科技实力:多模态指导具备卓越时序一致性,图文编辑支持自然语言驱动的精准创作与时空变换,多模态叙事可生成沉浸式故事,更能实现跨场景具身操作与长距离一致交互。基准测试显示,该模型性能已超越多款知名闭源模型。

智源研究院院长王仲远表示,Emu3.5为通用人工智能提供了坚实实践路径,AI下一次跃迁将源于对现实世界的深层表征与行动指导能力。这款模型的发布,将推动多模态技术在智能交互、内容创作、具身机器人等领域的创新应用,引领人工智能产业进入全新发展阶段。

责任编辑:陈可轩
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览