通用世界模型:连接数字世界与物理世界的桥梁

2026-04-02 10:46:50 来源: 科技日报 点击数:

科技日报记者 马爱平

3月29日,由北京市海淀区人民政府与北京国有资本运营管理有限公司联合主办的2026中关村论坛年会“人工智能主题日”特色主题论坛“AI未来论坛:跃迁·投资·共生”在中关村国际创新中心举办。

在“前沿Tech Show”环节,生数科技创始人、清华大学人工智能研究院副院长朱军教授发表题为《通用世界模型:连接数字世界与物理世界的桥梁》的主题演讲。

长期以来,具身智能面临“数据墙”——真实世界的轨迹数据成本高、规模小,难以支撑模型泛化。对此,朱军表示,视频,是当前最接近真实世界的数据形态。

“相比语言,视频天然包含时间信息、空间结构和物理交互过程。这使其成为连接数字世界与物理世界的关键载体。”朱军说,“基于这一判断,我们构建了以视频为核心的数据体系——从海量互联网视频,到第一视角操作视频,再到机器人数据,形成一个可扩展的数据金字塔。在这一体系下,即使缺乏大量标注数据,模型依然能够学习到有效的行动能力。”

朱军介绍,在长期的视频大模型的技术积累上,团队逐步构建起通用世界模型布局,即以基座世界模型为核心底层,向上延展出贯通数字空间与物理空间的双轨体系,形成面向通用智能的核心基础架构。

“在底层能力上,该基座世界模型通过积累视觉、听觉、触觉等多模态信息,构建对世界的统一认知与建模能力,为上层应用提供统一的智能底座。”朱军说,“在数字空间,我们基于世界生成模型打造视频大模型Vidu。Vidu能够显著提升数字内容的生产效率,最终实现数字世界的通用人工智能。在物理空间,我们基于世界行动模型构建统一世界模型产品Motus。Motus作为真实世界具身智能的‘大脑’,可实现真实世界下的零样本泛化与跨本体适配,推动机器人从‘模块化执行’向‘统一智能体’跃迁,最终实现物理世界的通用人工智能。”

“通过构建起贯通理解世界、生成世界与行动于世界的完整技术闭环,可以使通用世界模型真正成为连接数字世界与物理世界的桥梁。”朱军说,随着相关技术持续演进,通用世界模型也将加快走向真实产业场景,释放更大的技术价值与应用潜力。

(受访者供图)

责任编辑:李梦一
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览