科技日报记者 华凌
近日,北京人形机器人创新中心开源全新具身世界模型WoW(World-Omniscient World Model),攻克机器人理解物理世界的核心难题,获Huggingface官方盛赞及斯坦福等学界引用,标志我国在该领域跻身世界前列。
相较于仅能“看世界”的Sora系列,WoW实现从“观察”到“理解”的跨越,构建融合视觉、动作、物理感知与推理的统一框架。其核心突破在于四大技术组件:DiT世界生成基座模型作为“物理引擎+想象系统”,从200万条高质量交互轨迹中学习物理规律;FM-IDM逆动力学模型实现“视频到动作”闭环,能从视觉预测反推可执行的机器人运动指令;SOPHIA范式通过“生成-批评-修正”迭代循环,模拟人类智能的反思过程;全球首个具身世界模型基准WoWBench,则建立起感知理解、预测推理等四大维度的量化评估标准。
实测显示,WoW在物理一致性上优势显著,复杂动力学场景表现领先,驱动机器人完成简单任务成功率达94.5%,中等难度任务成功率75.2%,生成动作可直接部署于真实机械臂。此次开源涵盖1.3B至14B参数的预训练模型、推理代码等,大幅降低行业研究门槛。
作为“最能跑、最好用”的技术延伸,WoW模型可赋能机器人自主完成抓取、装配等任务,还能实现数据自生成与优化。这一突破进一步夯实北京人形机器人创新中心的技术领先地位,加速具身智能机器人落地应用。