冯妍 科技日报记者 王春
以人形机器人为代表的具身智能,想要真正走进工厂、家庭、社会场景,承担更多工作,不仅要学会执行动作,更要理解动作与真实世界之间复杂的物理关系。
6月16日,在上海举办的2026张江具身智能供应链大会上,多名业内专家来到“世界模型前沿:物理世界的理解、预测与生成”圆桌论坛,就当前世界模型的发展与应用,分享前沿进展和观点。
训练世界模型需要丰富、高质量的真实世界数据,尤其是第一人称视角数据。“第一人称视角的数据既包含真实的成功,也包含真实的失败,而真实的失败数据对训练来说也非常宝贵。”北京流形空间科技有限公司(以下简称“流形空间”)创始人兼CEO武伟说。流形空间成立于2025年,是一家研发具身智能世界模型的创业公司。
对于世界模型而言,如果训练数据只包含标准动作,面对物理世界中可能出现的种种意外情况,例如背景变化或是光线条件不同时,模型就可能难以准确预测。以自动驾驶场景为例,人类之所以能够很快学会驾驶,并非仅仅由于接受了驾驶训练,也是因为之前已经有了多年的生活经验,形成了属于自己的“世界模型”。
收集真实世界数据需要丰富的真实场景。“京东作为一个大规模的零售平台,天然拥有丰富的供应链场景。”京东集团副总裁、京东云基础云总经理龚义成说。依托京东在算力基础设施、大模型技术及产业场景上的积累,2026年4月,京东推出了全球首个全链路具身智能数据基础设施,以自研可穿戴式超高清采集终端采集多个场景数据,可在多种场景下“即戴即采”,让普通人也能完成专业级数据采集。

记者了解到,行业内正积极探索如何将VLA模型与世界模型结合,整体处于快速试错与范式探索阶段。“当前的AI训练需要提供一套能够兼顾灵活性和效率的训练框架。”百度智能云主任架构师应茹在大会的专题讲座上说。她介绍,百度专为AI计算设计的高性能算力平台“百度百舸”正在引入世界模型,并针对行业内普遍存在的模型结构高度模块化的同时结构频繁迭代的痛点,研究设计高效的解决方案。

网友评论