科技日报记者 付丽丽
6月13日,北京中关村国际创新中心,一场特殊的“华容道”对弈正在上演。观众随手打乱棋盘,一台机器人静观数秒后,滑块便在其“指尖”有序移动,最终复原如初。这不是预设程序,而是机器人在执行指令前,先在脑中“预演”了每一步的后果。这一幕,发生在第八届北京智源大会现场。

作为人工智能领域最具影响力的学术盛会,本届大会汇聚200余位顶尖学者与40余位AI企业创始人,围绕下一代AI能力、大模型自进化等问题进行深入探讨。会上,星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国发布全球首个具身交互世界模型“ω-EVA”,首次实现世界模型落地机器人行动决策闭环。
“世界模型不应该只在训练时预测未来,而应该真正参与动作生成。”孙振国表示,具身模型最终应从一次性的预测和动作生成,走向持续感知、想象、修正,并从真实交互中更新自己。
当前,传统世界模型多承担离线预测、环境模拟等辅助功能,机器人只能被动执行指令,难以应对复杂物理环境的动态变化。ω-EVA首创“预演、验证、行动”决策闭环:机器人执行指令前,先预判动作带来的环境变化,再根据推演结果优化方案,构建起“动作提议—后果预演—动作修正”的完整逻辑,从根源上降低失误与碰撞风险。
在技术层面,该模型参数量仅1.2B,无需额外机器人专项预训练数据,全程在特征空间完成推理,规避了高算力消耗,可广泛适配端侧实时控制场景。权威测试显示,ω-EVA在单臂操作、双臂协同、长时序任务等场景中综合表现达行业最优:LIBERO测试平均成功率达98.6%,RoboTwin 2.0中经后果修正后成功率从88.9%提升至90.3%。
“ω-EVA重新定义了世界模型在机器人系统中的作用,让预测结果真正反哺动作生成。”孙振国认为,这款原创模型不仅补齐了具身智能领域的技术短板,还将赋能工业操作、服务、医疗等多品类机器人,加速通用具身智能走向规模化落地。
大会现场还展示了流水线智能分拣、机器狗清洁官、机器人咖啡服务等场景,机器人已形成“感知—理解—决策—执行—反馈”的完整能力闭环。人形机器人与人类进行的多回合自主乒乓球对抗,更直观呈现了端侧智能的实时闭环控制。
当下具身智能的竞争焦点,正从“能不能动”转向“动得稳不稳、准不准”,从“单次演示”升级为“稳定交付”。孙振国表示,下一代AI的价值,不只在于模型参数,更在于能否进入终端、进入系统、进入真实任务——这正是具身交互世界模型的使命所在。
(主办方供图)

网友评论