科技日报记者 杨雪
近日,大晓机器人联合香港中文大学多媒体实验室发布全新“一脑多型”具身操作VLA(视觉语言动作)模型ACE-Ego,并向行业开源。作为“以人为中心(Human-centric)”ACE研发范式在具身模型预训练的核心落地成果,ACE-Ego提出大规模第一视角人类视频与多型机器人数据高效联合预训练的新范式,在两大国际权威具身智能基准上双双领先,并在复杂零售场景中展现出强泛化落地能力,为具身操作模型的规模化演进开辟了全新路径。
在国际公认的人形机器人操作基准RoboCasa GR1 TableTop上,ACE-Ego以72.8%的平均成功率刷新当前最高纪录,夺得榜首;在高难度双臂操作基准RoboTwin 2.0的强域随机化测试中,ACE-Ego以90.62%的成功率展现出远超行业平均水平的环境鲁棒性。
2025年12月,大晓机器人提出“以人为中心”的ACE具身研发范式,将人类与物理世界的互动规律作为核心研究起点,构建了一套从“环境式数据采集—开悟世界模型3.0—具身交互”的全链路技术体系。不同于行业传统“以机器为中心”、依赖大批量高成本真机遥操作数据的路线,ACE-Ego将海量低成本的第一视角人类视频转化为可用于模型训练的有效监督信号。通过统一相机空间动作表示、统一本体形态编码、时间对齐动态分块、可靠性自适应目标函数四大核心机制,它破解了人与不同型号机器人数据在空间坐标系、本体结构、时序频率、标签质量上的四重异构难题,实现使用大规模高质量人类第一视角视频与数千小时多机型机器人数据的协同训练。
实验结果证实了大规模第一视角人类视频能够有效提升VLA模型预训练和下游适配能力:在 RoboCasa基准上,引入第一视角人类视频进行联合预训练,相比于仅使用机器人数据进行预训练,模型成功率从68.3%提升至72.8%,实现了4.5%的显著性能跨越。充分证明了“以人为中心”的大规模数据预训练对提升具身模型泛化能力的巨大价值。
目前,ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,覆盖商品整理、打包履约等典型线下零售环节,突破了此前模型仅能完成简单桌面抓取的能力边界,为具身智能走向产业规模化落地提供了高性价比的技术方案。

网友评论