深瞳丨数据短缺，具身智能遭遇“成长的烦恼”

2026-05-13 20:35:49 来源: 科技日报点击数：

深瞳工作室出品

科技日报记者管晶晶张佳星策划刘恕李坤

让机器人开一颗核桃，它像磕鸡蛋一样把核桃砸向桌面；从冰箱里拿瓶矿泉水，机器人耗时10分钟才完成；让机器人叠衣服，它煞有介事不断瞄准、纠偏，最后还是揉成一团……

在成为“舞蹈演员”和“长跑健将”之后，机器人被要求做更多“务实”工作，却带来了很多令人哭笑不得的翻车场景。

“机器人要做到实用，必须面对丰富的物理世界，这需要大量的具身智能数据来学习训练。”复旦大学长聘特聘教授、飞捷科思智能科技（上海）有限公司创始人张立华告诉科技日报记者，“据不完全统计，全球范围内研发端对高质量数据的需求量约为120万小时，而全行业每月数据产出量仅为25万—30万小时。高质量具身智能数据稀缺已成为具身智能机器人发展的关键瓶颈之一。”

2026年被业界称为具身智能数据元年，具身智能机器人行业从算法驱动转向数据驱动，高质量数据正成为行业竞逐的基础性战略资源。

现有数据严重不足

近年来，人工智能大语言模型靠互联网上的海量文本数据学会了生成语言，发展突飞猛进。基于同样的逻辑，具身智能机器人需要依靠海量的人类动作数据，才能学会在真实世界里干活。

“用手捡起干木耳”这个对人来说轻而易举的动作，机器人需要调动物体材质辨识、空间姿态匹配等多个技能。“台上一分钟”稳定可靠的执行，需要台下亿万真实、高质量的人类动作数据作为支撑。

然而，机器人不像孩子一样“有样学样”。它们的学习数据集里，需要位置的坐标、力矩的量化、触觉反馈的标注等。因此，互联网上海量的文本、视频因缺乏动作数据并不能直接“喂”给机器人。

“大语言模型使用的文本数据或影音数据，本质上都是‘观察者视角’的静态数据，但具身智能需要‘交互者视角’的数据。一个符合要求的抓取动作数据，不仅要包含视觉信息，还应包含实时的力反馈、触觉感知以及电机扭矩的连续变化。”张立华向科技日报记者介绍说，目前互联网上几乎不存在现成的、能够直接映射到机器人感知与控制链路上的“多模态指令—动作”数据集，“我们面临的不是数据的优化，而是从零开始的原始积累”。

“完成一个高质量模型的训练，至少需要一千万小时量级的数据。”京东云产品经理蔡晨表示，当前市场上成熟的具身智能数据集只有几十万小时，远远不能支撑行业训练出高质量、通用的具身大模型。

在大语言模型领域，Token（词元）是通用的；但在具身智能领域，数据具有极强的硬件依赖性。由于机器人构型的限制，数据难以在不同机器人之间复用，这种“交流”困境，使得目前采集的数据极其碎片化，难以形成规模效应。

“举个例子，同样是机器人，身高1.2米和1.8米体态差异显著，即便抓取同等高度的物体，机械臂的运动行程也完全不同，因此1.2米机器人的有效数据很难直接迁移到1.8米机型上。”蔡晨告诉科技日报记者，无法让一份数据发挥十份的效能，也是具身智能数据短缺的一个重要因素。

与此同时，机器人模型的飞速发展亦使得数据短缺愈发明显。

具身智能机器人通常被划分为“大脑”“小脑”与“本体”三个核心组成部分，机器人“大脑”的核心是具身智能大模型。机器人处理的任务越复杂精细，具身智能大模型的结构就越复杂、参数规模也越大。模型参数好比机器人的知识记忆单元，参数数量越多，机器人的学习能力和智能程度就越高。

“现在机器人的模型参数规模已从几百万提升到几亿量级，数据短板问题日渐突出。”上海新时达电气股份有限公司具身智能高级研究员丛正告诉科技日报记者，以前几百万参数的模型，拿较少的数据就能训练达标。现在几亿参数的复杂模型，需要极大的数据量才能保障模型训练达标、实操稳定。

存在“不可能三角”

一只黑色的机械手稳稳夹住奶瓶，采集员操作另一只机械手舀入适量奶粉，不远处一个假娃娃正嗷嗷待哺……这不是沉浸式剧本馆里的角色扮演，而是北京人形机器人创新中心数据基地中，工作人员正在进行的数据采集工作。

“数据基地是机器人的‘知识生产者’。我们采用真机遥操作方式，按照采集、清洗、脱敏、检查、标注、质检等系列规范流程生产高质量数据。”北京人形机器人创新中心数据运营负责人孔超告诉科技日报记者，该基地日产能达600小时，已积累4万小时高质量具身智能数据，合格率稳定在95%以上。

目前，相较于通过爬虫程序大规模获取的互联网文本，高质量具身数据的获取手段极其繁琐且成本高昂。

中国科学院自动化研究所副研究员、北京中科慧灵机器人技术有限公司具身操作中心负责人周明才告诉科技日报记者，不同于大语言模型处理离散的Token，具身智能机器人需要连续的关节力矩、末端位姿和触觉反馈，这种毫秒级的精细操作数据依赖高精度的物理交互获得，因此采集门槛极高。

当前，具身智能数据的采集方式主要包括四类：真机遥操作、动作捕捉采集、人类行为视频和仿真合成数据。

真机遥操作，即人佩戴外骨骼设备或操控机器人进行“手把手”教学。这种方式物理交互强、数据质量高，但成本高、效率低，且会受到机器人本体和场景的限制。

除了“手把手”教学，也可以在人身上穿戴很多传感器，进行动作捕捉采集。这种采集方式在成本上低于真机遥操作，便于规模化采集，但因为人体和机器人构型存在差异，需要进行人机动作重定向处理。

人类行为视频，是在人们干活时拍摄视频，解析每个动作在空间的具体位置，供机器人学习。这种方式采集成本低、规模大，但缺乏位姿、触觉、力矩等精确标注，机器人难以学会精细动作。

出于成本考量，仿真合成数据也是当前具身智能数据的一大类别。仿真合成数据有点像打电子游戏，在一个虚拟环境里完成各种动作。这种采集方式可控可扩展，可覆盖各种危险场景，但存在仿真与现实的真实性鸿沟。“由于物理引擎很难100%还原真实世界的物体形变、摩擦力及细微物理特性，仿真数据往往存在偏差，直接迁移到机器人上时会出现‘水土不服’。”周明才坦言。

在孔超看来，当前具身智能数据存在一个“不可能三角”，即高质量、大规模、低成本三大要素无法同时兼得。

张立华对此表示认同：“‘不可能三角’确实是当前行业的核心矛盾。真机遥操作数据质量高，但面对需要数亿级样本才能实现泛化的大模型，一对一的采集方式无异于杯水车薪。普通视频、低保真仿真或粗标注数据等低成本数据，规模容易做大，但往往缺乏物理属性、动作可执行性和可迁移性，直接用于训练很容易造成模型‘看起来会、做起来不稳’。”

具身智能的数据稀缺，不是单纯的“量少”，而是能够支撑复杂物理推演的高质量、多模态、可对齐的数据极度匮乏。“这种短缺本质上是技术演进的必然阶段，谁能率先在数据自动化采集、异构数据归一化以及Sim-to-Real（仿真到真实）的高效迁移上取得突破，谁就将掌握下半场竞争的主动权。”张立华说。

多元数据融合互补

在江苏宿迁，京东机器人数据采集中心正源源不断地接收和分析来自快递分拣员、超市理货员的工作视频数据。“他们戴在头上的第一视角采集终端，可以精准标注手指的位置、弯曲度等信息。”蔡晨介绍，京东计划2年内完成1000万小时的视频数据采集，包括物流、零售、家庭等多场景。

随着硬件成本的下探和人形机器人进入小规模试产，业界越来越意识到，单纯靠堆人力去“教”机器人是不可持续的，行业共识正在从“单点采集”走向“多源融合”。

京东云通过数据的全链路处理，能够“一站式”实现人类行为视频、仿真合成与真机操作三类数据的价值转化与泛化扩增，从而整体提升训练效率。据蔡晨介绍，终端采集到的人类行为视频数据汇入AI数据湖平台后，依托PB级处理能力可自动完成清洗、对齐、转换及预标注，成为高质量训练数据的重要组成部分；构建仿真模型，批量生成高逼真度的仿真合成数据；同时，操控机器人完成任务获取的真机操作数据，也会回流至平台。

随着模型能力和视频识别提取能力的增强，第一视角的人类行为视频数据被大量用于机器人预训练。

“用大量视频可以训练机器人跳舞演出，但要实现工厂里的实际操作，还是会用真机遥操作的真实数据。因为机器人的手在空间中的真实位置和精细动作，用视频是训练不出来的。”丛正进一步解释道，比如拧螺丝，是一个相对精细的动作。不是每个螺丝都能正对着螺丝孔，可能会偏左或偏右，人拧的时候会知道倾斜一点用力，但让机器人完成这件事就需要用大量的真机遥操作数据去训练。这就是机器人的泛化能力。

“目前行业主流采用的是混合训练策略。企业不再单一依赖某一种数据源，而是将多种来源的数据按特定比例融合。这种组合既保证了动作的精准度，又兼顾了场景的泛化能力，是目前破解数据难题的最有效手段。”周明才说。

张立华也表示，单一技术路线很难同时满足规模、成本、精度和泛化要求，行业正在形成“人类视频注入通用物理常识、仿真合成覆盖长尾边界、轻量化采集扩充真实交互、高精度遥操作适配垂直场景微调”的融合路径。

孔超给记者举了个例子。“小孩有一定认知能力开始学东西时，你不用教得很具体，给他看大量东西，他自己也能慢慢认识不少。然后，再进行一些具体的纠偏，他就能做得很好。”

对于具身智能机器人企业而言，多元数据融合互补确实是当前最有效的路径。业内不少企业都采用从海量视频数据到高价值真机遥操作数据的递进式训练路径，先用低成本、大规模的视频数据打底，让机器人了解要干什么，再用高保真仿真模型生成大量可控数据，帮助机器人熟悉各种场景、泛化拓展，最后用高价值、小体量的真机遥操作数据进行纠偏和校准，让机器人完成精细动作。这样，高成本的真机遥操作数据无需承担全部训练任务，而是成为验证模型能力、修正偏差的关键锚点。

亟待统一标准规范流程

由于具身智能产业的发展高度依赖数据驱动，近年来，数据采集赛道吸引一众企业竞相入场、各显神通：有的研发升级采集设备，有的持续迭代物理仿真模型，还有的加大重资产投入，布局多构型真机遥操作采集……

高质量数据从来不是简单采集就可以形成的，而是需要一整套规范的流程作为保障。科技日报记者走访的多个企业都构建了自有的数据采集体系，然而不同企业和机构的数据存储格式、元数据形态、标注颗粒度都有差异，企业间的数据流通几乎成为奢望，一座座“数据孤岛”由此形成。在各自为战的模式下，大量资源被重复投入到相似的数据采集与技术研发中，造成严重浪费。

“当前行业最紧迫的需求不是单纯增加采集设备或者增加仿真场景，而是建立一套贯穿‘采集、生成、标注、清洗、训练、评测、反馈’各环节的行业通用数据标准。”张立华表示，统一具身智能数据标准的难点在于，它不是静态数据，必须与任务、机器人本体、物理环境和模型能力紧密耦合。没有统一的数据格式、物理属性标签、任务定义和质量评价标准，不同企业之间的数据很难流通共享。

机器人技术路线的分散是另一大障碍。不同构型的机器人在自由度、连杆长度、传感器分布和减速器的精度上各不相同，导致采集的数据很难迁移利用。

仅北京人形机器人创新中心数据基地，就采购了7个品牌120台不同构型的机器人开展真机遥操作数据采集，只为适配不同机器人企业的不同数据要求。

“跨本体的数据如何复用，也是个问题。”孔超进一步解释道，现在机器人种类繁多，本体形态差异显著，结构设计也多种多样，比如灵巧手设计从两指到五指不等。为一种机器人采集的数据，难以用于别的机器人，采集的数据难以共享不利于行业发展。“这不是数据采集行业的问题，而是机器人行业百花齐放的结果。如果要提高具身智能数据的流通性，机器人本身的构型标准也要相对统一。”

除了统一数据标准之外，张立华认为还需要提高具身数据的高保真物理表达能力。“机器人最终要在真实世界工作，数据必须反映真实世界的接触、力学、材质和因果关系。此外，数据评测也很重要，行业不能只看数据规模，而要看数据是否真正提升了模型在真实任务中的成功率、稳健性和安全性。”

责任编辑：苏菁菁

网友评论

最热评论

没有更多评论了

深瞳丨数据短缺，具身智能遭遇“成长的烦恼”

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览