深瞳丨具身智能机器人走进千家万户，难在哪儿

2026-07-01 21:24:53 来源: 科技日报点击数：

深瞳工作室出品

科技日报记者房琳琳龙云龚茜李林旭江耘吴纯新策划冯卫东房琳琳

从春晚舞台到马拉松赛场，人形机器人频频出圈，具身智能技术迎来快速迭代风口。

政策利好持续释放。日前，工业和信息化部、国务院国资委联合印发《关于联合开展2026年度人形机器人与具身智能实景实训专项行动的通知》，明确2026年底实现重点产品常态部署、万台级规模落地的目标。

市场预期也不断走高。行业报告预判，2026年有望成为人形机器人“量产元年”，中国具身智能机器人市场规模将突破110亿美元，占全球超三分之一的市场份额。多重红利加持下，具身智能产业步入发展黄金期。

但聚光灯下藏着尴尬：大量人形机器人能流畅完成跑跳、舞蹈、特技等高难度动作，可一旦走进真实家庭场景，不免频频露怯。

从“明星样机”到“量产落地”，具身智能机器人进家门，究竟还要闯几道难关？

听懂与做到之间，“理解”很难

家庭环境是一个相对开放、不断变化的物理环境。同样一张桌子，今天放着水杯，明天可能放着水果、玩具或者药品；老人、小孩、宠物都会不断改变环境状态。

家庭是典型的非结构化环境，不固定的环境、不固定的任务、不固定的家庭成员习惯，正是它区别于标准化工业场景的本质。极佳视界合伙人、研发副总裁叶云对记者这样解释。

这意味着机器人在家庭中，面对的是一个时时变化的开放世界。

中国科学院自动化研究所研究员陈盈盈说，具身智能机器人在“非结构化开放世界”中的泛化能力不足，是其进入家庭场景最大的技术障碍。

她举了一个简单的例子：“桌子边缘放着一个半满的玻璃杯，机器人不仅要识别‘这是杯子’，还应推断出它是易碎的、里面有液体、轻微碰撞就可能掉落。”

叶云也用“那杯水”解释道，对机器人说“把桌上那杯水递给我”，它在语言层面完全能理解。但真要动手，它得知道什么是桌子和杯子，以及杯子在三维空间中的确切位置，该用多大的力握持杯子，水满时移动要平稳，递到人手里时要等对方握住才能松手。

“但这些都不是写在指令里，而是刻在物理世界的规律里。机器人能‘听懂’指令，但距离‘做到’，还需要它对三维空间、物理因果、动力学规律有深刻的‘理解’”。

目前，很多机器人通过训练已经能够认出一个杯子，但认出杯子和“理解什么是杯子、像人一样识别杯子”完全是两回事。仝人智能科技（西安）有限公司创始人、总经理吴易明说，“理解”是最核心的关键词。

“当前行业讨论最多的是模型、算法和参数规模，但机器人想要进入家庭，真正需要突破的，是像人一样理解物理世界、理解空间关系、理解事物共性的能力，这需要智能科学底层理论的突破。”吴易明认为，“只有真正具有了‘理解能力’，像人类一样理解自己与整个物理世界之间的关系，机器人才能服务家庭真实需求，在复杂多变环境中应对各种挑战，乃至像人类一样使用传统工具来服务人类。”

“那么，人类是怎样理解真实世界的？”面对记者的追问，吴易明提到了图式理论（Schema Theory）中“理解”的定义，就是用头脑中已有的图式（结构、框架、认知程序）去解读一个事物。

“我们希望机器人能直接理解真实世界，这首先来源于它对传感信息的获取，以及参照人类认知过程，建构的与其外部世界的映射关系。其中，理解的核心是‘识别’，这种能力让机器人能够举一反三且区分更具体的差异。”

还是以“那杯水”为例。吴易明希望，具有“理解”能力的具身智能，不需要通过认识一万个杯子，只要看到一个新杯子，就能知道它是杯子；在知道它们都是杯子的基础上，还能分辨出哪个是你的杯子，哪个是我的杯子。

“机器人拥有了像人类一样的理解能力，就能理解空间关系、远近关系以及一些最基本的物理常识，例如物体为什么会掉落、为什么会反弹……而这些都是人类成长过程中天然具备的能力，也是机器人真正具备智能的重要基础。”吴易明进一步解释。

“遗憾的是，到目前为止，我们还缺乏一个关于真实世界的动作模型，缺乏一个对时间、空间、物理规律乃至多模态、全模态进行理解、推理、规划、决策的模型。”智源研究院院长王仲远坦言，以语言为主导的基础模型，并不是高效编码三维空间、物理因果与动作信息的架构。

数据与算法之间，“融通”很难

5月31日起，极佳视界研发的第一代家庭通用人形机器人“拾光S1”正式进入武汉光谷之寓社区，开始进行真实家庭场景测试。它已经能在真实家庭里分拣叠放衣物、取放餐具、整理厨房、桌面归位、跨房间取送物品，还能做一些陪伴交互的长程任务。

但从一个社区“跑通”几项任务，到适配千家万户，中间的路还很长。也就是说，具身智能机器人进入家庭面对“千变万化”的情况时，能否真正完成细致而微的任务？

叶云认为，基础瓶颈有两个：一是缺乏规模化的、能够描述物理规律的数据体系；二是缺乏能够高效学习物理规律的算法架构。

先说数据，成本居高不下不容忽视。大语言模型有海量互联网文本“喂”着，但具身智能需要的真实家庭数据“极其稀缺、采集成本极高”。

清华大学副研究员、浙江清华柔性电子技术研究院工业具身智能实训中心主任陈毅豪给记者算了笔账，真实家务场景中的触觉、力控和交互数据极为稀缺，而如果让真机挨个场景去采集，成本高得离谱。“按传统采集速度，攒够训练通用家庭机器人的数据量可能需要上百年。”他说。

安徽科大硅谷片区企业如动科技创始人兼总经理朱宝认为：“物理世界存在机械臂阻力、光照变化、地面扰动等固有随机变量，预训练数据集无法覆盖全部真实工况，导致具身智能机器人在家庭、户外等开放环境中容易行动失灵。”

陈毅豪的团队换了一条路——推出“无本体数据采集”模式：无需机器人到场，由人员穿戴轻量化柔性传感设备完成家务，同步记录动作与触觉数据，再经算法映射为机器人可学习样本。他所在的中心计划以有偿方式面向社会开放采集，预计今年完成60万小时，2027年冲刺150万小时，到2028年建成国家级高质量数据集。

数据采集解决的只是“燃料”问题，但用什么“发动机”来驱动具身智能机器人？这涉及算法架构与技术路线的选择。

当前业界探索具身智能主要有三条技术路径：数据驱动、端到端和认知驱动。吴易明认为，“前两种都推崇规模定律，信奉大力出奇迹，也都通俗易懂、容易出圈，吸引了大量资源加持。但到目前为止，还没有显示度较高的代表性突破和落地应用。”

叶云对技术路线的三层架构是：基于大规模数据预训练实现的世界模拟；基于真机数据、真人数据、仿真合成数据实现的动作对齐；基于真机数据、仿真合成数据的持续强化。他认为，“这几条路径不是非此即彼的单选题，这正是我们提出‘双金字塔’体系的出发点：用世界模型（World Model）把互联网视频、真人数据、仿真合成数据、真机数据全部打通利用起来，理解基础的物理规律，获得动作生成的能力。用在线强化学习，让机器人在真实环境中实现持续的自我进化。”

“数据金字塔”由互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据五层构成；“算法金字塔”由世界模拟、动作对齐、经验强化三层构成。两座“金字塔”相互咬合，让机器人先从海量数据中学会“世界是怎么运转的”，再学会“怎么把事做对”，最后在真实使用中持续强化、越用越聪明。

回到家庭场景最具挑战的“三个不固定”难题，叶云的解决方案是，“不靠为每个家庭场景单独编程，要靠基础模型具备的通用适应能力”。他所在的极佳视界公司，已对世界模型进行了多次迭代。仅在动作对齐层面，其世界动作模型（World Action Model，简称WAM）就能以约十分之一的实验数据量，达到全量数据训练的能力水平。

吴易明反复强调，“智能的本质不是记忆世界，而是理解世界。光靠数据训练实现不了真正的智能。世界不是随机样本的集合，而是可被理解的关系结构。”

仝人智能科技（西安）有限公司的解决方案则是，用统一数学方法表征空间结构，进而表征物理世界规律，依托自主研发的具身智能操作系统，构建起直接与真实世界自主交互和执行任务的智能技术体系。

深化系统融合和打造通用智能，似乎是目前破解数据和算法双重困局的有效之道。但业界深知，从“跑通一个社区”到“自主适应千万家庭”，中间这道鸿沟并不窄，或许需要两条腿同时向前迈进：一边用海量数据训练出泛化能力更强的模型，一边在底层理论上寻求对物理世界表征的根本性突破。

安全与信任之间，“靠谱”很难

2025年11月，Figure AI公司前产品安全主管罗伯特·格伦德尔在提交给美国联邦法院的诉状中披露，一台Figure 02机器人在内部测试中故障，机械臂在不锈钢冰箱门上划出了一道四分之一英寸深的凹痕。

“一台体重八九十斤的机器人一旦在家庭中倾倒，即使感知和决策系统再安全，也可能危及家庭成员。”天津大学讲席教授、博士生导师孙涛提醒。

他对记者解释了背后原因：现在多数人形机器人的机械臂采用高刚度位置控制模式，电机被强制驱动到预设坐标。在家庭杂乱光线中一旦视觉感知出现厘米级误差，机械臂就会以几十公斤的刚性冲击力撞向目标以外的东西。

陈毅豪的解释是：“大型人形机器人肢体活动范围广，仅靠预设轨迹运行，根本感知不到后方、侧方靠近的人和宠物，很容易发生磕碰伤人事故。”

这需要进入家庭的具身智能操控更加细腻精准，毕竟机器人“手脚”的可靠程度，直接决定了它能否被迎进家门。

孙涛的团队正在尝试模仿人体的肌肉和筋腱，用更轻巧的驱动方式替代笨重的电机直驱。通过仿生设计，让机器人在减轻自重的同时提升负载能力，从机械结构层面增强物理安全性。

陈毅豪透露，他所在的中心正研发全域避障防护系统，其中包括覆盖机身的电子皮肤薄膜压力传感器，触碰即刻停机，还包括分布式薄膜超声波传感器，类似汽车倒车雷达，可提前探测靠近的人或物体并主动减速，全方位保障人、机、物的安全。

此外，他们还基于柔性电子和电子皮肤技术，研发了搭载触觉感知的末端执行器，让机器人能识别物体冷热、光滑、粗糙等物理属性，自主判断抓取力度和夹持角度，破解“想干活”却“干不好”的核心痛点。

信息安全门槛同样绕不开。今年第三季度起，“拾光S1”机器人将分批进入住户家中，开启规模化运营。这有可能是全球范围内首例通用人形机器人在真实家庭场景实现规模化部署。家庭是私密空间，迎接一个机器人进门，不管它的身份是“保姆”“护工”还是“小时工”，都相当于接了一个24小时在线的数据采集终端。它采集数据时，是否有边界？边界在哪？

陈盈盈认为，“端侧智能处理，能让机器人的‘大脑’在不联网的状态下，在本地完成理解和决策，实现数据不出家门，从而守住家庭数据隐私。”

“把机器人安全地交到普通家庭手里，需要在真实场景中长期验证打磨，是一件需要心怀敬畏的事。”叶云如是说。

许华哲是清华大学助理教授、破壳机器人创始人，此前曾任星海图联合创始人兼首席科学家。他很乐观：“工厂中重复单一的作业数据无法支撑机器人理解真实世界的复杂性。家庭数据足够混乱、足够多元，这种非结构化环境，恰恰是孕育真正通用智能和促进技术快速迭代的最优土壤。”许华哲相信，家庭机器人将在不远的未来真正到来，重新定义人类的生活方式。

记者手记丨前路虽远，行则将至

龙云龚茜

过去一段时间，记者密集采访了多位具身智能领域的技术专家与产业人士。一个直观的感受是：这个行业正处在从技术验证向场景落地跨越的关键阶段。

产业端的落地节奏在明显加快。行业普遍将2026年视为人形机器人的量产元年。然而，“演示”与“现实”存在落差——在发布会和展区各显神通的人形机器人们，一旦置身于真实家庭环境，任务完成效果不如预期。

尽管存在挑战，但在采访中，记者能明显感觉到，业界的探索始终保持着积极态势。真实世界的服务缺口显而易见，无论是协助照顾老人、还是帮助打理家务，这些看似琐碎的生活日常，背后实则是一个规模庞大且亟待满足的刚需市场。

随着政策加码与资本涌入，聚焦具身智能的研发团队正在高速推进技术迭代。各条技术路线都在并行探索：有人聚焦仿生驱动技术，力求让机器人更加轻便安全；有人深耕电子皮肤领域，赋予机械臂精准感知与力度控制的能力；还有人直接将机器人引入社区，在真实场景中进行测试与优化。

然而，从原型演示走向工程化部署，横亘着系统集成、可靠性、成本与稳定性等多重壁垒。面对这些壁垒，产业界迎难而上，不断试错与前行。

近日，2015年图灵奖得主、公钥加密技术奠基人惠特菲尔德·迪菲在回应“机器智能将会统治世界吗”这个问题时，给出了一个耐人寻味的答案：“会的。但人和机器之间不会有一场战争，因为我们会欣然接纳它们的帮助。”迪菲预判，人机和谐共存的时刻，预计将在本世纪上半叶结束前到来，甚至可能更早。

这番论断听起来颇有些科幻色彩，但回看当下的产业现场，智能机器正在以肉眼可见的速度嵌入日常生活，迪菲的预判似乎并非遥不可及。不过，从跑通演示到稳定服役，中间还有大量工程化的硬骨头要啃。

采访中大家达成了一个共识：家庭场景的复杂性固然让人头疼，却也是孕育通用智能的最优土壤。技术不可能在无菌的实验室里完成所有进化，它必须扎进真实生活的褶皱中反复打磨，才能真正蜕变成一个懂事、靠谱的伙伴。

责任编辑：苏菁菁

网友评论

最热评论

没有更多评论了

深瞳丨具身智能机器人走进千家万户，难在哪儿

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览