具身智能产业深度研究：大模型与数据为人形机器人打开脑洞

发布时间：2025-09-22 11:57 浏览量：18

具身智能本质特点是具备理解物理世界并与之交互的能力，实现机器人控制从指令执行到自主决策的转变。非具身模型如大语言模型 LLM 依赖静态数据，专注文本/图像等信息的理解与生成；具身大模型需整合机器人本体、场景依赖数据、多模态算法等要素，目标是实现与物理环境的交互，构建“感知-决策-执行”闭环。相比于传统机器人控制，具身智能的核心转变是实现了自主决策，让机器人从根据指令执行特定任务的机器进化为持续与世界交互的智能体，因此大模型与数据是人形机器人最核心的环节。大模型是具身智能的引擎，分层端到端架构为当前主流技术路线。具身大模型几种技术路线中，端到端架构直接构建“视觉+语言输入->动作输出”链路，系统简洁但需万亿级长任务数据，泛化性与推理速度受限；分层端到端架构可拆分为基础大模型、决策大模型与操作大模型三个层次，数据需求相对较低、泛化性强且可模块化升级，成为当前主流技术路线。分层端到端架构中，第一层基础大模型为感知与理解中枢，通过整合语言指令与视觉信号实现对复杂场景的语义解析和空间推理；第二层决策大模型为任务拆解与规划中枢，将复杂任务拆解为可执行的子任务序列，并调度下一层进行执行，技术发展路径从基于 LLM 的规则拆解向强化学习 RL 驱动的自适应规划演进；第三层操作大模型为硬件执行中枢，将上一层生成的抽象指令转化为控制硬件的精确信号，技术路径正从 MPC+WBC 向 RL+仿真演进。

数据是具身智能的燃料，真实采集数据与仿真合成数据协同应用。真实数据保留物理世界真实性与闭环反馈，但成本高、规模化难；合成数据可快速批量化生成，但仍然存在虚实差距（Sim2RealGap）等问题。行业实践中多采用真实数据与合成数据协同应用的方式，英伟达从少量人类示范数据中生成大规模合成数据，仅用 11 小时就生成了相当于 9 个月的人类演示数据，将合成数据与真实数据相结合训练后性能提升了 40%；特斯拉以真实数据为主，主要通过动作捕捉技术采集数据，以仿真合成数据为辅，构建虚拟仿真场景以训练算法应对不同环境的性能；银河通用则采用 99%的合成数据和 1%的真实数据，高效完成 pick&place 等任务。

2.1. 具身智能本质特点是能够与物理世界交互

具身智能与非具身模型的本质区别，在于是否具备理解物理世界并与之交互的能力。对于非具身模型，以大语言模型 LLM 为例，仅依赖输入静态数据与算法，专注于文本生成和理解任务（如翻译、问答），通过海量语料库训练实现通用语言能力。而具身智能大模型需整合机器人本体、场景依赖数据、多模态算法等要素，目标是实现与物理环境的交互（感知、决策、执行），强调实时性和动作成功率。

具身智能可动态规划工作流，根据环境反馈实时调整行动。大语言模型虽然能实现复杂的信息层面理解，但局限于“感知、决策、执行”的第一环节，无法生成控制物理世界的动作指令。具身大模型则需要构建完整的"认知、决策、行动"链路，实现对物理世界的精准干预。具身智能的核心突破正在于打通环境感知、任务规划与硬件驱动执行三个关键层面，形成与物理世界交互的闭环能力。

感知层面，具身大模型的环境感知突破了静态识别的局限。非具身大模型仅处理孤立图像与文本，缺乏时空连续性和物理感知，而具身智能系统通过多模态融合实现动态建模。特斯拉 Optimus 采用纯视觉方案，通过多个高分辨率摄像头构建环境感知网络；国内自动驾驶与机器人企业多采用“激光雷达+视觉融合”方案，实现融合感知。两种路线虽各有侧重，但共同目标是实现环境的动态建模，这种时空连续的感知能力为物理交互奠定基础。决策层面，具身大模型实现了从规则拆解到自适应任务规划的进化。传统模型对任务步骤拆解仅基于文本知识，缺少物理约束，而具身系统采用强化学习与大语言模型融合的架构。Figure01 通过模仿学习，10 小时内学会煮咖啡并自主调整胶囊位置；谷歌 RT-2 借助思维链推理，能解决需要物理常识的问题。执行层面，硬件驱动是具身大模型的独特优势。非具身大模型不具备硬件控制能力，而具身系统通过端到端架构实现精准物理控制。Figure02 的 16 自由度灵巧手运动范围接近人类手的指部灵活性，物流分拣中通过触觉反馈调整抓握力；特斯拉 Optimus 基于 FSD 系统的端到端神经网络，将图像输入映射为关节控制信号，在电池分拣时能自主纠正倾倒的积木。

2.2.具身智能实现机器人控制从指令执行到自主决策的转变

相比于传统机器人控制，具身智能的核心转变是实现了自主决策。传统机器人系统控制本质是功能组件的机械协同，而具身智能则构建了一个能在物理环境中自主存续的完整行为个体。具身智能大模型让机器人从执行特定任务的机器，进化为持续与世界交互的智能体。与传统机器人的指令执行模式不同，具身智能系统通过预测性世界建模实现前瞻式决策。上海 AI 实验室开源的 AETHER 模型展示了这一能力，通过“重建—预测—规划”一体化框架，在真实环境中完成毫米级 4D 动态重建，并基于相机轨迹预测未来场景变化。Meta 的 Embodied AI 代理通过这种预测性世界模型实现了零样本泛化，使智能体能够在未见过的环境中进行有效导航和交互。

模型泛化性能、响应速率与训练数据规模等，是当前端到端具身大模型面临的核心挑战。当前阶段的具身智能大脑已具备认知、推理与规划能力，且其小脑层面的机器人技能任务训练，亦依托深度学习技术实现驱动。伴随应用场景的持续拓展与数据量的积累，若干特定领域小模型将逐步泛化演进为通用操作大模型，并最终完成与上层模型的深度融合。

3.1. 模型架构方面，主要有端到端和分层端到端两类路线

当前具身大模型的技术路线呈现多元发展态势，主要分为端到端和分层端到端两类。（1）端到端大模型，以谷歌的 RT 模型为代表；（2）基于 LLM 或 VLM 的分层端到端大模型，大多数的机器人公司都采取了这个方案，典型代表有： TeslaFSD，FigureAI，星海图，银河通用，智元机器人等。

端到端大模型直接构建“输入（视觉+语言）→输出（动作控制）”映射，不拆分中间环节，同时训练决策与操作能力。这种方法架构以视觉-语言-动作 VLA 模型为核心，感知、决策和执行模块的紧密集成使系统能够更有效地处理复杂任务并适应动态环境的变化。这种集成还有利于实时反馈，使智能体能够自我调整策略，从而增强任务执行的鲁棒性和适应性。谷歌 DeepMind 的 RT 模型是端到端技术路线代表。RT-2 模型通过将网络知识转移到机器人控制中，显著提升了机器人泛化能力。该模型基于 PaLM-E 大模型架构，能够接收图像和文本指令作为输入，直接输出夹爪末端动作。

端到端架构的优势体现在系统简洁性与全流程可微性。端到端架构无需设计复杂的中间规则与表征，减少人为设计偏差，并且从感知到执行全过程支持端到端优化，理论上可达到全局最优。知识融合能力上，端到端能够自然地将大语言模型中编码的语义知识转化为机器人可执行的动作策略。算力优化上，NVIDIA 提出的蓝图模型、HuggingFace 的 SmolLM 等小语言模型技术进一步优化了算力需求，降低端到端系统的计算需求，支持大规模并发推理。但是，端到端架构更加复杂、训练成本更高、所需数据量更大，尤其是在处理复杂或长期任务时更加突出。端到端架构的弊端包括：1）需要大量真实长任务数据才能有效，且要覆盖所有可能的任务，所需的数据量估计需要达到万亿级别。以谷歌的 RT 模型为例，谷歌花了上千万美金、16 个人、耗时 17 个月，收集得到了 13 万条厨房数据训练 RT，模型在厨房表现很好，但除了厨房成功率却骤降至 30%。泛化性低一定程度上是由于数据采集没有做到 scalable，归根到底是由于机器人的物理数据不如互联网图像/文本数据那样大量且易得。与自动驾驶这一单一任务相比，如果每种任务都需要自动驾驶那么多数据，总体所需的数据量将达到巨大的数量级。2）推理速度慢。RT2 采用的 LLM 是谷歌的 PaLME，频率 1-3Hz，响应速度 0.3s~1s。

分层端到端将具身智能系统拆分为多个专用模块，通常包括“基础大模型→决策大模型→操作大模型”三层架构。分层端到端路线首先利用视觉—语言模型(VLMs) 或大语言模型(LLMs)解释多模态输入，然后执行高层规划和任务分解，生成可执行代码、函数调用或指令等中间控制信号；这种分层设计允许系统在不同抽象层次上优化性能，同时保持模块间的交互灵活性。典型的分层架构包括：1)感知模块：处理多模态传感输入，构建环境表征；2)规划模块：生成高级任务计划和策略；3)控制模块：将高级规划转化为底层运动控制指令。

Figure01&Figure02 是分层式端到端典型代表之一。在 Figure 发布的演示中， Figure01 能理解周围环境，流畅地与人类交谈，理解人类的需求并完成具体行动，包括响应人类想吃东西的问题递过去苹果，然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因，将杯子和盘子归置好放在沥水架上。在 Figure01 的视频里，OpenAI 提供了视觉和语言理解能力，而 FigureAI 则提供了机器人的动作规划和控制能力。OpenAI 和 Figure 合作用的小模型，动作输出频率 200Hz，从 Figure01 的 Demo 视频展示中，响应速度几乎没有时延。而 Figure02 搭载了机载视觉语言模型 VLM，通过机载麦克风和扬声器，实现了与人类的高效对话，具备了快速的常识性视觉推理能力，能够自主执行多种复杂任务。

银河通用也是分层式端到端技术路线的典型代表。银河通用采用三层大模型系统，底层是硬件层，中间层是一些响应快小模型（如：三维感知、自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等），上层是用来做推理慢的做任务规划的大语言模型 LLM。当得到指令，LLM 负责分析，安排调度具体的小模型 API。小模型执行完后，LLM 分析结果，研究下一步该怎么做。

分层端到端方法的主要优势在于平衡了系统性能与实用性。1)数据需求合理化，无需覆盖所有可能场景，可通过技能复用机制有效拓展任务覆盖范围；2)泛化能力增强，支持新场景快速适配；3)可解释性提升，分层架构使系统决策过程更加透明，便于调试和优化；4)模块化升级，各层可独立优化和更新，无需重训整个系统。除开端到端与分层端到端之外，还有一种“端到端+分层端到端”混合架构，结合了前者的简洁性与后者的精确可靠性。NVIDIA GR00TN1.5 是混合技术路线典型代表，是一种深度耦合的双系统（System1&System2）端到端训练架构，并非简单的端到端，也不是完全独立的分层架构。System2(慢思考-推理)：核心是一个冻结的 VLM 模型，采用 Eagle2.5。System1(快思考-动作生成)：核心是一个扩散变换器（DiT），接收来自 System2 的抽象表示（视觉-语言嵌入向量）、机器人的当前状态信息以及一个带噪声的动作序列，任务是去噪并预测出精确、平滑、高频的机器人关节电机控制指令。

混合架构在平衡泛化与效率方面成效显著。在 SimGr-1 语言任务中，GR00TN1.5 的零样本成功率较前代提升明显，尤其在 30 条演示数据的低资源场景中优势突出。其技术路径验证了“端到端基础模型提供通用能力+分层控制器保障执行精度” 的融合逻辑，既避免了纯端到端的数据饥渴问题，又克服了传统分层架构的模块接口瓶颈。混合架构适应性强，可优化资源利用，适配渐进式学习。1)适应性增强：能够根据任务复杂度动态调整决策流程，简单任务可直接端到端执行，复杂任务则通过分层方式处理 2)资源利用优化：可根据计算资源可用性调整计算分配策略。3)渐进式学习：支持在简单任务上快速学习，逐步推广到复杂场景。

3.2. 分层端到端由基础大模型、决策大模型、执行大模型组成

第一层基础大模型为感知与理解中枢。基础大模型作为具身智能系统的认知中枢，承担多模态输入处理与环境理解功能。系统通过整合语言指令与视觉信号，实现对复杂场景的语义解析和空间推理，如理解“把苹果放进碗里”的自然语言指令并精确识别目标物体的三维位置关系。大语言模型（LLM）、视觉语言模型（VLM）等生成式模型快速发展，为技术突破提供了关键推动力。生成式模型的成功，很大程度上得益于三点核心要素：强劲的泛化能力、海量高质量数据集的支撑，以及具备可扩展性的模型架构设计。从技术架构维度看，支撑生成模型发展的关键框架包括 Transformer 架构、扩散模型，以及近年受到关注的状态空间模型（SSM）——典型代表如 Mamba 模型。

主流基础大模型采取 Transformer 架构，以预训练+微调的方式降低对场景相关训练数据的依赖，提高模型的泛化性能。LLM 和 VLM 展现了对跨模态交互的深刻理解，以及强大的小样本微调泛化性能。在人形机器人的应用方面，大模型集成了多模态的感知模块，大幅提升了机器人对于环境感知和人机交互，以及上层规划的能力。典型代表：Llama 3.2 Vision。Meta 于 2024 年 9 月发布的 Llama 3.2 Vision，是首批支持视觉任务的 Llama 模型，是开源多模态 VLM 生态系统的典型代表。它提供 11B 和 90B 参数变体，支持 128K 标记上下文和高分辨率图像处理。技术架构方面，通过视觉适配器与预训练 Llama 3.1 语言模型集成，经监督微调和 RLHF 优化，实现图表解释、视觉推理和八种语言的指令遵循能力。

第二层决策大模型为任务拆解与规划中枢。决策大模型核心功能是将复杂任务拆解为可执行的子任务序列，并调度操作大模型进行执行。例如，“煮咖啡”这一复杂长任务，可拆分为“取胶囊→调整位置→放入咖啡机→启动按钮”等具体可执行的子任务序列。决策大模型能够分析任务的整体目标，识别完成目标所需的步骤，并确保这些步骤按照正确的顺序执行。决策大模型的技术发展路径从基于 LLM 的规则拆解向强化学习 RL 驱动的自适应规划演进。

早期的决策大模型主要依靠大型语言模型 LLM 进行任务拆解。如 Microsoft 的 ChatGPT for Robotics，通过封装 API 将任务拆解为 Python 代码指令，如“识别苹果→调用抓取 API”。这种方法利用语言模型的推理能力，将自然语言指令转换为结构化的代码指令序列。这类系统定义了一组高层次的机器人 API 或函数库，可以映射到机器人控制栈或感知库中的低级实现。这种方法的优势在于能够让非技术用户通过自然语言与机器人交互，但缺点是难以处理动态环境中的意外情况。

决策大模型逐渐从基于规则的拆解向基于强化学习的自适应规划演进。强化学习 RL 以反复试验的过程为基础，通过持续交互，智能体学会选择能够最大化长期累积奖励的行动，并利用来自环境的反馈来不断改进其行为。RL 使用价值函数来估计从给定状态开始，代理未来将获得的累积奖励。它能够判断“调整胶囊位置” 等动作是否最优，并支持动态环境适配，如“咖啡胶囊掉落时，自主重新抓取”。通过与环境的实时交互，RL 代理能够不断改进其决策能力，最大化累积奖励。与早期的 LLM 方法相比，基于 RL 的决策大模型更具自适应性，能够在环境变化时动态调整策略。

决策大模型的最新演进方向是 ActiveInference 主动推理模型。ActiveInference 将控制视为概率推理的过程，通过设计与机器人运动学层次结构相匹配的生成模型，可以将运动学求逆作为推理的自然结果。与 RL 方法相比，ActiveInference 提供了一种更加原则化的替代方案，它不仅能够生成满足空间目标的运动指令，还能推断关于形态参数的信念，从而更好地适应环境变化。典型代表是 VERSes 提出的层次化控制模型，使机器人能够实时适应、规划长序列任务，并从意外问题中恢复，所有这些能力都不需要重新训练，每个代理都由 ActiveInference 驱动。

谷歌 PaLM-E 是一个用于体现推理任务、视觉语言任务和纯粹语言任务的具身多模态决策大模型。PaLM-E 基于丰富的多模态模型知识对任务进行理解和处理，并分解成待定的机器人指令，RT-1 将代堆的机器人指令转化为机器人控制指令，模型将较为复杂的任务分解成简单的步骤完成，并且具备了更强的抗干扰性和知识能力。

第三层操作大模型为硬件执行中枢。操作大模型是具身智能的执行层，将决策大模型生成的抽象指令（如“抓取”、“打开”、“旋转”等）转化为控制硬件的精确信号。操作大模型与机器人本体硬件深度集成，通过大规模数据采集和系统建模实现高精度控制。其核心功能是生成并优化硬件控制信号，包括关节角度、电机转速、力矩指令等，并实现与机器人灵巧手、关节电机等执行机构的准确衔接。目前，操作大模型的技术路径正从“MPC+WBC”向“RL+仿真”演进。

传统操作大模型采用模型预测控制 MPC 与全身控制 WBC 结合的范式，是基于精确模型的控制方法。MPC 根据用户指令和控制器规格计算反作用力和位置命令，将计算结果传递给关节控制器，通过驱动硬件的伺服系统和关节，实现全身运动控制。任何为机器人控制系统的驱动关节产生控制信号的操作均可归类为 WBC。 MPC+WBC 的实现策略包括用 NMPC 规划轨迹、WBC 生成控制信号，以及通过卡尔曼滤波器反馈机器人状态。1)构建并求解基于质心动力学的非线性模型预测控制器 NMPC，用于规划机器人质心和四肢的运动轨迹；2)约束条件包括足端作用力在摩擦锥内、足端触地速度为零和摆动腿的 Z 轴轨迹追踪等；3)将追踪的状态变量定义为一组带优先级的轨迹跟踪任务 WBC，求解以生成机器人驱动关节的控制信号；4)WBC 建立的任务包含运动方程、质心状态追踪、关节力矩限幅等； 5)使用卡尔曼滤波器融合 IMU 和驱动关节数据，获取机器人质心的位姿、速度和关节位置、速度等状态，并反馈给 NMPC、WBC 控制器。 MPC+WBC 框架实时性高、控制稳定性好，但局限性也很明显。1)MPC 模型预测滚动优化过程是实时迭代过程，要求大量计算资源和时间，因此主要适用于慢动态过程和具备高性能计算环境的场景；2)现有预测控制算法多采用工业界易获得的非参数模型，并通过在线求解约束优化问题实现优化控制；3)对于约束系统无法获得解析表达式，难以通过传统定量分析探求设计参数与系统性能的关系； 4)大量设计参数需人为设定，并通过大规模仿真进行后验验证，需较高前期成本且依赖人工经验。

随着深度学习和强化学习技术的快速发展，基于“强化学习 RL+仿真”的控制方法逐渐成为主流方向。RL+仿真方法使具身智能系统能从环境中获得最优状态，智能体据此做出决策并对环境做出适当的行为反应。此方法更关注具体的输入-输出映射关系。 “RL+仿真”主要输入为传感器获取的状态信息与感知系统获取的环境信息，输出为机器人动作指令及阻抗控制参数调整。该范式主要输入要素为：1)状态信息：机器人的位置、速度、加速度等运动学信息，以及力反馈信息，通过编码器、力传感器等获取；2)环境信息：机器人所处环境的信息，如障碍物的位置、形状等，通过视觉系统、激光雷达等感知系统获取。输出控制量为：1)动作指令：机器人的运动指令，如速度、加速度、方向等，直接控制机器人的运动；2)控制参数调整：在阻抗控制中，输出可能包括对阻抗参数，如刚度、阻尼等的实时调整，影响机器人与环境交互时的力反馈行为。 RL+仿真方法自适应能力强，能够学习新动作，适合不确定性高、长期任务场景。但该范式同样存在局限性：1)数据收集与标注问题：强化学习需要大量数据训练，但真实数据收集困难且成本高昂，常借助仿真环境生成训练数据，从而催生大量仿真数据需求；2)实时性与稳定性挑战：强化学习算法在训练和执行过程中易受噪声、延迟等因素影响，导致实时性和稳定性下降。

数据是约束具身智能技术突破和落地应用的关键因素。大语言模型可直接利用互联网海量文本数据进行训练，而具身智能面临显著的数据瓶颈——机器人所需的交互数据不存在现成来源，需要专门采集或合成。具身智能系统涉及多模态感知输入（视觉、听觉、触觉等）、复杂决策推理及精确运动控制，其训练数据需包含环境感知、物理交互、运动控制、任务执行等多源异构信息。互联网上各类文本、图像和视频数据集庞大，但机器人的场景和交互有价值的数据量相对较小，约束了 AI 模型在人形机器人上的泛化能力。

机器人数据采集的方法有四种，目前主流的方法是远程操作采集和仿真合成： 1）远程操作：由实验人员操作机械手柄，远程控制机器人做出相同动作，以此来积累数据。2024 年 5 月 Tesla Optimus 发布的 demo 视频中可以看到，Optimus Gen2 的训练数据通过人类远程操作收集，并针对各种任务进行扩展。 2）增强现实：在《Explainable Human-Robot Trainingand Cooperation with Augmented Reality》论文中，研究人员通过 AR 增强现实技术让人机交互过程具备更强的可解释性，进行数据积累。 3）仿真合成数据：通过海量算力进行模拟运算，计算得出海量机器人训练数据集。仿真可能是目前最有可能做到规模化数据生成的路径，背后需要巨大的算力支持，目前 NVIDIA 采取的就是仿真合成技术路径。 4）视频学习：通过多模态大模型，直接让机器人通过视频学习人类动作，积累训练数据。

4.1. 真实采集数据：可靠性高，但面临规模化瓶颈

目前，具身智能机器人的现有数据多由设备厂商自行完成采集。理想状态下，最优的数据采集路径应是由人形机器人依靠自身本体直接接触物理世界，进而精准感知并理解真实环境。但是，通过真机开展大规模数据采集的成本极高：一方面需要投入大量人力、物力与时间成本；另一方面数据标注环节以及采集设备本身也存在技术门槛。与此同时，物理世界的运行规律本身极为复杂，这使得最终采集到的数据往往难以全面覆盖并呈现物理现象与底层知识。真实数据采集方法主要包括远程操作（遥操）和动作捕捉。

真实数据的采集方法主要包括远程操作技术与动作捕捉技术，远程操作技术通过人类专家对机器人的实时控制，能够完整记录复杂任务中“状态—动作”映射关系。这种方法的核心价值在于保留了人类操作的意图性与环境交互的真实性，为具身模型提供了示范级学习样本。典型遥操系统采用主从映射架构，包含主控端与从动端两大硬件集群。主控端配备力反馈控制器、VR 头显和数据手套等设备，实现操作指令的精准输入与环境反馈的沉浸式感知；从动端则为机器人本体，集成多模态传感器阵列实现环境与自身状态的全面感知。现代遥操系统通过主从运动映射算法将人类操作指令实时转换为机器人关节空间或笛卡尔空间的运动指令，结合视觉、力觉和触觉的多模态反馈形成闭环控制。例如，Open X-Embodiedment 数据集绝大部分是通过遥操作实现的，集成了超过 311 个场景下的 100 万条轨迹，包括了 22 种不同的 embodiments，在数据的加持下，机器人操作的模型能力得到了显著的增强。

动作捕捉技术通过精准记录人类行为模式并映射至机器人运动空间，提供拟人化动作的数据源。动捕技术的核心优势在于能够直接复用人类的运动技能库，降低复杂动态动作的建模难度，有多种实现路径。以光学动作捕捉系统为例，其实现主要原理为利用分布在空间中固定位置的多台摄像机通过对捕捉对象上特定光点（Marker）的监视和跟踪完成动作捕捉。光学动作捕捉系统通常将人体分成 16～ 18 个肢体段（不包括手足的细节），通过摄像机标定算法完成摄像机所拍摄的 Marker 图像二维坐标到世界坐标系下的三维坐标的还原。

真实采集数据优势：1）数据真实性：真实数据完整保留物理世界的复杂性与不确定性，确保模型在真实场景中的表现可靠。2）闭环反馈完整性：包含完整的感知 -决策-执行-反馈循环，真实反映物理交互的因果关系。3）边缘案例捕获：自然包含物理世界中的各种边缘情况和失败案例，有助于提高模型鲁棒性。4）直接验证有效性：真实数据训练的模型可直接在目标环境中验证，无需处理仿真-现实差距 (Sim2RealGap)问题。

真实采集数据面临的挑战：1)采集成本高昂：真实采集需要高额的硬件投入、人力成本和时间成本。谷歌 RT-1 数据集的构建耗费了上千万美元，该项目动用 13 台机器人，由 16 名工程师历时 17 个月才完成 13 万条厨房场景数据的采集。2）规模化困难：物理世界面临多样场景和复杂任务，难以穷尽覆盖所有潜在情况。 3）标注门槛高：真实采集的数据需要同步标注视觉图像中的物体识别、力觉传感器的接触状态、关节运动的轨迹类型等多维度信息。同时，更要求毫秒级的时间同步精度，以确保不同模态数据之间的时空对应关系。

4.2. 仿真合成数据：解决数据稀缺的经济高效方案

仿真合成数据是通过计算机仿真技术在虚拟环境中生成的交互数据。机器人合成数据可拆解成两个关键部分：场景生成（Gen）与模拟（Sim）。行业过去的技术发展主要集中在仿真模拟（SIM）层，包括高保真物理模拟与图形渲染，如IsaacSim、 AIHabitat、Genesis 等，游戏与影视引擎（Unity、Blender 等）也在此领域发挥重要作用。

当前，丰富且结构合理的室内空间生成（Gen）成为系统性能瓶颈，主要有“视频合成+3D 重建”与“端到端 AIGC 直接合成 3D 数据”两类。两类路线在技术流程、关键算法与适用场景上存在显著差异。

路径一：视频合成+3D 重建。该路径基于像素流驱动，先生成视频或图像，再重建为点云、mesh，最终转为结构化语义模型。此方法模态链路长、误差易累积。早在 2021 年，李飞飞团队针对 BEHAVIOR 基准及世界模型开展研究，提出基于像素与视频帧的具身智能建模思路。该思路所生成的场景仅呈现为 mesh 壳体形态，缺乏清晰的空间结构与语义标注，且物体边界存在模糊性，导致其难以直接应用于物理仿真场景。群核科技的 SpatialLM 与 SpatialVerse 是该技术路线的代表性成果：其中，SpatialLM 通过对大规模语言模型（LLM）进行微调，实现对 3D 数据语义信息的理解；SpatialVerse 则依托酷家乐的技术支撑，开展数据增强、分割注释及渲染优化工作。

路径二：端到端 AIGC 直接合成 3D 数据。该路径基于图神经网络、扩散模型等端到端产出结构化空间，部分结合程序化生成，信息效率高，成为新研究热点。主要方法有：1)图神经网络 GNN：可显式建模室内家具的语义与空间关系；2)自回归擅长序列建模，适合物体无序排列与语言条件生成；3)扩散模型 Diffusion：通过去噪学习高质量场景布局；4)程序化生成 PCG：用显式规则精准控制场景结构与风格，具有更高的可控性和可解释性；5)LLM 等其他方法：随着该领域高速发展，涌现出许多难以归类的新方法，例如用图像循环引导的方式蒸馏生成、LLM 设计结构化工作流、基于 LLM 上下文学习直接生成等。

合成数据优点 1：合成数据可实现数据量的指数级加速。传统数据收集受到物理规律、人力标注、设备限制等多重约束；而合成数据生成仅受计算资源和算法效率限制。例如，Waymo 利用自动驾驶仿真模拟器 Carcraft 全年无休地对自动驾驶车辆进行训练，2017 年的数据显示在 Carcraft 上 Waymo 的 25000 台虚拟的自动驾驶车辆不停地行驶，每天总的行驶里程达到 800 万英里。根据 Waymo 官方在 2019 年给出的数据，其仿真测试里程已经突破了 100 亿英里。合成数据优点 2：合成数据通过虚拟环境模拟可有效降低硬件成本与人力投入。 1)避免真实设备损耗：在虚拟环境中可无限次尝试高风险操作（如机器人抓取易碎品），无需担心物理设备损坏。2）减少人工投入：传统方法中，训练有素的人类操作员需要约一分钟才能记录一个高质量示范，这种方法难以扩展，因为需要大量人力投入且容易出错。合成数据生成则可完全自动化，无需持续的人类监督。合成数据优点 3：场景覆盖广极广，可模拟极端环境与长流程任务。可在几小时内模拟数百万个极端情况，涵盖不同照明条件、目标位置和恶劣环境下的示例，或者可以插入随机噪声来模拟脏污的摄像头、雾水和其他视觉障碍物。合成数据面临的挑战：1)虚实差距（Sim2RealGap）导致模型泛化性不足：仿真环境的物理参数（如摩擦力、物体重量、光照强度）与真实世界存在偏差，可能导致模型在真实场景失效。2)高保真场景生成的算力需求巨大：生成含细节纹理、动态交互的 3D 场景需强大算力支撑。此外，算力不足会导致场景细节缺失，低算力生成的物体表面纹理模糊，会使机器人抓取的摩擦力判断误差扩大。

4.3. 行业实践：真实与合成数据协同应用

英伟达：从少量人类示范中生成大规模训练数据。NVIDIA IsaacGR00T 合成操作运动生成蓝图是基于NVIDIA Omniverse和NVIDIA Cosmos构建的参考工作流程。它通过少量的人类演示，为机器人操作创建出指数级数量增长的合成运动轨迹。

工作流：1)遥操作数据采集：AppleVisionPro 等工具向 IsaacLab 传输操作者手部追踪数据，IsaacLab 同时回传机器人环境的沉浸式视图，过程中同步采集控制信号与机器人状态，完成遥操作演示数据的获取；2)合成轨迹生成：由 Motion Annotator 对演示数据中的运动关键点进行标注，依托 IsaacLab 及加速物理引擎，开展轨迹生成与轨迹评估，从少量人类演示中外推得到大量平滑且与场景适配的合成运动轨迹，最终输出验证后的轨迹集合；3)数据增强：GR00T-Gen 通过 IsaacSim 随机化场景变量，结合 NVIDIA Cosmos Transfer 增强图像，丰富数据集； 4)策略训练：在 IsaacLab 中，利用增强数据集，通过模仿学习训练并评估机器人任务策略。

利用蓝图的首批可用组件，NVIDIA 仅用 11 小时就生成了 78 万条合成轨迹，相当于 9 个月的人类演示数据。随后，NVIDIA 将合成数据与真实数据相结合，与仅使用真实数据相比，GR00TN1 的性能提升了 40%。传统上，经过适当培训的人工操作员大约需要一分钟才能记录一次高质量的演示，由于需要大量的人力和潜在的错误，这种方法很难推广。相比之下，这种新方法结合少量人工演示和合成数据，就能达到类似的成功率，从而将数据收集时间从几小时缩短到几分钟。

特斯拉：真实采集为主，仿真合成为辅。特斯拉 Optimus 机器人的数据有三个来源：基于特斯拉存量实际采集的数据+机器人物理采集的数据+高精度仿真模拟采集的数据。但主要使用真实采集的数据。Optimus Gen2 的训练数据主要通过人类操作收集，并针对各种任务进行了扩展。这些数据通过 XsensLink 系统和 Xsens Meta gloves by Manus 数据手套采集而来。在采集过程中穿着 XsensLink 动作捕捉套装的工作人员会执行一系列任务，工作人员的全身运动数据被记录下来，供机器人学习。特斯拉整个数据训练团队人员在 100+人，同时配套了 40 套+的 Xsens 高精度运动惯性全身捕捉系统，通过海量数据收集结合视觉+触觉的端到端神经网络训练方案，让机器人可以实现快速作业技能学习，满足未来特斯拉超级工厂柔性作业的需求。

尽管特斯拉更加强调真实数据，但仍会使用合成数据进行补充。在 Optimus 训练中，特斯拉也会利用模拟迅速生成大量数据。在 FSD 训练中，由于路测条件的限制，导致积累数据和训练算法的效率偏低且成本高昂，为了更高效的实现数据训练，特斯拉构建了一个真实世界的虚拟仿真空间，来加速 FSD 能力的训练。特斯拉通过调整各类交通参与物及环境的模型参数以构建各种虚拟场景，以训练算法应对不同场景的性能。

银河通用：虚实结合，以合成为主，真实为辅。银河通用创始人王鹤表示，银河通用的策略是“99%的合成数据，1%的真实数据”：真实数据是不可替代的，合成数据无法百分百还原现实；但在当前阶段，没有合成数据也不行，两者都不可或缺。王鹤认为，目前具身智能的数据中，99%应来自合成，要先把合成数据能胜任的部分做到极致，比如做到“Sim2Real”的精准迁移，能高效完成 pick&place 等任务，这将帮助具身智能真正打开市场；而那 1%的真实数据也同样不可或缺，用于针对性弥补合成数据的盲区。

银河通用开源了全球首个面向人形机器人灵巧操作的大规模合成数据集 DexonomySim。在灵巧手项目 Dextonomy 中，银河通用对人类手学界公认的 33 种抓握方式全部实现批量合成：无论给定什么物体、什么手型，都能生成对应抓取。DexonomySim 专为具身智能机器人灵巧抓取任务设计，适用于多指灵巧手在高自由度操作场景下的模型训练与算法验证，其包含超 950 万条高质量抓取姿态，覆盖超 1 万个物体、31 种常用抓握类型，涵盖人类抓握分类法中约 94%的类型。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

标签：智能模型 llm 人形机器人 optimus

具身智能产业深度研究：大模型与数据为人形机器人打开脑洞

相似文章

资讯分类

热门资讯

热门产品