英伟达鏖战机器人“更高精确性”
发布时间:2025-10-17 11:29 浏览量:4
“为何机器人领域的 GPT-3 时刻仍需2-3 年才能到来?当前最核心的缺口是什么?” 在NVIDIA Jetson Thor媒体会上,我向该公司机器人与边缘计算副总裁 Deepu Talla 提了这个问题 —— 既然NVIDIA已为行业搭建起机器人模型、数据合成、验证仿真及芯片等关键基础设施,为何这一里程碑式时刻仍未降临。
“目前我们已经有了核心构建模块,但要获得更高准确性,仍有大量工作亟待推进。”Deepu Talla同时透露:“令我们振奋的是,全球顶尖人才正共同聚焦这一课题展开攻关。”
9 月 29 日 - 10 月 2 日于首尔举办的机器人学习大会(CoRL)上,NVIDIA针对 “更高精性” 需求发布系列解决方案:开源物理引擎 Newton 可以通过 NVIDIA Isaac™ Lab 获取,优化复杂动作仿真精度;机器人基础模型 Isaac GR00T N1.6提升类人推理能力;优化后的世界基础模型 Cosmos 加快生成速度、提升效率并支持更长视频生成;上新AI基础设施,全面适配机器人工作负载,等等。
10月9日,一场由NVIDIA与光轮智能共同带来的关于AI打通Sim2Reald(仿真到现实)直播,NVIDIA物理AI平台产品和技术营销高级总监Madison Huang与光轮智能创始人兼CEO谢晨连线,透露了双方合作的细节,释放如何突破“更高精准性”重要趋势信息。
带给机器人更敏捷 “行动力”
目前,机器人研发与应用面临多重挑战,包括数据稀缺、模型泛化能力不足、实时决策与计算效率限制等。仿真能在数据合成、模型训练与测试验证等各环节,都起到至关重要的作用,相当于机器人的“虚拟训练场+数据工厂+安全测试场”,但机器人仿真尤其是复杂动作仿真,一直面临精度、效率以及仿真与现实偏差(Sim- to -Real Gap)的挑战。
物理引擎是解决这些挑战的重要利器。作为模拟仿真的核心组件,物理引擎主要是在虚拟环境中精准模拟现实世界的物理规律。虽然物理引擎已存在多年,但人形机器人的关节结构、平衡控制和动作模式非常复杂,现有物理引擎已难以满足需求。
7个月前,NVIDIA公司CEO黄仁勋在GTC大会上透露该公司正联合谷歌DeepMind、迪斯尼研究院共同研发Newton物理引擎。当三家分别手握计算资源、AI算法、应用场景的顶级研究机构联手,其目标绝非打造一款升级版物理引擎,而是希望对模拟仿真核心问题带来颠覆性突破。
从CoRL上宣布已发布的测试版看,Newton 由 Linux Foundation 管理、基于NVIDIA Warp和 OpenUSD框架构建,通过可微分物理、多场景耦合等核心能力,解决了机器人领域长期存在的“仿真与现实脱节”、“复杂场景仿真不足”、“学习效率低下”等问题。
光轮智能创始人兼CEO谢晨认为,Newton比较厉害的地方是用了NVIDIA的Warp语言,“使得写求解器就像用Python一样简单。” 谢晨说。
具体来看,一是通过自动微分技术,带给机器人更精准、更高效、更通用的学习能力。
传统物理引擎往往是“黑箱”(不具备反向传播梯度),机器人只能是通过“暴力试错”来优化策略,效率极低(需数天甚至数周训练),而且精度有限。加入自动微分技术,就相当于给机器人装了实时导航,能够让机器人精准地看到每一次尝试的误差(比如杯子滑落的距离、手指压力的变化),并通过“计算梯度”(类似于导航的最短路径)直接告诉机器人“下一步应该怎么调”(比如增加手指接触面积10%、减少握力速度5%),这种误差-反馈-优化的闭环,让机器人不用反复试错就能够快速的学会精准控制。
另一大亮点是多物理场景耦合。通过“统一接口+动态协同”的模块化设计思路,解决了传统物理引擎在多场景(如刚体、软体、流体等)耦合中的精度-效率-灵活性的矛盾。
传统物理引擎往往采用单一求解器架构,无法适配多物理场景,如机器人在雪地行走,就需要同时处理刚体关节运动和雪地的软体变形。而Newton支持不同类型的求解器相结合,通过模块化求解器池中的每个求解器,提供统一的输入输出规范,并针对特定的物理场景优化算法提升效率,解决了求解的精度与效率问题。
应该说,Newton已经从“仿真工具”变成了机器人的学习平台,其定位与所有的物理引擎已不在同一维度。传统物理引擎里机器人是“执行者”,引擎是“仿真器”,而在新思路下的Newton,机器人是学习者而引擎是“导师”,机器人通过仿真学习物理规律,Newton带来了机器人学习范式的变革,让机器人从“被动试错”转向“主动学习”。
为让机器人具备更敏捷的抓取行动力,英伟达在NVIDIA Isaac Lab 2.3开发者预览版中还增加了灵巧抓取工作流,解决机器人抓取痛点。此工作流调整重力、摩擦力、物体重量等参数,通过“自动化课程+物理仿真+泛化训练”的组合,训练机器人在不可预测的环境中也能掌握技能,解决传统机器人抓取“训练成本高、环境适应性差、泛化能力弱”的痛点。
提速机器人“类脑化”
如果说Newton解决的是机器人身体行动力问题,那么Isaac GR00T N1.6则希望解决机器人的“脑力”问题,加速机器人模型“类脑化”。当前,机器人还处于“强感知”“弱推理”的状态,要让机器人从“看得见”、“听得懂”到“想得深”、“做得对”,还需要补齐理解模糊指令、具备类人推理能力。
NVIDIA这次发布的机器人模型Isaac GR00T N1.6相较于此前版本N1.5(2025年6月发布),核心变化在于集成Cosmos Reason推理视觉语言模型(VLM),并通过架构优化与性能提升,带来了物理常识推理能力、复杂任务规划能力及动态环境适应能力的显著升级。
今年8月,NVIDIA发布开源推理视觉语言模型Cosmos Reason,目前这个模型在Hugging Face平台下载量已突破一百万次,位居物理推理模型排行榜榜首。在Isaac GR00T N1.6版本中,NVIDIA将Cosmos Reason集成其中,使其成为人形机器人的“推理大脑”。
有了这个大脑,机器人的推理能力显著提升,一方面因为“内置”了物理常识,机器人就有了“物理世界观”,能够实现从感知到理解的转变,不再是“看到物体就抓”,而是能够理解物体的动力学属性,比如玻璃、鸡蛋都易碎要轻拿轻放,不再是以抓石头的力度来拿这些物体。
另一方面能理解模糊指令,拆解复杂指令,并将其转化为关节的具体可执行动作。比如“帮我拿杯水”这样的指令,机器人会拆解为寻找杯子、避障、抓取等步骤;又比如“把红色盒子放到书架第二层”,机器人能够层次化拆解任务,将大的目标转化为机器人可执行的子任务:首先将任务分拆为“找到红色盒子”、“抓取盒子”、“移动到书架”、“放置盒子”四个可执行子任务,然后将每个子任务转化为机器人关节行动的具体参数。
再者是能实时应用物理规律调整策略,实现从试错到预判。比如接到“推开沉重的门”这个任务,机器人能够先施加推力(明白力的作用是相互的规律),再保持门的运动轨迹(避免门反弹)。
在Cosmos Reason推理能力的加持下,Isaac GR00T N1.6的双系统能力得到进一步强化,从而能够执行更复杂任务并实现多任务协同。比如人形机器人可以同时完成移动和物体操控,躯干和手臂拥有了更大的活动自由度,人形机器人从“单一任务执行者”向“复杂任务解决者”跨越。
同时,开发者还可以利用 Hugging Face 平台上的开源 NVIDIA 物理 AI 数据集,对 NVIDIA Isaac GR00T N 系列模型进行后训练,目前该数据集包含数千条合成及来自真实世界的轨迹数据。
另外在这次会议上,NVIDIA还宣布开源世界基础模型Cosmos(WFM)更新,推出Cosmos Predict 2.5和CosmosTransfer 2.5,前者支持更长时长的长视频生成(最长可创建 30 秒视频),同时提供多视角摄像头输出;后者能够根据真实的 3D 仿真场景和空间控制输入,生成结果速度更快、质量更高,而模型大小仅为上一代模型的 1/3.5。
Cosmos Predict和Cosmos Transfer都在机器人“数据生成工厂”中扮演至关重要的角色。Cosmos相当于数据“放大器”,它可以将现实数据和仿真数据放大,你有100条机器人开冰箱门的数据,给到Cosmos,它能生成上万条不同场景的机器人开门数据。有了他们机器人模型训练数据不再单纯依赖高成本、低效率的人工采集。
持续打通卡点堵点
打通通用机器人研发的每一个卡点、堵点,给开发者带来更高效、更便利的基础设施,是NVIDIA在物理AI时代的定位。
在机器人从研发走向实际应用过程中,测试验证是又一个堵点。目前这个领域面临测试场景碎片化、缺乏统一评估标准、测试数据质量和多样性不足等问题。
聚焦系列难题的解决,NVIDIA联手光轮智能即将推出Isaac Lab Arena——这是一个用于大规模实验和标准化测试的开源策略评估框架,这一测试平台针对机器人测试的核心问题提供了系统性的解决方案。
如通过统一仿真环境架构提供标准化、可复用的测试场景库(如工业装配、物流搬运、家庭服务等),支持多机器人、多任务、多环境统一测试,解决“测试场景碎片化”的问题;又如依托NVIDIA GPU加速与并行计算架构,支持单机GPU或多GPU集群的大规模并行测试,另外此框架还支持自动Check Point保存与故障恢复,避免因硬件故障导致的测试中断,解决“测试效率低下”问题。
“Arena相当于给机器人建了一个考试场。”谢晨表示,目前斯坦福、Figure AI都在使用该框架,以前大家比机器人没有统一标准,现在谁家机器人厉害,一测就知道结果。
当然,加速计算是NVIDIA的“老本行”,为机器人工作负载提供更快、更高、更强的AI基础设施,是每一次更新的必答题。NVIDIA为高要求工作负载设计的 AI 基础设施,包括NVIDIA GB200 NVL72机架系统、NVIDIA RTX PRO™ 服务器、NVIDIA Jetson Thor™。其中,GB200 NVL72聚焦大规模AI训练,有人称其为大规模AI训练的“算力怪兽”;NVIDIA RTX PRO™专注企业级AI与工业渲染,满足专业领域的高性能需求;NVIDIA Jetson Thor机器人物理AI的“边缘大脑”;这三款硬件均围绕NVIDIA“物理AI”战略而设计。
从Newton到Isaac GR00T N1.6 再到Cosmos reason以及仿真验证平台Arena,都有一个关键词就是开源。通过开源降低门槛,它不仅让更多的学术团队得以进入机身智能的研究前沿,也为产业界带来了更快的技术迭代节奏,以及更广泛的生态合作,NVIDIA的核心目标就是加速机器人从实验室走向大规模应用。
理想汽车 CEO 李想曾谈及黄仁勋成功有三个重要特质:选得准、选得长、迭代快。“选得准” 是指能看清大势;“选得长” 意味着在一个赛道上耐心耕耘;“迭代快”则是在一个长期赛道里,保持极高频率的迭代。
这一特质再度显现在黄仁勋对待物理AI上,今年以来,NVIDIA围绕着机器人的技术迭代同样呈现出高频迭代的特点。
以Cosmos世界物理基础模型为例,今年1月在CES上Cosmos问世;3月在GT C大会上Cosmos更新,增加Cosmos Transfer和Cosmos Predict两个子模型;8月Cosmos Reason和Cosmos Transfer-2发布;9月29日Cosmos Predict 2.5与Cosmos Transfer 2.5推出。每一次更新,始终围绕降低机器人开发门槛,推动机器人从专用设备向通用智能体演进的终极目标。
不仅仅是这些已经成型可用的软硬件解决方案,事实上,在这次CoRL大会上,NVIDIA有15篇论文被录入,且整个机器人大会收录的近半数论文,都与NVIDIA技术相关,包括GPU、仿真框架和CUDA加速库。
而在NVIDIA被收录的论文中,大多都关联“更高精准性”,比如3D云数据训练的多功能系统,能够提高仿真与现实世界的高适应性与精度;MimicGen数据生成系统,仅用少量人类示范,即可自动生成大规模机器人训练数据,支持机器人代理的高精度和长期训练;M2T2变压器模型,可在杂乱场景中对任意对象实现零样本“仿真到现实”的转移、抓取、放置,在有挑战性的场景中比特定任务系统性能高出37.5%,等等。
有一个特别值得关注的重要信息:NVIDIA在CoRL大会上展示了三项突破性神经创新NeRD、Dexplore、VT-Refine。其中NeRD 这种神经仿真框架,训练完成后能够实现:在数百至数千个仿真步骤中提供稳定且准确的预测;针对特定机器人,在不同任务、环境和低阶控制器间实现泛化;通过真实世界数据微调,能够弥合仿真与现实的差距。
正如NVIDIA在介绍这三项神经创新的技术博客中所言:“机器人学习的进步正在改变机器人获取复杂技能,并将其从仿真迁移到现实世界的方式,在这些方法的驱动下机器人与人类能力之间的差距,必将越来越小。”
潮水已经在路上,“机器人GPT-3”的奔涌,只是时间问题。(文/李佳师)