在本次演讲中,英伟达 AI 总监 Jim Fan 介绍了物理图灵测试的概念,并阐述了大规模仿真对机器人未来发展的重要意义,展示了英伟达在具身人工智能领域的研究进展和路线图。
- 物理图灵测试概念:传统图灵测试关注机器与人类对话的不可区分性,而物理图灵测试聚焦于物理世界中的任务执行。设想在一场黑客马拉松后,人们无法分辨清理和准备烛光晚餐的工作是由人类还是机器完成,这便是物理图灵测试的场景。当前机器人在执行复杂物理任务时表现不佳,例如 cumul 机器人无法正常工作,机器人准备早餐时虽能识别牛奶但操作不够完美 。
- 机器人发展面临的数据困境:与语言模型(LM)研究相比,机器人领域的数据收集极为困难。机器人关节控制信号等数据无法从互联网获取,只能通过昂贵且低效的远程操作收集。人类操作易疲劳,数据收集效率低、成本高,严重制约机器人发展,而这也凸显了寻找新数据收集与训练方法的紧迫性。
- 仿真技术的应用
- 仿真训练优势:通过仿真训练机器人可突破现实限制。以模拟机器人手的训练为例,可在比实时快 10,000 倍的速度下进行,同时改变重力、摩擦、重量等参数,即域随机化。这样训练的神经网络能适应多种场景,有望在现实世界完成任务,如模拟训练的机器狗在球上的运动可迁移到现实,人形机器人也能通过仿真快速学会行走。
- 仿真技术的发展:从数字孪生到数字表亲。数字孪生需构建与现实一一对应的机器人和环境模型,虽能高速运行但构建繁琐;数字表亲则利用 3D 生成模型、扩散模型等生成部分仿真内容,结合经典图形管道,虽运行稍慢,但能更高效地生成任务场景,增加数据多样性。
- 视频扩散模型的应用:利用通用开源视频生成模型,在机器人实验室数据上微调,可实现场景模拟和反事实想象。模型能根据不同语言指令生成相应视频,即使场景和动作在现实中未发生,也能准确模拟机器人与物体的交互,如机器人弹尤克里里的场景。
- 具身人工智能的成果与未来展望:英伟达开源了 Groot N1 模型,可执行抓取香槟、工业操作、多机器人协作等任务。未来将遵循开源原则,推动物理人工智能的普及。解决物理人工智能问题后,物理 API 将成为发展方向。它将像语言模型 API 一样,实现对物理世界的原子级操作,催生新经济模式,如物理提示、物理应用商店和技能经济,助力机器人融入日常生活,实现更多复杂任务。
以下是演讲全文:
主持人:
接下来有请Jim Fan,大家应该都认识他。来吧Jim。
Jim Fan:
谢谢。Jensen今天早上还提到我了。
我是NVIDIA的AI总监,也是一名杰出的研究科学家。今天我想和大家分享关于物理AI的一些思考。
前几天我看到一篇博客,标题是:“我们已经通过图灵测试,但没人注意到。”这让我挺感慨的。
过去,图灵测试被视为计算机科学的圣杯,意味着你无法分辨一个对话是来自人类还是机器。而如今,我们似乎真的达到了这个水平。虽然大家可能会因为Mini在回复时多花了几秒钟而抱怨,或者对Claude不能帮你调试代码感到不满(笑),但我们似乎已经把每一次L1的突破当作稀松平常的事了。
(笑)你们这群人可真不好糊弄(笑)。所以,我想提出一个简单的概念——“物理图灵测试”。
想象一下,你在周日晚上参加了一个黑客马拉松派对(笑),结果第二天早上你要面对的是满地狼藉。你希望有人能帮你收拾房间,并准备一顿烛光晚餐,让伴侣开心起来。当你回到家时,你根本分不清这顿饭到底是人做的还是机器完成的。这就是“物理图灵测试”的核心思想。
那么现在,我们离这个目标还有多远呢?看看这些机器人吧,它们也在为工作做准备(笑)。显然,它们还没完全准备好。再看看我们的狗和香蕉皮的表现(笑)。即便是机器人被指示去做早餐,它也能正确识别牛奶(笑),不过我觉得可以给个A-,毕竟出发点是好的。
(笑)它甚至会喂你吃饭,简直是VIP体验(笑)!我都有点羡慕了(笑)。
为什么解决“物理图灵测试”这么难呢?你们可能知道,L1研究人员经常抱怨训练数据不够用。最近有个叫Ilya的人说:“L1预训练的数据快用完了。”他还把互联网比作AI的化石燃料,并表示我们正在耗尽用于训练L1的数据资源。
但是,如果你花一天时间和机器人专家在一起,你会发现L1研究人员有多奢侈。我们连化石燃料都没有。这是我们在NVIDIA总部的一次数据收集场景。我们有一个咖啡厅,里面设置了某些人形机器人进行操作并收集数据。这些数据包括机器人的关节控制信号,是一些连续的时间值,无法从互联网上抓取。你不会在维基百科、YouTube或Reddit上找到这些信息。
那我们是怎么收集这些数据的呢?我们通过一种非常复杂但也非常昂贵的方式——远程操作。操作者戴上VR设备,设备可以识别人的手部姿态,并将信息流传输到机器人身上。这样你可以教机器人如何从烤面包机里取出一块面包并淋上蜂蜜。但你可以想象,这个过程既慢又痛苦(笑)。
如果我们把这些数据放在扩展性图表上,就会发现它几乎没有任何扩展性。真正的机器人数据更像是“人为燃料”,甚至比化石燃料还要有限。你是在燃烧“人力”。更糟的是,每天最多只能得到24小时的数据,而且实际上还会少很多,因为人类和机器人都会疲惫(笑)。
怎么办呢?如何打破这个障碍?机器人领域的核能在哪里?
答案在于模拟。我们要离开物理世界,在模拟环境中做一些事情。比如,我们训练了一只机器人手,在模拟中完成了超人类的灵巧任务——旋转一支笔。这种技能对我来说已经是超人般的存在了,因为我小时候就放弃了这项技能(笑)。至少我的机器人在模拟中比我做得更好。
那么,我们是如何训练这只手完成如此复杂的任务的呢?有两个关键点。第一,我们需要以超过实时10000倍的速度进行模拟。这意味着单个GPU可以同时运行10000个环境的物理模拟。第二,这10000个环境副本不能完全相同。我们需要改变一些参数,如重力、摩擦等。这种方法被称为领域随机化,这让我们的模拟具有普适性。
想象一下,如果一个神经网络能够在一百万个不同的世界中控制机器人解决问题,那么它很可能也能解决第一百零一万个世界的问题,也就是我们的现实世界。换句话说,我们的现实世界只是这些训练数据的一部分。
我们可以构建一个数字孪生体,即机器人及其世界的精确复制。在模拟中训练后,直接将其应用到现实世界中,实现零样本迁移。
我们可以做到一只手完成的任务,比如一只机器狗站在球上,并将其迁移到现实世界中(笑)。这是在美国宾夕法尼亚大学,我们的研究员看起来像极了《黑镜》中的情节(笑)。我们称之为“Dr. Eureka”。实际上,一名研究员尝试让他的狗站在瑜伽球上,但失败了。现在我们的机器狗在这方面表现得非常出色。
接下来,我们将这一方法应用于更复杂的机器人,如人形机器人。这些人形机器人在短短两小时内完成了相当于十年的模拟训练,学会了行走。只要我们拥有机器人模型,无论它的形态如何,我们都可以在模拟中训练它行走。
我们能做的不仅仅是行走。正如我们控制自己的身体一样,我们可以跟踪任何姿势、任意关键点,以及遵循任何速度因子。这被称为人形机器人的全身控制问题,虽然非常困难,但我们可以在10000个并行运行的模拟中训练它,并且无需微调即可直接转移到真实机器人上。
这是在NVIDIA实验室完成的。由于动作太快,我们需要放慢视频才能看清细节。第一个视频是实时的,第二个视频放慢了速度,以便你能看到动作的精妙之处。机器人模仿人类,完成所有敏捷的动作,同时保持平衡。
猜猜看,完成这些需要多少参数的神经网络?只需要150万参数。不是十亿,而是150万参数就足以捕捉人体的潜意识处理能力,以及系统范围的推理能力。
如果我们把这个放在一个速度与多样性关系的图表上,我会称其为模拟1.0时代,也就是数字孪生范式。这是一个经典的向量化物理引擎,可以以每秒高达一百万帧的速度运行。但问题是,你需要手动构建数字孪生体,这是一项非常繁琐的工作。
我们能不能开始自动生成部分模拟内容呢?所有的3D资产都是由3D联合模型生成的,所有纹理来自Stable Diffusion或其他扩散模型,所有布局则通过提示让L1编写XML文件。
结合这些元素,我们构建了一个名为RoboCasa的框架,这是一个大规模的、组合式的日常任务模拟平台。除了机器人本身外,其他一切都可以生成。你可以组合不同的场景,但它仍然依赖于经典引擎来运行,不过已经能够完成许多任务。
现在,我们可以再次让人进行远程操作,但这次是在模拟环境中进行的。你不再远程操作真实的机器人,而是在模拟中操作。你可以回放这段轨迹,并添加各种硬件加速器,如光线追踪技术,以生成美丽的光影效果。你还可以随意改变动作(笑)。如果你远程操作并将杯子从这里移动到那里,你不需要重复演示从这里到那里的动作。
通过这种方式,你只需一次人在模拟中的演示,就可以乘以N次环境生成,再乘以M次动作生成。我可以向你保证,这是我今天唯一要讲的数学(笑)。这就是我们如何乘法式地生成数据。
然后将这些数据整合起来,第一列和第三列是真实机器人拍摄的真实视频,第二列至第四列是RoboCasa模拟生成的内容。虽然你能看出这些纹理并不真实,但它们已经足够接近了。
对于那些足够接近的东西,我们称之为“数字表亲”范式。它不是数字孪生,但它捕捉到了某种氛围(笑)。这些模拟运行较慢,但是一种混合生成物理引擎,其中一部分由我们生成,剩下的委托给经典的图形管线。
现在模拟这个场景(笑)。里面有软体、流体,等等。艺术家或图形工程师要想正确模拟这个场景,将会花费很长时间。
回顾图形学的发展历程,我们用了30年才从左边走到右边(笑)。而视频生成模型仅用一年时间就能从左到右,模拟出所有变形物体(笑)。我在这里失去了些许幽默感,但这值得为了最新的Sora和Veo等生成模型付出(笑)。
还记得一开始我给你们看的那个视频吗?我骗了你们(笑)。那个视频中没有一个真实的像素。它完全是通过定制模型生成的。我们采用了一个通用的开源视频生成模型,并在其基础上进行了微调,使用了我们在真实机器人实验室中收集的数据。
现在你可以提示这个模型去想象不同的未来,从而模拟反事实情况。你会看到这两帧是完全相同的,但由于语言的不同,生成的视频会根据指令做出正确的反应,即使这些动作从未在现实中发生过。
你可以这样做……视频扩散模型不在乎场景有多复杂(笑)。它不在乎是否有流体或软体。同样的场景,你可以让它拿起不同的东西,它实际上会用正确的一只手抓住物体并放入篮子中。
这些都是生成的,全部都是生成的。没有一个像素是真实的。它甚至连反射都处理得很到位(笑)。所有的互动都很准确。我最喜欢的片段之一是机器人在弹尤克里里琴。基本上,视频模型可能已经看过数百万个人类演奏尤克里里琴的画面,于是它模拟出机器人手指做同样的事情。尽管硬件本身并不支持这一点,但视频生成模型却能做到。
如果我们从宏观角度来看,这就是模拟2.0时代,它具有极大的多样性,但目前运行速度较慢。没有人这么说,但我把它称为“数字游牧民”,因为它漫游在视频扩散模型的梦境空间中。
什么是视频扩散模型呢?它是对数亿段互联网视频的压缩,形成了一种多元宇宙的模拟。就像奇异博士一样,你在一个梦境空间中实例化一个机器人,它可以与任何地方的对象互动,无处不在。
所以我们有了这种具身化的扩展法则。嗯,Jenson已经离开了,但我相信他会喜欢这个的(笑)。你需要大量的计算资源来扩展经典模拟,这就是所谓的One Point X系列。问题是,随着规模扩大,多样化程度受限,这种手工制作系统的天花板很快就会显现出来。
然后是神经世界模型,也就是模拟2.0,它将以指数级的速度随计算资源增长,而正是在这个节点上,神经网络将超越传统图形工程师的能力。两者结合起来,将成为推动下一代机器人系统发展的核动力。
买得越多,省得越多(笑)。所以,起初有人说计算状况会改善,而不是变得更糟,烧掉这张图,再仔细想想。
把这些数据输入到我们所说的视觉语言动作模型中,该模型接收像素和指令,并输出马达控制,你就得到了March GTC期间我们开源的一个模型,就在Jenson的主旨演讲中,我们称之为GROOT-N1模型。
我们将其部署在机器人上,你知道的,有时候还挺浪漫的(笑)。你无法想象我们在训练期间做了多少清洁工作(笑)。它能够拿起一瓶香槟,并且在这次演示中表现完美(笑)。它还能完成一些工业任务,拿起工厂中的某些物品,并且还可以协调多个机器人。
GROOT-N1是完全开源的,未来版本也将继续开源,因为我们遵循Jenson开放源码和民主化物理AI的理念。
那么接下来呢?当我们解决了物理AI之后,下一步是什么?
我认为下一步是“物理API”。纵观人类历史,5000年来我们的工具越来越先进,社会也越来越好,但做饭和大量体力劳动的方式基本没变,甚至可以追溯到古埃及时期。
在过去99%的人类历史中,我们一直保持着从原材料经过人工劳动建设文明的结构。而在过去的1%,或者说大约50年内,我们的人工劳动逐渐减少,出现了高度专业化的复杂机器人系统,虽然编程成本高昂,但它们依然支撑着我们的社会。
而现在,未来的方向是让蓝色条柱覆盖 everywhere,打造一个“物理API”,就像LLM API操控数据块一样,物理API将操控原子块,让你的软件拥有物理执行器,从而改变物理世界。
在这个物理API之上,将出现一个新经济、新模式。你将拥有“物理提示”,即如何指导这些机器人,如何教导它们。语言有时并不够用。你还可以拥有物理应用商店和技能经济。例如,米其林星级厨师不必每天都去厨房,他们可以教授机器人,然后提供米其林级别的晚餐作为服务。
引用Jenson的话:“未来,所有会动的东西都将变得自主。”有一天你回家时,沙发上干干净净,桌上摆着烛光晚餐(笑),你的伴侣对你微笑而不是责骂你没洗脏衣服(笑)。这仍然是我每天的动力(笑)。
上个月你买了两个人形机器人,它们运行的是GROOT-N7,这些机器人悄然融入背景(笑),有点像环境智能。它们渐渐消失在人们的视野中,直到某天你会发现,我们已经通过了物理图灵测试,但那一天只不过又是普通的一天罢了。
谢谢大家。