思想领袖
我们教会机器人移动,现在我们正在教他们生活

现代机器人已经达到了一个阶段,移动不再是主要挑战——机器已经可以在空间中导航、抓取和操作,并具有令人印象深刻的精度。然而,实现他们真正“生活”和在现实世界中运行仍然是一个未解决的问题。
在这个过程中,起关键作用的是可以被称为“脊髓”的系统:负责基本反应、行为和与环境交互的系统。
当你通过这个视角来看机器人的演化时,就会清楚地看到这一系列阶段——在每一步中,系统学习新东西,从简单的移动到复杂的、上下文感知的动作——与人类发展非常相似。
而正是在这个演化中——从“空白”的硬件到有意义的行为——今天的物理人工智能的主要转变正在发生。有趣的是,深入学习它。
机器人的基础:一个很少被讨论的阶段
什么是机器人在实际意义上?它是一种最初被创造为通用平台的物理设备。其本质上是一个“空白”,必须被适应于特定的任务、训练以在特定的环境中运行,并被教导执行所需的动作。
如果我们超越日常场景,考虑更现实的近期应用,就会清楚地看到机器人的全面采用将主要发生在工业和潜在危险的环境中。这反过来又意味着对他们的行为、稳健性和训练质量有着更高的要求。
这个过程从最基本的步骤开始——构建设备本身。一个机器人由多个组件组成,包括执行器、电机、传感器、摄像头、激光雷达。它可以是人形、轮式、双足或四足——形状是次要的。重要的是,在这个阶段,我们最终得到一个功能但仍然“空白”的设备。
下一个阶段是安装一个基础模型,作为其行为的基础。在广泛的意义上,“模型”是整个功能控制层。它负责核心能力:保持平衡、站立和移动、从点A到点B导航、避免障碍、不损坏环境、安全地与人类交互。
这就是强化学习发挥作用的地方。在这样的系统中,运行了数十亿次模拟。我们经常看到视频中的机器人“学习”在复杂的环境中:大多数机器人会摔倒、失去平衡或无法完成任务。但是那些能够保持直立并继续移动的机器人是进步的那些。
这就是强化学习的本质:选择成功的行为。那些“幸存”的算法成为下一个迭代的基础。因此,在经过大量的运行后,出现了一个可以自信地处理障碍的模型。这个算法然后被转移到物理设备上。
这是一个扎实但至关重要的阶段——往往涉及很少或没有计算机视觉,这在这一点上是不需要的。我们处理的是必须从一开始就嵌入到系统中的基本物理和力学。
机器人如何开始“感受”世界
所以,我们已经有了“硬件”——一个带有基础模型的机器人:它可以站立、行走和保持平衡。但是,这对于现实世界的任务来说已经足够了,例如在工业环境中?显然不够。
下一个层次从这里开始。我们集成传感器并训练模型根据感官输入进行操作。出现了一层新的核心技能——已经远远超过简单的移动。
与人类发展的类比在这里很有用。在第一阶段,我们将系统带到了大约一岁孩子的水平:它可以站立、迈出第一步、保持平衡而不摔倒。下一步更符合八岁孩子的水平。
在这个年龄,孩子积极地使用他们的“传感器”:他们可以感知风险并评估他们的行为的后果。他们知道不要触摸热的东西或把非常冷的东西放到嘴里。他们可以爬上桌子、骑自行车、与物体交互。他们能够抓取、携带和操作物体,并执行基本的自我护理动作。
我们称这个阶段为预训练。在这一点上,仅仅模拟已经不够了。
是的,一些场景仍然可以被有效地建模:例如,如何捡起一个玻璃杯,或者更换一个电池,移除一个组件,放置它在充电器上,拿另一个,然后安装回去。
但是总体而言,平衡发生了转变:大约80%的训练仍然可以在模拟中发生,而大约20%的数据必须来自现实世界。这就是我们开始讨论自我中心数据的地方。
自我中心数据作为环境理解的基础
今天,自我中心数据正在全球范围内被大量收集——因为没有它,无法从基本力学转移到与现实世界的有意义的交互。我的一位同事经营着一系列汽车维修店,他的员工使用头戴摄像头来记录整个汽车维修过程。纽约市的一位建筑物所有者实施了类似的方法:清洁人员佩戴额头上的摄像头,记录他们如何清洁空间和保持卫生区域。
随着时间的推移,这些录音成为一个独立的产品——它们被打包和出售。它们的关键价值在于它们适合预训练阶段,帮助建立对环境和动作序列的基础理解。
例如,Keymakr就存在这样的服务,在那里,团队独立创建了从简单的洗碗到更复杂的场景的整个自我中心数据集合。
为什么这是如此重要?因为这样的数据提供了纯粹模拟无法提供的东西——现实世界环境的多样性。办公室、汽车维修店、建筑工地、餐厅和酒店——每一个都添加了自己的背景、场景和细微差别。它们共同形成了一个数据集,使系统不仅能“看到”,而且逐渐开始理解现实世界的动态。
在这个阶段,目标不再是教一个机器人完美地执行一个特定的动作。更重要的是使它能够在其周围的环境中定位自己。
今天,几乎所有从事机器人领域的公司——从特斯拉到Unitree Robotics和Figure AI——都专注于这一阶段。他们的目标是建立一个基础模型,其能力首先类似于“八岁孩子”,然后进步到“十二岁孩子”。这也是我们在Introspector关注的内容——为预训练做准备,这是现代机器人“成长”的最关键阶段。
训练的最后一英里:通用性结束,专业化开始的地方
让我们想象一个机器人已经完成了预训练,并从一开始就被制造为具有对世界的基本理解和类似于青少年的技能。然而,即使这还不够用于真正的商业用例。公司不需要一个“通用”的机器人——他们需要一个专家。
以汽车制造为例。一些任务仍然由人类执行,因为它们需要敏感度、精度和持续的视觉控制。传统的自动化在这里挣扎。工业操作者擅长重复、刚性任务——“拾取、移动、放置”。但是需要适应性、压力感知和实时调整的任务仍然在人类的领域。
这就是新的需求出现的地方:训练一个机器人执行一个特定的操作,正如一个熟练的工人在生产线上做的那样。换句话说,在基础训练之后,下一个层次是训练:为特定的职业和场景进行训练。
在这一点上,一个实际问题出现了:为了达到这种训练水平,到底需要什么?如果我们希望一个机器人复制人类的表现,我们需要尽可能精确地捕捉人类的行为。例如,工厂上的专家需要戴上摄像头,并在几个月甚至一年内记录他们如何执行任务。
机器人在人类世界中“生活”的要求
一台摄像头是不够的。我们不仅需要捕捉视觉角度,还需要捕捉运动的物理学。这是使用带有触觉传感器的手套来测量压力、施加的力和与物体的交互来完成的。这尤为重要,因为物体本身可能会因车型而异,这直接影响任务的执行方式。
接下来是运动跟踪。标记——视觉或传感器——被放置在手腕、肘部和有时肩膀上。这些可以包括带有可识别标记(类似于QR码)的腕带,使系统能够从视频中跟踪手的位置。额外的传感器,如陀螺仪,用于捕捉关节运动。
最终目标是完全重建运动的力学:肩膀如何移动,肘部如何弯曲,手腕如何旋转。所有这些对于下一个阶段——后训练至关重要。
如果在预训练中,我们仍然可以部分依赖模拟,那么在这个阶段,它不再起作用。这个“最后一英里”几乎不可能被准确地模拟。例如,你不可能完全模拟一位厨师如何擀面团——施加的力、压力如何分布、材料如何被感知。
这就是为什么在后训练中,几乎所有的数据都必须来自现实世界。这也是为什么很明显:主要挑战转移到了实际领域——如何在现实中获得这样的数据。收集这种级别的自我中心数据是一个复杂的多步骤过程,涉及对环境的访问、专用设备、熟练工人的参与和随后的数据准备。
超越理论,这就是机器人真正“活过来”的地方——在我们能够组织这个过程、克服各个行业面临的约束并在规模上注释这样的数据集之后。这将在下一部分中被涵盖,我们将更详细地研究在标记和准备期间出现的所有挑战。
