机器人

人形机器人时代不是即将到来 —— 它已经来了

Published July 30, 2025

Updated April 26, 2026

Artem Sokolov, Founder of Humanoid

本月早些时候，在中国，一个名为 Shuang Shuang 的人形机器人在福建的一所高中毕业典礼上走上了舞台，接受了毕业证书 —— 与学生和老师握手，给所有人带来了愉悦。这样的时刻代表着一个有意义的转变，人形机器人开始以非常明显的方式进入公共生活。

这些时刻不仅仅代表着公众的好奇心 —— 它们标志着向真实世界整合的转变。这篇文章探讨了人形机器人如何从表演和壮观转变为功能性 —— 以及为什么看似仅仅是硬件上的壮举，实际上是关于使这些机器能够在非自动化脚本环境中行走、交互和学习的集成智能。我们还将讨论如何通过早期部署和长期合作来实现商业化。

人形机器人如何将 AI 推向现实世界

虚拟性能和物理可靠性之间的差距仍然是 AI 中最被忽视的挑战之一。聊天机器人可以生成流利的文本而不需要执行它们 —— 就像视觉模型可以在图像中识别一个步骤而不需要物理地导航它或冒着跌倒的风险。人形机器人没有这种奢侈。

为了在现实世界中发挥作用，AI 必须抛弃静态数据集和受控条件。它必须在每秒都在变化的环境中看到、决定和行动。包括不平的地板、放错的物体、不可预测的人类行为和依赖上下文的非语言暗示。结果是每天都面临噪音、模糊性和潜在的失败。

这就是身体推理 —— 语言以空间、时间和后果为基础 —— 开始比标记预测更重要的地方。例如，如果一个人说“小心，地上滑”，机器人需要将这个短语不仅仅连接到一个词的定义，还要连接到空间意识、潜在风险和实时调整。

同时，多模态学习变得至关重要，因为没有单一的输入通道足以单独操作。摄像头可能会错过一个光滑的表面，但脚部的压力传感器可以检测到突然失去牵引力的情况。或者，在另一种情况下，语音识别可能会在一个嘈杂的仓库中失败，但视觉提示或手势可以填补空白。

泛化也变得至关重要。机器人不能依赖于看到相同的环境两次。它需要在楼层湿、照明变化或盒子不在昨天的位置时调整其行为。这就是成功执行和失败之间的区别。

在 Humanoid，我们之所以从早期开始与商业合作伙伴进行测试，就是因为我们需要尽快发现潜在的缺陷，并确保在部署之前实现最佳功能。一个在模拟或演示中表现良好的机器人与一个在压力下赢得信任的机器人是不一样的，因为这种信任最终是建立在现实世界学习基础上的。

我们知道，人形机器人将在未来两年内商业化 —— 但我们不会等待。对于我们来说，商业化从早期开始。这意味着围绕真正的用例建立长期合作伙伴关系。通过一系列试点计划，我们不仅教育我们的合作伙伴关于这项技术 —— 我们还与他们一起学习。这种共享的学习过程也帮助我们从第一天开始完善成本结构和性能可靠性 —— 以确保系统扩展时最好的总拥有成本（TCO）。

为什么人形机器人是通用智能的终极测试平台

我们在过去一百年中创造的世界是为人类规模量身定做的。门把手、叉车、仓库 —— 每件东西都假设某些尺寸、运动范围和隐含的社会行为。人形机器人必须适应这种现实，否则它们将极大地限制其功能。

为了走上楼梯、携带物体、解释指向手势或识别声音中的犹豫，机器人必须理解远超视觉分类或脚本化运动规划的背景。它必须推断意图、通过观看人类学习新任务、将该技能适应稍微不同的布局，并随着时间的推移提高其性能。在实践中，这个系统有效地扩展了 AI 在现实约束下的能力。

在 Humanoid，我们通过远程操作加速这一过程。在开发的早期阶段，人类操作员指导机器人完成关键任务。这种手动数据成为训练新行为的基础。随着时间的推移，这些示范反馈到我们的端到端模型中，帮助我们建立可靠的自主性。

从狭窄系统到集成智能

今天的大多数 AI 系统都擅长狭窄的任务。在隔离中，每一个都能很好地工作。但人形机器人不需要断开的专家。为了集成成功，我们需要能够跨模态和时间尺度推理的系统。

一个人形机器人可能会接收到一个相对模糊的指令 —— “去储物室把黄色的盒子从走廊对面的房间里拿回来” —— 并且需要将其解码为一系列子任务：定位说话者、导航走廊、识别正确的盒子、调整握力、避免碰撞，并当然，安全返回。

每个子任务都涉及一个不同的子系统 —— 视觉、运动、语言、操作和反馈。整个系统的可靠性取决于这些部分在不断变化的条件下如何进行通信。

模块化架构是一种应对这一挑战的方法。这使我们能够独立地迭代子系统，同时仍然实现系统范围的协调。另外，这使我们能够跨多个环境扩展能力，而无需从头开始重建。这就是我们从封闭的演示转变为开放世界性能的方式。

赌注是巨大的 —— 而且是全球性的

很容易将人形机器人框定为未来主义的。但是，当我们与客户交谈时，需求是迫在眉睫的。许多仓库、装配线和其他曾经繁忙的工作场所现在正在努力维持人员。

这些劳动力短缺是人口问题。在日本，几乎 30% 的人口年龄超过 65 岁。在欧洲，关键部门 —— 其中有 170 亿美元的工资单 —— 正在努力招募年轻工人。这些并不是大多数人想要的角色，而且越来越多的人不愿意做这些工作。

通过作为帮助之手而不是替代品，人形机器人可以承担身体上要求高、重复或危险的任务 —— 如移动库存、装载托盘、操作机械 —— 而不冒着疲劳或受伤的风险。这使人类工人能够专注于工作的更复杂、更具创造性或更富有交互性的方面。

此外，这创造了长期的经济韧性。当劳动力波动或不可用时，智能机器可以帮助确保连续性 —— 而无需牺牲安全、质量或适应性。

另一个需要强调的方面是监管框架。大多数团队 —— 尤其是在松散监管的管辖区 —— 等到最后才思考这个问题。我们从一开始就考虑了这个问题。欧洲的安全和数据法律是世界上最严格的，但我们并不把它们当作障碍，而是把它们当作我们的竞争优势。随着其他市场采用更严格的监管，我们将准备好满足他们，而其他公司可能会陷入困境。

一个新的 AI 竞赛 —— 但不是你想象的那样

今天围绕 AI 的大部分讨论都集中在计算能力、参数和训练数据上。但真正的突破可能来自不同的前沿：物理世界中的集成。这是智能必须学会执行的地方，而不仅仅是预测。

在这方面，竞争是关于最有能力的系统 —— 一个可以在公共空间中操作、在安全约束下工作、并与人类一起工作的系统。这个系统，不仅要从数据中学习，还要 —— 尤其是 —— 从现实中学习，并与人们一起工作而不会破坏事情的流程。

这就是为什么我们不会等到部署后才开始。从一开始，我们就与商业合作伙伴合作，将系统集成到真实环境中 —— 以确保系统在最重要的地方改进：在实践中。

这种现实世界的学习正是狭窄系统的缺陷所在。虽然这些系统已经带我们走了很远，但它们从来没有被设计为处理这种复杂性。人形机器人需要其他东西 —— 协调、健壮性和学习意外事件的能力。

这就是我们面前的巨大机会。不是要自动化一切，而是要构建能够理解、导航和与人类世界合作的机器。

Unite.AI