机器人

机器人时代不是即将到来 —— 它已经来了

发布于 2025年7月30日

更新于 2026年5月18日

作者

Artem Sokolov, Humanoid创始人

本月早些时候，在中国，一个名为双双的机器人，在福建的一所高中毕业典礼上走上了舞台，接受了毕业证书 —— 与学生和老师握手，令所有人都感到高兴。这样的时刻代表着一个重要的转变，即机器人开始以非常明显的方式进入公共生活。

这些时刻不仅仅代表着公众的好奇心 —— 它们标志着向现实世界整合的转变。这篇文章探讨了机器人如何从表演和壮观转变为功能性，以及为什么看似仅仅是硬件的壮举，实际上是关于集成智能的，这使得这些机器能够在非自动化环境中行走、交互和学习。我们还将讨论如何通过早期部署和长期合作伙伴关系来实现商业化。

机器人如何将人工智能推入现实世界

人工智能在虚拟表现和物理可靠性之间的差距仍然是被忽视的挑战之一。一个聊天机器人可以在不需要采取任何行动的情况下生成流利的文本 —— 就像一个视觉模型可以在不需要物理导航或冒着摔倒风险的情况下识别图像中的一个步骤。机器人没有这样的奢侈。

要在现实世界中发挥作用，人工智能必须抛弃静态数据集和受控条件。它必须在每秒都在变化的环境中看到、决定和行动。这包括不平的地板、放错的物体、不可预测的人类行为和依赖上下文的非语言暗示。结果是每天都面临噪音、模糊性和潜在的失败。

这就是身体化推理 —— 语言在空间、时间和后果中根植 —— 比标记预测更重要的原因。例如，如果一个人说“小心，地面很滑”，机器人需要将这个短语不仅仅与单词定义联系起来，还要与空间意识、潜在风险和实时调整联系起来。

同时，多模态学习变得至关重要，因为没有一个单一的输入通道足以单独运行。一个摄像头可能会错过一个光滑的表面，但脚部的压力传感器可以检测到突然的牵引力丧失。或者，在另一种情况下，语音识别可能会在一个嘈杂的仓库中失败，但视觉线索或手势可以填补空白。

泛化也变得至关重要。一个机器人不能仅仅依靠看到相同的环境两次。它需要在楼层湿滑、光线变化或盒子不在昨天的位置时调整其行为。这就是成功执行和失败之间的区别。

在Humanoid，我们之所以从早期开始与商业合作伙伴进行测试，就是因为这个原因。我们将机器人集成到实际环境中，以便及时发现潜在的缺陷，并确保在部署之前最佳地运行。一个在模拟或演示中表现良好的机器人与一个在压力下赢得信任的机器人是不一样的，因为这种信任最终是建立在现实世界学习基础上的。

我们知道，机器人将在未来两年内在商业上可用 —— 但我们不会等待。对于我们来说，商业化从一开始就开始了。这意味着围绕实际用例建立长期合作伙伴关系。通过一系列试点计划，我们不仅教育我们的合作伙伴关于这项技术 —— 我们还与他们一起学习。这种共享的学习过程也帮助我们从第一天开始完善成本结构和性能可靠性 —— 确保系统扩展时最好的总拥有成本（TCO）。

为什么机器人是通用智能的终极试验场

我们过去一百年所创造的世界是为人类规模量身定做的。门把手、叉车、仓库 —— 一切都假设了某些尺寸、运动范围和隐含的社会行为。机器人必须适应这种现实，否则它们将极大地限制其功能。

要走上楼梯、携带物体、解释一个指向的手势或识别声音中的犹豫，一个机器人必须超越视觉分类或预编程运动规划的背景。它必须推断意图、通过观察人类学习新任务、将该技能适应到略有不同的布局中，并随着时间的推移提高其性能。在实践中，这个系统有效地扩展了人工智能在现实约束下的能力。

在Humanoid，我们通过远程操作加速了这个过程。在开发的早期阶段，人类操作员指导机器人完成关键任务。这些手动数据成为训练新行为的基础。随着时间的推移，这些演示为我们的端到端模型提供了基础，帮助我们建立可靠的自主性。

从狭窄系统到集成智能

今天的大多数人工智能系统都擅长于狭窄的任务。在隔离状态下，每一个都能很好地工作。但机器人不需要断开的专家。为了成功集成，我们需要能够跨模态和时间尺度进行推理的系统。

一个机器人可能会收到一个相对模糊的指令 —— “去给我拿黄色的盒子，从走廊对面的储物室里” —— 并且必须将其解码为一系列子任务：定位说话者，导航走廊，识别正确的盒子，调整握力，避免碰撞，当然，还要安全返回。

这个序列的每个部分都涉及一个不同的子系统 —— 视觉、运动、语言、操作和反馈。整个系统的可靠性取决于这些部分在不断变化的条件下如何相互通信。

模块化架构是应对这一挑战的一种方法。这使我们能够独立地迭代子系统，同时仍然实现系统范围的协调。此外，这使我们能够在不需要从头开始重建的情况下跨多个环境扩展功能。这就是我们从封闭的演示转向开放世界性能的方式。

风险很大 —— 而且是全球性的

很容易将机器人视为未来主义的。但是，当我们与客户交谈时，需求是迫切的。许多仓库、装配线和其他曾经繁忙的工作场所现在正在努力维持人员。

这些劳动力短缺是人口问题。在日本，几乎30%的人口年龄超过65岁。在欧洲，关键部门 —— 其中有1700万美元的薪水 —— 正在努力招募年轻工人。这些不是大多数人想要的工作，而且越来越多的人不愿意做这些工作。

通过作为帮助之手而不是替代品，机器人可以承担身体要求高、重复或危险的任务 —— 而不冒疲劳或受伤的风险。这使人类工人能够专注于工作的更复杂、更具创造力或更具人际交往的方面。

此外，这创造了长期的经济韧性。当劳动力波动或不可用时，智能机器可以帮助确保连续性 —— 而不牺牲安全性、质量或适应性。

另一个需要强调的方面是监管框架。大多数团队 —— 尤其是在监管松散的管辖区 —— 等到最后才考虑这个问题。我们从一开始就考虑了这个问题。欧洲的安全和数据法律是世界上最严格的，但我们并没有把它们当作障碍，而是把它们当作我们的竞争优势。当其他市场采用更严格的监管时，我们将准备好满足这些监管，而其他公司可能会慌忙应对。

一个新的人工智能竞赛 —— 但不是你想象的那样

今天围绕人工智能的讨论大多集中在计算能力、参数和训练数据上。但真正的突破可能来自不同的前沿：物理世界中的集成。这就是智能必须学习执行的地方，而不仅仅是预测。

在这方面，竞争是关于最有能力的系统 —— 一个可以在公共空间中运行、在安全约束下运行、并且与人类一起工作的系统。这个系统，不仅要从数据中学习，还要 —— 尤其是 —— 从现实中学习，并且要与人们一起工作而不会破坏事物的流程。

这就是为什么我们不会等到部署后才开始。从开始，我们就与商业合作伙伴合作，将系统集成到实际环境中 —— 确保系统在最重要的地方改进：在实践中。

这种现实世界的学习正是狭窄系统所缺乏的。虽然这些系统已经带我们走了很远，但它们从来没有被设计为处理这种复杂性。机器人需要其他东西 —— 协调、健壮性和如前所述的从意外中学习的能力。

这就是我们面前的巨大机遇。不是要自动化一切，而是要构建能够理解、导航和与人类世界协作的机器。