思想领袖4 days ago
新机器人竞赛的核心:数据、模型与制造
创新很少孤立地出现。更多时候,它诞生于工程师、创始人、研究人员和投资者试图理解技术走向的对话之中。 在过去的一年里,我参加了全球数十场会议。商务旅行有时持续数月,与合作伙伴和客户的会面从亚洲延伸到北美。然而,我最近一次前往瑞士的旅行却显得尤为有趣——这很大程度上得益于在那里遇到的人和进行的对话。 事实证明,苏黎世是当今积极讨论机器人技术和Physical AI未来的地方之一。这些对话越深入,就越明显地发现,机器人领域真正的竞赛正围绕数据展开。 欧洲的硅谷 苏黎世传统上与金融业联系在一起,但近年来,它越来越多地被称为欧洲的硅谷。这一声誉很大程度上与苏黎世联邦理工学院(ETH Zurich)有关,这是欧洲最受尊敬的工程大学之一。它吸引了来自世界各地的研究人员、博士生、企业家和工程师。因此,围绕这所大学形成了一个强大的技术生态系统,研究、初创企业和工业项目几乎同步发展。 我此行的原因之一是为了更深入地了解Introspector能为自2025年初以来蓬勃发展的机器人市场提供什么。这是一个众多初创公司试图进入的行业,同时大型科技公司的技术突破正在积极重塑它。然而,尽管势头强劲,该领域提出的问题仍然多于答案。 苏黎世也是我们的合作伙伴Lightly的所在地,他们帮助我结识了在机器人技术、计算机视觉和人工智能交叉领域工作的同行。我想强调当地技术生态系统的一个重要方面:这里的人们非常开放和热情。他们不害怕分享自己的想法和假设,谈论他们试图解决的挑战以及正在进行的实验。因此,你能更快地理解市场的真实背景和行业的发展方向。 顺便提一下,当人们问我欧洲的“硅谷”与美国的有何不同时,答案常常让他们感到惊讶。在苏黎世,工作与生活的平衡感要强得多:早上运动,白天以平静而高效的节奏专注工作,晚上则与家人在山上度过或只是放松。在旧金山,常常有一种感觉,你需要不断证明自己比其他人更努力。在苏黎世,节奏是不同的——更具可持续性。然而,这里的技术雄心水平并不低。 更好的数据先于更好的机器人 这次旅行的主要收获之一是一个相当简单的观察:如今很多人都想在机器人领域工作。但尽管对该行业兴趣巨大,许多团队仍处于探索阶段,试图了解自己能在机器人技术和Physical AI的新浪潮中扮演什么角色,以及能做出什么贡献。 许多对话最终都汇聚到同一个话题:数据。如今,该行业缺乏灵巧任务的数据,即精细运动技能。在这个领域,机器人的能力仍然极其有限。人类几乎自动用手完成的事情——拿起一个物体、转动它、小心地放在某处,或进行微小的操作——仍然是机器人最具挑战性的任务之一。 这里取得进展的关键首先在于大规模、正确收集的数据集。如今,人们经常谈论以第一人称视角记录的自我中心数据集,系统捕捉人类动作,仿佛它自己在执行。然而,在实践中发现,“自我中心数据集”这个概念本身可能意味着非常不同的事情,并引发一系列技术问题。摄像机应该放在哪里?额头上、胸前,还是眼睛水平位置?视频录制应伴随哪些传感器?如果我们捕捉手部动作,操作员是否应该使用特殊手套?如果是,这些手套是否应包含触觉传感器、陀螺仪或其他运动跟踪系统? 一个更复杂的问题出现了:如何正确捕捉运动的深度。毕竟,不仅要理解手在二维平面上的位置,还要理解它如何在三维空间中移动——向前、向后、向上或向下——这很重要。 到目前为止,该行业尚未达成统一的答案。这就是为什么今天许多团队正在尝试不同的传感器配置、记录方法和数据集格式。 多模态系统 一旦对话转向机器人技术的数据收集,另一个话题很快就会出现——额外的传感器和多模态,它们能够更精确地捕捉身体运动、手部动作和物体交互。它们还有助于减少数据集收集过程中的错误。 当一个人用摄像机记录自己的动作时,总存在部分材料无法使用的风险。摄像机可能轻微移动,拍摄角度可能不正确,操作员可能意外转向错误的方向,或者操作员可能动作太快。结果,相当一部分记录的材料被丢弃。一个简单的例子:为了获得一小时真正可用的视频,操作员通常需要录制大约两小时的原始素材。 额外的传感器有助于弥补其中一些问题。即使摄像机轻微移动,传感器数据仍然可以重建手部运动或身体在空间中的位置。结果,为了获得相同数量的可用数据,可能只需要大约一小时二十分钟的录制,而不是两小时。这显著提高了数据集收集的效率,并降低了创建它们的成本。 因此,许多团队也注意到对多模态数据标注的兴趣日益增长,这并非巧合。这已成为与机器人技术和具身人工智能发展直接相关的更明显的趋势之一。 下一点是此类数据集的标注。我们在Keymakr处理机器人案例的客户数据集时也遇到过类似问题:这种标注在实践中应该是什么样子?应该是骨架式的吗?二维还是三维?是否应该将强化学习的元素纳入流程?有几十个这样的问题。工程师们自己也承认,目前还没有人能确切地说出哪种特定的数据配置最终会带来真正的技术突破。 这些担忧是可以理解的。构建复杂的数据集是一个昂贵的过程。数据结构中的每一个错误都可能耗费数千甚至数百万美元。有可能收集到“错误”的数据集,或在现实世界中难以复现的条件下记录数据,最终破坏整个项目。这正是为什么今天,人们越来越关注模型本身,以及训练这些模型所用数据的质量和架构。 市场需要什么样的机器人? 几十年来一直在汽车装配线上运行的经典工业机器人,实际上只需要很少的计算机视觉或复杂的人工智能模型。它们的任务极其具体:以高精度和一致性执行严格重复的动作——左、右、上、下。在这个领域,它们早已超越了人类。...