思想领袖

機器人訓練的真實成本

Published April 29, 2026

Michael Abramov, Founder and CEO of Introspector

在第一部分中，我們討論了機器人如何從基本機械演變到理解其環境。在「最後一英里」階段 – 當機器人接受特定、自定義任務的後期訓練時 – 一個意外的障礙出現。它與數據有關：其收集、組織和在實際環境中的擴展。

正是在這個階段，概念和實施之間的差距變得最為明顯。什麼是主要的瓶頸，以及如何以最小的摩擦來克服它們？

為什麼數千小時的數據變成數年的工作

讓我們想象一下，我們已經有一個經過預先訓練的機器人。它可以在周圍環境中導航、移動、避開障礙物和與物體交互。它就像一個「十歲的孩子」，一般來說可以獨立行動。下一步是教它在特定條件下執行特定的動作，例如在汽車生產線上安裝玻璃板和密封條。

乍一看，任務似乎更簡單。它涉及掌握單一場景，所需的數據量遠小於預先訓練。基礎訓練可能需要數十萬小時，而後期訓練可能只需要數千小時。但是，這些數字是誤導性的。

當轉換為實際時間時，過程揭示了其真正的複雜性。在標準工作安排下，一個人每月工作約 160 小時。然而，這並不意味著所有時間都可以用於錄製。

在實踐中，會發生常斷：電池耗盡、攝像頭移動、傳感器故障。設備設置越複雜，問題的可能性就越高。即使是一個簡單的故障，如手套上的傳感器停止工作，也可以停止過程並導致時間損失。

因此，實際的數據收集速度是 2-3 倍較低。一個小時的高質量錄製可能需要三個小時的實際工作時間。這徹底改變了計算：5,000 小時的數據轉換為大約 15,000 小時的勞動。

層層複雜

在預先訓練中，可能只需要給一個人一台攝像機並要求他們錄製日常活動。在這個階段，需要訪問特定的環境，例如工廠、施工現場或專門的生產設施。

這立即引入了實際的限制。例如，在施工現場，工人需要戴安全帽，這意味著需要開發特殊的設備：具有攝像頭的安全帽，能夠抵禦灰塵、濕氣和衝擊。

然後是訪問現場本身。需要與現場所有者達成協議，獲得許可，並協商條件。這幾乎總是涉及額外的成本：公司期望補償，工人期望為參與而獲得報酬。

保險和安全合規也成為關鍵問題。如果設備不符合所需的標準，保險可能會失效，迫使整個過程重新構建。

甚至在日常運營中，挑戰仍然存在。攝像機需要打開、監控和維護。工人在手套和惡劣條件下工作。設備會變髒、磨損和損壞。攝像機可能在幾分鐘後關閉，人員可能甚至沒有注意到。

這就需要參與者進行自我培訓 – 他們必須了解如何使用設備。另外，需要連續的監督 – 必須確保錄製正在進行，設備正在正常工作。

從原始視頻到訓練數據

錄製之後，下一個階段開始：數據收集、上傳、結構化、驗證其質量和標記。

任何原始數據都由視頻和傳感器信號組成。要將其轉換為訓練材料，必須對其進行結構化：需要識別物體、捕捉動作、描述狀態、運動和與環境的交互。這就是標記的作用。一個合理的問題出現 – 這種標記工作流的金標準是什麼？

在某些情況下，簡單的邊界框足以在框架中識別物體。在其他情況下，需要時間標記來描述一系列動作。在某些情景中，使用關鍵點和骨骼模型來捕捉身體運動。在更複雜的情況下，需要 3D 網格或手勢追蹤來準確地表示交互機制。通常還需要集成其他傳感器，例如加速度計，來捕捉運動動態和施加的力。

這種項目通常需要擴大團隊。標記是一項龐大而複雜的任務，需要時間、專業知識和大量的人力資源。這就是數據解決方案提供商帶來的作用，例如 Keymakr，它已經證明了其有效性，因為它可以根據任何數據量擴大團隊，从單個專家到數百名標記員。

還沒有正確的方法來訓練

行業仍處於探索階段，因為尚未就哪種數據組合能夠產生最佳結果達成共識。許多方法都是經驗驗證的，因為它們在特定的實驗中有效。因此，不同的團隊繼續依賴不同的技術，受到自己的經驗、任務和限制的影響。

在學術和應用層面上，這導致了碎片化：實驗室和公司正在朝著不同的方向發展。情況類似於早期的自動駕駛時代，當時特斯拉押注於沒有 LiDAR 的視覺方法，而其他大多數玩家則選擇 LiDAR 作為核心傳感器。

如今，基於 LiDAR 的系統往往表現出更穩定的性能，但特斯拉的方法仍在不斷演進。區別在於，在自動駕駛中，市場已經相當成熟：穩定的架構已經出現，限制已經被很好地理解，並且已經積累了大量的專業知識。

相比之下，對於物理 AI 和類似的模型訓練，尚未達到這種成熟度。市場仍在形成，標準缺失，許多進展都是由實驗驅動的。新的模型訓練方法、提高效率和適應實際場景的方法不斷出現，表明該領域最重要的突破仍然在前方。

人類作為強化系統

標記不孤立存在，也不僅僅是為了模型。它作為工程師建造該模型的工具。通過它，他們正式化現實，識別關鍵參數，定義系統的行為規則。

工程師的任務是教導系統在實際環境中正確地執行動作。例如，一個基本場景可能由四個動作組成：撿起玻璃、打開水龍頭、填充它、關閉水龍頭。但在實際中，會發生偏差 – 玻璃溢出。

在那一刻，模型預計會完成場景並執行額外的動作：停止水流、調整水位、防止溢出。這是基於上下文理解的行為邏輯。

工程師遵循一個循環：標記數據、訓練模型、測試它。如果系統工作，則假設得到證實。如果不行，則開始分析。

在某個時候，可能會發現模型缺少一個重要的參數，例如玻璃的填充水平。以前，數據可能已經包含了物體（玻璃、水龍頭、手柄）的標記和動作（打開、填充、關閉）的標記，但缺少了狀態的標記，例如滿溢程度。

然後，過程中添加了一個新層：標記填充水平，然後正式化，例如，定義任何超過 85% 的東西為臨界狀態。

這導致了訓練的下一個迭代。你可以有數百個這樣的迭代。

沒有人假設系統會立即正確地工作。相反，過程是建立在連續的近似基礎上：首先，創建一個基準版本；然後在實際或近實際條件下測試它；找出差距；然後改進系統。這是我經常與客戶在 Introspector 討論的東西，我們一起經歷整個物理 AI 的旅程。

在某個時候，期望的結果就會出現。但其價值不僅在於系統開始工作，而且在於積累的經驗，這使得這個結果可以更可預測地被複製。

大家都忘記的經濟學

在過去的一年左右時間裡，我注意到公司在使用自我中心數據時犯的最大錯誤與技術無關。

核心問題實際上在於低估項目的經濟學。

在想法階段，技術佔據了中心位置 – 使用哪些模型、如何訓練它們、哪些方法應用。您研究、研究、討論架構、測試假設。這是自然的：技術感覺是問題中最有形和最明顯的部分。

但是在這個階段，團隊很少問一個直接和實際的問題：它將花費多少錢？

當項目從理論轉移到實施時，很明顯每個模型背後都有數萬小時的數據。收集這些數據需要時間、訪問實際環境和專家的參與。標記添加了另一層複雜性和成本。因此，最終的數字往往遠遠高於最初預期的。

這並不意味著這樣的項目不應該被追求。相反，它們是推動行業前進的東西。

但重要的是從一開始就理解挑戰的規模。認識到在模型訓練中，背後每個驚人的算法都有複雜、資源密集的數據工作。

即使是很好的想法也會因數據成本遠遠超過七位數而無法完全實施。

也許今天正在發生的最重要的轉變與這個認識有關。這些系統的未來將由其「智能」程度和整個數據管道的有效性和精確性來定義 – 從數據收集到最終解釋。

Michael Abramov, Founder and CEO of Introspector

Michael Abramov 是 Introspector 的创始人和 CEO，他带来了 15 年以上的软件工程和计算机视觉 AI 系统经验，用于构建企业级标注工具。

Michael 开始他的职业生涯作为软件工程师和研发经理，构建可扩展的数据系统和管理跨功能的工程团队。直到 2025 年，他曾担任 Keymakr 的 CEO，该公司是一家数据标注服务公司，他在那里开创了人机协同工作流、先进的 QA 系统和定制工具，以支持大规模计算机视觉和自主驾驶数据需求。

他拥有计算机科学学士学位，并具有工程和创意艺术背景，这使他能够从多学科的角度解决棘手的问题。Michael 活跃在技术创新、战略产品领导和现实世界影响力的交叉点，推动自主系统和智能自动化的下一个前沿。

Unite.AI