思想领袖
機器人訓練的真實成本

在 第一部分 中,我們討論了機器人如何從基本機械演變到理解其環境。在「最後一英里」階段 – 當機器人接受特定、自定義任務的後期訓練時 – 一個意外的障礙出現。它與數據有關:其收集、組織和在實際環境中的擴展。
正是在這個階段,概念和實施之間的差距變得最為明顯。什麼是主要的瓶頸,以及如何以最小的摩擦來克服它們?
為什麼數千小時的數據變成數年的工作
讓我們想象一下,我們已經有一個經過預先訓練的機器人。它可以在周圍環境中導航、移動、避開障礙物和與物體交互。它就像一個「十歲的孩子」,一般來說可以獨立行動。下一步是教它在特定條件下執行特定的動作,例如在汽車生產線上安裝玻璃板和密封條。
乍一看,任務似乎更簡單。它涉及掌握單一場景,所需的數據量遠小於預先訓練。基礎訓練可能需要數十萬小時,而後期訓練可能只需要數千小時。但是,這些數字是誤導性的。
當轉換為實際時間時,過程揭示了其真正的複雜性。在標準工作安排下,一個人每月工作約 160 小時。然而,這並不意味著所有時間都可以用於錄製。
在實踐中,會發生常斷:電池耗盡、攝像頭移動、傳感器故障。設備設置越複雜,問題的可能性就越高。即使是一個簡單的故障,如手套上的傳感器停止工作,也可以停止過程並導致時間損失。
因此,實際的數據收集速度是 2-3 倍較低。一個小時的高質量錄製可能需要三個小時的實際工作時間。這徹底改變了計算:5,000 小時的數據轉換為大約 15,000 小時的勞動。
層層複雜
在預先訓練中,可能只需要給一個人一台攝像機並要求他們錄製日常活動。在這個階段,需要訪問特定的環境,例如工廠、施工現場或專門的生產設施。
這立即引入了實際的限制。例如,在施工現場,工人需要戴安全帽,這意味著需要開發特殊的設備:具有攝像頭的安全帽,能夠抵禦灰塵、濕氣和衝擊。
然後是訪問現場本身。需要與現場所有者達成協議,獲得許可,並協商條件。這幾乎總是涉及額外的成本:公司期望補償,工人期望為參與而獲得報酬。
保險和安全合規也成為關鍵問題。如果設備不符合所需的標準,保險可能會失效,迫使整個過程重新構建。
甚至在日常運營中,挑戰仍然存在。攝像機需要打開、監控和維護。工人在手套和惡劣條件下工作。設備會變髒、磨損和損壞。攝像機可能在幾分鐘後關閉,人員可能甚至沒有注意到。
這就需要參與者進行自我培訓 – 他們必須了解如何使用設備。另外,需要連續的監督 – 必須確保錄製正在進行,設備正在正常工作。
從原始視頻到訓練數據
錄製之後,下一個階段開始:數據收集、上傳、結構化、驗證其質量和標記。
任何原始數據都由視頻和傳感器信號組成。要將其轉換為訓練材料,必須對其進行結構化:需要識別物體、捕捉動作、描述狀態、運動和與環境的交互。這就是標記的作用。一個合理的問題出現 – 這種標記工作流的金標準是什麼?
在某些情況下,簡單的邊界框足以在框架中識別物體。在其他情況下,需要時間標記來描述一系列動作。在某些情景中,使用關鍵點和骨骼模型來捕捉身體運動。在更複雜的情況下,需要 3D 網格或手勢追蹤來準確地表示交互機制。通常還需要集成其他傳感器,例如加速度計,來捕捉運動動態和施加的力。
這種項目通常需要擴大團隊。標記是一項龐大而複雜的任務,需要時間、專業知識和大量的人力資源。這就是數據解決方案提供商帶來的作用,例如 Keymakr,它已經證明了其有效性,因為它可以根據任何數據量擴大團隊,从單個專家到數百名標記員。
還沒有正確的方法來訓練
行業仍處於探索階段,因為尚未就哪種數據組合能夠產生最佳結果達成共識。許多方法都是經驗驗證的,因為它們在特定的實驗中有效。因此,不同的團隊繼續依賴不同的技術,受到自己的經驗、任務和限制的影響。
在學術和應用層面上,這導致了碎片化:實驗室和公司正在朝著不同的方向發展。情況類似於早期的自動駕駛時代,當時特斯拉押注於沒有 LiDAR 的視覺方法,而其他大多數玩家則選擇 LiDAR 作為核心傳感器。
如今,基於 LiDAR 的系統往往表現出更穩定的性能,但特斯拉的方法仍在不斷演進。區別在於,在自動駕駛中,市場已經相當成熟:穩定的架構已經出現,限制已經被很好地理解,並且已經積累了大量的專業知識。
相比之下,對於物理 AI 和類似的模型訓練,尚未達到這種成熟度。市場仍在形成,標準缺失,許多進展都是由實驗驅動的。新的模型訓練方法、提高效率和適應實際場景的方法不斷出現,表明該領域最重要的突破仍然在前方。
人類作為強化系統
標記不 孤立存在,也不僅僅是為了模型。它作為工程師建造該模型的工具。通過它,他們正式化現實,識別關鍵參數,定義系統的行為規則。
工程師的任務是教導系統在實際環境中正確地執行動作。例如,一個基本場景可能由四個動作組成:撿起玻璃、打開水龍頭、填充它、關閉水龍頭。但在實際中,會發生偏差 – 玻璃溢出。
在那一刻,模型預計會完成場景並執行額外的動作:停止水流、調整水位、防止溢出。這是基於上下文理解的行為邏輯。
工程師遵循一個循環:標記數據、訓練模型、測試它。如果系統工作,則假設得到證實。如果不行,則開始分析。
在某個時候,可能會發現模型缺少一個重要的參數,例如玻璃的填充水平。以前,數據可能已經包含了物體(玻璃、水龍頭、手柄)的標記和動作(打開、填充、關閉)的標記,但缺少了狀態的標記,例如滿溢程度。
然後,過程中添加了一個新層:標記填充水平,然後正式化,例如,定義任何超過 85% 的東西為臨界狀態。
這導致了訓練的下一個迭代。你可以有數百個這樣的迭代。
沒有人假設系統會立即正確地工作。相反,過程是建立在連續的近似基礎上:首先,創建一個基準版本;然後在實際或近實際條件下測試它;找出差距;然後改進系統。這是我經常與客戶在 Introspector 討論的東西,我們一起經歷整個物理 AI 的旅程。
在某個時候,期望的結果就會出現。但其價值不僅在於系統開始工作,而且在於積累的經驗,這使得這個結果可以更可預測地被複製。
大家都忘記的經濟學
在過去的一年左右時間裡,我注意到公司在使用自我中心數據時犯的最大錯誤與技術無關。
核心問題實際上在於低估項目的經濟學。
在想法階段,技術佔據了中心位置 – 使用哪些模型、如何訓練它們、哪些方法應用。您研究、研究、討論架構、測試假設。這是自然的:技術感覺是問題中最有形和最明顯的部分。
但是在這個階段,團隊很少問一個直接和實際的問題:它將花費多少錢?
當項目從理論轉移到實施時,很明顯每個模型背後都有數萬小時的數據。收集這些數據需要時間、訪問實際環境和專家的參與。標記添加了另一層複雜性和成本。因此,最終的數字往往遠遠高於最初預期的。
這並不意味著這樣的項目不應該被追求。相反,它們是推動行業前進的東西。
但重要的是從一開始就理解挑戰的規模。認識到在模型訓練中,背後每個驚人的算法都有複雜、資源密集的數據工作。
即使是很好的想法也會因數據成本遠遠超過七位數而無法完全實施。
也許今天正在發生的最重要的轉變與這個認識有關。這些系統的未來將由其「智能」程度和整個數據管道的有效性和精確性來定義 – 從數據收集到最終解釋。
