์ฌ์ ๋ฆฌ๋
๋ก๋ด์๊ฒ ์์ง์์ ๊ฐ๋ฅด์ณค์ต๋๋ค. ์ด์ ๋ ๊ทธ๋ค์๊ฒ ์ถ์ ๊ฐ๋ฅด์น๊ณ ์์ต๋๋ค.

현대 로봇공학은 움직임이 더 이상 주요 도전이 아닌 지점에 도달했습니다. 기계는 이미 인상적인 정밀도로 네비게이션,抓取, 및 공간에서 작동할 수 있습니다. 그러나 그들을 진정으로 “살게” 하고 실제 세계에서 작동하게 하는 것은 여전히 해결되지 않은 문제입니다.
이 과정에서 핵심 역할을 하는 것은 “척수”라고 할 수 있는 시스템입니다. 이는 기본 반응, 행동, 및 환경과의 상호작용을 담당합니다.
로봇의 진화를 통해 이 렌즈를看着 보면, 각 단계에서 시스템이 새로운 것을 배우는 이 시퀀스가 인간 발달과 매우 유사하다는 것이 명백해집니다.
그리고 именно 이 진화 – “빈” 하드웨어에서 의미 있는 행동으로 – 에서 오늘날 물리적 AI의 주요 변화가 발생하고 있습니다. 더 깊이 배우기 interesring합니다.
로봇공학의 기초: 드물게 논의되는 단계
실제로 로봇은 무엇일까요? 그것은 초기에 범용 플랫폼으로 생성된 물리적 장치입니다. 본질적으로, 그것은 특정 작업에 적응되어야 하며, 주어진 환경에서 작동하도록 훈련되어야 하며, 필요한 동작을 수행하도록 가르쳐야 합니다.
일상적인 시나리오를 넘어서서 더 실제적인 근미래 적용을 고려해 보면, 로봇의 완전한 채택은 주로 산업적이고 잠재적으로 위험한 환경에서 발생할 것이라는 것이 명백해집니다. 이는 반대로 그들의 행동, 강건성, 및 훈련 품질에 대한 상당히 높은 요구를 의미합니다.
이 과정은 가장 기본적인 단계 – 장치 자체를 구축하는 것 – 부터 시작됩니다. 로봇은 작동기, 모터, 센서, 카메라, LiDAR 등 여러 구성 요소로 구성됩니다. 그것은 인간형, 바퀴형, 두 발형, 또는 사족형일 수 있습니다. 형태는 втор次적입니다. 중요한 것은 이 단계에서 아직 “빈” 장치이지만 작동하는 장치가 끝나는 것입니다.
다음 단계는 행동의 기초가 되는 기본 모델을 설치하는 것입니다. 광범위한 의미에서, “모델”은 전체 기능적 제어 레이어입니다. 그것은 핵심 능력에 대한 책임을 지닙니다. 균형을 유지하고, 서고, 움직이고, 점 A에서 점 B로 네비게이션하고, 장애물을 피하고, 환경을 손상하지 않고, 인간과 안전하게 상호작용하는 것 등입니다.
이것이 강화 학습이 발挥하는 곳입니다. 이러한 시스템에서는 수십억 개의 시뮬레이션이 실행됩니다. 우리는 종종 복잡한 환경에서 로봇이 “학습”하는 비디오를 봅니다. 대부분의 로봇은 넘어지거나, 균형을 잃거나, 작업을 완료하지 못합니다. 그러나 서서 계속 이동하는 로봇은 진행하는 것입니다.
이것이 강화 학습의 본질입니다. 성공적인 행동을 선택하는 것입니다. 생존한 로봇의 알고리즘은 다음 반복의 기초가 됩니다. 결과적으로, 엄청난 수의 실행 후, 장애물에 자신 있게 대처할 수 있는 모델이 나타납니다. 이 알고리즘은 затем 물리적 장치로 전송됩니다.
이것은 근본적인 물리학과 역학이 시스템에 처음부터 내장되어야 하는 근본적이면서도 중요합니다.
로봇이 세계를 “感じ”기 시작하는 방법
우리는 이미 “하드웨어” – 기본 모델이 설치된 로봇을 가지고 있습니다. 그것은 서고, 걸어가고, 균형을 유지할 수 있습니다. 그러나 실제 세계의 작업, 예를 들어 산업 환경에서,에 충분한가요? 명백히 그렇지 않습니다.
다음 단계가 여기서 시작됩니다. 우리는 센서를 통합하고 모델을 감각 입력에 따라 행동하도록 훈련합니다. 새로운 핵심 기술 레이어가 나타납니다. 이미 단순한 움직임보다 훨씬 더 복잡합니다.
인간 발달과의 유사성이 여기서 유용합니다. 첫 번째 단계에서, 우리는 시스템을 약 1세의 아이 수준으로 가져왔습니다. 그것은 서고, 첫 걸음을 내디딜 수 있으며, 넘어지지 않고 균형을 유지할 수 있습니다. 다음 단계는 8세 아이의 수준과 더 비슷합니다.
이 나이에, 아이는 자신의 “센서”를 적극적으로 사용합니다. 위험을 인식하고 자신의 행동의 결과를 평가할 수 있습니다. 뜨거운 것을 만지지 않거나 매우 차가운 것을 입에 넣지 않습니다. 아이는 테이블에 올라가고, 자전거를 타고, 물건과 상호작용하고, 기본적인 자기 관리 동작을 수행할 수 있습니다.
우리는 이 단계를 사전 훈련이라고 합니다. 그리고 이 시점에서, 시뮬레이션만으로는 더 이상 충분하지 않습니다.
예를 들어, 어떤 시나리오는 여전히 효과적으로 모델링할 수 있습니다. 예를 들어, 글라스를 잡는 방법 또는 배터리를 교체하는 방법, 즉 하나의 구성 요소를 제거하고 충전기에 넣고, 다른 것을 가져와 다시 설치하는 방법입니다.
그러나 전체적으로 균형이 이동합니다. 약 80%의 훈련은 여전히 시뮬레이션에서 발생할 수 있지만 약 20%의 데이터는 실제 세계에서 나와야 합니다. 그리고 이것이 우리가 Egocentric 데이터를 논의하기 시작하는 곳입니다.
Egocentric 데이터: 환경 이해의 기초
오늘날, Egocentric 데이터는 전 세계적으로 대규모로 수집되고 있습니다. 왜냐하면 이를 통해 기본적인 역학에서 의미 있는 실제 세계와의 상호작용으로 이동할 수 없기 때문입니다. 내 동료 중 한 명은 자동차 수리점 네트워크를 운영하며, 직원이 전체 자동차 수리 과정을 녹화하기 위해 헤드마운트 카메라를 사용합니다. 뉴욕시의 건물 소유자는 유사한 접근 방식을 구현했습니다. 청소 직원이 청소 구역과 위생 지역을 유지하는 방법을 녹화하는 이마에 부착된 카메라를 착용합니다.
시간이 지나면, 이러한 녹화는 독립적인 제품이 됩니다. 그것들은 패키지화되어 판매됩니다. 그들의 핵심 가치는 환경과 동작 시퀀스의 기본적인 이해를 구축하는 데 도움이 되는 데 있습니다.
예를 들어, 이러한 서비스는 Keymakr에서 존재했습니다. 여기서 팀은 독립적으로 간단한 시나리오에서부터 복잡한 시나리오까지 Egocentric 데이터의 전체 컬렉션을 만들었습니다.
왜 이것이 så 중요할까요? 이러한 데이터는 순수한 시뮬레이션이 제공할 수 없는 실제 세계 환경의 다양성을 제공하기 때문입니다. 사무실, 자동차 수리점, 건설 현장, 레스토랑, 호텔 – 각 환경은 자신의 컨텍스트, 시나리오, 및 뉴앙스를 추가합니다. 함께, 이러한 환경은 시스템이 실제 세계의 역학을渐渐 이해하기 시작할 수 있는 데이터 세트를 형성합니다.
이 단계에서 목표는 더 이상 로봇이 특정 동작을 완벽하게 실행하도록 가르치는 것이 아닙니다. 무엇보다도 로봇이 자신의 주변 환경에서 자신을 정향할 수 있도록 하는 것입니다.
오늘날, 거의 모든 로봇공학 회사 – Tesla, Unitree Robotics, Figure AI를 포함하여 -이 정확히 이 단계에 초점을 맞추고 있습니다. 그들의 목표는 기본 모델의 능력이 “8세 아이” 수준과 유사한 다음 “12세”로 진행하도록 하는 것입니다. 이것이 Introspector에서 우리가 집중하는 것입니다. 사전 훈련에 필요한 데이터를 준비하는 것, 즉 현대 로봇공학의 “성인”이 되는 가장 중요한 단계입니다.
훈련의 마지막 마일: 보편성이 끝나고 전문성이 시작되는 곳
로봇이 이미 사전 훈련을 완료하고 기본적인 세계 이해와 비교할 수 있는 기술 세트를 가지고 있다고 상상해 보십시오. 그러나 이것은 실제 비즈니스 사용 사례에 충분한가요? 회사들은 단지 “일반적인” 로봇이 아니라 전문가를 필요로 합니다.
예를 들어, 자동차 제조를 고려해 보십시오. 일부 작업은 여전히 인간에 의해 수행되며, 이는 감각, 정밀도, 및 지속적인 시각적 제어가 필요하기 때문입니다. 전통적인 자동화는 여기서 어려움을 겪습니다. 산업용 매니퓰레이터는 반복적이고剛性 작업 – “pick, move, place”에 탁월합니다. 그러나 적응성, 압력 감지, 및 실시간 조정이 필요한 작업은 여전히 인간의 영역에 있습니다.
이것이 새로운 요구가 등장하는 곳입니다. 로봇을 특정 작업을 전문가와 정확히 동일하게 수행하도록 훈련하는 것입니다. 즉, 기본 훈련 후에는 다음 단계 – 특정 전문가와 시나리오를 위한 훈련이 필요합니다.
이 시점에서 실제적인 질문이 등장합니다. 이 수준의 훈련을 위해 무엇이 필요한가요? 로봇이 인간의 성과를 복제하려면, 우리는 인간의 행동을 가능한 한 정확하게 캡처해야 합니다. 예를 들어, 공장의 전문가는 작업을 수행하는 방법을 기록하기 위해 카메라를 착용해야 할 것입니다.
로봇이 인간 세계에서 “살기” 위해 필요한 것
카메라만으로는 충분하지 않습니다. 시각적 관점만이 아니라 운동의 물리학도 캡처해야 합니다. 이것은 압력, 적용된 힘, 및 물체와의 상호작용의 특성을 측정하는 특수한 장갑에 내장된 감각 센서를 사용하여 수행됩니다. 이것은 특히 중요합니다. 왜냐하면 물체 자체가 자동차 모델에 따라 크게 다를 수 있기 때문입니다. 이는 작업을 수행하는 방법에 직접적인 영향을 미칩니다.
다음으로는 운동의 역학을 완전히 재구성하는 것입니다. 어깨가 어떻게 움직이고, 팔꿈치가 어떻게 구부려지고, 손목이 어떻게 회전하는지 등이 모두 중요합니다. 모든 것이 다음 단계 – 사후 훈련에 필수적입니다.
사전 훈련에서 우리는 여전히 부분적으로 시뮬레이션에 의존할 수 있지만, 이 단계에서는 더 이상 작동하지 않습니다. 이 “마지막 마일”은 거의 정확하게 모델링할 수 없습니다. 예를 들어, 요리사가 어떻게 도우를 굴리는지 – 적용된 힘, 압력이 어떻게 분배되는지, 재료가 어떻게 느껴지는지 등입니다.
그것이 왜 사후 훈련에서 거의 모든 데이터가 실제 세계에서 나와야 하는지입니다. 그리고 이것이 실제로 로봇이 “살기” 시작하는 곳입니다 – 우리가 이 과정을 조직하고, 산업 전반의 팀이 직면하는 제약을 극복하며, 이러한 데이터 세트를 대규모로 주석 처리할 수 있을 때입니다. 이것은 다음 부분에서 다루어질 것입니다. 여기서 우리는 이러한 데이터의 레이블링 및 준비와 관련된 모든 도전을 더 자세히 살펴보겠습니다.












