부본 신경 복사 필드(NeRF)를 사용하여 도구에 대해 로봇 교육 - Unite.AI
Rescale 미팅 예약

로보틱스

신경 방사 필드(Neural Radiance Fields, NeRF)를 사용하여 도구에 대해 로봇 교육

mm

게재

 on

미시간 대학의 새로운 연구는 로봇이 도구 및 기타 실제 관절 물체의 메커니즘을 이해할 수 있는 방법을 제공합니다. 뉴럴 래디언스 필드 (NeRF) 개체는 이러한 개체가 움직이는 방식을 시연하여 잠재적으로 로봇이 개체와 상호 작용하고 지루한 전용 사전 구성 없이 개체를 사용할 수 있도록 합니다.

NARF22는 도구(또는 적절한 참조가 있는 모든 개체)의 내부 운동성에 대해 알려진 소스 참조를 활용하여 도구와 해당 이동 범위 및 작동 유형의 사실적인 근사치를 합성할 수 있습니다. 출처: https://progress.eecs.umich.edu/projects/narf/

NARF22는 도구(또는 적절한 참조가 있는 모든 개체)의 내부 운동성에 대해 알려진 소스 참조를 활용하여 도구와 해당 이동 범위 및 작동 유형의 사실적인 근사치를 합성할 수 있습니다. 출처: https://progress.eecs.umich.edu/projects/narf/

보행자를 피하거나 정교하게 사전 프로그래밍된 루틴(재사용 불가능한 데이터 세트에 레이블이 지정되고 약간의 비용으로 훈련됨)을 수행하는 것 이상의 작업을 수행해야 하는 로봇이 동일한 재료로 작업하려면 이러한 종류의 적응 능력이 필요합니다. 나머지 우리가 싸워야 할 대상.

지금까지 로봇 시스템에 이러한 종류의 다재다능함을 불어넣는 데에는 많은 장애물이 있었습니다. 여기에는 적용 가능한 데이터 세트의 부족이 포함되며, 그 중 다수는 매우 제한된 수의 개체를 특징으로 합니다. 로봇이 실제 세계의 맥락에서 도구를 학습하도록 도울 수 있는 일종의 사실적인 메시 기반 3D 모델을 생성하는 데 드는 순전한 비용; 도전에 실제로 적합할 수 있는 데이터 세트의 비사실적 품질로 인해 객체가 주변 세계에서 로봇이 인식하는 것과 분리되어 표시되고 결코 나타나지 않을 만화 같은 객체를 찾도록 훈련합니다. 현실.

이를 해결하기 위해 미시간 연구원들은 종이 제목이 NARF22: 구성 인식 렌더링을 위한 신경 관절 방사 필드, '실제 세계' 모양을 갖고 특정 관절 개체의 움직임과 그에 따른 제한을 통합하는 NeRF 기반 관절 개체를 생성하기 위한 XNUMX단계 파이프라인을 개발했습니다.

더 복잡해 보이지만 NARF22 파이프라인의 필수 두 단계는 운동 도구의 ​​정적 부분을 렌더링한 다음 이러한 요소를 두 번째 데이터 세트로 합성하여 이러한 부분이 서로 상대적인 이동 매개변수에 대해 알려주는 것입니다. 출처: https://arxiv.org/pdf/2210.01166.pdf

더 복잡해 보이지만 NARF22 파이프라인의 필수 두 단계에는 운동성 도구의 정적 부분을 렌더링한 다음 이러한 요소를 두 번째 데이터 세트로 합성하여 이러한 부분이 서로 상대적인 이동 매개변수에 대한 정보를 받는 것입니다. 출처 : https://arxiv.org/pdf/2210.01166.pdf

시스템이 호출됩니다 신경 관절 방사 필드 – 또는 유사한 이름의 다른 프로젝트와 구별하기 위해 NARF22.

NARF22

미지의 물체가 잠재적으로 연결되어 있는지 여부를 결정하려면 거의 상상할 수 없는 수준의 인간 스타일의 사전 지식이 필요합니다. 예를 들어, 이전에 닫힌 서랍을 본 적이 없다면 다른 종류의 장식 패널처럼 보일 수 있습니다. 실제로 서랍을 열 때까지는 '서랍'을 하나의 이동축을 가진 연결된 개체로 내면화합니다. (앞으로 및 뒤로).

따라서 NARF22는 물건을 집어 들고 실행 가능한 움직이는 부품이 있는지 확인하기 위한 탐색 시스템으로 의도되지 않았습니다. 이는 잠재적으로 많은 재난 시나리오를 수반하는 거의 유인원 동작입니다. 오히려 프레임워크는 범용 로봇 설명 형식 (URDF) – 광범위하게 적용 가능하고 작업에 적합한 오픈 소스 XML 기반 형식입니다. URDF 파일에는 개체의 사용 가능한 이동 매개변수와 개체 부분의 설명 및 기타 레이블이 지정된 패싯이 포함됩니다.

기존 파이프라인에서는 기본적으로 개체의 관절 기능을 설명하고 적절한 관절 값에 레이블을 지정해야 합니다. 이것은 저렴하거나 쉽게 확장 가능한 작업이 아닙니다. 대신 NaRF22 워크플로는 URDF에서 제공하는 이동 매개변수에 대한 지식을 사용하여 각 정적 구성 요소를 연결된 NeRF 기반 표현으로 '조립'하기 전에 개체의 개별 구성 요소를 렌더링합니다.

프로세스의 두 번째 단계에서는 모든 부분을 통합하는 완전히 새로운 렌더러가 생성됩니다. 초기 단계에서 개별 부품을 단순히 연결하고 이 후속 단계를 건너뛰는 것이 더 쉬울 수 있지만 연구원들은 AMD 3080X CPU 아래 NVIDIA RTX 5600 GPU에서 훈련된 최종 모델이 역 전파 그런 갑작스럽고 시기상조의 집합보다.

또한 두 번째 단계 모델은 연결된 '무차별 대입' 어셈블리 속도의 두 배로 실행되며 모델의 정적 부분에 대한 정보를 활용해야 할 수 있는 보조 애플리케이션은 URDF 정보에 대한 자체 액세스가 필요하지 않습니다. 이것은 이미 최종 단계 렌더러에 통합되었습니다.

데이터 및 실험

연구원들은 NARF22를 테스트하기 위해 여러 가지 실험을 수행했습니다. 렌더링된 결과를 실제 로봇이 보는 유사한 관점과 비교하기 위한 정량적 테스트 NARF6를 사용하여 그래디언트 기반 최적화를 수행한 구성 추정 및 22 DOF(피사계 심도) 개선 과제의 시연.

훈련 데이터는 다음에서 가져왔습니다. 진행 도구 현재 작업의 여러 저자가 작성한 이전 논문의 데이터 세트입니다. Progress Tools에는 640×480 해상도의 약 XNUMX천 개의 RGB-D(로봇 비전에 필수적인 깊이 정보 포함) 이미지가 포함되어 있습니다. 사용된 장면에는 구성 부분으로 나누어진 XNUMX개의 손 도구가 포함되어 있으며 메시 모델과 객체의 운동학적 속성(즉, 이동하도록 설계된 방식 및 해당 이동의 매개변수)에 대한 정보가 포함되어 있습니다.

Progress Tools 데이터 세트에는 22개의 연결된 도구가 있습니다. 위의 이미지는 NARFXNUMX의 NeRF 기반 렌더링입니다.

Progress Tools 데이터 세트에는 22개의 연결된 도구가 있습니다. 위의 이미지는 NARFXNUMX의 NeRF 기반 렌더링입니다.

이 실험을 위해 라인맨의 펜치, 롱노즈 펜치 및 클램프만 사용하여 최종 구성 가능한 모델을 훈련했습니다(위 이미지 참조). 교육 데이터에는 클램프의 단일 구성과 각 플라이어에 대한 구성이 포함되어 있습니다.

NARF22의 구현은 다음을 기반으로 합니다. FastNeRF, 도구의 연결되고 공간적으로 인코딩된 포즈에 집중하도록 수정된 입력 매개변수를 사용합니다. FastNeRF는 복셀화된 샘플링 메커니즘(복셀은 본질적으로 픽셀이지만 3차원 공간에서 작동할 수 있도록 전체 XNUMXD 좌표를 포함함)과 쌍을 이루는 인수화된 다층 퍼셉트론(MLP)을 사용합니다.

정성적 테스트를 위해 연구자들은 클램프의 여러 가려진 부분(즉, 물체를 관찰하여 알거나 추측할 수 없지만 물체와의 상호 작용을 통해서만 알 수 있거나 추측할 수 없는 중앙 척추)이 있으며 시스템이 이를 생성하는 데 어려움이 있음을 관찰합니다. '알 수 없는' 기하학.

도구의 질적 렌더링.

도구의 질적 렌더링.

대조적으로, 플라이어는 새로운 구성(예: URDF 매개변수 내에 있지만 모델 교육 자료에서 명시적으로 다루지 않은 부품의 확장 및 이동)에 대해 잘 일반화할 수 있었습니다.

그러나 연구원들은 펜치의 라벨링 오류로 인해 도구의 매우 상세한 팁에 대한 렌더링 품질이 저하되어 렌더링에 부정적인 영향을 미쳤다는 사실을 관찰했습니다. 이는 라벨링 물류, 예산 책정 및 컴퓨터의 정확성과 관련된 훨씬 더 광범위한 문제와 관련된 문제입니다. NARF22 파이프라인의 절차적 단점보다는 비전 연구 분야에 더 적합합니다.

렌더링 정확도 테스트 결과.

렌더링 정확도 테스트 결과.

구성 추정 테스트를 위해 연구자들은 FastNeRF 자체에서 사용하는 캐싱 또는 기타 가속 해결 방법을 피하면서 초기 '강한' 포즈에서 포즈 개선 및 구성 추정을 수행했습니다.

그런 다음 Adam 옵티마이저에서 17번의 경사하강법 최적화 반복을 통해 진행 도구(훈련 중에 따로 보관해 두었던)의 테스트 세트에서 잘 정렬된 150개의 장면을 훈련했습니다. 연구진에 따르면 이 절차는 구성 추정을 '매우 잘' 회복했다고 합니다.

구성 추정 테스트의 결과.

구성 추정 테스트의 결과.

 

5년 2022월 XNUMX일에 처음 게시되었습니다.