인공 지능

Mega-NeRF로 신경 검색 및 구조 플라이스루 환경 생성

업데이트 on 2024 년 1 월 28 일

Carnegie Mellon과 자율주행 기술 회사인 Argo AI 간의 새로운 연구 협력은 드론으로 캡처한 영상을 사용하여 NeRF(Neural Radiance Fields)를 기반으로 동적 비행 환경을 생성하는 경제적인 방법을 개발했습니다.

Mega-NeRF는 주문형 LOD와 함께 드론 영상을 기반으로 인터랙티브 플라이 바이를 제공합니다. 출처: Mega-NeRF-Full - Rubble Flythrough. 자세한 내용(더 나은 해상도로)을 보려면 이 문서 끝에 포함된 비디오를 확인하세요. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF는 주문형 LOD와 함께 드론 영상을 기반으로 인터랙티브 플라이 바이를 제공합니다. 자세한 내용(더 나은 해상도로)을 보려면 이 문서 끝에 포함된 비디오를 확인하십시오. 출처: Mega-NeRF-Full – 잔해 플라이스루 – https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF라고 하는 새로운 접근 방식은 평균 Neural Radiance Fields 렌더링 표준에 비해 40배 더 빠른 속도를 얻을 뿐만 아니라 표준과 현저하게 다른 것을 제공합니다. 탱크와 사원 새로운 NeRF 논문에서 반복됩니다.

XNUMXD덴탈의 새 용지 제목이 Mega-NeRF: 가상 Fly-Through를 위한 대규모 NeRF의 확장 가능한 구성, Carnegie Mellon의 세 명의 연구원이 제공하며 그 중 한 명은 Argo AI를 대표하기도 합니다.

수색 및 구조를 위한 NeRF 환경 모델링

저자는 수색 및 구조(SAR)가 그들의 기술에 대한 최적의 사용 사례라고 생각합니다. SAR 환경을 평가할 때 드론은 현재 대역폭과 배터리 수명 제한으로 인해 제약을 받고 있으므로 일반적으로 수집된 데이터가 수집된 기지로 돌아가기 전에는 상세하거나 포괄적인 범위를 확보할 수 없습니다. 변환 정적 2D 조감도 지도로.

저자는 다음과 같이 말합니다.

'우리는 신경망 렌더링이 이 분석을 3D로 들어 올려 응답 팀이 마치 기존의 Structure-from-Motion으로 달성할 수 있는 것보다 훨씬 세부적인 수준으로 드론을 실시간으로 날리는 것처럼 현장을 조사할 수 있는 미래를 상상합니다. SFM).'

이 사용 사례를 맡은 저자는 수색 및 구조 작업에서 생존자의 기대 수명이 최대 80%까지 감소한다는 점을 감안하여 하루 안에 훈련할 수 있는 복잡한 NeRF 기반 모델을 만들려고 했습니다. 처음 24시간.

저자는 Mega-NeRF 모델을 교육하는 데 필요한 드론 캡처 데이터 세트가 NeRF의 표준 데이터 세트보다 '수십 배' 더 크며 모델 용량이 기본 포크 또는 NeRF의 파생물보다 현저히 높아야 한다는 점에 주목합니다. 또한 상호작용성과 탐색 가능성은 수색 및 구조 지형 지도에서 필수적인 반면, 표준 실시간 NeRF 렌더링은 훨씬 더 제한된 사전 계산 가능한 이동 범위를 예상합니다.

분열과 정복

이러한 문제를 해결하기 위해 저자는 작업을 하위 모듈로 나누고 동시에 훈련되는 하위 NeRF의 매트릭스를 효과적으로 생성하는 기하학적 클러스터링 알고리즘을 만들었습니다.

렌더링 시점에서 작성자는 비디오 게임이 사용자에게 접근할 때 항목에 대한 세부 정보를 증가시키는 방식과 유사하게 과도한 사전 처리 없이 완전한 상호 작용을 촉진할 수 있을 만큼 충분히 반응하는 JIT(Just-In-Time) 시각화 알고리즘을 구현합니다. 그러나 거리에 있을 때 에너지를 절약하고 더 기초적인 규모로 유지됩니다.

저자는 이러한 경제가 대화형 맥락에서 매우 광범위한 주제 영역을 다루려고 시도하는 이전 방법보다 더 나은 세부 정보로 이어진다고 주장합니다. 제한된 해상도의 비디오 영상에서 세부 정보를 추정하는 측면에서 저자는 Mega-NeRF의 시각적 개선이 UC 버클리의 PlenOctrees.

프로젝트의 연결된 하위 NeRF 사용은 KiloNeRF의 실시간 렌더링 기능, 저자는 인정합니다. 그러나 Mega-NeRF는 이미 계산된 NeRF 장면을 가져와서 탐색 가능한 장면으로 변환하는 KiloNeRF의 후처리 접근 방식이 아니라 훈련 중에 실제로 '샤딩'(장면의 개별 분할)을 수행하여 이 접근 방식에서 벗어납니다. 공간.

궤적이 나타내는 셀에 걸쳐 있을 수 있는 트레이닝 이미지 픽셀로 구성된 하위 모듈에 대해 개별 트레이닝 세트가 생성됩니다. 결과적으로 각 모듈은 인접한 셀과 완전히 별도로 훈련됩니다. 출처 : https://arxiv.org/pdf/2112.10703.pdf

저자는 Mega-NeRF를 다음과 같이 특성화합니다. '공간 인식 방식으로 레이어 연결을 희소화하는 NeRF 아키텍처의 재공식화, 교육 및 렌더링 시간에 효율성 향상을 촉진합니다.'.

NeRF, NeRF++ 및 Mega-NeRF에서 훈련 및 데이터 이산화의 개념적 비교. 출처: https://meganerf.cmusatyalab.org/

NeRF에서 훈련 및 데이터 이산화의 개념적 비교, NeRF++, 메가-NeRF. 출처: https://meganerf.cmusatyalab.org/

저자는 Mega-NeRF의 새로운 시간 일관성 전략 사용이 과도한 사전 처리의 필요성을 피하고, 규모의 본질적인 한계를 극복하고, 상호 작용을 희생하거나 며칠간의 교육을 필요로 하지 않고 이전의 유사한 작업보다 더 높은 수준의 세부 사항을 제정한다고 주장합니다. .

연구원들은 또한 산업 단지 주변의 100,000제곱미터 이상의 땅을 캡처한 드론 영상에서 얻은 수천 개의 고화질 이미지가 포함된 대규모 데이터 세트를 제공하고 있습니다. 사용 가능한 두 데이터 세트는 다음과 같습니다. '건물' 및 '파편'.

이전 작업 개선

이 논문은 다음과 같은 유사한 맥락의 이전 노력에 주목합니다. 스네르그, 플렌옥트리, 그리고 FastNeRF, 모두 가상 수색 및 구조 환경 생성에 적합하지 않은 컴퓨팅 및/또는 시간 오버헤드를 추가하는 일종의 캐싱 또는 사전 처리에 의존합니다.

KiloNeRF는 기존의 다층 퍼셉트론(MLP) 컬렉션에서 하위 NeRF를 파생하지만 확장성이 제한되거나 더 높은 규모의 환경을 처리할 수 있는 용량이 있는 내부 장면으로 구조적으로 제한됩니다. 한편 FastNeRF는 NeRF 모델의 '구운' 사전 계산 버전을 전용 데이터 구조에 저장하고 최종 사용자가 전용 MLP 또는 구형 기반 계산을 통해 탐색할 수 있도록 합니다.

KiloNeRF 시나리오에서는 장면에 있는 각 패싯의 최대 해상도가 이미 계산되어 있으며 사용자가 '확대'하기로 결정하면 더 높은 해상도를 사용할 수 없습니다.

대조적으로, NeRF++ 최종 컴포지션 전에 레이 캐스팅을 수행하는 전용 MLP 모델이 각 영역을 감독하는 전경 및 배경 영역으로 탐색 가능한 잠재적 공간을 분할하여 무제한 외부 환경을 기본적으로 처리할 수 있습니다.

마지막으로, 야생의 NeRF, 무제한 공간을 직접 다루지는 않지만 그럼에도 불구하고 이미지 품질을 향상시킵니다. 포토 투어리즘 데이터 세트, Mega-NeRF의 아키텍처에서 모양 임베딩을 따랐습니다.

저자는 또한 Mega-NeRF가 SfM(Structure-from-Motion) 프로젝트, 특히 Washington University의 하루 만에 로마 건설 프로젝트.

시간적 일관성

PlenOctree와 마찬가지로 Mega-NeRF는 현재 사용자 초점 영역에서 색상 및 불투명도의 대략적인 캐시를 미리 계산합니다. 그러나 PlenOctree처럼 계산된 경로 근처에 있는 경로를 매번 계산하는 대신 Mega-NeRF는 계산된 트리를 세분화하여 이 정보를 '저장'하고 재사용합니다. .

왼쪽은 PlenOctree의 일회용 계산입니다. 중간, fly-through의 현재 위치에 상대적인 octree의 Mega-NeRF의 동적 확장. 맞습니다. 옥트리는 후속 탐색에 재사용됩니다.

저자들에 따르면 이러한 계산의 경제성은 최근 사례에 따르면 모든 계산을 선제적으로 예측하고 캐싱하는 대신 즉각적인 계산을 로컬 캐시로 사용하여 처리 부담을 현저하게 줄입니다.

가이드 샘플링

초기 샘플링 후 현재까지의 표준 모델에 따라 Mega-NeRF는 이미지 품질을 개선하기 위해 옥트리 정제 후 두 번째 유도 광선 샘플링을 시행합니다. 이를 위해 Mega-NeRF는 octree 데이터 구조의 기존 가중치를 기반으로 단일 패스만 사용합니다.

위의 이미지에서 볼 수 있듯이 새 논문에서 표준 샘플링은 대상 영역의 과도한 양을 평가하여 계산 리소스를 낭비하는 반면 Mega-NeRF는 지오메트리가 존재하는 위치에 대한 지식을 기반으로 계산을 제한하여 사전 계산 이상으로 제한합니다. -임계값을 설정합니다.

데이터 및 교육

연구원들은 앞서 언급한 두 개의 수작업 세트를 포함하여 다양한 데이터 세트에서 Mega-NeRF를 테스트했습니다. 첫 번째 데이터 세트, 공장 19 – 건물, 500 x 250제곱미터 면적에서 촬영한 영상을 제공합니다. 두번째, 밀 19 – 잔해는 연구원들이 수색 및 구조 시나리오에서 잠재적 생존자를 나타내는 인형을 배치한 인접 건설 현장에서 촬영한 유사한 영상을 나타냅니다.

논문의 보충 자료에서: 왼쪽, Parrot Anafi 드론이 덮을 사분면(사진 중앙, 오른쪽 사진의 먼 거리).

논문의 보충 자료에서: 왼쪽, 앵무새 아나피 드론 (사진 중앙, 오른쪽 사진의 먼 곳).

또한 아키텍처는 다음의 여러 장면에 대해 테스트되었습니다. UrbanScene3D, 대규모 도시 환경의 HD 드론 캡처 영상으로 구성된 중국 심천 대학의 비주얼 컴퓨팅 연구 센터에서; 그리고 쿼드 6k 데이터세트, 인디애나 대학의 IU 컴퓨터 비전 연구소에서.

교육은 각각 8개의 히든 유닛으로 구성된 8개의 레이어와 후속 256채널 ReLU 레이어로 구성된 128개의 하위 모듈에서 진행되었습니다. NeRF와 달리 동일한 MLP를 사용하여 거칠고 정제된 샘플을 쿼리하여 전체 모델 크기를 줄이고 후속 렌더링 단계에서 거친 네트워크 출력을 재사용할 수 있습니다. 저자는 이것이 각 광선에 대한 모델 쿼리의 25%를 절약한다고 추정합니다.

1024개의 광선이 5×10의 시작 학습 속도로 Adam에서 배치당 샘플링되었습니다.⁴, 5×10으로 감소^-5. 외관 임베딩은 앞서 언급한 것과 동일한 방식으로 처리되었습니다. 야생의 NeRF. 혼합 정밀 샘플링 (32비트 부동 소수점보다 낮은 정밀도로 훈련)이 사용되었으며 MLP 너비는 2048개의 숨겨진 단위로 고정되었습니다.

테스트 및 결과

연구원의 테스트에서 Mega-NeRF는 NeRF, NeRF++ 및 딥뷰 앞서 언급한 데이터 세트에서 500,000회 반복 학습 후. Mega-NeRF 대상 시나리오는 시간 제약이 있기 때문에 연구원들은 더 느린 이전 프레임워크에 24시간 제한을 초과하는 추가 시간을 허용했으며 Mega-NeRF가 이러한 이점을 제공하더라도 여전히 성능을 능가한다고 보고했습니다.

사용된 메트릭은 피크 신호 대 잡음비(PSNR) LPIPS의 VGG 버전및 씨심. 교육은 100개의 V256 GPU가 장착된 단일 머신에서 이루어졌습니다. 효과적으로 5120GB VRAM과 XNUMX Tensor 코어가 탑재되었습니다.

Mega-NeRF 실험의 샘플 결과(모든 프레임워크 및 데이터 세트에 대한 보다 확장된 결과는 문서 참조)는 PlenOctree가 눈에 띄는 복셀화를 유발하는 반면 KiloNeRF는 아티팩트와 일반적으로 더 흐릿한 결과를 생성한다는 것을 보여줍니다.

프로젝트 페이지는 다음과 같습니다. https://meganerf.cmusatyalab.org/, 릴리스된 코드는 다음 위치에 있습니다. https://github.com/cmusatyalab/mega-nerf.

21년 2021월 XNUMX일에 처음 게시되었습니다.

관련 주제 :이미지 합성 NeRF 연구 시뮬레이션 가상 현실

다음 위로

Datagen 연구는 합성 데이터의 광범위한 채택을 시사합니다.

놓치지 마세요.

이미지 합성 부문은 결함이 있는 메트릭, 연구 주장을 채택했습니다.

마틴 앤더슨

머신러닝, 인공지능, 빅데이터 분야의 작가입니다.
개인 사이트: martinanderson.ai
연락처 : [이메일 보호]
트위터: @manders_ai

Unite.AI

Mega-NeRF로 신경 검색 및 구조 플라이스루 환경 생성

인공 지능