공지
Intel Labs, 컴퓨터 비전 개발에 두 가지 새로운 AI 모델로 발전

VI-Depth 1.0과 MiDaS 3.1 오픈 소스 AI 모델은 컴퓨터 비전을 위한 깊이 추정 개선
깊이 추정은 로봇공학, 증강 현실(AR) 및 가상 현실(VR) 등의 다양한 응용 프로그램을 생성하기 위해 필요한 어려운 컴퓨터 비전 작업입니다. 기존 솔루션은 종종 거리를 올바르게 추정하는 데 어려움을 겪으며, 시각적 탐색에서 운동 계획 및 장애물 회피를 도와주는 중요한 측면입니다. Intel Labs의 연구자들은 단안 깊이 추정을 위한 두 가지 AI 모델을 출시하여 이 문제를 해결하고 있습니다. 하나는 시각-관성 깊이 추정 및 다른 하나는 강력한 상대 깊이 추정(RDE)을 위한 것입니다.
最新의 RDE 모델인 MiDaS 버전 3.1은 단일 이미지 입력만을 사용하여 강력한 상대 깊이를 예측합니다. 대규모 및 다양한 데이터셋으로 훈련된 MiDaS는 더 넓은 범위의 작업 및 환경에서 효율적으로 수행할 수 있습니다. MiDaS의 최신 버전은 더 큰 훈련 세트와 업데이트된 인코더 백본으로 RDE에 대한 모델 정확도를 약 30% 개선합니다.
MiDaS는 Stable Diffusion 2.0을 포함하여 많은 프로젝트에 통합되었습니다. 여기서 MiDaS는 입력 이미지의 깊이를 추론한 다음 텍스트 및 깊이 정보를 모두 사용하여 새로운 이미지를 생성하는 깊이-이미지 기능을 가능하게 합니다. 예를 들어, 디지털 크리에이터 Scottie Fox는 Stable Diffusion과 MiDaS의 조합을 사용하여 360도 VR 환경을 생성했습니다. 이 기술은 법정의 범죄 현장 재구성, 의료의 치료 환경 및 몰입형 게임 경험을 포함한 새로운 가상 애플리케이션으로 이어질 수 있습니다.
RDE는 일반화가 良好하고 유용하지만, 크기 부족으로 인해 매핑, 계획, 탐색, 객체 인식, 3D 재구성 및 이미지 편집과 같은 작업에 필요한 측정 깊이를 요구하는 다운스트림 작업의 유용성이 감소합니다. Intel Labs의 연구자들은 이 문제를 해결하기 위해 정확한 깊이 추정을 제공하는 또 다른 AI 모델인 VI-Depth를 출시하고 있습니다.
VI-Depth는 단안 깊이 추정과 시각-관성 오도메트리(VIO)를 통합하여 측정 크기와 함께 조밀한 깊이 추정을 생성하는 시각-관성 깊이 추정 파이프라인입니다. 이 접근 방식은 장면 재구성, 매핑 및 객체 조작을 지원할 수 있는 정확한 깊이 추정을 제공합니다.
관성 데이터의 통합은 크기 불확실성을 해결하는 데 도움이 될 수 있습니다. 대부분의 모바일 장치에는 이미 관성 측정 단위(IMU)가 포함되어 있습니다. 전역 정렬은 적절한 전역 크기를 결정하며, 조밀한 크기 정렬(SML)은 지역적으로 작동하여 영역을 올바른 측정 깊이로 밀어냅니다. SML 네트워크는 MiDaS를 인코더 백본으로 활용합니다. 모듈식 파이프라인에서 VI-Depth는 데이터 驅動 깊이 추정과 MiDaS 상대 깊이 예측 모델을 결합하고, IMU 센서 측정 단위를 함께 결합합니다. 데이터 소스의 조합은 VI-Depth가 이미지의 모든 픽셀에 대해 더 신뢰할 수 있는 조밀한 측정 깊이를 생성할 수 있도록 합니다.
MiDaS 3.1 및 VI-Depth 1.0은 GitHub에서 오픈 소스 MIT 라이선스로 제공됩니다.
추가 정보는 “Vision Transformers for Dense Prediction” 및 “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer”를 참조하십시오.










