Rescale 미팅 예약

알림

인텔 랩, 두 가지 새로운 AI 모델로 컴퓨터 비전 개발 발전

mm

게재

 on

VI-Depth 1.0 및 MiDaS 3.1 오픈 소스 AI 모델은 컴퓨터 비전의 깊이 추정을 향상시킵니다.

깊이 추정은 로봇 공학, 증강 현실(AR) 및 가상 현실(VR)에서 광범위한 응용 프로그램을 만드는 데 필요한 어려운 컴퓨터 비전 작업입니다. 기존 솔루션은 종종 거리를 정확하게 추정하는 데 어려움을 겪습니다. 이는 시각적 탐색과 관련하여 움직임을 계획하고 장애물을 피하는 데 중요한 측면입니다. Intel Labs의 연구원들은 단안 깊이 추정을 위한 두 가지 AI 모델, 즉 시각-관성 깊이 추정을 위한 것과 RDE(강력한 상대 깊이 추정)를 위한 두 가지 AI 모델을 출시하여 이 문제를 해결하고 있습니다.

최신 RDE 모델인 MiDaS 버전 3.1은 단일 이미지만 입력으로 사용하여 강력한 상대 깊이를 예측합니다. 크고 다양한 데이터 세트에 대한 교육으로 인해 더 넓은 범위의 작업과 환경에서 효율적으로 수행할 수 있습니다. 최신 버전의 MiDaS는 더 큰 훈련 세트와 업데이트된 인코더 백본으로 RDE의 모델 정확도를 약 30% 향상시킵니다.

MiDaS는 많은 프로젝트, 특히 Stable Diffusion 2.0에 통합되어 입력 이미지의 깊이를 유추한 다음 텍스트와 깊이 정보를 모두 사용하여 새 이미지를 생성하는 깊이-이미지 기능을 활성화합니다. 예를 들어 디지털 크리에이터 스카티 폭스 Stable Diffusion과 MiDaS의 조합을 사용하여 360도 VR 환경을 만들었습니다. 이 기술은 법정 사건을 위한 범죄 현장 재구성, 의료 및 몰입형 게임 경험을 위한 치료 환경을 포함한 새로운 가상 애플리케이션으로 이어질 수 있습니다.

RDE는 일반화 가능성이 뛰어나고 유용하지만 규모가 부족하여 매핑, 계획, 내비게이션, 객체 인식, 3D 재구성 및 이미지 편집과 같이 메트릭 깊이가 필요한 다운스트림 작업에 대한 유용성이 감소합니다. 인텔 연구소의 연구원들은 정확한 깊이 추정을 제공하는 또 다른 AI 모델인 VI-Depth를 출시하여 이 문제를 해결하고 있습니다.

VI-Depth는 시각적-관성 깊이 추정 파이프라인으로 단안 깊이 추정과 VIO(시각-관성 오도메트리)를 통합하여 메트릭 스케일로 조밀한 깊이 추정치를 생성합니다. 이 접근 방식은 정확한 깊이 추정을 제공하여 장면 재구성, 매핑 및 객체 조작을 도울 수 있습니다.

관성 데이터를 통합하면 스케일 모호성을 해결하는 데 도움이 될 수 있습니다. 대부분의 모바일 장치에는 이미 IMU(관성 측정 장치)가 포함되어 있습니다. 전역 정렬은 적절한 전역 척도를 결정하는 반면, 조밀 척도 정렬(SML)은 로컬에서 작동하고 영역을 올바른 메트릭 깊이로 밀거나 당깁니다. SML 네트워크는 MiDaS를 인코더 백본으로 활용합니다. 모듈식 파이프라인에서 VI-Depth는 IMU 센서 측정 장치와 함께 데이터 기반 깊이 추정을 MiDaS 상대 깊이 예측 모델과 결합합니다. 데이터 소스의 조합을 통해 VI-Depth는 이미지의 모든 픽셀에 대해 보다 안정적인 밀집 메트릭 깊이를 생성할 수 있습니다.

마이다스 3.1VI-깊이 1.0 GitHub의 오픈 소스 MIT 라이선스에 따라 사용할 수 있습니다.

자세한 내용은 "조밀한 예측을 위한 비전 트랜스포머"및"강력한 단안 깊이 추정을 향하여: Zero-shot 교차 데이터 세트 전송을 위한 데이터 세트 혼합. "

 

Daniel은 AI가 궁극적으로 모든 것을 어떻게 파괴할 것인지에 대한 열렬한 지지자입니다. 그는 기술에 숨을 쉬고 새로운 장치를 시도하기 위해 살아갑니다.