부본 머신 러닝으로 시각 장애인을 위한 경로 매핑 - Unite.AI
Rescale 미팅 예약

의료

기계 학습으로 시각 장애인을 위한 경로 매핑

mm

게재

 on

독일의 새로운 연구에서는 시각 장애가 있는 사람들이 현실 세계에서 탐색할 수 있도록 돕는 새로운 GPU 기반 휴대용 시스템을 제공합니다. 이 시스템은 실시간 컴퓨터 비전 프레임워크의 핵심 과제 중 하나인 유리 및 기타 투명한 장애물을 식별하는 문제를 해결합니다.

XNUMXD덴탈의 종이, Karlsruhe Institute of Technology의 Trans4Trans라는 이름의 사용자 착용 시스템 구성에 대해 자세히 설명합니다. 이 시스템은 휴대용 GPU 케이스에 연결된 한 쌍의 스마트 안경으로 구성되며 사실상 640×480픽셀에서 RGB 및 깊이 이미지를 캡처하는 경량 노트북입니다. 시맨틱 분할 프레임워크를 통해 실행되는 연속 스트림에서.

Trans4Trans 리그의 모바일 센서. 출처: https://arxiv.org/pdf/2107.03172.pdf

Trans4Trans 리그의 모바일 센서. 출처 : https://arxiv.org/pdf/2107.03172.pdf

시스템의 감각 피드백 기능은 환경적 장애물에 대한 반응으로 음향 피드백을 방출하는 한 쌍의 골전도 이어폰으로 강화됩니다.

Trans4Trans 시스템은 Microsoft HoloLens 2 증강 현실 장비에서도 테스트를 거쳐 유리문과 같은 잠재적으로 위험한 장애물을 완전하고 일관되게 분할(즉, 인식)합니다.

HoloLens 4에서 실행되는 Trans2Trans.

HoloLens 4에서 실행되는 Trans2Trans.

아키텍처

Trans4Trans는 이중 접근 방식을 사용합니다. 변압기 기반 인코더와 디코더, 독점 기술 활용 변압기 페어링 모듈 (TPM) 조밀한 파티션의 임베딩으로 생성된 기능 맵을 조합할 수 있는 반면 변환기 기반 디코더는 쌍을 이룬 인코더에서 기능 맵을 일관되게 구문 분석할 수 있습니다.

Trans4Trans의 아키텍처.

Trans4Trans의 아키텍처.

각 TPM은 낮은 리소스 소모 및 시스템 이식성에 필수적인 단일 변압기 기반 레이어로 구성됩니다. 디코더에는 인코더를 위한 XNUMX개의 대칭 단계가 포함되어 있으며 각 단계에는 TPM 모듈이 할당되어 있습니다. 이 시스템은 선형 작업 흐름에 두 개의 개별 모델을 배포하는 대신 여러 접근 방식의 기능을 일관된 시스템으로 통합하여 리소스를 절약합니다.

하드웨어

시스템에 사용되는 안경은 RealSense R200 RGB-D 센서를 통합하고 호스트 시스템에는 젯슨 AGX 자비에 임베디드 시스템용으로 설계되었으며 384개의 NVIDIA CUDA 코어와 48개의 Tensor 코어를 갖춘 NVIDIA GPU.

R200 제공 반점 돌출 패시브 스테레오 매칭으로 내부 및 외부 환경에 적합합니다. 스페클링 시설은 극한의 광원에 의해 눈이 멀어지지 않고 들어오는 시각적 데이터를 강화하고 명확하게 하기 때문에 투명 표면을 평가하는 데 특히 유용합니다. 센서의 적외선 기능은 또한 프로젝트 목표의 맥락에서 장애물 회피에 중요한 고유한 형상을 얻고 실행 가능한 깊이 맵을 형성하는 데 도움이 됩니다.

사용자의 인지 과부하 방지

착용자는 오디오 피드백과 진동 피드백을 통해 일관되게 환경을 구분할 수 있어야 하므로 시스템은 적절한 데이터 빈도와 과도한 정보 사이의 균형을 유지해야 합니다.

결과적으로 Trans4Trans는 어렴풋한 물체와 장벽의 다양한 거리에 따라 사용자가 다양한 진동 설정을 배우도록 강요하는 대신 단일 기본 임계값을 XNUMX미터로 설정하여 피드백 데이터의 양을 인위적으로 제한합니다.

Trans4Trans 테스트

Trans4Trans 시스템은 투명한 물체의 세분화를 다루는 두 가지 데이터 세트에서 테스트되었습니다. 트랜스10K-V2, 홍콩대학교 출신 , 검증, 교육 및 테스트를 위한 10,428개의 투명한 개체 이미지가 포함되어 있습니다. 및 2×3 해상도로 캡처된 혼합 투명 물체의 70,496개 이미지를 포함하는 Stanford1080D1080D 데이터 세트.

Trans10k 데이터 세트의 이미지 및 해당 마스크. 출처: https://arxiv.org/pdf/2101.08461.pdf

Trans10k 데이터 세트의 이미지 및 해당 마스크. 출처 : https://arxiv.org/pdf/2101.08461.pdf

작동 중인 Stanford2D3D 시스템. 출처: http://buildingparser.stanford.edu/dataset.html

작동 중인 Stanford2D3D 시스템. 출처: http://buildingparser.stanford.edu/dataset.html

테스트에서 Trans4Trans는 또한 트랜스2세그 발의 동일한 연구원이 2021년 초에 발표했으며 표면을 계산하고 분할하는 데 더 적은 GFLOPS가 필요했습니다.

CNN 기반 인코더 및 변압기 기반 디코더를 활용하는 Trans2Seq와 달리 Trans4Trans는 변압기 기반 인코더-디코더 아키텍처만 사용하여 이전 접근 방식을 능가하고 PVT에서도 크게 개선됩니다.

이 알고리즘은 또한 특정 수의 투명한 클래스에 대해 최첨단 결과를 얻었습니다. 항아리, , , , 상자.

 

머신러닝, 인공지능, 빅데이터 분야의 작가입니다.
개인 사이트: martinanderson.ai
연락처 : [이메일 보호]
트위터: @manders_ai