Connect with us

Mapeando Caminhos para Cegos com Aprendizado de Máquina

Saúde

Mapeando Caminhos para Cegos com Aprendizado de Máquina

mm

Nova pesquisa da Alemanha oferece um sistema portátil e inovador, impulsionado por GPU, para ajudar pessoas com deficiência visual a navegar no mundo real. O sistema aborda um dos principais desafios em frameworks de visão computacional em tempo real – a identificação de vidro e outros obstáculos transparentes.

O artigo, do Karlsruhe Institute of Technology, detalha a construção de um sistema vestível, intitulado Trans4Trans, consistindo em um par de óculos inteligentes conectados a uma caixa portátil de GPU, efetivamente um laptop leve, que captura imagens RGB e de profundidade em 640×480 pixels em um fluxo contínuo, que é então executado em um framework de segmentação semântica.

Os sensores móveis no conjunto Trans4Trans.

Os sensores móveis no conjunto Trans4Trans. Source: https://arxiv.org/pdf/2107.03172.pdf

As capacidades de feedback sensorial do sistema são reforçadas por um par de fones de ouvido de condução óssea, que emitem feedback acústico em resposta a obstáculos ambientais.

O sistema Trans4Trans também foi testado no conjunto de realidade aumentada Microsoft HoloLens 2, alcançando segmentação completa e consistente (ou seja, reconhecimento) de obstruções potencialmente perigosas, como portas de vidro.

Trans4Trans em execução no HoloLens 2.

Trans4Trans em execução no HoloLens 2.

Arquitetura

Trans4Trans usa uma abordagem dupla, utilizando tanto um codificador baseado em transformador e um decodificador, quanto um módulo de emparelhamento de transformador (TPM) proprietário capaz de coletar mapas de recursos gerados pelos embeddings de partições densas, enquanto o decodificador baseado em transformador é capaz de analisar consistentemente mapas de recursos de seu codificador emparelhado.

A arquitetura do Trans4Trans.

A arquitetura do Trans4Trans.

Cada TPM consiste em uma camada baseada em transformador única, essencial para o baixo drenagem de recursos e portabilidade do sistema. O decodificador contém quatro estágios simétricos para o codificador, com um módulo TPM atribuído a cada um. O sistema economiza recursos integrando a funcionalidade de várias abordagens em um sistema coerente, em vez de implantar dois modelos separados em um fluxo de trabalho linear.

Hardware

Os óculos usados no sistema incorporam um sensor RGB-D RealSense R200, enquanto a máquina hospedeira abriga um Jetson AGX Xavier NVIDIA GPU, projetado para sistemas incorporados, e apresenta 384 núcleos NVIDIA CUDA e 48 núcleos Tensor.

O R200 oferece projeção de speckle e correspondência estéreo passiva, tornando-o adequado para ambientes interiores e exteriores. A facilidade de speckle é de particular benefício na avaliação de superfícies transparentes, pois aumenta e esclarece os dados visuais de entrada sem ser cegado por fontes de luz extremas. As capacidades de infravermelho do sensor também ajudam a obter geometria distinta e formar mapas de profundidade ação, que são críticos para evitar obstáculos, no contexto dos objetivos do projeto.

Prevenindo Sobrecarga Cognitiva para o Usuário

O sistema precisa equilibrar a frequência de dados adequada e informações excessivas, pois o usuário precisa ser capaz de distinguir o ambiente de forma coerente por meio de feedback acústico e feedback de vibração.

Consequentemente, o Trans4Trans limita artificialmente o volume de dados de feedback, com um único limiar padrão definido para um metro, em vez de forçar o usuário a aprender uma variedade de configurações de vibração que correspondam a distâncias variadas de objetos e barreiras iminentes.

Testando o Trans4Trans

O sistema Trans4Trans foi testado em dois conjuntos de dados que lidam com a segmentação de objetos transparentes: Trans10K-V2, da Universidade de Hong Kong et al, que contém 10.428 imagens de objetos transparentes para validação, treinamento e teste; e o conjunto de dados Stanford2D3D, que contém 70.496 imagens de objetos de transparência mista, capturados em resolução 1080×1080.

Imagens e máscaras correspondentes do conjunto de dados Trans10k.

Imagens e máscaras correspondentes do conjunto de dados Trans10k. Source: https://arxiv.org/pdf/2101.08461.pdf

O sistema Stanford2D3D em ação.

O sistema Stanford2D3D em ação. Source: http://buildingparser.stanford.edu/dataset.html

No teste, o Trans4Trans também foi capaz de segmentar objetos transparentes que foram mal classificados pela iniciativa Trans2Seg iniciativa lançada no início de 2021 pelos mesmos pesquisadores, enquanto requeriam menos GFLOPS para calcular e segmentar as superfícies.

Ao contrário do Trans2Seq, que utiliza um codificador baseado em CNN e decodificador baseado em transformador, o Trans4Trans usa apenas arquitetura de codificador-decodificador baseada em transformador, superando a abordagem anterior e também melhorando significativamente o PVT.

O algoritmo também alcançou resultados de estado da arte para um número particular de classes transparentes, incluindo jarra, janela, porta, xícara, caixa e garrafa.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.