Salud

Dibujando caminos para los ciegos con aprendizaje automático

Published July 8, 2021

Updated April 28, 2026

Martin Anderson

Nueva investigación en Alemania ofrece un sistema portátil innovador y con GPU para ayudar a las personas con discapacidad visual a navegar en el mundo real. El sistema aborda uno de los desafíos principales en los marcos de visión por computadora en tiempo real: la identificación de obstáculos transparentes como el vidrio.

El documento, del Instituto de Tecnología de Karlsruhe, detalla la construcción de un sistema que se lleva puesto, llamado Trans4Trans, que consiste en un par de gafas inteligentes conectadas a un estuche portátil de GPU, que efectivamente es una laptop ligera, que captura imágenes RGB y de profundidad a 640×480 píxeles en una transmisión continua, que luego se ejecuta a través de un marco de segmentación semántica.

Los sensores móviles en el conjunto Trans4Trans. Fuente: https://arxiv.org/pdf/2107.03172.pdf

Las capacidades de retroalimentación sensorial del sistema se ven reforzadas por un par de auriculares de conducción ósea, que emiten retroalimentación acústica en respuesta a obstáculos ambientales.

El sistema Trans4Trans también se ha probado en el conjunto de realidad aumentada Microsoft HoloLens 2, logrando una segmentación completa y coherente (es decir, reconocimiento) de obstrucciones potencialmente peligrosas como puertas de vidrio.

Trans4Trans ejecutándose en HoloLens 2.

Arquitectura

Trans4Trans utiliza un enfoque dual, utilizando tanto un codificador basado en transformadores y un decodificador, y aprovechando un módulo de emparejamiento de transformadores (TPM) propietario capaz de recopilar mapas de características generados por las incrustaciones de particiones densas, mientras que el decodificador basado en transformadores puede analizar consistentemente mapas de características de su codificador emparejado.

La arquitectura de Trans4Trans.

Cada TPM consiste en una capa basada en transformadores, esencial para el bajo drenaje de recursos y la portabilidad del sistema. El decodificador contiene cuatro etapas simétricas para el codificador, con un módulo TPM asignado a cada uno. El sistema ahorra recursos integrando la funcionalidad de varios enfoques en un sistema coherente, en lugar de implementar dos modelos separados en un flujo de trabajo lineal.

Hardware

Las gafas utilizadas en el sistema incorporan un sensor RGB-D RealSense R200, mientras que la máquina host alberga un Jetson AGX Xavier NVIDIA GPU, diseñado para sistemas integrados, y que cuenta con 384 núcleos CUDA de NVIDIA y 48 núcleos Tensor.

El R200 ofrece proyección de speckle y coincidencia de estéreo pasiva, lo que lo hace adecuado para entornos interiores y exteriores. La instalación de speckle es de particular beneficio al evaluar superficies transparentes, ya que aumenta y clarifica los datos visuales entrantes sin quedar cegado por fuentes de luz extremas. Las capacidades de infrarrojos del sensor también ayudan a obtener geometría y forma distintas, y mapas de profundidad que pueden activarse, que son críticos para la evitación de obstáculos, en el contexto de los objetivos del proyecto.

Prevención de la sobrecarga cognitiva para el usuario

El sistema necesita encontrar un equilibrio entre la frecuencia de datos adecuada y la información excesiva, ya que el usuario debe poder distinguir el entorno de manera coherente a través de la retroalimentación acústica y la retroalimentación por vibración.

En consecuencia, Trans4Trans limita artificialmente el volumen de datos de retroalimentación, con un umbral predeterminado único establecido en un metro, en lugar de obligar al usuario a aprender una variedad de ajustes de vibración que se ajusten a las distancias variables de objetos y barreras que se avecinan.

Pruebas de Trans4Trans

El sistema Trans4Trans se probó en dos conjuntos de datos que tratan sobre la segmentación de objetos transparentes: Trans10K-V2, de la Universidad de Hong Kong et al, que contiene 10,428 imágenes de objetos transparentes para validación, entrenamiento y prueba; y el conjunto de datos Stanford2D3D, que contiene 70,496 imágenes de objetos de transparencia mixta, capturados a una resolución de 1080×1080.

Imágenes y máscaras correspondientes del conjunto de datos Trans10k. Fuente: https://arxiv.org/pdf/2101.08461.pdf

El sistema Stanford2D3D en acción. Fuente: http://buildingparser.stanford.edu/dataset.html

En las pruebas, Trans4Trans también pudo segmentar objetos transparentes que fueron mal clasificados por la iniciativa Trans2Seg publicada a principios de 2021 por los mismos investigadores, mientras requería menos GFLOPS para calcular y segmentar las superficies.

A diferencia de Trans2Seq, que utiliza un codificador basado en CNN y un decodificador basado en transformadores, Trans4Trans utiliza solo una arquitectura de codificador-decodificador basada en transformadores, superando el enfoque anterior y mejorando significativamente el PVT.

El algoritmo también logró resultados de estado del arte para un número determinado de clases transparentes, incluyendo frasco, ventana, puerta, taza, caja y botella.

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Dibujando caminos para los ciegos con aprendizaje automático

Arquitectura

Hardware

Prevención de la sobrecarga cognitiva para el usuario

Pruebas de Trans4Trans

You may like