Contáctenos

Localización de usuarios en interiores mediante el reconocimiento visual de lugares

Líderes del pensamiento

Localización de usuarios en interiores mediante el reconocimiento visual de lugares

mm

El reconocimiento visual del lugar es uno de los pilares de desarrollo de visión por computadora y robótica. La tarea de los algoritmos VPR es identificar las ubicaciones examinadas en función de las imágenes. La tecnología puede admitir robots autónomos y la fuerza laboral humana por igual, identificando el entorno y facilitando la ejecución de las acciones deseadas.

Investigadores en NeuroSYS aprovechan los algoritmos de visión artificial como parte de la plataforma AR desarrollada, nsflow, que permite instrucciones de trabajo interactivas y capacitación práctica para identificar las posiciones de los usuarios mientras reciben capacitación en el sitio. En este caso, el uso de VPR conduce a una aceleración significativa de los procesos de incorporación y aprendizaje debido a una menor necesidad de capacitación y supervisión previa.

Localizar a una persona o encontrar el lugar deseado mediante GPS ya es noticia vieja. Pero, ¿qué hacer cuando el sistema de navegación por satélite no funciona? Los sistemas de posicionamiento en interiores (IPS) vienen al rescate. 

Al buscar una aguja en un pajar, puede utilizar varias técnicas, incluidas balizas, posicionamiento magnético, unidades de medición inercial (IMU) con acelerómetros y giroscopios, medición del movimiento desde el último punto conocido, posicionamiento basado en wi-fi o simplemente: utilice marcadores visuales. 

Todos los métodos anteriores tienen sus fallas (por ejemplo, la necesidad de instalar marcadores o balizas, IMU aumenta el error de medición con el tiempo y requiere reposicionamiento), que superan sus beneficios. La solución que responde al problema crucial, el paradero general del usuario con una precisión de unos pocos metros, resulta estar dentro del ámbito de los algoritmos. 

El proceso de reconocimiento de lugares se basa en un procedimiento de dos pasos, creando dos bases de datos. Inicialmente, se fotografía el lugar objetivo y se marcan ciertos elementos, puntos clave, mediante un detector de características para identificar elementos característicos del área. Posteriormente, los puntos etiquetados se comparan con una imagen de referencia. Una vez que un comparador de características considera que los puntos clave evaluados son lo suficientemente similares, la imagen califica para mostrar el mismo lugar. 

El base de datos de imágenes combina imágenes de ubicaciones de destino, en este caso, espacios de trabajo, y un conjunto de sus propiedades, incluidos identificadores únicos, seguidos de descriptores locales y globales. El otro conjunto, el base de datos de habitaciones, empareja puntos clave singulares con ciertas áreas en el espacio considerado. 

Utilizando las redes neuronales SuperPoint, SuperGlue y netVLAD del campo de reconocimiento visual de lugares, los investigadores utilizaron el proceso anterior en la localización de usuarios. Las redes neuronales profundas, SuperPoint y SuperGlue, cooperan en la detección y coincidencia de características, extrayendo información de las bases de datos. 

Los descriptores globales entran en escena

El proceso requiere descriptores globales, que sirven como vectores que distinguen el lugar, identificando áreas de una manera que no presenta ambigüedades. Para cumplir su función, los vectores deben ser independientes de la iluminación y el punto de vista; independientemente de la perspectiva y las condiciones de iluminación, los descriptores globales no deben dejar dudas al distinguir lugares en varias imágenes. 

Además, los objetos variables presentes en el área de interés no deben estar limitados por descriptores globales como características que distinguen lugares. Elementos como muebles y equipos son propensos a cambios (redecoración, desmantelamiento), lo que significa que no pueden definir áreas a través de su presencia. 

Impulsado por visión artificial lugar de reconocimiento se basa en elementos permanentes de ubicaciones examinadas, como puertas, ventanas, escaleras y otros elementos distintivos de naturaleza duradera. Durante la investigación en cuestión, se utilizó la red neuronal profunda NetVLAD para los cálculos, presentando como resultado vectores que cumplen con los requisitos establecidos. En el proceso de coincidencia de descriptores globales, se procesan imágenes de los vectores más similares, siguiendo cálculos de distancia entre cada punto de anclaje característico. 

Al procesar dos bases de datos, la base de datos de habitaciones y la otra, que contiene puntos clave y descriptores globales, el sistema se ocupa de los atributos de las imágenes. Después de realizar la estimación de similitudes y distancias más cortas, la segunda red neuronal, SuperGlue, identifica imágenes de ubicación. El sistema que utiliza VPR permite la localización del usuario en función, en definitiva, del número de puntos clave coincidentes. 

Los algoritmos encontraron aplicación en la Plataforma de IA y RA, que ayuda a los usuarios a realizar la capacitación con gafas inteligentes. El VPR permite la localización de los participantes en el lugar de trabajo, lanzando tutoriales y guías específicos para cada lugar, mejorando la seguridad y reduciendo la necesidad de supervisión directa. 

Proyecto cofinanciado con fondos de la Unión Europea en el marco de los Fondos Europeos de Desarrollo Regional como parte del Programa Operativo de Crecimiento Inteligente. Proyecto implementado como parte del Centro Nacional de Investigación y Desarrollo: Fast Track.

Jowita Kessler es una aficionada a la tecnología que vive en Polonia y trabaja como especialista en marketing de contenido en NeuroSYS. Lector y escritor compulsivo, dedicado a borrar la barrera entre las humanidades y la tecnología. En privado: soñadora y nocturna, fanática de los gatos y los murciélagos.