Inteligencia artificial

Nueva técnica ayuda a la IA a identificar objetos 3D

Actualizado on 9 de diciembre de 2022

Imagen: Universidad Estatal de Carolina del Norte

Una nueva técnica desarrollada por investigadores de la Universidad Estatal de Carolina del Norte mejora la capacidad de los programas de inteligencia artificial (IA) para identificar objetos 3D. Llamada MonoCon, la técnica también ayuda a AI a aprender cómo los objetos 3D se relacionan entre sí en el espacio mediante el uso de imágenes 2D.

MonoCon podría tener potencialmente una amplia gama de aplicaciones, incluida la ayuda a los vehículos autónomos a navegar alrededor de otros vehículos utilizando imágenes 2D recibidas de una cámara a bordo. También podría desempeñar un papel en la fabricación y la robótica.

Tianfu Wu es el autor correspondiente del trabajo de investigación y profesor asistente de ingeniería eléctrica e informática en la Universidad Estatal de Carolina del Norte.

“Vivimos en un mundo 3D, pero cuando tomas una foto, registra ese mundo en una imagen 2D”, dice Wu.

“Los programas de IA reciben información visual de las cámaras. Entonces, si queremos que la IA interactúe con el mundo, debemos asegurarnos de que pueda interpretar qué imágenes 2D pueden decirle sobre el espacio 3D. En esta investigación, nos enfocamos en una parte de ese desafío: cómo podemos hacer que la IA reconozca con precisión objetos 3D, como personas o automóviles, en imágenes 2D y colocar esos objetos en el espacio”, continúa Wu.

Vehículos autónomos

Los vehículos autónomos a menudo dependen de LIDAR para navegar en el espacio 3D. Lidar, que usa láseres para medir la distancia, es costoso, lo que significa que los sistemas autónomos no incluyen mucha redundancia. Poner docenas de sensores lidar en un automóvil sin conductor producido en masa sería increíblemente costoso.

“Pero si un vehículo autónomo pudiera usar entradas visuales para navegar por el espacio, podría construir redundancia”, dice Wu. “Debido a que las cámaras son significativamente menos costosas que lidar, sería económicamente factible incluir cámaras adicionales, creando redundancia en el sistema y haciéndolo más seguro y más robusto.

“Esa es una aplicación práctica. Sin embargo, también estamos entusiasmados con el avance fundamental de este trabajo: que es posible obtener datos 3D a partir de objetos 2D”.

Entrenamiento de la IA

MonoCon puede identificar objetos 3D en imágenes 2D antes de colocarlos en un "cuadro delimitador", que le indica a la IA los bordes exteriores del objeto.

“Lo que diferencia nuestro trabajo es cómo entrenamos la IA, que se basa en técnicas de entrenamiento anteriores”, dice Wu. “Al igual que los esfuerzos anteriores, colocamos objetos en cuadros delimitadores 3D mientras entrenamos la IA. Sin embargo, además de pedirle a la IA que prediga la distancia entre la cámara y el objeto y las dimensiones de los cuadros delimitadores, también le pedimos a la IA que prediga las ubicaciones de cada uno de los ocho puntos del cuadro y su distancia desde el centro del cuadro delimitador. caja en dos dimensiones. Llamamos a esto "contexto auxiliar" y descubrimos que ayuda a la IA a identificar y predecir con mayor precisión objetos 3D basados en imágenes 2D.

“El método propuesto está motivado por un conocido teorema de la teoría de la medida, el teorema de Cramér-Wold. También es potencialmente aplicable a otras tareas de predicción de resultados estructurados en visión por computadora”.

MonoCon se probó con un conjunto de datos de referencia ampliamente utilizado llamado KITTI.

“En el momento en que presentamos este documento, MonoCon funcionó mejor que cualquiera de las docenas de otros programas de IA destinados a extraer datos 3D de automóviles a partir de imágenes 2D”, dice Wu.

El equipo ahora buscará ampliar el proceso con conjuntos de datos más grandes.

“En el futuro, estamos ampliando esto y trabajando con conjuntos de datos más grandes para evaluar y ajustar MonoCon para su uso en la conducción autónoma”, dice Wu. “También queremos explorar aplicaciones en la fabricación, para ver si podemos mejorar el desempeño de tareas como el uso de brazos robóticos”.

Temas relacionados:AI inteligencia artificial Vehículos autónomos

Hasta la próxima

El nuevo CGI: creación de vecindarios neuronales con Block-NeRF

No Te Lo

El equipo de investigación desarrolla una técnica de IA para la detección de expresiones faciales en 3D

Alex MacFarland

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.