Inteligencia artificial

Nueva herramienta puede mostrar a los investigadores qué dejan fuera de una imagen los GANs

mm

Recientemente, un equipo de investigadores del MIT-IBM Watson AI Lab creó un método para mostrar qué es lo que una Red Adversaria Generativa deja fuera de una imagen cuando se le pide que genere imágenes. El estudio se denominó Viendo qué no puede generar un GAN, y se presentó recientemente en la Conferencia Internacional de Visión por Computadora.

Las Redes Adversarias Generativas se han vuelto más robustas, sofisticadas y ampliamente utilizadas en los últimos años. Han mejorado mucho en la generación de imágenes llenas de detalles, siempre y cuando la imagen se limite a un área relativamente pequeña. Sin embargo, cuando se utilizan GANs para generar imágenes de escenas y entornos más grandes, no funcionan tan bien. En escenarios donde se les pide a los GANs que generen escenas llenas de muchos objetos y artículos, como una calle concurrida, los GANs a menudo dejan fuera muchos aspectos importantes de la imagen.

Según MIT News, la investigación fue desarrollada en parte por David Bau, un estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencia de la Computación del MIT. Bau explicó que los investigadores suelen concentrarse en refinar qué es lo que los sistemas de aprendizaje automático prestan atención y discernir cómo ciertos inputs pueden ser mapeados a ciertos outputs. Sin embargo, Bau también explicó que entender qué datos son ignorados por los modelos de aprendizaje automático es a menudo igual de importante y que el equipo de investigación espera que sus herramientas inspiren a los investigadores a prestar atención a los datos ignorados.

El interés de Bau en los GANs se despertó por el hecho de que podrían ser utilizados para investigar la naturaleza de caja negra de las redes neuronales y para ganar una intuición de cómo las redes podrían estar razonando. Bau trabajó anteriormente en una herramienta que podía identificar clusters específicos de neuronas artificiales, etiquetándolas como responsables de la representación de objetos del mundo real como libros, nubes y árboles. Bau también tuvo experiencia con una herramienta llamada GANPaint, que permite a los artistas eliminar y agregar características específicas de las fotos utilizando GANs. Según Bau, la aplicación GANPaint reveló un problema potencial con los GANs, un problema que se hizo aparente cuando Bau analizó las imágenes. Como Bau le dijo a MIT News:

“Mi asesor siempre nos ha animado a mirar más allá de los números y a examinar las imágenes reales. Cuando miramos, el fenómeno saltó a la vista: la gente estaba siendo eliminada selectivamente”.

Mientras que los sistemas de aprendizaje automático están diseñados para extraer patrones de las imágenes, también pueden terminar ignorando patrones relevantes. Bau y otros investigadores experimentaron con la capacitación de GANs en diversas escenas interiores y exteriores, pero en todos los tipos de escenas, los GANs dejaron fuera detalles importantes en las escenas como coches, señales de tráfico, personas, bicicletas, etc. Esto fue cierto incluso cuando los objetos que se dejaron fuera eran importantes para la escena en cuestión.

El equipo de investigación hipotetizó que cuando el GAN se entrena en imágenes, el GAN puede encontrar más fácil capturar los patrones de la imagen que son más fáciles de representar, como objetos estacionarios grandes como paisajes y edificios. Aprende estos patrones sobre otros patrones más difíciles de interpretar, como coches y personas. Ha sido un conocimiento común que los GANs a menudo omiten detalles importantes y significativos cuando generan imágenes, pero el estudio del equipo del MIT puede ser la primera vez que se ha demostrado que los GANs omiten clases enteras de objetos dentro de una imagen.

El equipo de investigación señala que es posible que los GANs logren sus objetivos numéricos incluso cuando dejan fuera objetos que los humanos consideran importantes al mirar las imágenes. Si las imágenes generadas por los GANs se van a utilizar para entrenar sistemas complejos como vehículos autónomos, los datos de la imagen deben ser examinados cuidadosamente porque hay una preocupación real de que objetos críticos como señales, personas y otros coches puedan ser dejados fuera de las imágenes. Bau explicó que su investigación muestra por qué el rendimiento de un modelo no debe basarse solo en la precisión:

“Tenemos que entender qué están y no están haciendo las redes para asegurarnos de que estén tomando las decisiones que queremos que tomen”.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.