talón El modelo de aprendizaje automático comprende las relaciones entre objetos - Unite.AI
Contáctanos

Robótica

El modelo de aprendizaje automático comprende las relaciones entre objetos

Actualizado on

Investigadores del Instituto Tecnológico de Massachusetts (MIT) han desarrollado un nuevo modelo de aprendizaje automático (ML) que comprende las relaciones subyacentes entre los objetos de una escena. El modelo representa relaciones individuales una a la vez antes de combinar las representaciones para describir la escena general. 

A través de este nuevo enfoque, el modelo ML puede generar imágenes más precisas a partir de descripciones de texto, y puede hacerlo incluso cuando la escena tiene varios proyectos organizados en diferentes relaciones entre sí. 

Este nuevo desarrollo es importante dado que muchos modelos de aprendizaje profundo no pueden comprender las relaciones entrelazadas entre objetos individuales.

El modelo del equipo podría usarse en casos en los que los robots industriales deban realizar tareas de manipulación de varios pasos, como apilar elementos o ensamblar electrodomésticos. También ayuda a que las máquinas eventualmente puedan aprender de sus entornos e interactuar con ellos, al igual que los humanos. 

Yilun Du es estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y coautor principal del artículo. Du codirigió la investigación con Shuang Li, estudiante de doctorado de CSAIL, y Nan Liu, estudiante de posgrado de la Universidad de Illinois en Urbana-Champaign. También incluyó a Joshua B. Tenenbaum, profesor de Desarrollo de Carrera Paul E. Newton de Ciencias Cognitivas y Computación en el Departamento de Ciencias Cognitivas y del Cerebro, y el autor principal Antonio Torralba, Profesor de Delta Electronics de Ingeniería Eléctrica y Ciencias de la Computación. Tanto Tenenbaum como Torralba son miembros de CSAIL.

El nuevo marco

“Cuando miro una mesa, no puedo decir que hay un objeto en la ubicación XYZ. Nuestras mentes no funcionan así. En nuestra mente, cuando entendemos una escena, realmente la entendemos basándonos en las relaciones entre los objetos. Creemos que al construir un sistema que pueda comprender las relaciones entre los objetos, podríamos usar ese sistema para manipular y cambiar nuestros entornos de manera más efectiva”, dice Du.

El nuevo marco puede generar una imagen de una escena basada en una descripción de texto de los objetos y sus relaciones. 

Luego, el sistema puede dividir estas oraciones en partes más pequeñas que describen cada relación individual. Luego, cada parte se modela por separado y las piezas se combinan a través de un proceso de optimización que genera una imagen de la escena. 

Con las oraciones divididas en partes más cortas, el sistema puede recombinarlas de diferentes maneras, lo que le permite adaptarse a descripciones de escenas que nunca ha encontrado.

“Otros sistemas tomarían todas las relaciones de manera holística y generarían la imagen de una sola vez a partir de la descripción. Sin embargo, tales enfoques fallan cuando tenemos descripciones fuera de distribución, como descripciones con más relaciones, ya que estos modelos realmente no pueden adaptar una toma para generar imágenes que contengan más relaciones. Sin embargo, como estamos componiendo juntos estos modelos separados y más pequeños, podemos modelar una mayor cantidad de relaciones y adaptarnos a combinaciones novedosas”, dice Du.

El sistema también puede realizar este proceso a la inversa. Si recibe una imagen, puede encontrar descripciones de texto que coincidan con las relaciones entre los objetos en la escena. 

Evaluación del modelo

Los investigadores pidieron a los humanos que evaluaran si las imágenes generadas coincidían con la descripción de la escena original. Cuando las descripciones contenían tres relaciones, que era el tipo más complejo, el 91 por ciento de los participantes dijo que el nuevo modelo funcionó mejor que otros métodos de aprendizaje profundo.

“Algo interesante que encontramos es que para nuestro modelo, podemos aumentar nuestra oración de tener una descripción de relación a tener dos, tres o incluso cuatro descripciones, y nuestro enfoque sigue siendo capaz de generar imágenes que son descritas correctamente por esas descripciones. descripciones, mientras que otros métodos fallan”, dice Du.

El modelo también demostró una capacidad impresionante para trabajar con descripciones que no había encontrado antes.

“Esto es muy prometedor porque está más cerca de cómo funcionan los humanos. Es posible que los humanos solo vean varios ejemplos, pero podemos extraer información útil solo de esos pocos ejemplos y combinarlos para crear combinaciones infinitas. Y nuestro modelo tiene una propiedad que le permite aprender de menos datos pero generalizar a escenas o generaciones de imágenes más complejas”, dice Li.

El equipo ahora buscará probar el modelo en imágenes del mundo real que son más complejas y explorará cómo incorporar eventualmente el modelo en los sistemas robóticos. 

 

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.