Inteligencia artificial

Enseñar a la IA a entender y utilizar imágenes en diálogo

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Los investigadores de Corea del Sur han desarrollado un conjunto de datos diseñado para ayudar a la investigación sobre la comprensión de la IA de la forma en que los humanos utilizan imágenes en diálogo, y para ayudar a los modelos de lenguaje natural a participar en este desarrollo muy reciente en la comunicación humana.

El artículo, de KAIST en Daedeok Innopolis, señala que la investigación sobre dichos sistemas de diálogo multi-modal durante los últimos diez años ha sido obstaculizada por conjuntos de datos y metodologías centradas en disciplinas periféricas al tema, como preguntas visuales y subtítulos de imágenes.

En estos enfoques anteriores, las imágenes se evalúan fuera del contexto léxico de una conversación, sin comprender la forma en que el diálogo se mejora y desarrolla con respuestas de imágenes, y sin esquema de decodificación de contribuciones visuales al discurso.

Imágenes como facetas de primer nivel del diálogo

Muchos de los enfoques anteriores han sido iniciativas o desarrollos del brazo de investigación de IA de Microsoft, que en 2017 también examinó el tema de conversaciones multi-modales que son iniciadas por una imagen, en lugar de utilizar libremente imágenes como componentes del diálogo.

Para abordar la falta de datos de investigación, los investigadores surcoreanos han desarrollado un conjunto de datos de 45,000 instancias de diálogo que involucran el uso ad hoc de imágenes, sin concentrarse en imágenes de ‘meme’ virales; estas últimas, aunque son un área de interés en la investigación del lenguaje, son arguablemente menos desafiantes, porque el significado de los memes virales puede inferirse más fácilmente a través de miles de usos en contexto en plataformas de redes sociales.

Desarrollar ilustraciones como sustituto de texto

Para desarrollar una metodología para la transliteración bilateral de palabra/frase a imagen, los investigadores surcoreanos han entrenado un sistema de aprendizaje automático para sustituir partes de una conversación basada en texto por contenido de imagen semánticamente relevante.

Arquitectura del sistema coreano para generar un conjunto de datos para la investigación de diálogo multi-modal. Fuente: https://arxiv.org/pdf/2107.08685.pdf

El pre-procesamiento de las frases objetivo involucró la eliminación de palabras de parada que podrían inhibir la predicción de la siguiente intervención en la conversación, y la poda de intercambios de baja calidad a través de filtros de similitud contextual.

Para probar la utilidad del conjunto de datos, los investigadores configuraron un módulo para predecir la próxima ‘intervención’ en el diálogo mientras consideraban el contexto de la conversación y las imágenes involucradas.

La interfaz de usuario de evaluación humana utilizada en la investigación.

Se utilizaron cinco conjuntos de datos externos como material base para el conjunto de datos de 45k (que está disponible en GitHub). Tres son elementos basados en texto: DailyDialog, un conjunto de texto multi-giro manualmente anotado de 2017; y EmpatheticDialogues y PersonaChat, ambos de 2018. Los dos conjuntos de datos basados en imágenes utilizados fueron MS-COCO y Flicker30k.

Pares de imagen/texto – esquema JSON de frases en el conjunto de datos, asociadas con imágenes (en este ejemplo) de la base de datos de imágenes de Microsoft COCO.

La sustitución de texto a imagen para el sistema se realizó mediante la red pre-entrenada Visual Semantic Reasoning Network (VSRN), desarrollada en 2019 en la Universidad del Noreste en Boston. VSRN se configuró para operar en frases pre-seleccionadas manualmente de los conjuntos de datos de texto contribuyentes.

Establecer coherencia

La coherencia de los conjuntos de datos de origen se estableció desarrollando seis combinaciones de cada conjunto de datos de diálogo, correlacionadas con instancias en cada conjunto de datos de imágenes, y evaluadas durante varias rondas por humanos.

La puntuación humana se basó en tres criterios: consistencia con el contexto del intercambio; relevancia de la imagen para el concepto central que la imagen intentaba expresar; y la medida en que la imagen contenía objetos clave de la oración objetivo.

Considerando el último criterio, se podría argumentar que el esquema que los investigadores decidieron tiene en gran medida descontado la posibilidad de posibilidades humorísticas, sarcásticas, abstractas o metafísicas para el significado semántico de una imagen que podría ser inyectada en una conversación de texto.

Sin embargo, este es un trabajo seminal, y tiene que comenzar en algún lugar, mientras que se realizan considerables esfuerzos en otro lugar en el sector de Procesamiento de Lenguaje Natural (NLP) para mapear instancias de sarcasmo, entre otros ejemplos menos tangibles de la relación imagen/texto.

Pruebas

Para probar el marco de generación de datos, los investigadores utilizaron un modelo de recuperación de tres partes basado en la investigación de Image-Chat de Facebook de 2020. El módulo comprende Resnext-101 como codificador de imágenes; BERT de Google para el codificador de texto; y un módulo de fusión personalizado para estos.

El sistema logró 50,35 y 14,38 en la tarea de predicción de oración actual y siguiente, mejorando la línea de base para cada tarea.

Más tarde, dos investigadores fueron encargados de crear 100 diálogos multi-modales insertando imágenes en conversaciones manualmente, y ejecutando el sistema contra estos ejemplos ‘orgánicos’ de conversaciones multi-modales. El sistema pudo predecir intercambios de turno actual y siguiente con alta conciencia del contexto, incluso para estos ejemplos ad hoc.

Resultados de las pruebas para el sistema de generación de conjunto de datos multi-modal coreano, que revelan una correlación consistentemente alta entre la similitud de texto a imagen y las puntuaciones de preguntas basadas en humanos en los mismos datos.