Intelligence artificielle

Enseigner à l’IA à comprendre et utiliser des images dans le dialogue

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Les chercheurs de Corée du Sud ont développé un jeu de données conçu pour aider la recherche sur la compréhension par l’IA de la façon dont les humains utilisent des images dans le dialogue, et pour aider les modèles de langage naturel à participer à ce développement récent dans les communications humaines.

Le document, de KAIST à Daedeok Innopolis, note que la recherche sur de tels systèmes de dialogue multi-modaux au cours des dix dernières années a été entravée par des jeux de données et des méthodologies centrées sur des disciplines périphériques au sujet, telles que la réponse à des questions visuelles et la légende d’images.

Dans ces approches plus anciennes, les images sont évaluées en dehors du contexte lexical d’une conversation, sans compréhension de la façon dont le dialogue est amélioré et développé par les réponses d’images, et sans schéma inter-domaines pour décoder les contributions des contributions visuelles au discours.

Les images comme facettes de premier plan du dialogue

De nombreuses approches mentionnées jusqu’à présent ont été des initiatives ou des développements de la branche de recherche en IA de Microsoft, qui en 2017 a également examiné le sujet de conversations multi-modales qui sont démarrées par une image, plutôt que d’utiliser librement des images comme composants de dialogue.

Pour remédier au manque de données de recherche, les chercheurs sud-coréens ont développé un jeu de données de 45 000 instances de dialogue impliquant l’utilisation ad hoc d’images, sans se concentrer sur les images de « mèmes » virales ; ces dernières, bien qu’étant un domaine d’intérêt pour la recherche linguistique, sont sans doute moins un défi, car le sens des mèmes viraux peut être déduit plus facilement grâce à des milliers d’utilisations en contexte sur les plateformes de médias sociaux.

Développer des illustrations comme substitut de texte

Afin de développer une méthodologie pour la translittération bilatérale mot/phrase > image, les chercheurs sud-coréens ont formé un système d’apprentissage automatique pour substituer des parties d’une conversation basée sur du texte en contenu d’image sémantiquement pertinent.

Architecture du système coréen pour générer un jeu de données pour la recherche sur le dialogue multi-modal. Source : https://arxiv.org/pdf/2107.08685.pdf

Le prétraitement des phrases cibles a impliqué la suppression de mots d’arrêt qui pourraient inhiber la prédiction de la prochaine intervention dans la conversation, et l’élagage d’échanges de qualité inférieure via des filtres de similarité contextuelle.

Pour tester l’utilité du jeu de données, les chercheurs ont configuré un module pour prédire le prochain « tour » du dialogue en tenant compte du contexte de la conversation et des images impliquées.

L’interface de l’évaluation humaine utilisée dans la recherche.

Cinq jeux de données externes ont été utilisés comme matériau de base pour le jeu de données de 45 000 (qui est disponible sur GitHub). Trois sont des éléments basés sur du texte : DailyDialog, un ensemble de texte multi-tour annoté manuellement de 2017 ; et les EmpatheticDialogues et PersonaChat de Facebook, tous deux de 2018. Les deux jeux de données basés sur des images utilisés étaient MS-COCO et Flicker30k.

Paires d’images/texte – schéma JSON des phrases du jeu de données, associées à des images (dans cet exemple) de la base de données d’images COCO de Microsoft.

La substitution de texte par image pour le système a été alimentée par le réseau de raisonnement visuel sémantique pré-entraîné (VSRN), développé en 2019 à l’Université Northeastern de Boston. Le VSRN a été configuré pour fonctionner sur des phrases sélectionnées manuellement à partir des jeux de données de texte contributifs.

Établir la cohérence

La cohérence des jeux de données sources a été établie en développant six combinaisons de chaque jeu de données de dialogue, corrélées à des instances dans chaque jeu de données d’images, et évaluées sur plusieurs tours par des humains.

L’évaluation humaine a été basée sur trois critères : la cohérence par rapport au contexte de l’échange ; la pertinence de l’image par rapport au concept central que l’image essayait d’exprimer ; et la mesure dans laquelle l’image contenait des objets clés de la phrase cible.

En considérant le dernier critère, on pourrait soutenir que le schéma que les chercheurs ont décidé d’utiliser a largement écarté la possibilité de possibilités humoristiques, sarcastiques, abstraites ou métaphysiques pour la signification sémantique d’une image qui pourrait être injectée dans une conversation de texte.

Cependant, il s’agit d’un travail fondateur, et il doit commencer quelque part, tandis que des efforts considérables sont déployés ailleurs dans le secteur du traitement automatique du langage naturel (TALN) pour cartographier les instances de sarcasme, entre autres exemples moins tangibles de la relation image/texte.

Test

Pour tester le cadre de génération de données, les chercheurs ont utilisé un modèle de récupération à trois parties basé sur la recherche Image-Chat de Facebook de 2020. Le module comprend Resnext-101 en tant que codeur d’image ; BERT de Google pour le codeur de texte ; et un module de fusion personnalisé pour ces.

Le système a obtenu 50,35 et 14,38 sur les tâches de prédiction de phrase actuelle et suivante, améliorant les références pour chaque tâche.

Plus tard, deux chercheurs ont été chargés de créer 100 dialogues multi-modaux en insérant des images dans des conversations manuellement, et en exécutant le système contre ces conversations multi-modales « organiques ». Le système a pu prédire les échanges actuels et suivants avec une grande conscience du contexte, même pour ces exemples ad hoc.

Résultats du test pour le système de génération de jeu de données multi-modal coréen, révélant une corrélation élevée et constante entre la similarité texte-image et les scores de questions basés sur l’humain sur les mêmes données.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.