Künstliche Intelligenz

Lehren von KI, Bilder in Dialogen zu verstehen und zu verwenden

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Forscher aus Südkorea haben ein Dataset entwickelt, das darauf abzielt, die Forschung zum Verständnis der Art und Weise, wie Menschen Bilder in Dialogen verwenden, zu unterstützen, und natürliche Sprachmodelle zu helfen, an dieser sehr jüngsten Entwicklung in der menschlichen Kommunikation teilzunehmen.

Die Studie, die von KAIST at Daedeok Innopolis stammt, weist darauf hin, dass die Forschung zu solchen multi-modalen Dialogsystemen in den letzten zehn Jahren durch Datasets und Methoden behindert wurde, die sich auf Disziplinen konzentrieren, die peripher zu dem Thema sind, wie z.B. visuelle Fragebeantwortung und Bildbeschreibung.

In diesen älteren Ansätzen werden Bilder außerhalb des lexikalischen Kontexts einer Konversation bewertet, ohne das Verständnis dafür, wie die Konversation durch Bildantworten verbessert und entwickelt wird, und ohne ein Cross-Domain-Schema für die Dekodierung der Beiträge visueller Beiträge zum Diskurs.

Bilder als erste-Klasse-Aspekte von Dialogen

Viele der oben genannten Ansätze waren Initiativen oder Entwicklungen von Microsofts KI-Forschungsarm, der 2017 auch untersuchte, das Thema multimodaler Konversationen, die begonnen werden, anstatt frei Bilder als Dialogkomponenten zu verwenden.

Um den Mangel an Forschungsdaten zu beheben, haben die südkoreanischen Forscher ein Dataset von 45.000 Dialoginstanzen entwickelt, die die ad-hoc-Verwendung von Bildern beinhalten, ohne sich auf virale ‘Meme’-Bilder zu konzentrieren; Letztere, obwohl sie ein Bereich von Interesse in der Sprachforschung sind, sind möglicherweise weniger eine Herausforderung, da die Bedeutung von viralen Memes leichter durch Tausende von Kontexten auf sozialen Medienplattformen abgeleitet werden kann.

Entwicklung von Illustrationen als Ersatz für Text

Um eine Methode für die bilateralen Transliterationen von Worten/Phrasen in Bilder zu entwickeln, haben die südkoreanischen Forscher ein maschinelles Lernsystem trainiert, um Teile einer textbasierten Konversation in semantisch relevante Bildinhalte umzuwandeln.

Architektur des koreanischen Systems für die Generierung eines Datasets für multimodale Dialogforschung. Quelle: https://arxiv.org/pdf/2107.08685.pdf

Die Vorverarbeitung der Zielphrasen umfasste die Löschung von Stoppwörtern, die die Vorhersage des nächsten Schritts in der Konversation behindern könnten, und die Beschneidung von minderwertigen Qualitätsaustauschen durch Kontext-Ähnlichkeitsfilter.

Um die Nützlichkeit des Datasets zu testen, setzten die Forscher ein Modul ein, um den nächsten ‘Schritt’ in der Konversation vorherzusagen, während sie den Kontext der Konversation und die beteiligten Bilder berücksichtigten.

Die menschliche Bewertungs-GUI, die in der Forschung verwendet wurde.

Fünf externe Datasets wurden als Grundmaterial für das 45k-Dataset verwendet (das auf GitHub verfügbar ist). Drei sind textbasierte Elemente: DailyDialog, ein manuell annotiertes multi-turn-textbasiertes Set von 2017; und Facebooks EmpatheticDialogues und PersonaChat, beide von 2018. Die zwei bildbasierten Datasets, die verwendet wurden, waren MS-COCO und Flicker30k.

Bild/Text-Paare – JSON-Schema von Phrasen im Dataset, assoziiert mit Bildern (in diesem Beispiel) aus Microsofts COCO-Bild-Datenbank.

Die Text-Bild-Ersetzung für das System wurde durch das vorgebildete Visual Semantic Reasoning Network (VSRN) angetrieben, das 2019 an der Northeastern University in Boston entwickelt wurde. VSRN wurde so eingestellt, dass es auf manuell vorselektierte Phrasen aus den beitragenden Text-Datasets operiert.

Herstellung von Kohärenz

Die Kohärenz der Quelldatasets wurde durch die Entwicklung von sechs Kombinationen jedes Dialog-Datasets hergestellt, die mit Instanzen in jedem Bild-Dataset korreliert waren und über mehrere Runden von Menschen bewertet wurden.

Die menschliche Bewertung basierte auf drei Kriterien: Konsistenz zum Kontext des Austauschs; Bild-Relevanz zum Kernkonzept, das das Bild auszudrücken versuchte; und das Ausmaß, in dem das Bild Schlüsselobjekte aus dem Ziel-Satz enthielt.

Unter Berücksichtigung der letzteren Kriterien könnte argumentiert werden, dass das Schema, das die Forscher entschieden haben, weitgehend die Möglichkeit von humorvollen, sarkastischen, abstrakten oder metaphysischen Möglichkeiten für die semantische Bedeutung eines Bildes, das in eine Text-Konversation injiziert werden könnte, ausgeschlossen hat.

Jedoch ist dies eine grundlegende Arbeit, und sie muss irgendwo beginnen, während erhebliche Anstrengungen in anderen Bereichen des Natural Language Processing (NLP)-Sektors unternommen werden, um Instanzen von Sarkasmus zu kartieren, unter anderem weniger greifbare Beispiele der Bild-Text-Beziehung.

Testen

Um den Daten-Generierungs-Rahmen zu testen, verwendeten die Forscher ein dreiteiliges Abrufmodell, das auf Facebooks 2020 Image-Chat-Forschung basiert. Das Modul umfasst Resnext-101 als Bild-Encoder; Google’s BERT für den Text-Encoder; und ein benutzerdefiniertes Fusion-Modul für diese.

Das System erreichte 50,35 und 14,38 auf der aktuellen und nächsten Satz-Vorhersage-Aufgabe, was die Basis für jede Aufgabe verbesserte.

Später wurden zwei Forscher beauftragt, 100 multimodale Dialoge durch das manuelle Einfügen von Bildern in Konversationen zu erstellen und das System gegen diese ‘organischen’ multimodalen Konversationen laufen zu lassen. Das System konnte die aktuellen und nächsten Schritte in der Konversation mit hohem Kontextbewusstsein vorhersagen, sogar für diese ad-hoc-Beispiele.

Ergebnisse des Testens für das koreanische multimodale Dataset-Generierungssystem, das eine konsistent hohe Korrelation zwischen Text-Bild-Ähnlichkeit und menschlichen Frage-Scores auf denselben Daten zeigt.