Τεχνητή νοημοσύνη

Διδάσκοντας τον AI να Κατανοήσει και να Χρησιμοποιήσει Εικόνες σε Διαλόγους

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Ερευνητές από τη Νότια Κορέα έχουν αναπτύξει ένα σύνολο δεδομένων που σχεδιάστηκε για να βοηθήσει την έρευνα σχετικά με την κατανόηση του AI για τον τρόπο που οι άνθρωποι χρησιμοποιούν εικόνες σε διάλογο, και να βοηθήσει τα μοντέλα φυσικής γλώσσας να συμμετάσχουν σε αυτήν την πολύ πρόσφατη εξέλιξη στις ανθρώπινες επικοινωνίες.

Ο σχεδιασμός, από το KAIST στο Daedeok Innopolis, σημειώνει ότι η έρευνα σε τέτοιους πολυμορφικούς διαλογικούς συστήματα τα τελευταία δέκα χρόνια έχει εμποδιστεί από σύνολα δεδομένων και μεθοδολογίες που επικεντρώνονται σε πεδία που είναι περιφερειακά στο θέμα, όπως οπτική απάντηση σε ερωτήσεις και λεζάντα εικόνας.

Σε αυτές τις παλαιότερες προσεγγίσεις, οι εικόνες αξιολογούνται έξω από το λεξικό контекστο του διαλόγου, χωρίς κατανόηση του τρόπου που ο διάλογος ενισχύεται και αναπτύσσεται από τις εικόνες απαντήσεων, και χωρίς δια-τομέα σχήμα για την αποκωδικοποίηση των συνεισφορών των οπτικών συνεισφορών στο λόγο.

Εικόνες ως Πρώτη-Τάξης Πτυχές του Διαλόγου

Πολλοί από τους προαναφερθέντες προσεγγίσεις μέχρι σήμερα έχουν sido πρωτοβουλίες ή εξελίξεις από το τμήμα έρευνας AI της Microsoft, η οποία το 2017 εξέτασε επίσης το θέμα των πολυμορφικών συνομιλιών που ξεκινούν από μια εικόνα, αντί να χρησιμοποιούν ελεύθερα εικόνες ως συστατικά του διαλόγου.

Για να αντιμετωπίσουν την έλλειψη ερευνητικών δεδομένων, οι Νότιο-Κορεάτες ερευνητές έχουν αναπτύξει ένα σύνολο δεδομένων από 45.000 περιπτώσεις διαλόγου που涉ávají την ad hoc χρήση εικόνων, χωρίς να επικεντρώνονται σε ιούς ‘meme’ εικόνες· το τελευταίο, αν και是一个 πεδίο ενδιαφέροντος στη γλωσσική έρευνα, είναι ομολογουμένως λιγότερο μια πρόκληση, επειδή η σημασία των ιών meme μπορεί να συναχθεί πιο εύκολα μέσω χιλιάδων in-κοντέκστ χρήσεων σε πλατφόρμες κοινωνικών μέσων.

Ανάπτυξη Εικονογραφημένων ως Αντικατάσταση Κειμένου

Για να αναπτύξουν μια μεθοδολογία για word/phrase>εικόνα αμφίδρομη μεταφράσεις, οι Νότιο-Κορεάτες ερευνητές έχουν εκπαιδεύσει ένα σύστημα μηχανικής μάθησης να αντικαταστήσει μέρη ενός κειμένου-διαλόγου με σεμαντικά σχετικές εικόνες.

Αρχιτεκτονική του Κορεατικού συστήματος για τη δημιουργία συνόλου δεδομένων για έρευνα πολυμορφικών διαλόγων. Πηγή: https://arxiv.org/pdf/2107.08685.pdf

Η προ-επεξεργασία των στόχων φράσεων περιλάμβανε τη διαγραφή λεξικών λέξεων που μπορεί να εμποδίσουν την πρόβλεψη της επόμενης σαλλής στη συνομιλία, και το κλάδεμα των κατώτερης ποιότητας ανταλλαγών μέσω φίλτρων ομοιότητας περιεχομένου.

Για να δοκιμάσουν τη χρησιμότητα του συνόλου δεδομένων, οι ερευνητές ορίσαν ένα μοντέλο να προβλέψει την επόμενη ‘στροφή’ στη συνομιλία ενώ λαμβάνει υπόψη το контέκστο της συνομιλίας και τις εικόνες που εμπλέκονται.

Το σύστημα αξιολόγησης ανθρώπινου που χρησιμοποιήθηκε στην έρευνα.

Πέντε εξωτερικά σύνολα δεδομένων χρησιμοποιήθηκαν ως βασικό υλικό για το σύνολο δεδομένων 45k (το οποίο είναι διαθέσιμο στο GitHub). Τρία είναι κειμενο-στοιχεία: DailyDialog, ένα χειροκίνητα-σημειωμένο multi-στροφή κειμενο-σύνολο από το 2017· και τα EmpatheticDialogues και PersonaChat της Facebook, και τα δύο από το 2018. Τα δύο σύνολα δεδομένων εικόνων που χρησιμοποιήθηκαν ήταν τα MS-COCO και Flicker30k.

Ζευγάρια εικόνας/κειμένου – JSON σχήμα φράσεων στο σύνολο δεδομένων, συνδεδεμένα με εικόνες (σε αυτό το παράδειγμα) από τη βάση εικόνων COCO της Microsoft.

Η αντικατάσταση κειμένου-εικόνας για το σύστημα ήταν ενεργοποιημένη από το προ-εκπαιδευμένο Δίκτυο Οπτικής Σεμαντικής Λογικής (VSRN), που αναπτύχθηκε το 2019 στο Northeastern University στο Boston. Το VSRN ορίστηκε να λειτουργήσει σε χειροκίνητα προ-επιλεγμένες φράσεις από τα συνεισφέρωντα κειμενο-σύνολα δεδομένων.

Ιδρύοντας Συνέπεια

Η συνέπεια των πηγαίων συνόλων δεδομένων καθορίστηκε με την ανάπτυξη έξι συνδυασμών κάθε συνόλου διαλόγου, συσχετισμένων με περιπτώσεις σε κάθε σύνολο εικόνων, και αξιολογήθηκαν σε plusieurs γύρους από ανθρώπους.

Η αξιολόγηση ανθρώπινου βασίστηκε σε τρία κριτήρια: συνέπεια στο контέκστο της ανταλλαγής· image-релевάντια στη βασική έννοια που η εικόνα προσπαθούσε να εκφράσει· και το βαθμό στον οποίο η εικόνα περιείχε κλειδιά αντικείμενα από τη στόχο πρόταση.

Συγκριτικά με τα τελευταία κριτήρια, θα μπορούσε να υποστηριχθεί ότι το σχήμα που οι ερευνητές αποφάσισαν έχει σε μεγάλο βαθμό αποκλείσει τη δυνατότητα για γελωτοποιούς, σαρκαστικές, αφηρημένες ή μεταφυσικές δυνατότητες για τη σεμαντική σημασία μιας εικόνας που μπορεί να ενσταλεί σε μια κειμενο-συνομιλία.

Ωστόσο, αυτό είναι σεμινάλ εργασία, και πρέπει να αρχίσει κάπου, ενώ σημαντικές προσπάθειες εξοικονομούνται αλλού στον τομέα της Φυσικής Γλώσσας (NLP) για χαρτογράφηση περιπτώσεων σαρκασμού, μεταξύ άλλων λιγότερο ορατών παραδειγμάτων της σχέσης εικόνας/κειμένου.

Δοκιμή

Για να δοκιμάσουν το πλαίσιο γεννήσεων δεδομένων, οι ερευνητές χρησιμοποίησαν ένα τρι-μερές μοντέλο ανάκτησης που βασίζεται στην έρευνα Image-Chat της Facebook από το 2020. Το μοντέλο αποτελείται από Resnext-101 ως κωδικοποιητή εικόνας· το BERT της Google για τον κωδικοποιητή κειμένου· και ένα προσαρμοσμένο modulo σύντηξης για αυτά.

Το σύστημα πέτυχε 50.35 και 14.38 στην πρόβλεψη της τρέχουσας και της επόμενης πρότασης, βελτιώνοντας τη βάση για κάθε εργασία.

Αργότερα, δύο ερευνητές ορίστηκαν να δημιουργήσουν 100 πολυμορφικές συνομιλίες εισάγοντας εικόνες σε συνομιλίες χειροκίνητα, και να τρέξουν το σύστημα ενάντια σε αυτές τις ‘οργανικές’ πολυμορφικές συνομιλίες. Το σύστημα ήταν σε θέση να προβλέψει την τρέχουσα και την επόμενη-στροφή ανταλλαγές με υψηλή επίγνωση του контέκστου ακόμη και για αυτά τα ad hoc παραδείγματα.

Αποτελέσματα της δοκιμής για το Κορεατικό σύνολο δεδομένων γεννήσεων πολυμορφικών διαλόγων, αποκαλύπτοντας συνεχώς υψηλή συσχετίση μεταξύ ομοιότητας κειμένου-εικόνας και ανθρώπινων-βασισμένων βαθμολογιών ερωτήσεων στα ίδια δεδομένα.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]