Συνδεθείτε μαζί μας

Χρήση ψευδαισθήσεων AI για την αξιολόγηση του ρεαλισμού της εικόνας

Η γωνία του Άντερσον

Χρήση ψευδαισθήσεων AI για την αξιολόγηση του ρεαλισμού της εικόνας

mm
Μια επιλογή από εικόνες από το WHOOPS! σύνολο δεδομένων (https://huggingface.co/datasets/nlphuji/whoops), πίσω από κεντρικές εικόνες από την εφημερίδα «Μην καταπολεμάτε τις ψευδαισθήσεις, χρησιμοποιήστε τις: Εκτίμηση του ρεαλισμού εικόνας χρησιμοποιώντας το NLI έναντι των ατομικών γεγονότων» (https://arxiv.org/pdf/2503.15948).

Νέα έρευνα από τη Ρωσία προτείνει μια μη συμβατική μέθοδο για την ανίχνευση μη ρεαλιστικών εικόνων που δημιουργούνται από την τεχνητή νοημοσύνη – όχι με τη βελτίωση της ακρίβειας των μεγάλων μοντέλων γλώσσας όρασης (LVLM), αλλά με τη σκόπιμη μόχλευση τους. τάση για παραισθήσεις.

Η νέα προσέγγιση εξάγει πολλαπλά «ατομικά δεδομένα» σχετικά με μια εικόνα χρησιμοποιώντας LVLM και στη συνέχεια εφαρμόζει συμπέρασμα φυσικής γλώσσας (NLI) για τη συστηματική μέτρηση των αντιφάσεων μεταξύ αυτών των δηλώσεων – μετατρέποντας ουσιαστικά τα ελαττώματα του μοντέλου σε διαγνωστικό εργαλείο για την ανίχνευση εικόνων που αψηφούν την κοινή λογική.

Δύο εικόνες από το WHOOPS! σύνολο δεδομένων μαζί με δηλώσεις που δημιουργούνται αυτόματα από το μοντέλο LVLM. Η αριστερή εικόνα είναι ρεαλιστική, οδηγώντας σε συνεπείς περιγραφές, ενώ η ασυνήθιστη δεξιά εικόνα προκαλεί παραισθήσεις στο μοντέλο, παράγοντας αντιφατικές ή ψευδείς δηλώσεις. Πηγή: https://arxiv.org/pdf/2503.15948

Δύο εικόνες από το WHOOPS! σύνολο δεδομένων μαζί με δηλώσεις που δημιουργούνται αυτόματα από το μοντέλο LVLM. Η αριστερή εικόνα είναι ρεαλιστική, οδηγώντας σε συνεπείς περιγραφές, ενώ η ασυνήθιστη δεξιά εικόνα προκαλεί παραισθήσεις στο μοντέλο, παράγοντας αντιφατικές ή ψευδείς δηλώσεις. Πηγή: https://arxiv.org/pdf/2503.15948

Κληθείς να αξιολογήσει τον ρεαλισμό της δεύτερης εικόνας, το LVLM μπορεί να το δει αυτό κάτι είναι λάθος, αφού η εικονιζόμενη καμήλα έχει τρεις καμπούρες, δηλαδή άγνωστη στη φύση.

Ωστόσο, το LVLM αρχικά συγχέεται >2 καμπούρες μαζί σου, > 2 ζώα, αφού αυτός είναι ο μόνος τρόπος με τον οποίο θα μπορούσε κανείς να δει τρεις εξογκώματα σε μια «εικόνα καμήλας». Στη συνέχεια, προχωρά στην παραίσθηση κάτι ακόμη πιο απίθανο από τρεις εξογκώματα (δηλαδή, «δύο κεφάλια») και ποτέ δεν περιγράφει λεπτομερώς το πράγμα που φαίνεται να πυροδότησε τις υποψίες του - την απίθανη επιπλέον εξογκώματα.

Οι ερευνητές της νέας εργασίας διαπίστωσαν ότι τα μοντέλα LVLM μπορούν να εκτελέσουν αυτό το είδος αξιολόγησης εγγενώς, και στο ίδιο επίπεδο με (ή καλύτερα) μοντέλα που έχουν γίνει σωστά συντονισμένο για μια εργασία αυτού του είδους. Δεδομένου ότι η μικρορύθμιση είναι περίπλοκη, δαπανηρή και μάλλον εύθραυστη όσον αφορά τη δυνατότητα εφαρμογής, η ανακάλυψη μιας εγγενούς χρήσης για ένα από τα τα μεγαλύτερα οδοφράγματα στην τρέχουσα επανάσταση της τεχνητής νοημοσύνης είναι μια αναζωογονητική ανατροπή στις γενικές τάσεις στη βιβλιογραφία.

Ανοιχτή Αξιολόγηση

Η σημασία της προσέγγισης, υποστηρίζουν οι συγγραφείς, είναι ότι μπορεί να αναπτυχθεί ανοικτού κώδικα frameworks. Ενώ ένα προηγμένο και υψηλής επένδυσης μοντέλο όπως το ChatGPT μπορεί (το έγγραφο παραδέχεται) να προσφέρει δυνητικά καλύτερα αποτελέσματα σε αυτό το έργο, η αμφισβητήσιμη πραγματική αξία της βιβλιογραφίας για την πλειοψηφία από εμάς (και ιδιαίτερα για τους ερασιτέχνες και τις κοινότητες VFX) είναι η δυνατότητα ενσωμάτωσης και ανάπτυξης νέων καινοτομιών σε τοπικές υλοποιήσεις. Αντίθετα, οτιδήποτε προορίζεται για ένα ιδιόκτητο εμπορικό σύστημα API υπόκειται σε απόσυρση, αυθαίρετες αυξήσεις τιμών και πολιτικές λογοκρισίας που είναι πιο πιθανό να αντικατοπτρίζουν τις εταιρικές ανησυχίες μιας εταιρείας παρά τις ανάγκες και τις ευθύνες του χρήστη.

The νέο χαρτί είναι ο τίτλος Μην καταπολεμάτε τις ψευδαισθήσεις, χρησιμοποιήστε τες: Εκτίμηση του ρεαλισμού εικόνας χρησιμοποιώντας NLI αντί για ατομικά δεδομένα, και προέρχεται από πέντε ερευνητές από το Ινστιτούτο Επιστήμης και Τεχνολογίας Skolkovo (Skoltech), το Ινστιτούτο Φυσικής και Τεχνολογίας της Μόσχας και τις ρωσικές εταιρείες MTS AI και AIRI. Το έργο έχει ένα συνοδευτική σελίδα GitHub.

Μέθοδος

Οι συγγραφείς χρησιμοποιούν το Ισραήλ/ΗΠΑ ΟΟΥΠ! Σύνολο δεδομένων για το έργο:

Παραδείγματα αδύνατων εικόνων από το WHOOPS! Σύνολο δεδομένων. Είναι αξιοσημείωτο πώς αυτές οι εικόνες συναρμολογούν εύλογα στοιχεία και ότι η απιθανότητά τους πρέπει να υπολογιστεί με βάση τη συνένωση αυτών των ασυμβίβαστων όψεων. Πηγή: https://whoops-benchmark.github.io/

Παραδείγματα αδύνατων εικόνων από το σύνολο δεδομένων WHOOPS!. Είναι αξιοσημείωτο το πώς αυτές οι εικόνες συγκεντρώνουν εύλογα στοιχεία και ότι η απιθανότητά τους πρέπει να υπολογίζεται με βάση τη συνένωση αυτών των ασύμβατων όψεων. Πηγή: https://whoops-benchmark.github.io/

Το σύνολο δεδομένων περιλαμβάνει 500 συνθετικές εικόνες και πάνω από 10,874 σχολιασμούς, ειδικά σχεδιασμένους για να δοκιμάσουν την λογική σκέψη και την κατανόηση της σύνθεσης των μοντέλων τεχνητής νοημοσύνης. Δημιουργήθηκε σε συνεργασία με σχεδιαστές που έχουν αναλάβει τη δημιουργία απαιτητικών εικόνων μέσω συστημάτων μετατροπής κειμένου σε εικόνα, όπως Μεσοταξίδι και τη σειρά DALL-E – παράγουν σενάρια που είναι δύσκολο ή αδύνατο να αποτυπωθούν φυσικά:

Άλλα παραδείγματα από το WHOOPS! σύνολο δεδομένων. Πηγή: https://huggingface.co/datasets/nlphuji/whoops

Άλλα παραδείγματα από το WHOOPS! σύνολο δεδομένων. Πηγή: https://huggingface.co/datasets/nlphuji/whoops

Η νέα προσέγγιση λειτουργεί σε τρία στάδια: πρώτον, το LVLM (συγκεκριμένα LLaVA-v1.6-mistral-7b) ζητείται να δημιουργήσει πολλαπλές απλές δηλώσεις – που ονομάζονται «ατομικά γεγονότα» – που περιγράφουν μια εικόνα. Αυτές οι δηλώσεις δημιουργούνται χρησιμοποιώντας Διαφορετική Αναζήτηση δέσμης, εξασφαλίζοντας μεταβλητότητα στις εκροές.

Το Diverse Beam Search, που προτάθηκε για πρώτη φορά στο, παράγει μια καλύτερη ποικιλία επιλογών υπότιτλων βελτιστοποιώντας έναν στόχο επαυξημένης ποικιλομορφίας. Πηγή: https://arxiv.org/pdf/1610.02424

Το Diverse Beam Search παράγει μια καλύτερη ποικιλία επιλογών υπότιτλων βελτιστοποιώντας έναν στόχο επαυξημένης ποικιλομορφίας. Πηγή: https://arxiv.org/pdf/1610.02424

Στη συνέχεια, κάθε δήλωση που δημιουργείται συγκρίνεται συστηματικά με κάθε άλλη πρόταση χρησιμοποιώντας ένα μοντέλο Συμπερασμάτων Φυσικής Γλώσσας, το οποίο εκχωρεί βαθμολογίες που αντικατοπτρίζουν εάν τα ζεύγη δηλώσεων συνεπάγονται, αντιφάσκουν ή είναι ουδέτερα μεταξύ τους.

Οι αντιφάσεις υποδεικνύουν παραισθήσεις ή μη ρεαλιστικά στοιχεία στην εικόνα:

Σχήμα για τον αγωγό ανίχνευσης.

Σχήμα για τον αγωγό ανίχνευσης.

Τέλος, η μέθοδος συγκεντρώνει αυτές τις βαθμολογίες NLI ανά ζεύγη σε μία μόνο «βαθμολογία πραγματικότητας» η οποία ποσοτικοποιεί τη συνολική συνοχή των παραγόμενων δηλώσεων.

Οι ερευνητές διερεύνησαν διαφορετικές μεθόδους συνάθροισης, με μια προσέγγιση που βασίζεται σε ομαδοποίηση να αποδίδει καλύτερα. Οι συγγραφείς εφάρμοσαν το k-σημαίνει ομαδοποίηση αλγόριθμος για τον διαχωρισμό των επιμέρους βαθμολογιών NLI σε δύο συστάδες και το κεντροειδές του συμπλέγματος χαμηλότερης τιμής επιλέχθηκε στη συνέχεια ως τελική μέτρηση.

Η χρήση δύο συστάδων ευθυγραμμίζεται άμεσα με τη δυαδική φύση της εργασίας ταξινόμησης, δηλαδή τη διάκριση των ρεαλιστικών από τις μη ρεαλιστικές εικόνες. Η λογική είναι παρόμοια με την απλή επιλογή της χαμηλότερης βαθμολογίας συνολικά. Ωστόσο, η ομαδοποίηση επιτρέπει στη μέτρηση να αντιπροσωπεύει τη μέση αντίφαση μεταξύ πολλαπλών γεγονότων, αντί να βασίζεται σε ένα μεμονωμένο απότομη.

Δεδομένα και Δοκιμές

Οι ερευνητές δοκίμασαν το σύστημά τους στο WHOOPS! βασικό σημείο αναφοράς, με χρήση περιστροφής διασπάσεις δοκιμής (δηλαδή, διασταυρωμένη επικύρωση). Τα μοντέλα που δοκιμάστηκαν ήταν BLIP2 FlanT5-XL και BLIP2 FlanT5-XXL σε χωρίσματα και BLIP2 FlanT5-XXL σε μορφή zero-shot (δηλαδή, χωρίς πρόσθετη εκπαίδευση).

Για μια γραμμή βάσης που ακολουθεί τις οδηγίες, οι συγγραφείς ζήτησαν από τα LVLM τη φράση «Είναι ασυνήθιστο αυτό; Παρακαλώ εξηγήστε σύντομα με μια σύντομη πρόταση.», Το οποίο προηγούμενη έρευνα βρέθηκε αποτελεσματικό για τον εντοπισμό μη ρεαλιστικών εικόνων.

Τα μοντέλα που αξιολογήθηκαν ήταν LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13B, και δύο μεγέθη (7/13 δισεκατομμύρια παραμέτρους) του InstructBLIP.

Η διαδικασία δοκιμής επικεντρώθηκε σε 102 ζεύγη ρεαλιστικών και μη ρεαλιστικών («περίεργων») εικόνων. Κάθε ζεύγος αποτελούνταν από μία κανονική εικόνα και μία αντίστοιχη εικόνα που αψηφούσε την κοινή λογική.

Τρεις άνθρωποι σχολιαστές έδωσαν στις εικόνες μια ετικέτα, φτάνοντας σε ποσοστό συναίνεσης 92%, υποδεικνύοντας ισχυρή ανθρώπινη συμφωνία ως προς το τι συνιστούσε «παραδοξότητα». Η ακρίβεια των μεθόδων αξιολόγησης μετρήθηκε από την ικανότητά τους να διακρίνουν σωστά μεταξύ ρεαλιστικών και μη ρεαλιστικών εικόνων.

Το σύστημα αξιολογήθηκε χρησιμοποιώντας τριπλή διασταυρούμενη επικύρωση, αναμειγνύοντας τυχαία δεδομένα με μια σταθερή βάση. Οι συγγραφείς προσάρμοσαν τα βάρη για τις βαθμολογίες συνεπαγωγής (δηλώσεις που συμφωνούν λογικά) και τις βαθμολογίες αντίφασης (δηλώσεις που έρχονται σε αντίθεση λογικά) κατά τη διάρκεια της εκπαίδευσης, ενώ οι «ουδέτερες» βαθμολογίες ορίστηκαν στο μηδέν. Η τελική ακρίβεια υπολογίστηκε ως ο μέσος όρος σε όλα τα τμήματα της δοκιμής.

Σύγκριση διαφορετικών μοντέλων NLI και μεθόδων συγκέντρωσης σε ένα υποσύνολο πέντε παραγόμενων γεγονότων, μετρούμενα με ακρίβεια.

Σύγκριση διαφορετικών μοντέλων NLI και μεθόδων συγκέντρωσης σε ένα υποσύνολο πέντε παραγόμενων γεγονότων, μετρούμενα με ακρίβεια.

Αναφορικά με τα αρχικά αποτελέσματα που φαίνονται παραπάνω, το έγγραφο αναφέρει:

«Η μέθοδος ['clust'] ξεχωρίζει ως μία από τις με την καλύτερη απόδοση. Αυτό υποδηλώνει ότι η συνάθροιση όλων των βαθμολογιών αντιφάσεων είναι κρίσιμη, αντί να εστιάζει μόνο σε ακραίες τιμές. Επιπλέον, το μεγαλύτερο μοντέλο NLI (nli-deberta-v3-large) ξεπερνά όλα τα άλλα για όλες τις μεθόδους συνάθροισης, υποδηλώνοντας ότι αποτυπώνει την ουσία του προβλήματος πιο αποτελεσματικά.»

Οι συγγραφείς διαπίστωσαν ότι τα βέλτιστα βάρη ευνοούσαν σταθερά την αντίφαση έναντι της συνεπαγόμενης, υποδεικνύοντας ότι οι αντιφάσεις ήταν πιο κατατοπιστικές για τη διάκριση μη ρεαλιστικών εικόνων. Η μέθοδός τους ξεπέρασε όλες τις άλλες μεθόδους μηδενικής λήψης που δοκιμάστηκαν, προσεγγίζοντας πολύ την απόδοση του βελτιστοποιημένου μοντέλου BLIP2:

Απόδοση διαφόρων προσεγγίσεων στο WHOOPS! σημείο αναφοράς. Οι μέθοδοι λεπτομέρειας (ft) εμφανίζονται στην κορυφή, ενώ οι μέθοδοι μηδενικής λήψης (zs) παρατίθενται από κάτω. Το μέγεθος του μοντέλου υποδεικνύει τον αριθμό των παραμέτρων και η ακρίβεια χρησιμοποιείται ως μέτρηση αξιολόγησης.

Απόδοση διαφόρων προσεγγίσεων στο WHOOPS! σημείο αναφοράς. Οι μέθοδοι λεπτομέρειας (ft) εμφανίζονται στην κορυφή, ενώ οι μέθοδοι μηδενικής λήψης (zs) παρατίθενται από κάτω. Το μέγεθος του μοντέλου υποδεικνύει τον αριθμό των παραμέτρων και η ακρίβεια χρησιμοποιείται ως μέτρηση αξιολόγησης.

Σημείωσαν επίσης, κάπως απροσδόκητα, ότι το InstructBLIP είχε καλύτερη απόδοση από συγκρίσιμα μοντέλα LLaVA με την ίδια προτροπή. Ενώ αναγνωρίζει την ανώτερη ακρίβεια του GPT-4o, η εργασία τονίζει την προτίμηση των συγγραφέων για την επίδειξη πρακτικών λύσεων ανοιχτού κώδικα και, όπως φαίνεται, μπορεί εύλογα να ισχυριστεί ότι είναι καινοτομία στην ρητή αξιοποίηση των παραισθήσεων ως διαγνωστικού εργαλείου.

Συμπέρασμα

Ωστόσο, οι συγγραφείς αναγνωρίζουν το χρέος του έργου τους μέχρι το 2024 FaithScore outing, μια συνεργασία μεταξύ του Πανεπιστημίου του Τέξας στο Ντάλας και του Πανεπιστημίου Johns Hopkins.

Απεικόνιση του πώς λειτουργεί η αξιολόγηση FaithScore. Αρχικά, προσδιορίζονται περιγραφικές δηλώσεις σε μια απάντηση που δημιουργείται από το LVLM. Στη συνέχεια, αυτές οι δηλώσεις αναλύονται σε μεμονωμένα ατομικά γεγονότα. Τέλος, τα ατομικά δεδομένα συγκρίνονται με την εικόνα εισόδου για να επαληθευτεί η ακρίβειά τους. Το υπογραμμισμένο κείμενο τονίζει αντικειμενικό περιγραφικό περιεχόμενο, ενώ το μπλε κείμενο υποδεικνύει παραισθήσεις, επιτρέποντας στο FaithScore να παρέχει ένα ερμηνεύσιμο μέτρο πραγματικής ορθότητας. Πηγή: https://arxiv.org/pdf/2311.01477

Απεικόνιση του πώς λειτουργεί η αξιολόγηση FaithScore. Αρχικά, προσδιορίζονται περιγραφικές δηλώσεις σε μια απάντηση που δημιουργείται από το LVLM. Στη συνέχεια, αυτές οι δηλώσεις αναλύονται σε μεμονωμένα ατομικά γεγονότα. Τέλος, τα ατομικά δεδομένα συγκρίνονται με την εικόνα εισόδου για να επαληθευτεί η ακρίβειά τους. Το υπογραμμισμένο κείμενο τονίζει αντικειμενικό περιγραφικό περιεχόμενο, ενώ το μπλε κείμενο υποδεικνύει παραισθήσεις, επιτρέποντας στο FaithScore να παρέχει ένα ερμηνεύσιμο μέτρο πραγματικής ορθότητας. Πηγή: https://arxiv.org/pdf/2311.01477

Το FaithScore μετρά την πιστότητα των περιγραφών που δημιουργούνται από το LVLM επαληθεύοντας τη συνέπεια με το περιεχόμενο της εικόνας, ενώ οι μέθοδοι της νέας εργασίας εκμεταλλεύονται ρητά τις ψευδαισθήσεις LVLM για την ανίχνευση μη ρεαλιστικών εικόνων μέσω αντιφάσεων σε παραγόμενα γεγονότα χρησιμοποιώντας Συμπερασματολογία Φυσικής Γλώσσας.

Το νέο έργο εξαρτάται, φυσικά, από τις εκκεντρικότητες των σημερινών γλωσσικών μοντέλων και από τη διάθεσή τους να έχουν παραισθήσεις. Εάν η ανάπτυξη του μοντέλου εμφανίσει ποτέ ένα εντελώς μη παραισθησιακό μοντέλο, ακόμη και οι γενικές αρχές της νέας εργασίας δεν θα ισχύουν πλέον. Ωστόσο, αυτό παραμένει α προκλητική προοπτική.

 

Πρώτη δημοσίευση Τρίτη, 25 Μαρτίου 2025

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai