Η γωνία του Anderson

Η ‘Δウンλοάντ Περισσότερων Ετικετών!’ Πλάνη στη Έρευνα του AI

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Μια κοινή άποψη στη σημερινή έρευνα του machine learning είναι ότι το ίδιο το machine learning μπορεί να χρησιμοποιηθεί για να βελτιωθεί η ποιότητα των αναγνωριστικών συνόλων δεδομένων του AI – ιδιαίτερα των legend για εικόνες που προορίζονται για χρήση σε μοντέλα οράσεως-γλώσσας (VLMs). Αυτή η σκέψη οδηγείται από το υψηλό κόστος της ανθρώπινης αναγνώρισης και το επιπλέον βάρος της επίβλεψης της απόδοσης του αναγνωριστικού.

Υποστηρίζεται ότι αυτό είναι το AI ισοδύναμο του meme “κατέβασε περισσότερη RAM” στις αρχές της δεκαετίας του 2000, το οποίο σατίριζε την ιδέα ότι μια limitation του hardware θα μπορούσε να επιλυθεί με μια λύση βασισμένη στο λογισμικό.

Είναι επίσης ένα υποτιμημένο ζήτημα· ενώ τα νέα μοντέλα AI προσελκύουν ευρεία προσοχή τόσο στο κοινό όσο και στο εμπορικό σφαιρό, η αναγνώριση συχνά φαίνεται να είναι ένα τριβείο λεπτομέρεια στις管ες του machine learning, που επισκιάζεται από την ενθουσιασμό που περιβάλλει τα ευρύτερα πλαισιά.

Στην πραγματικότητα, η ικανότητα των συστημάτων machine learning να αναγνωρίζουν και να αναπαράγουν μοτίβα (η κεντρική περίπτωση χρήσης σχεδόν όλων των συστημάτων AI) είναι εξαρτημένη από την ποιότητα και τη συνεχή αναγνώριση των πραγματικών αναγνωριστικών – ετικέτες και φράσεις που δημιουργούνται ή κρίνονται από πραγματικά άτομα, συχνά λαμβάνοντας υποκειμενικές κρίσεις για μεμονωμένα δεδομένα σε μη ιδανικές συνθήκες.

Αναπόφευκτα, τα συστήματα που επιδιώκουν να παρατηρήσουν και να αναπαράγουν μοτίβα στη συμπεριφορά του αναγνωριστικού (και να αντικαταστήσουν τους ανθρώπινους αναγνωριστικούς και να διευκολύνουν την ακριβή ετικέτα σε κλίμακα) δεν μπορούν να ελπίζουν να εκτελεστούν καλά σε δεδομένα όχι που περιέχονται στα παραδείγματα που λαμβάνονται από ανθρώπινους παρατηρητές. Τίποτα “παρόμοιο” δεν είναι ακριβώς το ίδιο, και η ισοδυναμία μεταξύ διαφορετικών τομέων παραμένει ένα προβληματικό ανταγωνισμό στην οπτική.

Το “πάνω δεδομένο δολάριο” πρέπει να σταματήσει κάπου, και σε αυτή την περίπτωση, αυτό είναι ακριβώς όπου σταματά – με ένα ανθρώπινο κερέβρα που κάνει κάποια υποκειμενική διάκριση για να κωδικοποιήσει δεδομένα για ένα τεχνητό σύστημα.

Το Εμπόριο RAG

Μέχρι πρόσφατα, οι ανακρίβειες που προέρχονται από ανακατασκευασμένες αναγνωριστικές ετικέτες θεωρούνταν, ίσως, ως αποδεκτές ζημιές σε σχέση με τα ατελή αλλά ακόμη πωλήσιμα αποτελέσματα που λαμβάνονται από γεννητικά συστήματα AI.

Πράγματι, μόνο φέτος μια μελέτη από τη Σιγκαπούρη κατέληξε στο συμπέρασμα ότι οι παραHallucinations – δηλαδή, οι περιπτώσεις όπου τα συστήματα AI εφευρίσκουν πράγματα που υπονομεύουν τις προθέσεις μας – είναι αναπόφευκτες και δεμένες με την концептуαλιστική αρχιτεκτονική των συστημάτων.

Για να ανταποκριθούν σε αυτό, πράκτορες RAG – οι οποίοι μπορούν να “επιβεβαιώσουν” γεγονότα μέσω αναζητήσεων στο διαδίκτυο – γίνονται δημοφιλείς στην έρευνα και τις εμπορικές λύσεις. Ωστόσο, αυτοί προστίθενται στο κόστος των πόρων και στη latence στις ερωτήσεις· επιπλέον, νέα πληροφορία που εφαρμόζεται σε ένα εκπαιδευμένο μοντέλο δεν μπορεί να ανταγωνιστεί τις πιο περίπλοκες και βαθιά συνδεδεμένες συνδέσεις που χαρακτηρίζουν τα εγγενή στρώματα σε ένα εκπαιδευμένο μοντέλο.

Θα ήταν, λοιπόν, καλύτερο αν τα δεδομένα αναγνώρισης που ενημερώνουν αυτά τα μοντέλα ήταν σημαντικά λιγότερο ελαττωματικά από την αρχή, ακόμη και αν δεν μπορούν να είναι τέλεια (ούτε επειδή αυτή η δραστηριότητα εισβάλλει στο πεδίο της ανθρώπινης υποκειμενικότητας).

RePOPE

Μια νέα εργασία από τη Γερμανία υπογραμμίζει τα προβλήματα που προκύπτουν από την εξάρτηση από παλαιότερα, ευρέως χρησιμοποιούμενα συνόλα δεδομένων, με εστίαση ιδιαίτερα στην ακρίβεια και την αξιοπιστία των legend εικόνων.

Τα ευρήματα των ερευνητών δείχνουν ότι λάθη ετικετών σε benchmarκ peuvent να κρύψουν ή να παρουσιάσουν λανθασμένα την hallucination σε μοντέλα οράσεως-γλώσσας.

Από την νέα εργασία, κάποια παραδείγματα όπου οι αρχικές legend απέτυχαν να αναγνωρίσουν σωστά αντικείμενα στην εικόνα MSCOCO. Η χειροκίνητη αναθεώρηση των ερευνητών του benchmarκ POPE αντιμετωπίζει αυτές τις ελλείψεις, δείχνοντας το κόστος της εξοικονόμησης χρημάτων στην αναγνώριση ετικετών. Source: https://arxiv.org/pdf/2504.15707

Φανταστείτε ένα μοντέλο που δείχνει μια εικόνα μιας σκηνής δρόμου και ζητάει αν υπάρχει ένα ποδήλατο σε αυτή. Το μοντέλο απαντά ναι. Αν το benchmarκ dataset λέει ότι δεν υπάρχει ποδήλατο, το μοντέλο σημειώνεται λάθος. Αλλά αν ένα ποδήλατο είναι πραγματικά ορατό στην εικόνα και απλά χάθηκε κατά την αναγνώριση, τότε η απάντηση του μοντέλου ήταν σωστή, και το benchmarκ έχει αποτύχει. Λάθη σαν αυτά μπορούν να συσσωρευτούν σε όλο το σύνολο δεδομένων, δίνοντας μια παραμορφωμένη εικόνα για ποια μοντέλα είναι ακριβή και ποια είναι ευάλωτα στην hallucination.

Έτσι, όταν λανθασμένες ή αμφίβολες αναγνωριστικές ετικέτες αντιμετωπίζονται ως ground truth, τα μοντέλα μπορεί να φαίνονται να hallucinate όταν είναι σωστά, ή αλλιώς να φαίνονται ακριβή όταν δεν είναι, παραμορφώνοντας και τη μέτρηση της hallucination και την κατάταξη της απόδοσης του μοντέλου, και καθιστώντας το δυσκολότερο να διαγνώσει ή να αντιμετωπίσω το πρόβλημα με βεβαιότητα.

Η νέα εργασία επανεξετάζει ένα ευρέως χρησιμοποιούμενο benchmarκ που ονομάζεται Polling-based Object Probing Evaluation (POPE), το οποίο δοκιμάζει αν τα μοντέλα οράσεως-γλώσσας μπορούν να αναγνωρίσουν σωστά τι είναι ή δεν είναι σε μια εικόνα.

Το POPE βασίζεται σε ετικέτες από το επιδραστικό Microsoft COCO: Common Objects in Context (MSCOCO) dataset, μια συλλογή αναγνωριστικών εικόνων που έχει θεωρηθεί ότι προσφέρει ένα καλό επίπεδο ακρίβειας αναγνώρισης.

Το POPE αξιολογεί την hallucination αντικειμένων σε μεγάλα μοντέλα οράσεως-γλώσσας αναδιαμορφώνοντας το πρόβλημα ως μια binary classification task. Αντί να αναλύει τις γεννημένες legend, το σύστημα θέτει απλές ναι/όχι ερωτήσεις στο μοντέλο σχετικά με την παρουσία συγκεκριμένων αντικειμένων σε μια εικόνα, χρησιμοποιώντας προτύπου όπως ‘Υπάρχει ένα <αντικείμενο> στην εικόνα;’.

Παραδείγματα hallucination αντικειμένων σε μοντέλα οράσεως-γλώσσας. Οι πλάγιες ετικέτες δείχνουν αντικείμενα που σημειώθηκαν ως παρόντα στις αρχικές αναγνωριστικές ετικέτες, ενώ οι κόκκινες ετικέτες δείχνουν αντικείμενα που hallucinate από τα μοντέλα. Το αριστερό παράδειγμα αντανακλά μια παραδοσιακή instruction-based αξιολόγηση, ενώ τα τρία παραδείγματα στη δεξιά πλευρά είναι από διαφορετικές παραλλαγές του benchmarκ POPE. Source: https://aclanthology.org/2023.emnlp-main.20.pdf

Οι ερευνητές της νέας εργασίας – με τίτλο RePOPE: Impact of Annotation Errors on the POPE Benchmark – αμφισβητούν την υποτιθέμενη ακρίβεια του POPE αναξαναβλέποντας τις ετικέτες στις εικόνες του benchmarκ (δηλαδή, MSCOCO) – και βρίσκοντας ότι ένα आश्चηρό αριθμός από αυτές είναι λανθασμένες ή αμφίβολες.

Παραδείγματα από το 2014 MSCOCO dataset. Source: https://arxiv.org/pdf/1405.0312

Αυτά τα λάθη αλλάζουν τον τρόπο με τον οποίο τα μοντέλα κατατάσσονται, με κάποια που αρχικά εκτελέστηκαν καλά να πέφτουν πίσω όταν κρίνονται με τις διορθωμένες ετικέτες.

Σε δοκιμές, οι ερευνητές αξιολόγησαν eine σειρά από ανοιχτά μοντέλα σε cả το αρχικό benchmarκ POPE και την επανασχεδιασμένη RePOPE έκδοση.

Σύμφωνα με την εργασία, οι διορθωμένες ετικέτες οδήγησαν σε σημαντικές αλλαγές στις κατατάξεις των μοντέλων, ιδιαίτερα στις F1 σκορ, με κάποια μοντέλα που αρχικά εκτελέστηκαν καλά να πέφτουν πίσω υπό RePOPE.

Οι ερευνητές υποστηρίζουν ότι αυτή η αλλαγή δείχνει το βαθμό με τον οποίο τα λάθη αναγνώρισης μπορούν να κρύψουν την πραγματική συμπεριφορά hallucination των μοντέλων, και παρουσιάζουν το RePOPE ως ένα πιο αξιόπιστο εργαλείο για την αξιολόγηση της ευαλωτότητας στην hallucination.

Σε ένα άλλο παράδειγμα από την νέα εργασία, βλέπουμε πώς οι αρχικές legend του POPE αποτύχουν να αναγνωρίσουν λεπτά αντικείμενα, όπως ένα άτομο που κάθεται δίπλα στο καμπίνα ενός τραμ στην δεξιά φωτογραφία, ή η καρέκλα που καλύπτεται από τον τενίστα στη δεύτερη φωτογραφία από τα αριστερά.

Μέθοδος και Δοκιμές

Οι ερευνητές ανααναγνώρισαν όλες τις ετικέτες στο αρχικό σύνολο δεδομένων MSCOCO, με δύο ανθρώπινους αναγνωριστικούς να ανατίθενται σε κάθε περίπτωση δεδομένων. Όπου αναφανήθηκε αμφιβολία σχετικά με την ποιότητα των αρχικών ετικετών (όπως στα παραδείγματα παρακάτω), αυτά τα αποτελέσματα απομακρύνθηκαν από τη δοκιμή.

Αμφίβολες περιπτώσεις, όπου οι αναγνωριστικές ετικέτες του POPE αντανακλούν ασαφείς οριακές περιοχές. Για παράδειγμα, ένα τεντ Μπέαρ που σημειώθηκε ως αρκούδα, ένα μοτοσικλέτα ως ποδήλατο, ή αεροπορικά οχήματα ως αυτοκίνητα. Αυτές οι περιπτώσεις απομακρύνθηκαν από το RePOPE λόγω της υποκειμενικής φύσης των ταξινομήσεων, καθώς και των ανακολουθιών στις αρχικές ετικέτες του MSCOCO.

Η εργασία αναφέρει:

‘Οι αρχικοί αναγνωριστικοί missed άτομα στο φόντο ή πίσω από γυαλί, ο τενίστας καλύπτει τις ‘καρέκλες’ στο φόντο και το κολε σλοου περιέχει μόνο μια μικρή ορατή λωρίδα από μια καρότα.

‘Για κάποια αντικείμενα, οι αναγνωριστικές ετικέτες του COCO είναι πολύ ασυνεπείς, πιθανότατα λόγω διαφορετικών ορισμών των αντικειμένων που χρησιμοποιήθηκαν από τους αρχικούς αναγνωριστικούς. Η ταξινόμηση ενός ‘τεντ Μπέαρ’ ως ‘αρκούδα’, ενός μοτοσικλέτα ως ‘ποδήλατο’, ή ενός αεροπορικού οχήματος ως ‘αυτοκίνητο’ εξαρτάται από συγκεκριμένους ορισμούς, οδηγώντας σε ανακολουθίες στις ετικέτες του POPE.

Αποτελέσματα της ανααναγνώρισης: οι θετικές ερωτήσεις είναι κοινές σε όλες τις τρεις παραλλαγές του POPE. Μεταξύ εκείνων που σημειώθηκαν ως ‘ναι’ στο POPE, το 9,3% βρέθηκε να είναι λανθασμένο και το 13,8% ταξινομήθηκε ως αμφίβολο. Για τις ερωτήσεις ‘όχι’, το 1,7% ήταν λανθασμένα και το 4,3% ήταν αμφίβολο.

Οι ερευνητές αξιολόγησαν μια σειρά από ανοιχτά μοντέλα στο POPE και στο RePOPE, σε διάφορες αρχιτεκτονικές και μεγέθη μοντέλων. Τα μοντέλα που επιλέχθηκαν περιελάμβαναν κάποια από τις κορυφαίες αρχιτεκτονικές στο OpenVLM leaderboard: InternVL2.5 (8B/26B/38B/78B και 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; και PaliGemma2 (3B/10B).

Αρχικά αποτελέσματα: ο υψηλός ρυθμός λάθους στις αρχικές θετικές ετικέτες οδηγεί σε μια απότομη πτώση στα true positives σε όλα τα μοντέλα. Οι false positives ποικίλλουν σε διαφορετικά υποσύνολα, σχεδόν διπλασιάζοντας στο τυχαίο υποσύνολο, αλλά παραμένοντας σχεδόν αμετάβλητες στο υποσύνολο popular, και δείχνουν μια μικρή μείωση στο υποσύνολο adversarial. Η ανααναγνώριση έχει μια σημαντική επίδραση στις κατατάξεις F1. Μοντέλα όπως Ovis2-4B και Ovis2-8B, τα οποία εκτελέστηκαν καλά στο popular και adversarial υποσύνολα του POPE, ανεβαίνουν επίσης στην κορυφή στο τυχαίο υποσύνολο υπό RePOPE. Παρακαλώ αναφερθείτε στο πηγή PDF για καλύτερη ανάλυση.

Τα αποτελέσματα γραφικών παραπάνω δείχνουν πώς ο αριθμός των true positives και false positives αλλάζει μετά την διόρθωση των ετικετών στο benchmarκ.

Τα true positives έπεσαν σε όλα τα μοντέλα, δείχνοντας ότι αυτά είχαν πιστωθεί για σωστές απαντήσεις όταν αυτές οι απαντήσεις ήταν σωστές μόνο υπό λανθασμένες ετικέτες, ενώ οι false positives ακολούθησαν ένα πιο ποικίλο μοτίβο.

Για το “τυχαίο” benchmarκ POPE, οι false positives σχεδόν διπλασιάστηκαν για πολλά μοντέλα, δείχνοντας ότι ένας σημαντικός αριθμός αντικειμένων που σημειώθηκαν ως hallucinations ήταν στην πραγματικότητα παρόντα στις εικόνες αλλά είχαν αποτυχηθεί στην αρχική αναγνώριση. Σε αυτή την περίπτωση, πολλά λανθασμένα λάθη του μοντέλου ήταν στην πραγματικότητα λάθη του συνόλου δεδομένων.

Για το “adversarial” benchmarκ POPE, όπου οι ερωτήσεις βασίζονταν σε αντικείμενα που συχνά συνυπάρχουν, οι false positives μειώθηκαν. Αυτό πιθανότατα αντανακλά μια υψηλότερη πιθανότητα ότι το υποτιθέμενο απουσιάζον αντικείμενο ήταν πραγματικά στην εικόνα αλλά αφέθηκε αναγνώριστο.

Αν και αυτές οι αλλαγές επηρέασαν την ακρίβεια και την ανακληση, οι κατατάξεις των μοντέλων παρέμειναν σχετικά σταθερές για cả τα δύο μέτρα.

Το σκορ F1 – το κύριο μέτρο αξιολόγησης του POPE – ήταν πολύ πιο ευαίσθητο στις διορθώσεις των ετικετών. Στο τυχαίο υποσύνολο, μοντέλα που κατετάγησαν κοντά στην κορυφή υπό τις αρχικές ετικέτες, όπως το InternVL2.5-8B και -26B, έπεσαν στην κάτω parte όταν αξιολογήθηκαν με RePOPE. Άλλα, όπως Ovis2-4B και -8B, ανέβηκαν στην κορυφή.

Ένας παρόμοιος μοτίβος εμφανίστηκε στα σκορ ακρίβειας, αν και οι ερευνητές σημειώνουν ότι αυτά μπορεί να είναι τώρα προκατειλημμένα, поскольку το διορθωμένο σύνολο δεδομένων περιέχει一个 άνισο αριθμό θετικών και αρνητικών παραδειγμάτων.

Οι ερευνητές υποστηρίζουν ότι η ισχυρή επίδραση των λαθών αναγνώρισης στα αποτελέσματα του benchmarκ υπογραμμίζει την ανάγκη για υψηλής ποιότητας δεδομένα. Για να υποστηρίξουν μια πιο αξιόπιστη αξιολόγηση της hallucination αντικειμένων, έχουν δημοσιεύσει τις διορθωμένες ετικέτες στο GitHub.

Ωστόσο, σημειώνουν ότι αυτή η ανααναγνώριση δεν αντιμετωπίζει πλήρως την κορύφωση του benchmarκ,既然 πολλά μοντέλα εξακολουθούν να επιτύχουν true positive και true negative ρυθμούς πάνω από το 90%. Προτείνουν ότι επιπλέον benchmarκ, όπως το DASH-B, το οποίο χρησιμοποιεί ένα πιο απαιτητικό σύνολο αρνητικών παραδειγμάτων, θα πρέπει να χρησιμοποιηθούν παράλληλα με το RePOPE.

Συμπέρασμα

Αυτή η συγκεκριμένη πειραματική διαδικασία ήταν δυνατή λόγω του πολύ μικρού μεγέθους του συνόλου δεδομένων που εμπλέκεται. Η απόδειξη του ίδιου υποθέματος σε υπερμεγέθη συνόλα δεδομένων θα απαιτούσε εργασία σε πολύ περιορισμένα τμήματα των δεδομένων· σε πολύ διαφορετικά μεγάλα συνόλα δεδομένων, μπορεί να αποδειχθεί σχεδόν αδύνατο να απομονωθούν στατιστικά αντιπροσωπευτικά και σεμαντικά συνεκτικά ομάδες – πιθανότατα να στρεβλώσουν τα αποτελέσματα.

Ακόμη και αν ήταν δυνατό, ποιο θα ήταν το αντίδοτο υπό την τρέχουσα κατάσταση της τέχνης; Το επιχείρημα επιστρέφει αναπόφευκτα στην ανάγκη για καλύτερη και περισσότερη ανθρώπινη αναγνώριση.

Σε αυτήν την περίπτωση, “καλύτερη” και “περισσότερη” υπάρχουν ως ξεχωριστά προβλήματα,既然 μπορεί να ληφθεί μεγαλύτερος όγκος αναγνωριστικών μέσω οικονομιών που τρέχουν προς τα κάτω, όπως το Amazon Mechanical Turk (AMT). Προφανώς, αυτή η πотεντικά εκμεταλλευτική υποοικονομία συχνά οδηγεί σε κατώτερη ποιότητα.

Εναλλακτικά, θα μπορούσε να ανατεθεί η αναγνώριση σε οικονομικές περιοχές όπου η ίδια δαπάνη θα οδηγούσε σε μεγαλύτερο όγκο αναγνωριστικών. Ωστόσο, όσο πιο μακριά ο αναγνωριστικός είναι από την προβλεπόμενη χρήση του μοντέλου που θα διαμορφώσει, τόσο λιγότερο πιθανό είναι ότι το μοντέλο θα ευθυγραμμιστεί με τις ανάγκες ή τις προσδοκίες του στόχου τομέα.

Αυτή παραμένει μια από τις πιο επίμονες και μη λυμένες προκλήσεις στην οικονομία της ανάπτυξης του machine learning.

Πρώτη δημοσίευση Τετάρτη, 23 Απριλίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]