Τεχνητή νοημοσύνη
Τα Μοντέλα Βαθιάς Μάθησης Μπορεί να Έχουν Δυσκολία να Αναγνωρίσουν Εικόνες που έχουν Γεννηθεί από την Τεχνητή Νοημοσύνη

Τα ευρήματα από μια νέα εργασία δείχνουν ότι τα state-of-the-art μοντέλα Τεχνητής Νοημοσύνης είναι σημαντικά λιγότερο ικανά να αναγνωρίσουν και να ερμηνεύσουν εικόνες που έχουν γεννηθεί από την Τεχνητή Νοημοσύνη σε σύγκριση με τους ανθρώπους, το οποίο μπορεί να είναι ένα ζήτημα σε ένα επερχόμενο κλίμα όπου τα μοντέλα μηχανικής μάθησης εκπαιδεύονται ολοένα και περισσότερο σε συνθετικά δεδομένα, και όπου δεν θα είναι απαραίτητα γνωστό αν τα δεδομένα είναι “πραγματικά” ή όχι.

Εδώ βλέπουμε το μοντέλο προβλέψεως resnext101_32x8d_wsl να έχει δυσκολία στην κατηγορία ‘μπαγέτα’. Σε τους тест, μια αποτυχία αναγνώρισης θεωρήθηκε ότι έχει συμβεί εάν η βασική λέξη-στόχος (σε αυτή την περίπτωση ‘μπαγέτα’) δεν ήταν στην κορυφή των πέντε προβλεπόμενων αποτελεσμάτων. Source: https://arxiv.org/pdf/2208.10760.pdf
Η νέα έρευνα έτεστε δύο κατηγορίες πλαισίων αναγνώρισης που βασίζονται στην όραση: αναγνώριση αντικειμένων και οπτικές ερωτήσεις-απαντήσεις (VQA).

Στο αριστερό μέρος, επιτυχίες και αποτυχίες από ένα σύστημα αναγνώρισης αντικειμένων· στο δεξί μέρος, εργασίες VQA που έχουν σχεδιαστεί για να διερευνήσουν την κατανόηση της Τεχνητής Νοημοσύνης για τις σκηνές και τις εικόνες με ένα πιο εξερευνητικό και σημαντικό τρόπο. Sources: https://arxiv.org/pdf/2105.05312.pdf και https://arxiv.org/pdf/1505.00468.pdf
Από τα δέκα state-of-the-art μοντέλα που ελέγχθηκαν σε συνόλους δεδομένων που έχουν γεννηθεί από πλαισιαία σύνθεσης εικόνων DALL-E 2 και Midjourney, το καλύτερο μοντέλο ήταν σε θέση να επιτύχει μόνο 60% και 80% ακρίβεια στις πέντε κορυφαίες κατηγορίες, ενώ το ImageNet, που έχει εκπαιδευτεί σε μη συνθετικά, πραγματικά δεδομένα, μπορεί να επιτύχει 91% και 99% στις ίδιες κατηγορίες, ενώ η απόδοση των ανθρώπων είναι συνήθως σημαντικά υψηλότερη.
Για να αντιμετωπιστούν τα ζητήματα γύρω από την μετατόπιση κατανομής (aka ‘μετατόπιση μοντέλου’, όπου τα μοντέλα προβλέψεως βιώνουν μειωμένη προβλεπτική ικανότητα όταν μεταφέρονται από τα δεδομένα εκπαίδευσης στα ‘πραγματικά’ δεδομένα), η εργασία αναφέρει:
Οι άνθρωποι είναι σε θέση να αναγνωρίσουν τις γεννημένες εικόνες και να απαντήσουν σε ερωτήσεις για αυτές με ευκολία. Συμπεραίνουμε ότι α) τα βαθιά μοντέλα έχουν δυσκολία να κατανοήσουν το γεννημένο περιεχόμενο, και μπορεί να κάνουν καλύτερα μετά από λεπτομέρειες, και β) υπάρχει μια μεγάλη μετατόπιση κατανομής μεταξύ των γεννημένων εικόνων και των πραγματικών φωτογραφιών. Η μετατόπιση κατανομής φαίνεται να είναι εξαρτημένη από την κατηγορία.
Λόγω του όγκου των συνθετικών εικόνων που έχουν ήδη πλημμυρίσει το διαδίκτυο μετά την απελευθέρωση της ανοιχτής πηγής του ισχυρού Stable Diffusion μοντέλου σύνθεσης εικόνων, η πιθανότητα ότι τα ‘ψευδή’ εικόνες θα πλημμυρίσουν τα βιομηχανικά δεδομένα όπως το Common Crawl, μπορεί να επηρεάσει σημαντικά τις διακυμάνσεις της ακρίβειας με τα χρόνια.
Αν και τα συνθετικά δεδομένα έχουν ανακηρυχθεί ως το πιθανό σωτήρας του τομέα της έρευνας της όρασης υπολογιστή, ο οποίος συχνά лишείται πόρων και προϋπολογισμών για την υπερ-σύνθεση, η νέα πηγή εικόνων Stable Diffusion (μαζί με την γενική αύξηση των συνθετικών εικόνων από την έλευση και την εμπορική εκμετάλλευση του DALL-E 2) είναι απίθανο να έρθουν όλες με ετικέτες, σχόλια και ετικέτες που τις διακρίνουν ως ‘ψευδείς’ στο σημείο που τα συστήματα μηχανικής όρασης θα τις συλλέξουν από το διαδίκτυο.
Η ταχύτητα ανάπτυξης των ανοιχτών πλαισίων σύνθεσης εικόνων έχει ξεπεράσει σημαντικά την ικανότητά μας να ταξινομήσουμε εικόνες από αυτά τα συστήματα, οδηγώντας σε αυξανόμενο ενδιαφέρον για συστήματα ανίχνευσης ‘ψευδών εικόνων’, παρόμοια με συστήματα ανίχνευσης deepfake, αλλά με την任务 να αξιολογούν ολόκληρες εικόνες αντί τμήματα προσώπων.
Η νέα εργασία έχει τον τίτλο Πόσο καλά είναι τα βαθιά μοντέλα στην κατανόηση των γεννημένων εικόνων, και προέρχεται από τον Ali Borji της εταιρείας μηχανικής μάθησης Quintic AI στη Σαν Φρανσίσκο.
Δεδομένα
Η μελέτη προηγήθηκε της κυκλοφορίας του Stable Diffusion, και οι πειραματικές δοκιμές χρησιμοποιούν δεδομένα που έχουν γεννηθεί από τα DALL-E 2 και Midjourney σε 17 κατηγορίες, συμπεριλαμβανομένων ελέφαντα, μανιτάρι, πίτσα, πρέτζελ, τρακτέρ και κουνέλι.

Παραδείγματα εικόνων από τις οποίες τα συστήματα αναγνώρισης και VQA που ελέγχθηκαν, είχαν την πρόκληση να αναγνωρίσουν την πιο σημαντική κεντρική έννοια.
Οι εικόνες προήλθαν από αναζητήσεις στο διαδίκτυο και μέσω του Twitter, και, σύμφωνα με τις πολιτικές του DALL-E 2 (τουλάχιστον, στην εποχή), δεν περιελάμβαναν καμία εικόνα με ανθρώπινα πρόσωπα. 僅 οι εικόνες που ήταν αναγνωρίσιμες από τους ανθρώπους, επιλέχθηκαν.
Δύο σύνολα εικόνων δημιουργήθηκαν, ένα για κάθε εργασία αναγνώρισης αντικειμένων και VQA.

Ο αριθμός εικόνων που υπάρχουν σε κάθε κατηγορία που ελέγχθηκε για αναγνώριση αντικειμένων.
Δοκιμές Αναγνώρισης Αντικειμένων
Για τις δοκιμές αναγνώρισης αντικειμένων, δέκα μοντέλα, όλα εκπαιδευμένα στο ImageNet, ελέγχθηκαν: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, και ResNext_WSL.
Κάποιες από τις κατηγορίες που ελέγχθηκαν ήταν πιο λεπτομερείς από τις άλλες, απαιτώντας την εφαρμογή μέσων προσεγγίσεων. Για παράδειγμα, το ImageNet περιέχει τρεις κατηγορίες που σχετίζονται με ‘ρολόγια’, και ήταν απαραίτητο να οριστεί κάποιος τρόπος, όπου η ένταξη οποιουδήποτε ‘ρολογιού’ σε οποιαδήποτε κατηγορία των πέντε κορυφαίων ετικετών για οποιαδήποτε εικόνα θεωρήθηκε ως επιτυχία σε αυτή την περίπτωση.

Επιδόσεις μοντέλου σε 17 κατηγορίες.
Το καλύτερο μοντέλο σε αυτή τη δοκιμή ήταν το resnext101_32x8d_ws, το οποίο έφτασε κοντά στο 60% για την κορυφαία ετικέτα (δηλαδή, οι φορές που η προτιμώμενη πρόβλεψη από τις πέντε επιλογές ήταν η σωστή έννοια που ενσωματώνεται στην εικόνα), και 80% για τις πέντε κορυφαίες ετικέτες (δηλαδή, η επιθυμητή έννοια ήταν τουλάχιστον στην κορυφή των πέντε επιλογών του μοντέλου για την εικόνα).
Ο συγγραφέας υποδηλώνει ότι η καλή απόδοση του μοντέλου οφείλεται στο γεγονός ότι εκπαιδεύτηκε για την προβλέψη ετικετών σε πλατφόρμες κοινωνικών μέσων. Ωστόσο, αυτά τα αποτελέσματα, σύμφωνα με τον συγγραφέα, είναι σημαντικά χαμηλότερα από αυτά που το ImageNet μπορεί να επιτύχει σε πραγματικά δεδομένα, δηλαδή 91% και 99%. Υποδηλώνει ότι αυτό οφείλεται σε μια μεγάλη διαφορά μεταξύ της κατανομής των εικόνων του ImageNet (οι οποίες επίσης συλλέγονται από το διαδίκτυο) και των γεννημένων εικόνων.
Οι πέντε πιο δύσκολες κατηγορίες για το σύστημα, με σειρά δυσκολίας, ήταν αεροπλάνο, χελώνα, σκίουρος, γυαλιά ηλίου και κράνος. Η εργασία σημειώνει ότι η κατηγορία αεροπλάνο συχνά συγχέεται με μπαλόνι, παρασκήνιο και ομπρέλα, αν και αυτές οι διακρίσεις είναι εύκολο για τους ανθρώπινους παρατηρητές να τις ξεχωρίσουν.
Ορισμένες κατηγορίες, συμπεριλαμβανομένων αεροπλάνο και χελώνα, προκάλεσαν καθολική αποτυχία σε όλα τα μοντέλα, ενώ άλλες (π.χ. πρέτζελ και τρακτέρ) οδήγησαν σε σχεδόν καθολική επιτυχία σε όλα τα μοντέλα.

Πολωτικές κατηγορίες: κάποιες από τις κατηγορίες-στόχους που επιλέχθηκαν είτε απενεργοποίησαν όλα τα μοντέλα, είτε ήταν αρκετά εύκολες για όλα τα μοντέλα να τις αναγνωρίσουν.
Οι συγγραφείς υποθέτουν ότι αυτά τα ευρήματα δείχνουν ότι όλα τα μοντέλα αναγνώρισης αντικειμένων μπορεί να μοιράζονται παρόμοιες δυνάμεις και αδυναμίες.
Δοκιμές Οπτικών Ερωτήσεων-Απαντήσεων
Επόμενο, ο συγγραφέας ελέγχει τα μοντέλα VQA σε ανοιχτές και ελεύθερες ερωτήσεις-απαντήσεις, με δυαδικές ερωτήσεις (δηλαδή ερωτήσεις στις οποίες η απάντηση μπορεί να είναι μόνο ‘ναι’ ή ‘όχι’). Η εργασία σημειώνει ότι τα πρόσφατα state-of-the-art μοντέλα VQA είναι σε θέση να επιτύχουν 95% ακρίβεια στο VQA-v2 dataset.
Για这一 γύρο δοκιμών, ο συγγραφέας δημιούργησε 50 εικόνες και έθεσε 241 ερωτήσεις γύρω από αυτές, 132 από τις οποίες είχαν θετικές απαντήσεις, και 109 αρνητικές. Ο μέσος όρος μήκος ερωτήσεων ήταν 5,12 λέξεις.
Αυτός ο γύρος χρησιμοποιούσε το OFA μοντέλο, ένα πλαισιο που δεν εξαρτάται από την εργασία και τη modalidad, για να ελέγξει την ολοκληρωμένη εργασία, και ήταν πρόσφατα ο ηγέτης στο VQA-v2 test-std set. Το OFA σημείωσε 77,27% ακρίβεια στις γεννημένες εικόνες, σε σύγκριση με το 94,7% που σημείωσε στο VQA-v2 test-std set.

Παραδείγματα ερωτήσεων και αποτελεσμάτων από το τμήμα VQA των δοκιμών. ‘GT” είναι ‘Γνήσια Αλήθεια’, δηλαδή η σωστή απάντηση.
Ο συγγραφέας της εργασίας υποδηλώνει ότι μέρος του λόγου μπορεί να είναι ότι οι γεννημένες εικόνες περιέχουν σημασιολογικές έννοιες που λείπουν από το VQA-v2 dataset, και ότι οι ερωτήσεις που γράφτηκαν για τις δοκιμές VQA μπορεί να είναι πιο απαιτητικές από τον γενικό τύπο ερωτήσεων του VQA-v2, αν και πιστεύει ότι ο πρώτος λόγος είναι πιο πιθανός.
LSD στο Ρεύμα Δεδομένων;
Γνώμη
Η νέα πληθώρα εικόνων που έχουν γεννηθεί από την Τεχνητή Νοημοσύνη, που μπορεί να παρουσιάσει άμεσες συνδυασμούς και αφηρημένες έννοιες που δεν υπάρχουν στη φύση, και που θα ήταν απρόσιτες με συμβατικά μέσα, μπορεί να παρουσιάσει ένα ιδιαίτερο πρόβλημα για τα συστήματα συλλογής δεδομένων που δεν ελέγχονται, τα οποία μπορεί να μην είναι σε θέση να αποτυγχάνουν με ευγένεια – κυρίως επειδή δεν σχεδιάστηκαν για να χειρίζονται μεγάλους όγκους, μη ετικετωμένων συνθετικών δεδομένων.
Σε τέτοιες περιπτώσεις, μπορεί να υπάρχει κίνδυνος ότι αυτά τα συστήματα θα συλλέξουν ένα ποσοστό ‘παράξενων’ συνθετικών εικόνων σε λανθασμένες κατηγορίες απλά και μόνο επειδή οι εικόνες περιέχουν ξεχωριστά αντικείμενα που δεν ανήκουν πραγματικά μαζί.

‘Αστροναύτης που καβαλάει ένα άλογο’ έχει vielleicht γίνει το πιο εμβληματικό οπτικό για τη νέα γενιά συστημάτων σύνθεσης εικόνων – αλλά αυτές οι ‘μη πραγματικές’ σχέσεις θα μπορούσαν να εισέλθουν σε πραγματικά συστήματα ανίχνευσης, εκτός εάν ληφθούν προφυλάξεις. Source: https://twitter.com/openai/status/1511714545529614338?lang=en
Εάν αυτό δεν μπορεί να αποτραπεί στο στάδιο της προεπεξεργασίας πριν από την εκπαίδευση, τέτοιες αυτοματοποιημένες διαδικασίες θα μπορούσαν να οδηγήσουν σε απίστευτες ή ακόμη και φριχτές συνδυασμούς να εκπαιδευτούν στα συστήματα μηχανικής μάθησης, μειώνοντας την αποτελεσματικότητά τους, και κινδυνεύοντας να περάσουν υψηλού επιπέδου συνδυασμούς σε υπο-συστήματα και κατηγορίες.
Εναλλακτικά, οι διαταραγμένες συνθετικές εικόνες θα μπορούσαν να έχουν ένα ‘ψυχρό’ αποτέλεσμα στην ακρίβεια των μεταγενέστερων συστημάτων, σε περίπτωση που νέες ή τροποποιημένες αρχιτεκτονικές θα εμφανιστούν που θα προσπαθούν να λογαριαστούν για τις ‘ad hoc’ συνθετικές εικόνες, και θα ρίχνουν ένα πολύ широкό δίκτυο.
Σε κάθε περίπτωση, οι συνθετικές εικόνες στην εποχή μετά το Stable Diffusion θα μπορούσαν να αποδειχθούν ένα προβληματικό ζήτημα για τον τομέα της έρευνας της όρασης υπολογιστή, των οποίων οι προσπάθειες έκαναν αυτές τις περίεργες δημιουργίες και ικανότητες δυνατές – όχι τουλάχιστον επειδή απειλούν την ελπίδα του τομέα ότι η συλλογή και η σύνθεση των δεδομένων θα μπορούσαν τελικά να γίνουν πολύ πιο αυτοματοποιημένες από ότι είναι τώρα, και πολύ λιγότερο δαπανηρές και χρονοβόρες.
Πρώτη δημοσίευση 1ης Σεπτεμβρίου 2022.












