στέλεχος Η πρόκληση "Racial Categoryization" για συστήματα σύνθεσης εικόνας που βασίζονται σε CLIP - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Η πρόκληση «Φυλετική Κατηγοριοποίηση» για συστήματα σύνθεσης εικόνας που βασίζονται σε CLIP

mm
Ενημερώθηκε on

Νέα έρευνα από τις ΗΠΑ διαπιστώνει ότι ένα από τα δημοφιλή μοντέλα υπολογιστικής όρασης πίσω από την πολυφημισμένη σειρά DALL-E, καθώς και πολλά άλλα μοντέλα δημιουργίας και ταξινόμησης εικόνων, εμφανίζει μια αποδεδειγμένη τάση προς ύποπτος – ο κανόνας κατηγοριοποίησης φυλών (γνωστός και ως το κανόνας «μίας σταγόνας».) που κατηγοριοποιεί ένα άτομο με έστω και μικρή έκταση «μικτή» (δηλαδή μη Καυκάσια) γενετική καταγωγή εξ ολοκλήρου σε μια «μειοψηφική» φυλετική ταξινόμηση.

Δεδομένου ότι η υποκατάσταση έχει χαρακτηρίζεται μερικά από τα πιο άσχημα κεφάλαια της ανθρώπινης ιστορίας, οι συγγραφείς της νέας εργασίας προτείνουν ότι τέτοιες τάσεις στην έρευνα και την εφαρμογή της όρασης υπολογιστών θα πρέπει να τύχουν μεγαλύτερης προσοχής, κυρίως επειδή το εν λόγω πλαίσιο υποστήριξης, που κατεβάζεται σχεδόν ένα εκατομμύριο φορές το μήνα, θα μπορούσε να διαδοθεί περαιτέρω και να διαδώσει τη φυλετική προκατάληψη σε κατάντη πλαίσια.

Η αρχιτεκτονική που μελετάται στο νέο έργο είναι Προεκπαίδευση εικόνας αντιθετικής γλώσσας (CLIP), ένα πολυτροπικό μοντέλο μηχανικής μάθησης που μαθαίνει σημασιολογικούς συσχετισμούς μέσω εκπαίδευσης σε ζεύγη εικόνων/ λεζάντες που προέρχονται από το διαδίκτυο – μια ημι-εποπτευόμενη προσέγγιση που μειώνει το σημαντικό κόστος της επισήμανσης, αλλά που είναι πιθανό να αντανακλά την προκατάληψη των ανθρώπων που δημιούργησε τις λεζάντες.

Από το χαρτί:

«Τα αποτελέσματά μας παρέχουν ενδείξεις για υποκατάσταση στον χώρο ενσωμάτωσης του CLIP, μια προκατάληψη που εφαρμόζεται πιο έντονα σε εικόνες γυναικών. Τα αποτελέσματα υποδεικνύουν περαιτέρω ότι το CLIP συσχετίζει εικόνες με φυλετικές ή εθνοτικές ετικέτες με βάση την απόκλιση από το Λευκό, με το Λευκό ως προεπιλογή.

Η εργασία διαπιστώνει επίσης ότι ο συσχετισμός σθένους μιας εικόνας (είναι η τάση να συσχετίζεται με «καλά» ή «κακά» πράγματα, είναι ιδιαίτερα υψηλότερος για τις φυλετικές ετικέτες «μειονότητας» παρά για τις ετικέτες του Καυκάσου, και υποδηλώνει ότι οι προκαταλήψεις του CLIP αντικατοπτρίζουν το σώμα με επίκεντρο τις ΗΠΑ της λογοτεχνίας (αγγλικής γλώσσας Wikipedia) στην οποία εκπαιδεύτηκε το πλαίσιο.

Σχολιάζοντας τις συνέπειες της φαινομενικής υποστήριξης του CLIP για την υποκατάσταση, οι συγγραφείς αναφέρουν*:

«[Μεταξύ] των πρώτων χρήσεων του CLIP ήταν η εκπαίδευση του μοντέλου δημιουργίας εικόνων μηδενικής λήψης DALL-E. Μια μεγαλύτερη, μη δημόσια έκδοση της αρχιτεκτονικής CLIP χρησιμοποιήθηκε στην εκπαίδευση του DALL-E2. Ανάλογα με τα ευρήματα της παρούσας έρευνας, τους κινδύνους και τους περιορισμούς που περιγράφονται στην κάρτα μοντέλου DALL-E 2 σημείωση ότι «παράγει εικόνες που τείνουν να υπερεκπροσωπούν τους ανθρώπους που είναι λευκοπεραστικοί».

«Τέτοιες χρήσεις καταδεικνύουν τη δυνατότητα οι προκαταλήψεις που έμαθε το CLIP να εξαπλωθούν πέρα ​​από τον χώρο ενσωμάτωσης του μοντέλου, καθώς τα χαρακτηριστικά του χρησιμοποιούνται για να καθοδηγήσουν τον σχηματισμό σημασιολογίας σε άλλα μοντέλα τεχνητής νοημοσύνης αιχμής.

«Επιπλέον, εν μέρει λόγω της προόδου που πραγματοποιήθηκε από το CLIP και παρόμοια μοντέλα για τη συσχέτιση εικόνων και κειμένου στη ρύθμιση μηδενικής λήψης, οι πολυτροπικές αρχιτεκτονικές έχουν περιγράφεται ως το θεμέλιο για το μέλλον των ευρέως χρησιμοποιούμενων διαδικτυακών εφαρμογών, συμπεριλαμβανομένων των μηχανών αναζήτησης.

«Τα αποτελέσματά μας δείχνουν ότι απαιτείται πρόσθετη προσοχή στο τι μαθαίνουν τέτοια μοντέλα από την επίβλεψη φυσικής γλώσσας».

Η χαρτί είναι ο τίτλος Αποδεικτικά στοιχεία για το Hypodescent στο Visual Semantic AI, και προέρχεται από τρεις ερευνητές στο Πανεπιστήμιο της Ουάσιγκτον και στο Πανεπιστήμιο του Χάρβαρντ.

CLIP και κακές επιρροές

Αν και οι ερευνητές επιβεβαιώνουν ότι η εργασία τους είναι η πρώτη ανάλυση της υποκατάστασης στο CLIP, προηγούμενες εργασίες έχουν δείξει ότι η ροή εργασιών CLIP, καθώς εξαρτάται σε μεγάλο βαθμό από εκπαίδευση χωρίς επίβλεψη από υποεπιμέλεια δεδομένα που προέρχονται από τον ιστό, υποεκπροσωπεί τις γυναίκες, μπορεί να παράγει προσβλητικό περιεχόμενοκαι μπορεί να αποδείξει σημασιολογική προκατάληψη (όπως το αντιμουσουλμανικό αίσθημα) στον κωδικοποιητή εικόνας του.

Η αρχική εργασία που παρουσίασε το CLIP παραδέχτηκε ότι σε ένα περιβάλλον μηδενικής λήψης, το CLIP συσχετίζει μόνο το 58.3% των ανθρώπων με τη λευκή φυλετική ετικέτα στο FairFace σύνολο δεδομένων. Παρατηρώντας ότι το FairFace χαρακτηρίστηκε με πιθανή μεροληψία από τους εργάτες της Amazon Mechanical Turk, οι συγγραφείς της νέας εργασίας δηλώνουν ότι «μια σημαντική μειοψηφία ανθρώπων που οι άλλοι άνθρωποι θεωρούνται Λευκοί συνδέονται με μια φυλή διαφορετική από τη Λευκή από το CLIP».

Συνεχίζουν:

«Το αντίστροφο δεν φαίνεται να ισχύει, καθώς άτομα που θεωρείται ότι ανήκουν σε άλλες φυλετικές ή εθνοτικές ετικέτες στο σύνολο δεδομένων FairFace συνδέονται με αυτές τις ετικέτες από το CLIP. Αυτό το αποτέλεσμα υποδηλώνει την πιθανότητα ότι το CLIP έμαθε τον κανόνα του «υποδοχής», όπως περιγράφεται από τους κοινωνικούς επιστήμονες: τα άτομα με πολυφυλετική καταγωγή είναι πιο πιθανό να θεωρηθούν και να κατηγοριοποιηθούν ότι ανήκουν στη μειοψηφική ή λιγότερο ευνοημένη ομάδα γονέων παρά στην εξίσου νόμιμη πλειοψηφία. ή προνομιούχα ομάδα γονέων.

«Με άλλα λόγια, το παιδί ενός μαύρου και λευκού γονέα θεωρείται ότι είναι περισσότερο μαύρο παρά λευκό. και το παιδί ενός Ασιάτη και ενός Λευκού γονέα θεωρείται ότι είναι περισσότερο Ασιάτης από τον Λευκό».

Η δημοσίευση έχει τρία κεντρικά ευρήματα: ότι το CLIP αποδεικνύει ότι είναι υποκατάστατο, «παραγωγώντας» ανθρώπους με πολυφυλετικές ταυτότητες στη μειονοτική φυλετική κατηγορία που ισχύει για αυτούς. ότι το "Λευκό είναι η προεπιλεγμένη κούρσα στο CLIP" και ότι οι διαγωνιζόμενοι αγώνες ορίζονται από την "απόκλιση" τους από μια κατηγορία Λευκών. και αυτό προκατάληψη σθένους (σύνδεση με «κακές» έννοιες) συσχετίζεται στο βαθμό που το άτομο κατηγοριοποιείται σε φυλετική μειονότητα.

Μέθοδος και Δεδομένα

Για να προσδιορίσουν τον τρόπο με τον οποίο το CLIP αντιμετωπίζει τα πολυφυλετικά θέματα, οι ερευνητές χρησιμοποίησαν α που είχε εγκριθεί προηγουμένως τεχνική μορφοποίησης για την αλλαγή της φυλής των εικόνων των ατόμων. Οι φωτογραφίες ελήφθησαν από το Βάση δεδομένων προσώπου του Σικάγο, ένα σύνολο που αναπτύχθηκε για ψυχολογικές μελέτες που αφορούν τη φυλή.

Παραδείγματα από τις φυλετικά μορφοποιημένες εικόνες CFD που εμφανίζονται στο συμπληρωματικό υλικό της νέας εφημερίδας. Πηγή: https://arxiv.org/pdf/2205.10764.pdf

Παραδείγματα από τις φυλετικά μορφοποιημένες εικόνες CFD που εμφανίζονται στο συμπληρωματικό υλικό της νέας εφημερίδας. μικρόμας: https://arxiv.org/pdf/2205.10764.pdf

Οι ερευνητές επέλεξαν μόνο εικόνες «ουδέτερης έκφρασης» από το σύνολο δεδομένων, προκειμένου να παραμείνουν συνεπείς με την προηγούμενη εργασία. Χρησιμοποίησαν το Generative Adversarial Network StyleGAN2-ADA (εκπαιδεύτηκε σε FFHQ) για να επιτύχει την αλλαγή φυλής των εικόνων του προσώπου και δημιούργησε παρενθετικές εικόνες που δείχνουν την εξέλιξη από τη μια φυλή στην άλλη (βλ. παραδείγματα εικόνων παραπάνω).

Σε συμφωνία με την προηγούμενη εργασία, οι ερευνητές μεταμόρφωσαν τα πρόσωπα των ανθρώπων που αυτοπροσδιορίζονταν ως Μαύροι, Ασιάτες και Λατίνοι στο σύνολο δεδομένων σε πρόσωπα εκείνων που αυτοχαρακτηρίστηκαν ως Λευκοί. Κατά τη διαδικασία παράγονται δεκαεννέα ενδιάμεσα στάδια. Συνολικά, δημιουργήθηκαν 21,000 εικόνες 1024x1024 px για το έργο με αυτήν τη μέθοδο.

Στη συνέχεια, οι ερευνητές έλαβαν μια προβαλλόμενη ενσωμάτωση εικόνας για το CLIP για καθεμία από τις συνολικά 21 εικόνες σε κάθε σύνολο φυλετικής μορφής. Μετά από αυτό, ζήτησαν μια ετικέτα για κάθε εικόνα από το CLIP: 'πολυφυλετική', 'διφυλετική', 'μικτή φυλή' και 'πρόσωπο' (η τελική ετικέτα παραλείπει τη φυλή).

Η έκδοση του CLIP που χρησιμοποιήθηκε ήταν η CLIP-ViT-Base-Patch32 εκτέλεση. Οι συγγραφείς σημειώνουν ότι αυτό το μοντέλο κατέβηκε πάνω από ένα εκατομμύριο φορές τον μήνα πριν από τη σύνταξη της έρευνάς τους και αντιπροσωπεύει το 98% των λήψεων οποιουδήποτε μοντέλου CLIP από το Βιβλιοθήκη μετασχηματιστών.

Δοκιμές

Για να ελέγξουν την πιθανή ροπή του CLIP προς την υποκατάσταση, οι ερευνητές σημείωσαν την ετικέτα φυλής που αποδόθηκε από το CLIP σε κάθε εικόνα στη διαβάθμιση των μορφοποιημένων εικόνων για κάθε άτομο.

Σύμφωνα με τα ευρήματα, το CLIP τείνει να ομαδοποιεί άτομα στις κατηγορίες «μειοψηφίας» στο μεταβατικό σημείο περίπου 50%.

Με αναλογία μίξης 50%, όπου το θέμα είναι εξίσου φυλή προέλευσης/στόχου, το CLIP συσχετίζει μεγαλύτερο αριθμό 1000 μεταμορφωμένων γυναικείων εικόνων με ασιατικές (89.1%), Latina (75.8%) και Μαύρες (69.7%) ετικέτες παρά με αντίστοιχες Λευκή ταμπέλα.

Με αναλογία μίξης 50%, όπου το θέμα είναι εξίσου φυλή προέλευσης/στόχου, το CLIP συσχετίζει μεγαλύτερο αριθμό 1000 μεταμορφωμένων γυναικείων εικόνων με ασιατικές (89.1%), Latina (75.8%) και Μαύρες (69.7%) ετικέτες παρά με αντίστοιχες Λευκή ταμπέλα.

Τα αποτελέσματα δείχνουν ότι τα θηλυκά υποκείμενα είναι πιο επιρρεπή σε υποκατάσταση κάτω από το CLIP από ότι οι άνδρες, αν και οι συγγραφείς υποθέτουν ότι αυτό μπορεί να οφείλεται στο ότι οι ετικέτες που προέρχονται από τον ιστό και οι μη επιμελημένες ετικέτες που χαρακτηρίζουν τις γυναικείες εικόνες τείνουν να τονίζουν την εμφάνιση του θέματος περισσότερο από ό,τι στην περίπτωση των ανδρών. και ότι αυτό μπορεί να έχει λοξό αποτέλεσμα.

Υποκατάσταση σε φυλετική μετάβαση 50% δεν παρατηρήθηκε για τη σειρά μορφών αρσενικών Ασιατών-Λευκών ή αρσενικών Λατίνων-Λευκών, ενώ το CLIP απέδωσε υψηλότερη ομοιότητα συνημιτόνου στην ετικέτα Μαύρο στο 67.5% των περιπτώσεων σε αναλογία ανάμειξης 55%.

Η μέση ομοιότητα συνημιτόνου των ετικετών Multiracial, Biracial και Mixed Race. Τα αποτελέσματα υποδεικνύουν ότι το CLIP λειτουργεί ένα είδος κατηγοριοποίησης «λεκάνης απορροής» σε ποικίλα ποσοστά φυλετικού μείγματος, αποδίδοντας λιγότερο συχνά ένα τέτοιο φυλετικό μείγμα στον White («πρόσωπο», στο σκεπτικό των πειραμάτων) παρά στην εθνικότητα που έχει γίνει αντιληπτή στο η εικόνα.

Η μέση ομοιότητα συνημιτόνου των ετικετών Multiracial, Biracial και Mixed Race. Τα αποτελέσματα υποδεικνύουν ότι το CLIP λειτουργεί ένα είδος κατηγοριοποίησης «λεκάνης απορροής» σε ποικίλα ποσοστά φυλετικού μείγματος, αποδίδοντας λιγότερο συχνά ένα τέτοιο φυλετικό μείγμα στον White («πρόσωπο», στο σκεπτικό των πειραμάτων) παρά στην εθνικότητα που έχει γίνει αντιληπτή στο η εικόνα.

Ο ιδανικός στόχος, σύμφωνα με το έγγραφο, είναι ότι το CLIP θα κατηγοριοποιήσει τα ενδιάμεσα φυλετικά μείγματα με ακρίβεια ως «μικτή φυλή», αντί να ορίσει ένα «σημείο αιχμής» στο οποίο το θέμα αποστέλλεται τόσο συχνά εξ ολοκλήρου στη μη Λευκή ετικέτα.

Σε κάποιο βαθμό, το CLIP εκχωρεί τα ενδιάμεσα βήματα μορφοποίησης με τη Μικτή Φυλή (δείτε το παραπάνω γράφημα), αλλά τελικά δείχνει μια προτίμηση μεσαίου εύρους να κατηγοριοποιήσει τα θέματα ως τη μειοψηφική συνεισφέρουσα φυλή τους.

Όσον αφορά το σθένος, οι συγγραφείς σημειώνουν τη λοξή κρίση του CLIP:

«Η [μέση] συσχέτιση σθένους (συσχετισμός με κακό ή δυσάρεστο έναντι με καλό ή ευχάριστο) ποικίλλει ανάλογα με την αναλογία ανάμειξης στη σειρά αρσενικών μορφών Μαύρο-Λευκό, έτσι ώστε το CLIP κωδικοποιεί συσχετίσεις με δυσάρεστα για τα πρόσωπα που είναι πιο παρόμοια με τους εθελοντές με CFD -ταυτοποιήστε ως Μαύρο.'

Τα αποτελέσματα σθένους – οι δοκιμές δείχνουν ότι οι μειονοτικές ομάδες συνδέονται περισσότερο με αρνητικές έννοιες στην αρχιτεκτονική εικόνας/ζεύγους παρά για θέματα με λευκή ετικέτα. Οι συγγραφείς υποστηρίζουν ότι ο συσχετισμός δυσάρεστης εικόνας αυξάνεται με την πιθανότητα το μοντέλο να συσχετίζει την εικόνα με την ετικέτα Black.

Τα αποτελέσματα σθένους – οι δοκιμές δείχνουν ότι οι μειονοτικές ομάδες συνδέονται περισσότερο με αρνητικές έννοιες στην αρχιτεκτονική εικόνας/ζεύγους παρά για θέματα με λευκή ετικέτα. Οι συγγραφείς υποστηρίζουν ότι ο συσχετισμός δυσάρεστης εικόνας αυξάνεται με την πιθανότητα το μοντέλο να συσχετίζει την εικόνα με την ετικέτα Black.

Το έγγραφο αναφέρει:

«Τα στοιχεία δείχνουν ότι το σθένος μιας εικόνας συσχετίζεται με τη φυλετική [συσχέτιση]. Πιο συγκεκριμένα, τα αποτελέσματά μας δείχνουν ότι όσο πιο σίγουρο είναι το μοντέλο ότι μια εικόνα αντανακλά ένα μαύρο άτομο, τόσο περισσότερο συνδέεται με τον δυσάρεστο χώρο ενσωμάτωσης της εικόνας.'

Ωστόσο, τα αποτελέσματα δείχνουν επίσης αρνητική συσχέτιση στην περίπτωση των ασιατικών προσώπων. Οι συγγραφείς προτείνουν ότι αυτό μπορεί να οφείλεται στη μετάδοση (μέσω των δεδομένων που προέρχονται από τον Ιστό) θετικών πολιτιστικών αντιλήψεων των ΗΠΑ για τους ασιατικούς λαούς και κοινότητες. Οι συγγραφείς αναφέρουν*:

«Η παρατήρηση μιας συσχέτισης μεταξύ της ευχαρίστησης και της πιθανότητας της ασιατικής ετικέτας κειμένου μπορεί να αντιστοιχεί στο στερεότυπο της «μοντέλας μειονότητας», όπου οι άνθρωποι ασιατικής καταγωγής επαινούνται για την ανοδική τους κινητικότητα και την αφομοίωσή τους στην αμερικανική κουλτούρα. σχετίζεται με την «καλή συμπεριφορά».'

Όσον αφορά τον τελικό στόχο, να εξεταστεί εάν το Λευκό είναι η «προεπιλεγμένη ταυτότητα» από την άποψη του CLIP, τα αποτελέσματα υποδεικνύουν μια ενσωματωμένη πολικότητα, υποδηλώνοντας ότι κάτω από αυτήν την αρχιτεκτονική, είναι μάλλον δύσκολο να είσαι «λίγο λευκός».

Ομοιότητα συνημιτόνου σε 21,000 εικόνες που δημιουργήθηκαν για τις δοκιμές.

Ομοιότητα συνημιτόνου σε 21,000 εικόνες που δημιουργήθηκαν για τις δοκιμές.

Οι συγγραφείς σχολιάζουν:

«Τα στοιχεία δείχνουν ότι το CLIP κωδικοποιεί το White ως προεπιλεγμένη φυλή. Αυτό υποστηρίζεται από τις ισχυρότερες συσχετίσεις μεταξύ των ομοιοτήτων του λευκού συνημιτονίου και των ομοιοτήτων συνημιτόνου ατόμου από ό,τι για οποιαδήποτε άλλη φυλετική ή εθνική ομάδα.

 

*Η μετατροπή των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 24 Μαΐου 2022.