Connect with us

Η ‘Κατηγοριοποίηση Φυλής’ Πρόκληση για Συστήματα Συνθέσεως Εικόνων Βασισμένα στο CLIP

Τεχνητή νοημοσύνη

Η ‘Κατηγοριοποίηση Φυλής’ Πρόκληση για Συστήματα Συνθέσεως Εικόνων Βασισμένα στο CLIP

mm

Νέα έρευνα από τις ΗΠΑ αποκαλύπτει ότι ένα από τα δημοφιλή μοντέλα όρασης υπολογιστή πίσω από τη σειρά DALL-E, καθώς και πολλά άλλα μοντέλα γεννήσεως και ταξινόμησης εικόνων, παρουσιάζει μια αποδεδειγμένη τάση προς την υποκατηγοριοποίηση – τον κανόνα κατηγοριοποίησης φυλής (γνωστό επίσης ως τον κανόνα της «μίας σταγόνης») που κατηγοριοποιεί ένα άτομο με ακόμη και μια μικρή έκταση «μιγμάδας» (δηλαδή μη-Καυκασιακής) γενετικής καταγωγής εξολοκλήρου σε μια «μειονοτική» κατηγοριοποίηση φυλής.

Καθώς η υποκατηγοριοποίηση έχει χαρακτηρίσει κάποια από τα πιο άσχημα κεφάλαια στην ιστορία της ανθρωπότητας, οι συγγραφείς της νέας εργασίας προτείνουν ότι τέτοιες τάσεις στην έρευνα και εφαρμογή της όρασης υπολογιστή πρέπει να λάβουν μεγαλύτερη προσοχή, όχι τουλάχιστον επειδή το υποκείμενο πλαίσιο, που έχει κατεβαστεί σχεδόν ένα εκατομμύριο φορές το μήνα, θα μπορούσε να διαδώσει και να προωθήσει τις φυλετικές προκαταλήψεις σε υποκατηγορίες.

Η αρχιτεκτονική που μελετάται στην νέα εργασία είναι το Contrastive Language Image Pretraining (CLIP), ένα πολυμορφικό μοντέλο μάθησης που μαθαίνει σημασιολογικές συσχετίσεις με εκπαίδευση σε ζευγάρια εικόνων/λεπτομερειών που προέρχονται από το διαδίκτυο – μια ημι-εποπτική προσέγγιση που μειώνει το σημαντικό κόστος της επισημείωσης, αλλά που πιθανότατα αντανακλά τις προκαταλήψεις των ανθρώπων που δημιούργησαν τις λεπτομέρειες.

Από το έγγραφο:

‘Τα αποτελέσματά μας παρέχουν αποδεικτικά στοιχεία για την υποκατηγοριοποίηση στο χώρο CLIP, μια προκατάληψη που εφαρμόζεται πιο ισχυρά σε εικόνες γυναικών. Τα αποτελέσματα δείχνουν επιπλέον ότι το CLIP συνδέει εικόνες με φυλετικές ή εθνοτικές ετικέτες με βάση την απόκλιση από το Λευκό, με το Λευκό ως προεπιλογή.

Το έγγραφο επίσης βρίσκει ότι η συσχέτιση της εικόνας (η τάση να συνδέεται με «καλές» ή «κακές» έννοιες) είναι αξιοσημείωτα υψηλότερη για «μειονοτικές» φυλετικές ετικέτες από ότι για τις Καυκασιακές ετικέτες, και προτείνει ότι οι προκαταλήψεις του CLIP αντανακλούν το αμερικανικό corpus της λογοτεχνίας (αγγλική Wikipedia) στο οποίο το πλαίσιο εκπαιδεύτηκε.

Σχολιάζοντας τις επιπτώσεις της υποστηρικτικής στάσης του CLIP προς την υποκατηγοριοποίηση, οι συγγραφείς δηλώνουν*:

‘[Μια] από τις πρώτες χρήσεις του CLIP ήταν να εκπαιδεύσει το μοντέλο γεννήσεως εικόνων zero-shot DALL-E. Ένα μεγαλύτερο, μη δημόσιο μοντέλο της αρχιτεκτονικής CLIP χρησιμοποιήθηκε στην εκπαίδευση του DALL-E 2. Συμφωνώντας με τα ευρήματα της παρούσας έρευνας, οι Κίνδυνοι και Περιορισμοί που περιγράφονται στην κάρτα μοντέλου DALL-E 2 σημειώνουν ότι παράγει εικόνες που tend να υπερπροσωποποιούν άτομα που είναι Λευκοί.’

‘Τέτοιες χρήσεις δείχνουν το δυναμικό για τις προκαταλήψεις που μάθει το CLIP να εξαπλωθούν πέρα από τον χώρο εμβέδωσης του μοντέλου, καθώς τα χαρακτηριστικά του χρησιμοποιούνται για να οδηγήσουν τη διαμόρφωση της σημασιολογίας σε άλλα μοντέλα AI της τελευταίας τεχνολογίας.

‘Επιπλέον, λόγω των προόδων που επιτεύχθηκαν από το CLIP και παρόμοια μοντέλα για την σύνδεση εικόνων και κειμένου σε ρύθμιση zero-shot, οι πολυμορφικές αρχιτεκτονικές έχουν περιγραφεί ως η βάση για το μέλλον των ευρέως χρησιμοποιούμενων διαδικτυακών εφαρμογών, συμπεριλαμβανομένων των μηχανών αναζήτησης.

‘Τα αποτελέσματά μας δείχνουν ότι πρόσθετη προσοχή σε αυτό που τα μοντέλα μάθουν από την επιτήρηση της φυσικής γλώσσας είναι δικαιολογημένη.’

Το έγγραφο έχει τον τίτλο Αποδεικτικά στοιχεία για την Υποκατηγοριοποίηση στη.Visual Σημασιολογική AI και προέρχεται από τρεις ερευνητές στο Πανεπιστήμιο του Ουάσινγκτον και το Πανεπιστήμιο Χάρβαρντ.

CLIP και Κακές Επιρροές

Αν και οι ερευνητές βεβαιώνουν ότι η εργασία τους είναι η πρώτη ανάλυση της υποκατηγοριοποίησης στο CLIP, προηγούμενες εργασίες έχουν δείξει ότι η ροή εργασίας του CLIP, που εξαρτάται από την ημι-εποπτική εκπαίδευση από under-επιμελημένα δεδομένα του διαδικτύου, under-αντιπροσωπεύει τις γυναίκες, μπορεί να παράγει αισχρή περιεχόμενο και μπορεί να δείξει σημασιολογική προκατάληψη (όπως αντι-μουσουλμανική στάση) στον κωδικοποιητή εικόνων.

Το αρχικό έγγραφο που παρουσίασε το CLIP παραδέχτηκε ότι σε ρύθμιση zero-shot, το CLIP συνδέει μόνο το 58,3% των ανθρώπων με την ετικέτα Λευκής φυλής στη βάση δεδομένων FairFace. Παρατηρώντας ότι η FairFace είχε επισημανθεί με πιθανή προκατάληψη από τους εργαζόμενους του Amazon Mechanical Turk, οι συγγραφείς της νέας εργασίας δηλώνουν ότι ‘μια σημαντική μειοψηφία των ανθρώπων που θεωρούνται Λευκοί από άλλους ανθρώπους συνδέονται με μια φυλή άλλη από το Λευκό από το CLIP.’

Συνεχίζουν:

‘Η αντίστροφη δεν φαίνεται να ισχύει, καθώς άτομα που θεωρούνται ότι ανήκουν σε άλλες φυλετικές ή εθνοτικές ετικέτες στη βάση δεδομένων FairFace συνδέονται με αυτές τις ετικέτες από το CLIP. Αυτό το αποτέλεσμα υποδηλώνει την πιθανότητα ότι το CLIP έχει μάθει τον κανόνα της “υποκατηγοριοποίησης”, όπως περιγράφεται από τους κοινωνικούς επιστήμονες: άτομα με μεικτή φυλετική καταγωγή είναι πιο πιθανό να θεωρηθούν και να κατηγοριοποιηθούν ως άτομα που ανήκουν στην μειονοτική ή λιγότερο προνομιούχο γονεϊκή ομάδα παρά στην εξίσου έγκυρη πλειονοτική ή προνομιούχο γονεϊκή ομάδα.

‘Με άλλα λόγια, το παιδί ενός Μαύρου και ενός Λευκού γονέα θεωρείται πιο Μαύρο παρά Λευκό· και το παιδί ενός Ασιάτη και ενός Λευκού γονέα θεωρείται πιο Ασιάτης παρά Λευκός.’

Το έγγραφο έχει τρεις κεντρικές находки: ότι το CLIP δείχνει υποκατηγοριοποίηση, «οδηγώντας» άτομα με μεικτές ταυτότητες στις μειονοτικές συνεισφέρουσες φυλετικές κατηγορίες που ισχύουν για αυτούς· ότι «το Λευκό είναι η προεπιλογή φυλής στο CLIP», και ότι οι ανταγωνιστικές φυλές ορίζονται από την «απόκλιση» από μια Λευκή κατηγορία· και ότι η προκατάληψη valence (μία συσχέτιση με «κακές» έννοιες) συσχετίζεται με το βαθμό που το άτομο κατηγοριοποιείται σε μια μειονοτική φυλή.

Μέθοδος και Δεδομένα

Για να καθορίσουν τον τρόπο που το CLIP αντιμετωπίζει τα μεικτά άτομα, οι ερευνητές χρησιμοποίησαν μια προηγουμένως υιοθετημένη τεχνική μεταμόρφωσης για να αλλάξουν την φυλή των εικόνων των ατόμων. Οι φωτογραφίες λήφθηκαν από τη Βάση Δεδομένων Προσώπων του Σικάγου, ένα σύνολο που αναπτύχθηκε για ψυχολογικές μελέτες που涉αρονται με την φυλή.

Παραδείγματα από τις ρατσικά-μεταμορφωμένες εικόνες CFD που εμφανίζονται στο συμπληρωματικό υλικό της νέας εργασίας. Source: https://arxiv.org/pdf/2205.10764.pdf

Παραδείγματα από τις ρατσικά-μεταμορφωμένες εικόνες CFD που εμφανίζονται στο συμπληρωματικό υλικό της νέας εργασίας. Source: https://arxiv.org/pdf/2205.10764.pdf

Οι ερευνητές επέλεξαν μόνο εικόνες με «ουδέτερη έκφραση» από τη βάση δεδομένων, για να παραμείνουν συνεπείς με την προηγούμενη εργασία. Χρησιμοποίησαν το Δίκτυο Ανταγωνιστικών Γενετικών Αλγορίθμων StyleGAN2-ADA (εκπαιδευμένο στο FFHQ) για να επιτύχουν την αλλαγή της φυλής των εικόνων προσώπων, και δημιούργησαν ενδιάμεσες εικόνες που δείχνουν την εξέλιξη από μια φυλή σε μια άλλη (βλέπε παραπάνω παραδείγματα).

Συμφωνώντας με την προηγούμενη εργασία, οι ερευνητές μετέτρεψαν τα πρόσωπα των ατόμων που αυτοπροσδιορίζονταν ως Μαύροι, Ασιάτες και Λατίνοι στη βάση δεδομένων σε πρόσωπα που αυτοπροσδιορίζονταν ως Λευκοί. Δημιουργήθηκαν 19 ενδιάμεσες φάσεις στη διαδικασία. Συνολικά, 21.000 εικόνες 1024x1024px δημιουργήθηκαν για το έργο με αυτή τη μέθοδο.

Οι ερευνητές έλαβαν στη συνέχεια μια προβλεπόμενη εικόνα εμβέδωσης για το CLIP για κάθε μια από τις 21 εικόνες σε κάθε σετ μεταμόρφωσης. Μετά από αυτό, ζήτησαν μια ετικέτα για κάθε εικόνα από το CLIP: ‘μεικτή φυλή’, ‘διφυλή’, ‘μικτή φυλή’ και ‘άτομο’ (η τελική ετικέτα που παραλείπει την φυλή).

Η έκδοση του CLIP που χρησιμοποιήθηκε ήταν η υλοποίηση CLIP-ViT-Base-Patch32. Οι συγγραφείς σημειώνουν ότι αυτό το μοντέλο κατεβασμένο πάνω από ένα εκατομμύριο φορές το μήνα πριν από τη συγγραφή της έρευνάς τους και αντιπροσωπεύει το 98% των κατεβάσεων του CLIP από τη βιβλιοθήκη Transformers.

Δοκιμές

Για να δοκιμάσουν την πιθανή προκατάληψη του CLIP προς την υποκατηγοριοποίηση, οι ερευνητές σημείωσαν την ετικέτα φυλής που εκχωρήθηκε από το CLIP σε κάθε εικόνα στη γραδία των μεταμορφωμένων εικόνων για κάθε άτομο.

Σύμφωνα με τα ευρήματα, το CLIP τείνει να ομαδοποιήσει τους ανθρώπους στις «μειονοτικές» κατηγορίες περίπου στο 50% σημείο μετάβασης.

Σε μια αναλογία μείξης 50%, όπου το άτομο είναι εξίσου προέλευσης/στόχου φυλής, το CLIP συνδέει ένα μεγαλύτερο αριθμό από 1000 μεταμορφωμένες εικόνες γυναικών με Ασιατικές (89,1%), Λατίνας (75,8%) και Μαύρες (69,7%) ετικέτες παρά με μια ισοδύναμη Λευκή ετικέτα.

Σε μια αναλογία μείξης 50%, όπου το άτομο είναι εξίσου προέλευσης/στόχου φυλής, το CLIP συνδέει ένα μεγαλύτερο αριθμό από 1000 μεταμορφωμένες εικόνες γυναικών με Ασιατικές (89,1%), Λατίνας (75,8%) και Μαύρες (69,7%) ετικέτες παρά με μια ισοδύναμη Λευκή ετικέτα.

Τα αποτελέσματα δείχνουν ότι τα θηλυκά άτομα είναι πιο ευάλωτα στην υποκατηγοριοποίηση από το CLIP από τους άνδρες, αν και οι συγγραφείς υποθέτουν ότι αυτό μπορεί να οφείλεται στο ότι οι ετικέτες που προέρχονται από το διαδίκτυο και δεν έχουν επιμεληθεί που χαρακτηρίζουν τις εικόνες γυναικών τείνουν να τονίζουν την εμφάνιση του υποκειμένου περισσότερο από ότι στην περίπτωση των ανδρών, και ότι αυτό μπορεί να έχει μια στρεβλωτική επίδραση.

Η υποκατηγοριοποίηση στο 50% φυλετικής μετάβασης δεν παρατηρήθηκε για τη σειρά μεταμόρφωσης Ασιάτη-Λευκού αρσενικού ή Λατίνος-Λευκού αρσενικού, ενώ το CLIP εκχωρεί μια υψηλότερη ομοιότητα.cosine σε ετικέτα Μαύρου σε 67,5% των περιπτώσεων σε μια αναλογία μείξης 55%.

Η μέση ομοιότητα.cosine των ετικετών Μεικτής Φυλής, Διφυλής και Μικτής Φυλής. Τα αποτελέσματα δείχνουν ότι το CLIP λειτουργεί ένα είδος «καταρράκτη» κατηγοριοποίησης σε διάφορους ποσοστούς φυλετικής μείξης, λιγότερο συχνά εκχωρώντας μια τέτοια φυλετική μείξη στο Λευκό ('άτομο', στην αιτιολόγηση των πειραμάτων) παρά στην εθνοτική ομάδα που έχει αντιληφθεί στην εικόνα.

Η μέση ομοιότητα.cosine των ετικετών Μεικτής Φυλής, Διφυλής και Μικτής Φυλής. Τα αποτελέσματα δείχνουν ότι το CLIP λειτουργεί ένα είδος «καταρράκτη» κατηγοριοποίησης σε διάφορους ποσοστούς φυλετικής μείξης, λιγότερο συχνά εκχωρώντας μια τέτοια φυλετική μείξη στο Λευκό (‘άτομο’, στην αιτιολόγηση των πειραμάτων) παρά στην εθνοτική ομάδα που έχει αντιληφθεί στην εικόνα.

Το ιδανικό αντικειμενικό, σύμφωνα με το έγγραφο, είναι ότι το CLIP θα κατηγοριοποιήσει τις ενδιάμεσες φυλετικές μείξεις ακριβώς ως «μεικτή φυλή», αντί να ορίζει ένα «σημείο καμπής» στο οποίο το άτομο συνήθως κατατάσσεται εξολοκλήρου στη μη-Λευκή ετικέτα.

Σε κάποιο βαθμό, το CLIP εκχωρεί τις ενδιάμεσες φάσεις μεταμόρφωσης με ετικέτα Μικτής Φυλής (βλέπε παραπάνω γράφημα), αλλά τελικά δείχνει μια προτίμηση μεσαίας εμβέλειας να κατηγοριοποιήσει τα άτομα ως την μειονοτική συνεισφέρουσα φυλή τους.

Σχετικά με την προκατάληψη valence, οι συγγραφείς σημειώνουν την στρεβλωμένη κρίση του CLIP:

‘[Μέση] συσχέτιση valence (συσχέτιση με «κακές» ή «απληστές» έννοιες) ποικίλλει με την αναλογία μείξης στη σειρά μεταμόρφωσης Μαύρου-Λευκού αρσενικού, έτσι ώστε το CLIP να κωδικοποιεί συσχετίσεις με απληστία για τα πρόσωπα που είναι πιο παρόμοια με τους εθελοντές της CFD που αυτοπροσδιορίζονται ως Μαύροι.’

Τα αποτελέσματα valence – τα πειράματα δείχνουν ότι οι μειονοτικές ομάδες είναι πιο συνδεδεμένες με αρνητικές έννοιες στην αρχιτεκτονική εικόνας/ζευγαριού παρά για τα άτομα που έχουν ετικέτα Λευκού. Οι συγγραφείς ισχυρίζονται ότι η απληστία της εικόνας αυξάνεται με την πιθανότητα που το μοντέλο να συνδέει την εικόνα με την ετικέτα Μαύρου.

Τα αποτελέσματα valence – τα πειράματα δείχνουν ότι οι μειονοτικές ομάδες είναι πιο συνδεδεμένες με αρνητικές έννοιες στην αρχιτεκτονική εικόνας/ζευγαριού παρά για τα άτομα που έχουν ετικέτα Λευκού. Οι συγγραφείς ισχυρίζονται ότι η απληστία της εικόνας αυξάνεται με την πιθανότητα που το μοντέλο να συνδέει την εικόνα με την ετικέτα Μαύρου.

Το έγγραφο αναφέρει:

‘Τα αποδεικτικά στοιχεία δείχνουν ότι η valence της εικόνας συσχετίζεται με φυλετική [συσχέτιση]. Περισσότερο συγκεκριμένα, τα αποτελέσματά μας δείχνουν ότι η valence της εικόνας συσχετίζεται με την πιθανότητα που το μοντέλο να συνδέει την εικόνα με την ετικέτα Μαύρου.’

Ωστόσο, τα αποτελέσματα δείχνουν επίσης μια αρνητική συσχέτιση στην περίπτωση των Ασιατικών προσώπων. Οι συγγραφείς υποθέτουν ότι αυτό μπορεί να οφείλεται στη διέλευση (μέσω των δεδομένων του διαδικτύου) των θετικών αμερικανικών πολιτισμικών αντιλήψεων για τους Ασιάτες και τις κοινότητες. Οι συγγραφείς δηλώνουν*:

‘Η παρατήρηση μιας συσχετίσεως μεταξύ ευχαρίστησης και πιθανότητας της ετικέτας κειμένου Ασιάτη μπορεί να αντιστοιχεί στο στερεότυπο του «μοντέλου μειονοτήτων», όπου οι άνθρωποι Ασιατικής καταγωγής επαινούνται για την άνοδό τους και την ενσωμάτωσή τους στον αμερικανικό πολιτισμό, και ακόμη και συσχετίζονται με “καλή συμπεριφορά”.’

Σχετικά με το τελικό αντικειμενικό, να εξεταστεί εάν το Λευκό είναι η «προεπιλογή ταυτότητας» από την άποψη του CLIP, τα αποτελέσματα δείχνουν μια ενσωματωμένη πολικότητα, υποδεικνύοντας ότι υπό αυτή την αρχιτεκτονική, είναι assez δύσκολο να είναι «λίγο Λευκός».

Ομοιότητα.cosine σε 21.000 εικόνες που δημιουργήθηκαν για τις δοκιμές.

Ομοιότητα.cosine σε 21.000 εικόνες που δημιουργήθηκαν για τις δοκιμές.

Οι συγγραφείς σχολιάζουν:

‘Τα αποδεικτικά στοιχεία δείχνουν ότι το CLIP κωδικοποιεί το Λευκό ως προεπιλογή φυλής. Αυτό υποστηρίζεται από τις ισχυρότερες συσχετίσεις μεταξύ ομοιότητας.cosine Λευκού και ομοιότητας.cosine άτομου παρά για οποιαδήποτε άλλη φυλετική ή εθνοτική ομάδα.’

 

*Η μετατροπή των εσωτερικών παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 24ης Μαΐου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]