Η γωνία του Anderson

Είναι τα Υπερ-Συγκεντρωμένα Δεδομένα του AI Χειρότερα από τον Ίδιο τον Ιστό;

Δημοσιεύτηκε 6 Οκτωβρίου 2021

Ενημερώθηκε 24 Μαΐου 2026

Martin Anderson

Ερευνητές από την Ιρλανδία, το Ηνωμένο Βασίλειο και τις Ηνωμένες Πολιτείες έχουν προειδοποιήσει ότι η αύξηση των υπερ-συγκεντρωμένων συνόλων δεδομένων εκπαίδευσης του AI απειλεί να διαδώσει τις χειρότερες πτυχές των πηγών τους στο διαδίκτυο, υποστηρίζοντας ότι ένα πρόσφατα κυκλοφορημένο ακαδημαϊκό σύνολο δεδομένων περιλαμβάνει ‘προβληματικές και σαφείς εικόνες και κείμενο ζευγάρια βιασμού, πορνογραφίας, κακών στερεοτύπων, ρατσιστικών και εθνοτικών επιθέσεων, και άλλου εξαιρετικά προβληματικού περιεχομένου’.

Οι ερευνητές πιστεύουν ότι μια νέα σειρά τεράστιων, μη κατηγοριοποιημένων ή λανθασμένα φιλτραρισμένων πολυμορφικών (για παράδειγμα, εικόνων και εικόδων) συνόλων δεδομένων είναι ενδεχομένως πιο επιζήμιες στην ικανότητά τους να ενισχύσουν τις επιπτώσεις του αρνητικού περιεχομένου,既然 ότι τα σύνολα δεδομένων διατηρούν εικόνες και άλλο περιεχόμενο που μπορεί να έχει αφαιρεθεί από τις online πλατφόρμες μέσω καταγγελιών χρηστών, τοπικής επιμέλειας ή αλγορίθμων.

Παρατηρούν επίσης ότι μπορεί να πάρει χρόνια – στην περίπτωση του ισχυρού συνόλου δεδομένων ImageNet, μια ολόκληρη δεκαετία – για να διευθετηθούν οι μακροχρόνιες καταγγελίες σχετικά με το περιεχόμενο του συνόλου δεδομένων, και ότι αυτές οι μεταγενέστερες αναθεωρήσεις δεν αντικατοπτρίζονται πάντα ακόμη και σε νέα σύνολα δεδομένων που προέρχονται από αυτά.

Το έγγραφο, με τίτλο Πολυμορφικά σύνολα δεδομένων: μισογυνισμός, πορνογραφία και κακοί στερεότυποι, προέρχεται από ερευνητές στο Πανεπιστήμιο του Δουβλίνου και το Lero, το Πανεπιστήμιο του Εδιμβούργου, και τον Επικεφαλή Επιστήμονα στο πλαίσιο αυθεντικοποίησης UnifyID.

Αν και το έργο επικεντρώνεται στην πρόσφατη κυκλοφορία του CLIP-φιλτραρισμένου LAION-400M συνόλου δεδομένων, οι συγγραφείς υποστηρίζουν ενάντια στην γενική τάση της ρίψης αυξανόμενων ποσοτήτων δεδομένων σε πλαισια machine learning όπως το νευρωνικό γλωσσικό μοντέλο GPT-3, και υποστηρίζουν ότι η οδηγία προς τα καλύτερα συμπεράσματα (και ακόμη προς την Τεχνητή Γενική Νοημοσύνη [AGI]) οδηγεί στην ad hoc χρήση βλαβερών πηγών δεδομένων με αμελή παρακολούθηση πνευματικών δικαιωμάτων, την πιθανότητα να προκαλέσει και να προωθήσει ζημιά, και την ικανότητα να μην μόνο να διατηρήσει παράνομο περιεχόμενο που μπορεί να είχε εξαφανιστεί από το δημόσιο τομέα, αλλά να το ενσωματώσει πραγματικά στα μοντέλα AI.

LAION-400M

Τον προηγούμενο μήνα, το LAION-400M σύνολο δεδομένων κυκλοφόρησε, προσθέτοντας στον αυξανόμενο αριθμό πολυμορφικών γλωσσικών συνόλων δεδομένων που βασίζονται στο Common Crawl αποθήκη, η οποία σαρώνει το διαδίκτυο ανεπιφύλακτα και μεταβιβάζει την ευθύνη για φιλτράρισμα και επιμέλεια στα έργα που τη χρησιμοποιούν. Το παραγόμενο σύνολο δεδομένων περιλαμβάνει 400 εκατομμύρια ζευγάρια κειμένου-εικόνας.

Το LAION-400M είναι μια ανοιχτή πηγή παραλλαγή του κλειστού συνόλου δεδομένων WIT (WebImageText) της Google AI, που κυκλοφόρησε τον Μάρτιο του 2021, και περιλαμβάνει ζευγάρια κειμένου-εικόνας, όπου μια εικόνα στη βάση δεδομένων έχει συνδεθεί με συνοδευτικό κείμενο ή μετα-δεδομένα (για παράδειγμα, το alt-text μιας εικόνας σε μια διαδικτυακή γκαλερί). Αυτό επιτρέπει στους χρήστες να thựcεξουν αναζήτηση εικόνων με βάση το κείμενο, αποκαλύπτοντας τις συσχετίσεις που έχει διαμορφώσει το υποκείμενο AI για αυτά τα домένια (π.χ. ‘ζώο’, ‘ποδήλατο’, ‘άτομο’, ‘άνθρωπος’, ‘γυναίκα’).

Αυτή η σχέση μεταξύ εικόνας και κειμένου, και η κοσίνους ομοιότητα που μπορεί να ενσωματώσει προκαταλήψεις στα αποτελέσματα αναζήτησης, είναι στο κέντρο της έκκλησης του εγγράφου για βελτιωμένες μεθόδους,既然 ότι πολύ απλές ερωτήσεις στη βάση δεδομένων LAION-400M μπορούν να αποκαλύψουν προκαταλήψεις.

Για παράδειγμα, η εικόνα της πρωτοπόρου γυναικείας αστροναύτη Eileen Collins στη βιβλιοθήκη εικόνων scitkit-image ανακτά δύο συνδεδεμένα κείμενα στο LAION-400M: ‘Αυτή είναι μια προσωπογραφία μιας αστροναύτη με την αμερικανική σημαία’ και ‘Αυτή είναι μια φωτογραφία μιας χαμογελαστής νοικοκυράς σε μια πορτοκαλί στολή με την αμερικανική σημαία’.

Η αμερικανίδα αστροναύτης Eileen Collins λαμβάνει δύο πολύ διαφορετικές εκδοχές των επιτευγμάτων της ως πρώτη γυναίκα στο διάστημα υπό το LAION-400M. Πηγή: https://arxiv.org/pdf/2110.01963.pdf

Οι αναφερόμενες κοσίνους ομοιότητες που κάνουν οποιοδήποτε από τα κείμενα πιθανό να εφαρμοστούν είναι πολύ κοντά το ένα στο άλλο, και οι συγγραφείς υποστηρίζουν ότι τέτοιες ομοιότητες θα κάνουν τα συστήματα AI που χρησιμοποιούν το LAION-400M σχετικά πιθανό να παρουσιάσουν οποιοδήποτε από αυτά ως κατάλληλο κείμενο.

Η Πορνογραφία Ανεβαίνει Ξανά στην Κορυφή

Το LAION-400M έχει δημιουργήσει μια αναζητήσιμη διεπαφή διαθέσιμη, όπου η απενεργοποίηση του κουμπιού “ασφαλής αναζήτηση” αποκαλύπτει το βαθμό στον οποίο η πορνογραφική εικόνα και οι συσχετισμοί κειμένου κυριαρχούν στις ετικέτες και τις κατηγορίες. Για παράδειγμα, αναζήτηση για ‘μοναχή’ (NSFW αν απενεργοποιήσετε τη λειτουργία ασφαλούς αναζήτησης) στη βάση δεδομένων επιστρέφει αποτελέσματα που σχετίζονται κυρίως με το ужάσ και τα κοστούμια, με πολύ λίγες πραγματικές μοναχές διαθέσιμες.

Η απενεργοποίηση της λειτουργίας Ασφαλούς Αναζήτησης στην ίδια αναζήτηση αποκαλύπτει μια σειρά πορνογραφικών εικόνων που σχετίζονται με τον όρο, οι οποίες ωθούν τις μη πορνογραφικές εικόνες xuống την σελίδα αναζήτησης, αποκαλύπτοντας το βαθμό στον οποίο το LAION-400M έχει ανατεθεί μεγαλύτερο βάρος στις πορνογραφικές εικόνες,既然 ότι είναι διαδεδομένες για τον όρο “μοναχή” στις online πηγές.

Η προεπιλεγμένη ενεργοποίηση της λειτουργίας Ασφαλούς Αναζήτησης στη διαδικτυακή διεπαφή είναι παραπλανητική,既然 ότι αντιπροσωπεύει μια ιδιαιτερότητα της διεπαφής, ένα φίλτρο που δεν θα ενεργοποιηθεί απαραίτητα σε παράγωγα συστήματα AI, αλλά που έχει γενικευτεί στο домένιο “μοναχή” με τρόπο που δεν είναι τόσο εύκολο να φιλτραριστεί ή να διακριθεί από τα (σχετικά) SFW αποτελέσματα όσον αφορά τη χρήση αλγορίθμων.

Το έγγραφο περιλαμβάνει θολές εικόνες σε διάφορους όρους αναζήτησης στα συμπληρωματικά υλικά στο τέλος. Δεν μπορούν να εμφανιστούν εδώ, λόγω του γλωσσικού περιεχομένου που συνοδεύει τις θολές φωτογραφίες, αλλά οι ερευνητές σημειώνουν την επιβάρυνση που είχαν κατά την εξέταση και θόλωση των εικόνων, και αναγνωρίζουν την πρόκληση της επιμέλειας τέτοιου υλικού για ανθρώπινη επιτήρηση μεγάλης κλίμακας βάσεων δεδομένων:

‘Εμείς (όπως και οι συνάδελφοι που μας βοήθησαν) βιώσαμε διάφορα επίπεδα δυσφορίας, ναυτίας και πονοκεφάλου κατά τη διάρκεια της διερεύνησης του συνόλου δεδομένων. Επιπλέον, αυτό το είδος εργασίας συναντά αναλογικά σημαντική αρνητική κριτική σε όλο το ακαδημαϊκό σφαιρικό AI κατά την κυκλοφορία, η οποία δεν μόνο προσθέτει μια πρόσθετη συναισθηματική επιβάρυνση στην ήδη βαριά εργασία της μελέτης και ανάλυσης τέτοιων συνόλων δεδομένων, αλλά και αποθαρρύνει παρόμοια μελλοντικά έργα, σε μεγάλο βαθμό προς το μειονέκτημα του πεδίου AI και της κοινωνίας γενικά.’

Οι ερευνητές υποστηρίζουν ότι ενώ η επιμέλεια με ανθρώπινη παρέμβαση είναι δαπανηρή και έχει συναφείς προσωπικές κόστους, τα αυτόματα συστήματα φιλτραρίσματος που σχεδιάστηκαν για να αφαιρέσουν ή να διευθετήσουν τέτοιο υλικό δεν είναι σαφώς επαρκή για την εργασία,既然 ότι τα συστήματα NLP έχουν δυσκολία να απομονώσουν ή να απορρίψουν επιθετικό υλικό που μπορεί να κυριαρχεί σε ένα σκαμμένο σύνολο δεδομένων, και στη συνέχεια να θεωρηθεί σημαντικό λόγω του μεγέθους του.

Ενθρονίζοντας Απαγορευμένο Περιεχόμενο και Αφαιρώντας Προστασία Πνευματικών Δικαιωμάτων

Το έγγραφο υποστηρίζει ότι τα μη κατηγοριοποιημένα σύνολα δεδομένων αυτού του είδους είναι ‘πολύ πιθανό’ να διατηρήσουν την εκμετάλλευση ατόμων μειονοτικών, και να διευθετήσουν εάν τα παρόμοια ανοιχτά δεδομένα έργα έχουν το δικαίωμα, νομικά ή ηθικά, να μεταφέρουν την ευθύνη για το υλικό στον τελικό χρήστη:

‘Άτομα μπορεί να διαγράψουν τα δεδομένα τους από einen ιστότοπο και να υποθέσουν ότι έχουν εξαφανιστεί για πάντα, ενώ μπορεί να εξακολουθούν να υπάρχουν στους διακομιστές πολλών ερευνητών και οργανισμών. Υπάρχει ένα ερώτημα σχετικά με το ποιος είναι υπεύθυνος για την αφαίρεση αυτών των δεδομένων από τη χρήση στο σύνολο δεδομένων; Για το LAION-400M, οι δημιουργοί έχουν ανατεθεί αυτή την εργασία στον χρήστη του συνόλου δεδομένων. Δεδομένου ότι τέτοιες διαδικασίες έχουν σκόπιμα γίνει σύνθετες και ότι ο μέσος χρήστης δεν έχει τις τεχνικές γνώσεις για να αφαιρέσει τα δεδομένα του, είναι μια λογική προσέγγιση;’

Υποστηρίζουν επίσης ότι το LAION-400M μπορεί να μην είναι κατάλληλο για κυκλοφορία με το υιοθετημένο μοντέλο άδειας Creative Common CC-BY 4.0, παρά τις πιθανές ωφέλειες για την δημοκρατικοποίηση μεγάλης κλίμακας συνόλων δεδομένων, που προηγουμένως ήταν το αποκλειστικό πεδίο εταιρειών όπως η Google και η OpenAI.

Το LAION-400M δηλώνει ότι οι εικόνες του συνόλου δεδομένων ‘βρίσκονται υπό τη δική τους πνευματική ιδιοκτησία’ – μια ‘μεταβίβαση’ μηχανισμός που ενεργοποιείται σε μεγάλο βαθμό από δικαστικές αποφάσεις και κυβερνητικές οδηγίες των τελευταίων ετών που εγκρίνουν ευρέως το web-scraping για ερευνητικούς σκοπούς. Πηγή: https://rom1504.github.io/clip-retrieval/

Οι συγγραφείς προτείνουν ότι εθελοντές (π.χ. εθελοντές) θα μπορούσαν να διευθετήσουν κάποια από τα προβλήματα του συνόλου δεδομένων, και ότι οι ερευνητές θα μπορούσαν να αναπτύξουν βελτιωμένες τεχνικές φιλτραρίσματος.

‘Ωστόσο, τα δικαιώματα του υποκειμένου των δεδομένων παραμένουν ανεπίλυτα εδώ. Είναι ασεβές και επικίνδυνο να υποτιμήσουμε τις ζημίες που είναι ενσωματωμένες σε τέτοιου είδους μεγάλα σύνολα δεδομένων και να ενθαρρύνουμε τη χρήση τους σε βιομηχανικά και εμπορικά περιβάλλοντα. Η ευθύνη του σχήματος άδειας υπό το οποίο παρέχεται το σύνολο δεδομένων πέφτει αποκλειστικά στον δημιουργό του συνόλου δεδομένων.’

Τα Προβλήματα της Δημοκρατικοποίησης Υπερ-Συγκεντρωμένων Δεδομένων

Το έγγραφο υποστηρίζει ότι τα οπτικο-γλωσσικά σύνολα δεδομένων όπως το LAION-400M ήταν προηγουμένως μη διαθέσιμα εκτός από τις μεγάλες εταιρείες τεχνολογίας και τα περιορισμένα ερευνητικά ιδρύματα που διαθέτουν τους πόρους για να συλλέξουν, να επιμεληθούν και να επεξεργαστούν. Υποστηρίζουν επίσης το πνεύμα της νέας κυκλοφορίας, ενώ κριτικάρουν την εκτέλεσή της.

Οι συγγραφείς υποστηρίζουν ότι η αποδεκτή ορισμός της ‘δημοκρατικοποίησης’, όπως εφαρμόζεται στα ανοιχτά σύνολα δεδομένων υπερ-κλίμακας, είναι πολύ περιορισμένος, και ‘αποτυγχάνει να λάβει υπόψη τα δικαιώματα, την ευημερία και τα συμφέροντα των ευάλωτων ατόμων και κοινοτήτων, πολλοί από τους οποίους είναι πιθανό να υποφέρουν από τις επιπτώσεις του συνόλου δεδομένων και των μοντέλων που εκπαιδεύονται σε αυτό’.

既然 ότι η ανάπτυξη μοντέλων GPT-3 κλίμακας ανοιχτής πηγής είναι τελικά σχεδιασμένα να διανέμονται σε εκατομμύρια (και με ενδιάμεσο, πιθανώς δισεκατομμύρια) χρήστες παγκοσμίως, και既然 ότι τα ερευνητικά έργα μπορεί να υιοθετήσουν σύνολα δεδομένων πριν από την τροποποίησή τους ή ακόμη και την αφαίρεσή τους, διατηρώντας οποιαδήποτε προβλήματα που προορίζονταν να διευθετηθούν στις τροποποιήσεις, οι συγγραφείς υποστηρίζουν ότι οι ασεβείς κυκλοφορίες μη κατηγοριοποιημένων συνόλων δεδομένων δεν πρέπει να γίνουν μια συνήθεια στην ανοιχτή πηγή machine learning.

Βάζοντας το Γένος Πίσω στη Φιάλη

Κάποια σύνολα δεδομένων που είχαν καταστραφεί πολύ καιρό μετά την κυκλοφορία τους, έχουν περιλαμβάνει το σύνολο δεδομένων Duke MTMC (Multi-Target, Multi-Camera), το οποίο τελικά αποσύρθηκε λόγω επαναλαμβανόμενων ανησυχιών από οργανώσεις ανθρωπίνων δικαιωμάτων γύρω από τη χρήση του από αυταρχικές αρχές στην Κίνα, Microsoft Celeb (MS-Celeb-1M), ένα σύνολο δεδομένων 10 εκατομμυρίων εικόνων “διασημοτήτων” που αποκαλύφθηκε να περιλαμβάνει δημοσιογράφους, ακτιβιστές, πολιτικούς και συγγραφείς, των οποίων η έκθεση βιομετρικών δεδομένων στην κυκλοφορία κριθηκε έντονα, και το σύνολο δεδομένων Tiny Images, αποσύρθηκε το 2020 για ομολογουμένως ‘προκαταλήψεις, επιθετικές και προκατειλημμένες εικόνες, και υποτιμώδεις ορολογία’.

Σχετικά με τα σύνολα δεδομένων που τροποποιήθηκαν αντί να αποσυρθούν μετά από κριτική, παραδείγματα περιλαμβάνουν το πολύ δημοφιλές σύνολο δεδομένων ImageNet, το οποίο, οι ερευνητές σημειώνουν, χρειάστηκε δέκα χρόνια (2009-2019) για να διευθετήσει τις επανειλημμένες κριτικές γύρω από την ιδιωτικότητα και τις μη-εικονικές κατηγορίες.

Το έγγραφο παρατηρεί ότι το LAION-400M ουσιαστικά επαναφέρει αυτές τις καθυστερημένες βελτιώσεις, αγνοώντας σε μεγάλο βαθμό τις αναθεωρήσεις της αναπαράστασης του ImageNet στη νέα κυκλοφορία, και υποψιάζεται μια ευρύτερη τάση σε αυτήν την κατεύθυνση:

‘Αυτό υπογραμμίζεται από την εμφάνιση μεγαλύτερων συνόλων δεδομένων όπως το Tencent ML-εικόνες (τον Φεβρουάριο του 2020) που περιλαμβάνει τα περισσότερα από αυτά τα μη-εικονικές κατηγορίες, την συνεχιζόμενη διαθεσιμότητα μοντέλων που εκπαιδεύτηκαν στο πλήρες-ImageNet-21k στο репозиторι, την συνεχιζόμενη χρήση του μη-φιλτραρισμένου-ImageNet-21k στα τελευταία SotA μοντέλα (όπως το EfficientNetV2 και το CoAtNet μοντέλα) και τις ρητές ανακοινώσεις που επιτρέπουν τη χρήση του μη-φιλτραρισμένου-ImageNet-21k προ-εκπαίδευσης στο LVIS challenge 2021.

‘Επιβεβαιώνουμε αυτή την κρίσιμη παρατήρηση: μια ομάδα του μεγέθους του ImageNet που διαχειρίζεται λιγότερο από 15 εκατομμύρια εικόνες έχει παλέψει και απέτυχε σε αυτές τις προσπάθειες αποτοξίνωσης μέχρι τώρα.

‘Το μέγεθος των προσεκτικών προσπαθειών που απαιτούνται για να αποτοξινώσουν πλήρως αυτό το τεράστιο πολυμορφικό σύνολο δεδομένων και τα μοντέλα που εκπαιδεύονται σε αυτό το σύνολο δεδομένων που καλύπτουν πιθανώς δισεκατομμύρια ζευγάρια εικόνας-κειμένου θα είναι αναμφισβήτητα αστρονομικό.’

* Η μετατροπή των εσωτερικών παραπομπών του συγγραφέα σε υπερσύνδεσμους.