Τεχνητή νοημοσύνη

Ένας Καρτέλ Επιρροών Δatasets Κυριαρχεί στην Έρευνα Μηχανικής Μάθησης, Υποδηλώνει Νέα Μελέτη

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

Một νέο έγγραφο από το Πανεπιστήμιο της Καλιφόρνιας και την Google Research έχει βρει ότι ένας μικρός αριθμός ‘βENCHMARK’ datasets μηχανικής μάθησης, σε μεγάλο βαθμό από επιρροείς δυτικές ιδρύματα και συχνά από κυβερνητικές οργανώσεις, κυριαρχούν ολοένα και περισσότερο στον τομέα έρευνας AI.

Οι ερευνητές καταλήγουν στο συμπέρασμα ότι η τάση να ‘επιλέγουν’ highly popular ανοικτά datasets, όπως το ImageNet, δημιουργεί μια σειρά από πρακτικά, ηθικά και ακόμη και πολιτικά προβλήματα.

Μεταξύ των ευρημάτων τους – που βασίζονται σε βασικά δεδομένα από το project Papers With Code (PWC) της Facebook – οι συγγραφείς υποστηρίζουν ότι ‘οι ευρέως χρησιμοποιούμενοι datasets εισαγωγούνται από μόνο quelques επιλεγμένα ιδρύματα’, και ότι αυτή η ‘συσπείρωση’ έχει αυξηθεί στο 80% τα τελευταία χρόνια.

‘Βρίσκουμε ότι υπάρχει αυξανόμενη ανισότητα στη χρήση datasets παγκοσμίως, και ότι περισσότερο από το 50% όλων των χρήσεων datasets στη δείγμα μας των 43,140 αντιστοιχεί σε datasets που εισαγάγονται από δώδεκα επιλεγμένα, κυρίως δυτικά, ιδρύματα.’

Ένας χάρτης μη task-ειδικών χρήσεων datasets τα τελευταία δέκα χρόνια. Κριτήριο για την ένταξη είναι το ποσοστό των γνωστών χρήσεων. Δεξιά εμφανίζεται ο συντελεστής Gini για τη συγκέντρωση datasets με την πάροδο του χρόνου για ιδρύματα και datasets. Πηγή: https://arxiv.org/pdf/2112.01716.pdf

Τα κυρίαρχα ιδρύματα περιλαμβάνουν το Πανεπιστήμιο του Στάνφορντ, τη Microsoft, το Πρίνστον, την Facebook, την Google, το Ινστιτούτο Μαξ Πλανκ και την AT&T. Τέσσερις από τις κορυφαίες πηγές datasets είναι εταιρικά ιδρύματα.

Το έγγραφο χαρακτηρίζει επίσης την αυξανόμενη χρήση αυτών των datasets ως ‘ένα όχημα για την ανισότητα στην επιστήμη’. Αυτό οφείλεται στο ότι οι ερευνητικές ομάδες που αναζητούν κοινωνική αναγνώριση είναι πιο мотιβισμένες να επιτύχουν αποτελέσματα state-of-the-art (SOTA) σε συνεχή dataset παρά να δημιουργήσουν πρωτότυπα datasets που δεν έχουν τέτοια θέση, και που θα απαιτούσαν από τους ομοτίμους να προσαρμοστούν σε νέους δείκτες αντί για τυποποιημένους.

Σε κάθε περίπτωση, όπως αναφέρει το έγγραφο, η δημιουργία του δικού σας dataset είναι μια απαγορευτικά δαπανηρή διέγερση για λιγότερο εφοδιασμένα ιδρύματα και ομάδες.

‘Η prima facie επιστημονική εγκυρότητα που παρέχεται από το SOTA benchmarking είναι γενικά συγχέεται με την κοινωνική πιστότητα που οι ερευνητές αποκτούν με το να δείξουν ότι μπορούν να ανταγωνιστούν σε ένα ευρέως αναγνωρισμένο dataset, ακόμη και αν ένα πιο контекστο-ειδικό benchmark θα ήταν πιο τεχνικά κατάλληλο.

‘Υποστηρίζουμε ότι αυτές οι δυναμικές δημιουργούν ένα “Matthew Effect” (δηλαδή “οι πλούσιοι γίνονται πλουσιότεροι και οι φτωχοί φτωχότεροι”) όπου τα επιτυχημένα benchmarks, και τα ελίτ ιδρύματα που τα εισάγουν, αποκτούν υπερβολική στάση στον τομέα.

Το έγγραφο έχει τον τίτλο Μειωμένα, Επανεπεξεργασμένα και Ανακυκλωμένα: Η Ζωή ενός Dataset στην Έρευνα Μηχανικής Μάθησης, και προέρχεται από τους Bernard Koch και Jacob G. Foster στο UCLA, και τους Emily Denton και Alex Hanna στην Google Research.

Το έργο αναφέρει μια σειρά από ζητήματα με την αυξανόμενη τάση προς συσπείρωση που τεκμηριώνει, και έχει λάβει γενική αναγνώριση στο Open Review. Ένας κριτής από το NeurIPS 2021 σχολίασε ότι το έργο είναι ‘εξαιρετικά σχετικό με οποιονδήποτε που ασχολείται με την έρευνα μηχανικής μάθησης.’ και προέβλεψε την ένταξή του ως ανάγνωσμα σε πανεπιστημιακούς κύκλους.

Από την Ανάγκη στην Διαφθορά

Οι συγγραφείς σημειώνουν ότι ο τρέχων πολιτισμός του ‘beat-the-benchmark’ εμφανίστηκε ως ένα αντίδοτο για την έλλειψη αντικειμενικών εργαλείων αξιολόγησης που προκάλεσε την πτώση του ενδιαφέροντος και της επένδυσης στην AI για δεύτερη φορά πριν από πάνω από τριάντα χρόνια, μετά την πτώση του ενθουσιασμού των επιχειρήσεων για नई έρευνα σε ‘Expert Systems’:

‘Τα benchmarks τυπικά формαλίζουν một συγκεκριμένο task μέσω ενός dataset και ενός συνδεδεμένου ποσοτικού μέτρου αξιολόγησης. Η πρακτική εισήχθη αρχικά στην έρευνα μηχανικής μάθησης μετά τον “Χειμώνα της AI” της δεκαετίας του 1980 από κυβερνητικούς χορηγούς, οι οποίοι ζήτησαν να αξιολογήσουν πιο ακριβώς την αξία που λάμβαναν από τις χορηγίες.’

Το έγγραφο υποστηρίζει ότι τα αρχικά πλεονεκτήματα αυτής της ανεπίσημης κουλτούρας τυποποίησης (μείωση των εμποδίων συμμετοχής, συνεπή μετρικές και περισσότερες ευκαιρίες για ανάπτυξη) αρχίζουν να υπερβαίνονται από τα μειονεκτήματα που φυσικά εμφανίζονται όταν ένα σώμα δεδομένων γίνεται αρκετά ισχυρό για να ορίσει αποτελεσματικά τους ‘όρους χρήσης’ και το πεδίο επιρροής του.

Οι συγγραφείς υποστηρίζουν, σύμφωνα με πολλές πρόσφατες βιομηχανικές και ακαδημαϊκές σκέψεις για το ζήτημα, ότι η ερευνητική κοινότητα δεν θέτει πλέον νέες προκλήσεις αν αυτές δεν μπορούν να αντιμετωπιστούν μέσω των υφιστάμενων benchmark datasets.

Επιπλέον, σημειώνουν ότι η τυφλή πίστη σε αυτόν τον μικρό αριθμό ‘χρυσοφόρων’ datasets ενθαρρύνει τους ερευνητές να επιτύχουν αποτελέσματα που είναι overfitted (δηλαδή, που είναι dataset-ειδικά και δεν είναι πιθανό να εκτελεστούν σχεδόν τόσο καλά σε πραγματικά δεδομένα, σε νέα ακαδημαϊκά ή πρωτότυπα datasets, ή ακόμη και αναγκαστικά σε διαφορετικά datasets στο ‘χρυστό πρότυπο’).

‘Δεδομένου του παρατηρηθέντος υψηλού συγκέντρωσης έρευνας σε ένα μικρό αριθμό benchmark datasets, πιστεύουμε ότι η διαφοροποίηση των μορφών αξιολόγησης είναι ιδιαίτερα σημαντική για να αποφευχθεί η υπερπροσαρμογή στα υπάρχοντα datasets και η λανθασμένη αναπαράσταση της πρόοδου στον τομέα.’

Κυβερνητική Επίδραση στην Έρευνα Οπτικής Αναγνώρισης

Σύμφωνα με το έγγραφο, η έρευνα Οπτικής Αναγνώρισης είναι αξιοσημείωτα πιο επηρεασμένη από το σύνδρομο που περιγράφει παρά άλλες περιοχές, με τους συγγραφείς να σημειώνουν ότι η έρευνα για την επεξεργασία φυσικής γλώσσας (NLP) είναι πολύ λιγότερο επηρεασμένη. Οι συγγραφείς υποστηρίζουν ότι αυτό μπορεί να οφείλεται στο ότι οι κοινότητες NLP είναι ‘περισσότερο συνεκτικές’ και μεγαλύτερες σε μέγεθος, και ότι τα datasets NLP είναι πιο προσιτά και ευκολότερα να συλλεγούν, καθώς και να είναι μικρότερα και λιγότερο πόρων-εντατικά σε σχέση με τη συλλογή δεδομένων.

Στην Οπτική Αναγνώριση, και ιδιαίτερα σε σχέση με τα datasets Αναγνώρισης Προσώπου (FR), οι συγγραφείς υποστηρίζουν ότι εταιρικά, κρατικά και ιδιωτικά συμφέροντα συχνά συγκρούονται:

‘Εταιρικά και κυβερνητικά ιδρύματα έχουν στόχους που μπορεί να έρθουν σε σύγκρουση με την ιδιωτικότητα (π.χ., επιτήρηση), και το βάρος αυτών των προτεραιοτήτων είναι πιθανό να διαφέρει από εκείνα που κατέχουν ακαδημαϊκοί ή ευρύτεροι κοινωνικοί ενδιαφερόμενοι της AI.’

Για τις εργασίες αναγνώρισης προσώπου, οι ερευνητές βρήκαν ότι η συχνότητα των απολύτως ακαδημαϊκών datasets πέφτει δραματικά σε σύγκριση με τον μέσο όρο:

‘[Τέσσερις] από τα οκτώ datasets (33.69% του συνόλου των χρήσεων) χρηματοδοτήθηκαν αποκλειστικά από εταιρικά, το αμερικανικό στρατό ή την κινεζική κυβέρνηση (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). Το MS-Celeb-1M αποσύρθηκε τελικά λόγω της διαμάχης σχετικά με την αξία της ιδιωτικότητας για διαφορετικούς ενδιαφερόμενους.’

Τα κορυφαία datasets που χρησιμοποιούνται στις κοινότητες έρευνας Γεννήτριας Εικόνας και Αναγνώρισης Προσώπου.

Στον παραπάνω γράφο, όπως σημειώνουν οι συγγραφείς, βλέπουμε επίσης ότι το σχετικά πρόσφατο πεδίο της Γεννήτριας Εικόνας (ή Συνθέτης Εικόνας) βασίζεται σε μεγάλο βαθμό σε υπάρχοντα, πολύ παλαιότερα datasets που δεν προορίζονταν για αυτήν την χρήση.

Στην πραγματικότητα, το έγγραφο παρατηρεί μια αυξανόμενη τάση για τη ‘μετανάστευση’ των datasets μακριά από τον προορισμό τους, θέτοντας υπό αμφισβήτηση την καταλληλότητά τους για τις ανάγκες νέων ή περιφερειακών ερευνητικών τομέων, και το βαθμό στον οποίο οι περιορισμοί του προϋπολογισμού μπορεί να ‘γενικεύουν’ το πεδίο των φιλοδοξιών των ερευνητών σε ένα στενότερο πλαίσιο που παρέχεται τόσο από τα διαθέσιμα υλικά όσο και από μια κουλτούρα τόσο εθισμένη στα ετήσια ratings των benchmarks που τα νέα datasets έχουν δυσκολία να κερδίσουν έδαφος.

‘Τα ευρήματά μας δείχνουν επίσης ότι τα datasets μεταφέρονται συχνά μεταξύ διαφορετικών task-κοινότητας. Στο πιο ακραίο σημείο, η πλειοψηφία των benchmark datasets που κυκλοφορούν για ορισμένες task-κοινότητες δημιουργήθηκαν για άλλες εργασίες.’

Σχετικά με τους λουμινάρες της μηχανικής μάθησης (συμπεριλαμβανομένου του Andrew Ng) που έχουν ολοένα και περισσότερο καλέσει για μεγαλύτερη ποικιλία και επιμέλεια των datasets τα τελευταία χρόνια, οι συγγραφείς υποστηρίζουν τη σκέψη, αλλά πιστεύουν ότι αυτό το είδος προσπάθειας, ακόμη και αν είναι επιτυχημένο, μπορεί να υπονομευθεί από την τρέχουσα κουλτούρα που εξαρτάται από τα SOTA-αποτελέσματα και τα καθιερωμένα datasets:

‘Η έρευνά μας υποδηλώνει ότι η απλή έκκληση στους ερευνητές της μηχανικής μάθησης να αναπτύξουν περισσότερα datasets, και η μετατόπιση των δομών κινήτρων ώστε η ανάπτυξη dataset να αξιολογείται και να ανταμείβεται, μπορεί να μην είναι αρκετό για να διαφοροποιήσει την χρήση datasets και τις προοπτικές που τελικά διαμορφώνουν και ορίζουν τα προγράμματα έρευνας της μηχανικής μάθησης.

‘Εκτός από την ενθάρρυνση της ανάπτυξης datasets, υποστηρίζουμε πολιτικές παρεμβάσεις που προωθούν την ισότητα, που δίνουν προτεραιότητα στη σημαντική χρηματοδότηση για άτομα σε λιγότερο εφοδιασμένα ιδρύματα για τη δημιουργία υψηλής ποιότητας datasets. Αυτό θα διαφοροποιήσει — από μια κοινωνική και πολιτιστική προοπτική — τα benchmark datasets που χρησιμοποιούνται για την αξιολόγηση των σύγχρονων μεθόδων μηχανικής μάθησης.’

6η Δεκεμβρίου 2021, 4:49 μ.μ. GMT+2 – Διορθώθηκε η κατοχή στον τίτλο. – MA

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]