στέλεχος Ένα καρτέλ συνόλων δεδομένων με επιρροή κυριαρχεί στην έρευνα μηχανικής μάθησης, προτείνει νέα μελέτη - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Ένα καρτέλ συνόλων δεδομένων με επιρροή κυριαρχεί στην έρευνα μηχανικής μάθησης, προτείνει νέα μελέτη

mm
Ενημερώθηκε on

Μια νέα έρευνα από το Πανεπιστήμιο της Καλιφόρνια και την Google Research διαπίστωσε ότι ένας μικρός αριθμός συνόλων δεδομένων μηχανικής εκμάθησης «σημείων αναφοράς», κυρίως από επιδραστικά δυτικά ιδρύματα και συχνά από κυβερνητικούς οργανισμούς, κυριαρχούν ολοένα και περισσότερο στον ερευνητικό τομέα της τεχνητής νοημοσύνης.

Οι ερευνητές καταλήγουν στο συμπέρασμα ότι αυτή η τάση για «προεπιλογή» σε εξαιρετικά δημοφιλή σύνολα δεδομένων ανοιχτού κώδικα, όπως π.χ IMAGEnet, φέρνει μια σειρά από πρακτικούς, ηθικούς και ακόμη και πολιτικούς λόγους ανησυχίας.

Ανάμεσα στα ευρήματά τους – με βάση τα βασικά δεδομένα από το κοινοτικό έργο υπό την ηγεσία του Facebook Έγγραφα με κωδικό (PWC) – οι συγγραφείς υποστηρίζουν ότι «τα σύνολα δεδομένων που χρησιμοποιούνται ευρέως εισάγονται από λίγα μόνο ελίτ ιδρύματα», και ότι αυτή η «ενοποίηση» έχει αυξηθεί στο 80% τα τελευταία χρόνια.

«[Βρίσκουμε] ότι υπάρχει αυξανόμενη ανισότητα στη χρήση δεδομένων σε παγκόσμιο επίπεδο και ότι περισσότερο από το 50% όλων των χρήσεων δεδομένων στο δείγμα μας των 43,140 αντιστοιχούσαν σε σύνολα δεδομένων που εισήχθησαν από δώδεκα ελίτ, κυρίως δυτικά, ιδρύματα».

Ένας χάρτης των χρήσεων δεδομένων που δεν αφορούν συγκεκριμένες εργασίες τα τελευταία δέκα χρόνια. Κριτήριο για συμπερίληψη είναι όταν το ίδρυμα ή η εταιρεία αντιπροσωπεύει περισσότερο από το 50% των γνωστών χρήσεων. Εμφανίζεται δεξιά ο συντελεστής Gini για τη συγκέντρωση συνόλων δεδομένων με την πάροδο του χρόνου τόσο για τα ιδρύματα όσο και για τα σύνολα δεδομένων. Πηγή: https://arxiv.org/pdf/2112.01716.pdf

Ένας χάρτης των χρήσεων δεδομένων που δεν αφορούν συγκεκριμένες εργασίες τα τελευταία δέκα χρόνια. Κριτήριο για συμπερίληψη είναι όταν το ίδρυμα ή η εταιρεία αντιπροσωπεύει περισσότερο από το 50% των γνωστών χρήσεων. Δεξιά φαίνεται το Συντελεστής Gini για τη συγκέντρωση συνόλων δεδομένων με την πάροδο του χρόνου τόσο για ιδρύματα όσο και για σύνολα δεδομένων. Πηγή: https://arxiv.org/pdf/2112.01716.pdf

Τα κυρίαρχα ιδρύματα περιλαμβάνουν το Πανεπιστήμιο Στάνφορντ, τη Microsoft, το Πρίνστον, το Facebook, τη Google, το Ινστιτούτο Max Planck και την AT&T. Τέσσερις από τις δέκα κορυφαίες πηγές δεδομένων είναι εταιρικά ιδρύματα.

Η εργασία χαρακτηρίζει επίσης την αυξανόμενη χρήση αυτών των ελίτ συνόλων δεδομένων ως «ένα όχημα για την ανισότητα στην επιστήμη». Αυτό οφείλεται στο γεγονός ότι οι ερευνητικές ομάδες που αναζητούν έγκριση από την κοινότητα έχουν περισσότερα κίνητρα για να επιτύχουν αποτελέσματα τελευταίας τεχνολογίας (SOTA) σε σχέση με ένα συνεπές σύνολο δεδομένων παρά για να δημιουργήσουν πρωτότυπα σύνολα δεδομένων που δεν έχουν τέτοια θέση και τα οποία θα απαιτούσαν από τους συνομηλίκους να προσαρμοστούν σε νέα μετρήσεις αντί για τυπικούς δείκτες.

Σε κάθε περίπτωση, όπως αναγνωρίζει το έγγραφο, η δημιουργία του δικού του συνόλου δεδομένων είναι μια απαγορευτικά δαπανηρή επιδίωξη για ιδρύματα και ομάδες με λιγότερους πόρους.

εκ πρώτης όψεως Η επιστημονική εγκυρότητα που παρέχεται από τη συγκριτική αξιολόγηση SOTA συγχέεται γενικά με την κοινωνική αξιοπιστία που αποκτούν οι ερευνητές δείχνοντας ότι μπορούν να ανταγωνιστούν σε ένα ευρέως αναγνωρισμένο σύνολο δεδομένων, ακόμα κι αν ένα πιο συγκεκριμένο σημείο αναφοράς μπορεί να είναι πιο κατάλληλο τεχνικά.

«Θεωρούμε ότι αυτή η δυναμική δημιουργεί ένα «Φαινόμενο Matthew» (δηλαδή «οι πλούσιοι γίνονται πλουσιότεροι και οι φτωχοί φτωχότεροι») όπου τα επιτυχημένα σημεία αναφοράς και τα ελίτ ιδρύματα που τα εισάγουν αποκτούν μεγάλο ανάστημα εντός του χώρου.

Η χαρτί είναι ο τίτλος Μείωση, επαναχρησιμοποίηση και ανακύκλωση: Η ζωή ενός συνόλου δεδομένων στην έρευνα μηχανικής μάθησης, και προέρχεται από τους Bernard Koch και Jacob G. Foster στο UCLA και την Emily Denton και τον Alex Hanna στο Google Research.

Η εργασία εγείρει μια σειρά ζητημάτων με την αυξανόμενη τάση προς ενοποίηση που τεκμηριώνει και έχει αντιμετωπιστεί γενική έγκριση στο Open Review. Ένας κριτικός από το NeurIPS 2021 σχολίασε ότι το έργο είναι «εξαιρετικά σχετικό με οποιονδήποτε εμπλέκεται στην έρευνα μηχανικής μάθησης». και προέβλεψε την ένταξή του ως ανατεθειμένη ανάγνωση σε πανεπιστημιακά μαθήματα.

Από την αναγκαιότητα στη διαφθορά

Οι συγγραφείς σημειώνουν ότι η τρέχουσα κουλτούρα του «beat-the-benchmark» εμφανίστηκε ως θεραπεία για την έλλειψη αντικειμενικών εργαλείων αξιολόγησης που προκάλεσαν την κατάρρευση του ενδιαφέροντος και των επενδύσεων στην τεχνητή νοημοσύνη για δεύτερη φορά πριν από τριάντα και πλέον χρόνια, μετά την πτώση του επιχειρηματικού ενθουσιασμού προς τη νέα έρευνα στα «Expert Systems»:

«Τα σημεία αναφοράς τυπικά επισημοποιούν μια συγκεκριμένη εργασία μέσω ενός συνόλου δεδομένων και μιας σχετικής ποσοτικής μέτρησης αξιολόγησης. Η πρακτική εισήχθη αρχικά στην [έρευνα μηχανικής μάθησης] μετά τον «χειμώνα της τεχνητής νοημοσύνης» της δεκαετίας του 1980 από κυβερνητικούς χρηματοδότες, οι οποίοι προσπάθησαν να εκτιμήσουν με μεγαλύτερη ακρίβεια την αξία που έλαβαν οι επιχορηγήσεις.

Το έγγραφο υποστηρίζει ότι τα αρχικά πλεονεκτήματα αυτής της άτυπης κουλτούρας τυποποίησης (μείωση των εμποδίων στη συμμετοχή, συνεπείς μετρήσεις και πιο ευέλικτες ευκαιρίες ανάπτυξης) αρχίζουν να αντισταθμίζονται από τα μειονεκτήματα που εμφανίζονται φυσικά όταν ένα σύνολο δεδομένων γίνεται αρκετά ισχυρό ώστε να προσδιορίζει αποτελεσματικά το «όροι χρήσης» και εύρος επιρροής.

Οι συγγραφείς προτείνουν, σύμφωνα με πολλές πρόσφατες βιομηχανικές και ακαδημαϊκές σκέψεις για το θέμα, ότι η ερευνητική κοινότητα δεν δημιουργεί πλέον νέα προβλήματα εάν αυτά δεν μπορούν να αντιμετωπιστούν μέσω των υπαρχόντων συνόλων δεδομένων αναφοράς.

Σημειώνουν επιπλέον ότι η τυφλή προσκόλληση σε αυτόν τον μικρό αριθμό «χρυσών» συνόλων δεδομένων ενθαρρύνει τους ερευνητές να επιτύχουν αποτελέσματα που υπερπροσαρμοσμένο (δηλαδή που αφορούν συγκεκριμένα δεδομένα και δεν είναι πιθανό να έχουν εξίσου καλή απόδοση σε δεδομένα πραγματικού κόσμου, σε νέα ακαδημαϊκά ή πρωτότυπα σύνολα δεδομένων ή ακόμη και απαραίτητα σε διαφορετικά σύνολα δεδομένων στο «χρυσό πρότυπο»).

«Δεδομένης της παρατηρούμενης υψηλής συγκέντρωσης έρευνας σε έναν μικρό αριθμό συνόλων δεδομένων αναφοράς, πιστεύουμε ότι η διαφοροποίηση των μορφών αξιολόγησης είναι ιδιαίτερα σημαντική για να αποφευχθεί η υπερβολική προσαρμογή στα υπάρχοντα σύνολα δεδομένων και η παραπλανητική περιγραφή της προόδου στον τομέα.

Κυβερνητική Επιρροή στην Έρευνα Οράματος Υπολογιστών

Σύμφωνα με το έγγραφο, η έρευνα για το Computer Vision επηρεάζεται σημαντικά περισσότερο από το σύνδρομο που περιγράφει σε σχέση με άλλους τομείς, με τους συγγραφείς να σημειώνουν ότι η έρευνα για την Επεξεργασία Φυσικής Γλώσσας (NLP) επηρεάζεται πολύ λιγότερο. Οι συγγραφείς προτείνουν ότι αυτό θα μπορούσε να οφείλεται στο γεγονός ότι οι κοινότητες NLP είναι «πιο συνεκτικό» και μεγαλύτερο σε μέγεθος, και επειδή τα σύνολα δεδομένων NLP είναι πιο προσιτά και ευκολότερα στην επιμέλεια, καθώς και μικρότερα και λιγότερο απαιτούν πόρους όσον αφορά τη συλλογή δεδομένων.

Στο Computer Vision, και ιδιαίτερα όσον αφορά τα σύνολα δεδομένων Αναγνώρισης Προσώπου (FR), οι συγγραφείς υποστηρίζουν ότι τα εταιρικά, κρατικά και ιδιωτικά συμφέροντα συχνά συγκρούονται:

«Τα εταιρικά και κυβερνητικά ιδρύματα έχουν στόχους που μπορεί να έρθουν σε σύγκρουση με το απόρρητο (π.χ. επιτήρηση) και η στάθμιση αυτών των προτεραιοτήτων είναι πιθανό να διαφέρει από αυτούς που έχουν οι ακαδημαϊκοί ή οι ευρύτεροι κοινωνικοί φορείς της τεχνητής νοημοσύνης.

Όσον αφορά τις εργασίες αναγνώρισης προσώπου, οι ερευνητές διαπίστωσαν ότι η συχνότητα εμφάνισης αμιγώς ακαδημαϊκών συνόλων δεδομένων μειώνεται δραματικά έναντι του μέσου όρου:

«[Τέσσερα] από τα οκτώ σύνολα δεδομένων (33.69% των συνολικών χρήσεων) χρηματοδοτήθηκαν αποκλειστικά από εταιρείες, τον στρατό των ΗΠΑ ή την κινεζική κυβέρνηση (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). Το MS-Celeb-1M αποσύρθηκε τελικά λόγω της διαμάχης σχετικά με την αξία της ιδιωτικής ζωής για διαφορετικούς ενδιαφερόμενους.

Τα κορυφαία σύνολα δεδομένων που χρησιμοποιούνται στις ερευνητικές κοινότητες δημιουργίας εικόνων και αναγνώρισης προσώπου.

Τα κορυφαία σύνολα δεδομένων που χρησιμοποιούνται στις ερευνητικές κοινότητες δημιουργίας εικόνων και αναγνώρισης προσώπου.

Στο παραπάνω γράφημα, όπως σημειώνουν οι συγγραφείς, βλέπουμε επίσης ότι το σχετικά πρόσφατο πεδίο του Image Generation (ή Image Synthesis) εξαρτάται σε μεγάλο βαθμό από υπάρχοντα, πολύ παλαιότερα σύνολα δεδομένων που δεν προορίζονταν για αυτήν τη χρήση.

Στην πραγματικότητα, το έγγραφο παρατηρεί μια αυξανόμενη τάση για τη «μετανάστευση» των συνόλων δεδομένων μακριά από τον επιδιωκόμενο σκοπό τους, θέτοντας υπό αμφισβήτηση την καταλληλότητά τους για τις ανάγκες νέων ή απομακρυσμένων ερευνητικών τομέων και τον βαθμό στον οποίο οι δημοσιονομικοί περιορισμοί μπορεί να «γενικοποιούν» την εύρος των φιλοδοξιών των ερευνητών στο στενότερο πλαίσιο που παρέχεται τόσο από τα διαθέσιμα υλικά όσο και από μια κουλτούρα τόσο εμμονική με τις αξιολογήσεις αναφοράς κάθε χρόνο που τα νέα σύνολα δεδομένων δυσκολεύονται να αποκτήσουν έλξη.

«Τα ευρήματά μας δείχνουν επίσης ότι τα σύνολα δεδομένων μεταφέρονται τακτικά μεταξύ διαφορετικών κοινοτήτων εργασιών. Στην πιο ακραία πλευρά, η πλειονότητα των συνόλων δεδομένων αναφοράς που κυκλοφορούν για ορισμένες κοινότητες εργασιών δημιουργήθηκαν για άλλες εργασίες.'

Όσον αφορά τα φωτιστικά μηχανικής μάθησης (συμπεριλαμβανομένου του Andrew Ng) που ζητούν ολοένα και μεγαλύτερη ποικιλία και επιμέλεια των συνόλων δεδομένων τα τελευταία χρόνια, οι συγγραφείς υποστηρίζουν το συναίσθημα, αλλά πιστεύουν ότι αυτού του είδους η προσπάθεια, ακόμη και αν είναι επιτυχής, θα μπορούσε ενδεχομένως να υπονομευθεί από την εξάρτηση της τρέχουσας κουλτούρας από τα αποτελέσματα SOTA και τα καθιερωμένα σύνολα δεδομένων :

«Η έρευνά μας υποδηλώνει ότι η απλή έκκληση από ερευνητές ML να αναπτύξουν περισσότερα σύνολα δεδομένων και η αλλαγή δομών κινήτρων ώστε η ανάπτυξη δεδομένων να εκτιμάται και να ανταμείβεται, μπορεί να μην είναι αρκετή για να διαφοροποιήσει τη χρήση δεδομένων και τις προοπτικές που τελικά διαμορφώνουν και διαμορφώνουν τις ατζέντες της έρευνας MLR.

«Εκτός από την παροχή κινήτρων για την ανάπτυξη δεδομένων, υποστηρίζουμε παρεμβάσεις πολιτικής προσανατολισμένες στη δικαιοσύνη που δίνουν προτεραιότητα σε σημαντική χρηματοδότηση για άτομα σε ιδρύματα με λιγότερους πόρους για τη δημιουργία συνόλων δεδομένων υψηλής ποιότητας. Αυτό θα διαφοροποιούσε — από κοινωνική και πολιτιστική άποψη — τα σύνολα δεδομένων αναφοράς που χρησιμοποιούνται για την αξιολόγηση των σύγχρονων μεθόδων ML».

 

 6 Δεκεμβρίου 2021, 4:49 μ.μ. GMT+2 – Διορθώθηκε η κτητική θέση στον τίτλο. – MA