στέλεχος Ο Andrew Ng επικρίνει την κουλτούρα της υπερπροσαρμογής στη μηχανική μάθηση - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Ο Andrew Ng επικρίνει την κουλτούρα της υπερπροσαρμογής στη μηχανική μάθηση

mm
Ενημερώθηκε on
Andrew Ng υπερπροσαρμογή

Ο Andrew Ng, μια από τις πιο σημαίνουσες φωνές στη μηχανική μάθηση την τελευταία δεκαετία, εκφράζει επί του παρόντος ανησυχίες σχετικά με τον βαθμό στον οποίο ο κλάδος δίνει έμφαση στις καινοτομίες στην αρχιτεκτονική μοντέλων έναντι των δεδομένων – και συγκεκριμένα, στον βαθμό στον οποίο επιτρέπει τα «υπερβολικά προσαρμοσμένα» αποτελέσματα να να απεικονίζονται ως γενικευμένες λύσεις ή προόδους.

Αυτές είναι σαρωτικές επικρίσεις για την τρέχουσα κουλτούρα μηχανικής μάθησης, που προέρχονται από μια από τις υψηλότερες αρχές της και έχουν επιπτώσεις στην εμπιστοσύνη σε έναν τομέα που κατακλύζεται από φόβους για τρίτη κατάρρευση επιχειρηματικής εμπιστοσύνης στην ανάπτυξη τεχνητής νοημοσύνης σε διάστημα εξήντα ετών.

Ο Ng, καθηγητής στο Πανεπιστήμιο του Στάνφορντ, είναι επίσης ένας από τους ιδρυτές του deeplearning.ai και τον Μάρτιο δημοσίευσε ένα απεσταλμένος στο site της οργάνωσης που απόσταξε α πρόσφατη ομιλία από τις βασικές του συστάσεις:

Πρώτον, ότι η ερευνητική κοινότητα θα πρέπει να σταματήσει να παραπονιέται ότι ο καθαρισμός δεδομένων αντιπροσωπεύει το 80% των προκλήσεων στη μηχανική μάθηση και να συνεχίσει τη δουλειά της ανάπτυξης ισχυρών μεθοδολογιών και πρακτικών MLOps.

Δεύτερον, ότι θα πρέπει να απομακρυνθεί από τις «εύκολες νίκες» που μπορούν να ληφθούν με την υπερβολική προσαρμογή δεδομένων σε ένα μοντέλο μηχανικής εκμάθησης, έτσι ώστε να αποδίδει καλά σε αυτό το μοντέλο, αλλά να αποτυγχάνει να γενικεύσει ή να δημιουργήσει ένα ευρέως αναπτυσσόμενο μοντέλο.

Αποδοχή της πρόκλησης της αρχιτεκτονικής και της επιμέλειας δεδομένων

«Η άποψή μου», έγραψε ο Ng. «Είναι ότι αν το 80 τοις εκατό της εργασίας μας είναι προετοιμασία δεδομένων, τότε η διασφάλιση της ποιότητας των δεδομένων είναι το σημαντικό έργο μιας ομάδας μηχανικής μάθησης».

Και συνέχισε:

«Αντί να υπολογίζουμε στους μηχανικούς στην τύχη για τον καλύτερο τρόπο βελτίωσης ενός συνόλου δεδομένων, ελπίζω ότι μπορούμε να αναπτύξουμε εργαλεία MLOps που βοηθούν να κάνουμε τη δημιουργία συστημάτων AI, συμπεριλαμβανομένης της κατασκευής συνόλων δεδομένων υψηλής ποιότητας, πιο επαναλαμβανόμενα και συστηματικά.

«Το MLOps είναι ένα νέο πεδίο, και διαφορετικοί άνθρωποι το ορίζουν διαφορετικά. Αλλά νομίζω ότι η πιο σημαντική αρχή οργάνωσης των ομάδων και εργαλείων MLOps θα πρέπει να είναι η διασφάλιση της συνεπούς και υψηλής ποιότητας ροής δεδομένων σε όλα τα στάδια ενός έργου. Αυτό θα βοηθήσει πολλά έργα να εξελιχθούν πιο ομαλά ».

Μιλώντας στο Zoom σε ζωντανή μετάδοση Συνεδρία ερωτήσεων και απαντήσεων στα τέλη Απριλίου, η Ng αντιμετώπισε το έλλειμμα εφαρμογής στα συστήματα ανάλυσης μηχανικής μάθησης για την ακτινολογία:

«Αποδεικνύεται ότι όταν συλλέγουμε δεδομένα από το Νοσοκομείο του Στάνφορντ, κατόπιν εκπαιδεύουμε και δοκιμάζουμε σε δεδομένα από το ίδιο νοσοκομείο, πράγματι, μπορούμε να δημοσιεύσουμε έγγραφα που δείχνουν [οι αλγόριθμοι] είναι συγκρίσιμοι με τους ανθρώπινους ακτινολόγους στον εντοπισμό ορισμένων καταστάσεων.

«…[Όταν] πας το ίδιο μοντέλο, το ίδιο σύστημα τεχνητής νοημοσύνης, σε ένα παλαιότερο νοσοκομείο στο δρόμο, με ένα παλαιότερο μηχάνημα, και ο τεχνικός χρησιμοποιεί ένα ελαφρώς διαφορετικό πρωτόκολλο απεικόνισης, τα δεδομένα μετατοπίζονται για να προκαλέσουν την απόδοση του συστήματος AI σε υποβαθμίζεται σημαντικά. Αντίθετα, οποιοσδήποτε ανθρώπινος ακτινολόγος μπορεί να περπατήσει στο δρόμο προς το παλαιότερο νοσοκομείο και να τα πάει μια χαρά».

Η υποπροδιαγραφή δεν είναι λύση

Η υπερπροσαρμογή συμβαίνει όταν ένα μοντέλο μηχανικής εκμάθησης έχει σχεδιαστεί ειδικά για να δέχεται τις εκκεντρότητες ενός συγκεκριμένου συνόλου δεδομένων (ή του τρόπου με τον οποίο μορφοποιούνται τα δεδομένα). Αυτό μπορεί να περιλαμβάνει, για παράδειγμα, τον καθορισμό βαρών που θα παράγουν καλά αποτελέσματα από αυτό το σύνολο δεδομένων, αλλά δεν θα «γενικεύουν» σε άλλα δεδομένα.

Σε πολλές περιπτώσεις, τέτοιες παράμετροι ορίζονται σε πτυχές «χωρίς δεδομένα» του συνόλου εκπαίδευσης, όπως η ειδική ανάλυση των συλλεγόμενων πληροφοριών ή άλλες ιδιοσυγκρασίες που δεν είναι εγγυημένο ότι θα επανεμφανιστούν σε άλλα επόμενα σύνολα δεδομένων.

Αν και θα ήταν ωραίο, η υπερπροσαρμογή δεν είναι ένα πρόβλημα που μπορεί να λυθεί διευρύνοντας τυφλά το εύρος ή την ευελιξία της αρχιτεκτονικής δεδομένων ή του σχεδιασμού μοντέλων, όταν αυτό που πραγματικά χρειάζεται είναι ευρέως εφαρμόσιμα και εξαιρετικά σημαντικά χαρακτηριστικά που θα έχουν καλή απόδοση σε μια σειρά δεδομένων περιβάλλοντα – μια πιο ακραία πρόκληση.

Σε γενικές γραμμές, αυτός ο τύπος «υπό προδιαγραφή» οδηγεί μόνο στα ίδια προβλήματα που έχει περιγράψει πρόσφατα ο Ng, όπου ένα μοντέλο μηχανικής εκμάθησης αποτυγχάνει σε αόρατα δεδομένα. Η διαφορά σε αυτήν την περίπτωση είναι ότι το μοντέλο αποτυγχάνει όχι επειδή τα δεδομένα ή η μορφοποίηση δεδομένων είναι διαφορετική από το υπερβολικά τοποθετημένο αρχικό σετ εκπαίδευσης, αλλά επειδή το μοντέλο είναι πολύ ευέλικτο παρά πολύ εύθραυστο.

Στα τέλη του 2020 η χαρτί Η υποπροδιαγραφή παρουσιάζει προκλήσεις για την αξιοπιστία στη σύγχρονη μηχανική μάθηση άσκησε έντονη κριτική εναντίον αυτής της πρακτικής και έφερε τα ονόματα τουλάχιστον σαράντα ερευνητών μηχανικής μάθησης και επιστημόνων από την Google και το MIT, μεταξύ άλλων ιδρυμάτων.

Η εργασία επικρίνει τη «μάθηση συντομεύσεων» και παρατηρεί τον τρόπο με τον οποίο τα υποκαθορισμένα μοντέλα μπορούν να απογειωθούν σε άγριες εφαπτομένες με βάση το τυχαίο σημείο εκκίνησης στο οποίο ξεκινά η εκπαίδευση του μοντέλου. Οι συντελεστές παρατηρούν:

«Έχουμε δει ότι η υποπροδιαγραφή είναι πανταχού παρούσα σε πρακτικούς αγωγούς μηχανικής εκμάθησης σε πολλούς τομείς. Πράγματι, χάρη στην υποπροδιαγραφή, ουσιαστικά σημαντικές πτυχές των αποφάσεων καθορίζονται από αυθαίρετες επιλογές, όπως ο τυχαίος σπόρος που χρησιμοποιείται για την προετοιμασία παραμέτρων.'

Οι οικονομικές επιπτώσεις της αλλαγής της κουλτούρας

Παρά τα επιστημονικά του διαπιστευτήρια, ο Ng δεν είναι ευάερος ακαδημαϊκός, αλλά έχει βαθιά και υψηλού επιπέδου εμπειρία στον κλάδο ως συνιδρυτής της Google Brain και του Coursera, ως πρώην επικεφαλής επιστήμονας για Big Data και AI στη Baidu και ως ιδρυτής της Landing AI, η οποία διαχειρίζεται 175 εκατομμύρια δολάρια για νέες νεοφυείς επιχειρήσεις στον κλάδο.

Όταν λέει ότι «Όλη η τεχνητή νοημοσύνη, όχι μόνο η υγειονομική περίθαλψη, έχει ένα κενό απόδειξης της ιδέας προς την παραγωγή», προορίζεται ως κλήση αφύπνισης σε έναν τομέα του οποίου το τρέχον επίπεδο διαφημιστικής εκστρατείας και εντοπισμένης ιστορίας τον χαρακτηρίζει όλο και περισσότερο ως μια αβέβαιη μακροπρόθεσμη επιχειρηματική επένδυση, περιστοιχίζω από προβλήματα ορισμού και εμβέλειας.

Ωστόσο, τα ιδιόκτητα συστήματα μηχανικής μάθησης που λειτουργούν καλά in-situ και αποτυγχάνουν σε άλλα περιβάλλοντα αντιπροσωπεύουν το είδος της σύλληψης της αγοράς που θα μπορούσε να ανταμείψει τις επενδύσεις του κλάδου. Η παρουσίαση του «προβλήματος υπερπροσαρμογής» στο πλαίσιο ενός επαγγελματικού κινδύνου προσφέρει έναν ανειλικρινή τρόπο νομισματοποιώ εταιρικές επενδύσεις στην έρευνα ανοιχτού κώδικα και για την παραγωγή (αποτελεσματικά) ιδιόκτητων συστημάτων όπου η αναπαραγωγή από ανταγωνιστές είναι δυνατή, αλλά προβληματική.

Το εάν αυτή η προσέγγιση θα λειτουργούσε μακροπρόθεσμα εξαρτάται από τον βαθμό στον οποίο συνεχίζουν να απαιτούνται πραγματικές ανακαλύψεις στη μηχανική μάθηση ολοένα και μεγαλύτερα επίπεδα επενδύσεων, και κατά πόσον όλες οι παραγωγικές πρωτοβουλίες θα μεταφερθούν αναπόφευκτα στη FAANG σε κάποιο βαθμό, λόγω των κολοσσιαίων πόρων που απαιτούνται για τη φιλοξενία και τις λειτουργίες.