στέλεχος Ανθεκτικότητα > Ακρίβεια: Γιατί η «ανθεκτικότητα μοντέλων» πρέπει να είναι η πραγματική μέτρηση για τη λειτουργία μοντέλων - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Ανθεκτικότητα > Ακρίβεια: Γιατί η «ανθεκτικότητα του μοντέλου» πρέπει να είναι η πραγματική μέτρηση για τη λειτουργία μοντέλων

mm
Ενημερώθηκε on

Του Ingo Mierswa, Ιδρυτής, Πρόεδρος & Επικεφαλής Επιστήμονας Δεδομένων στο RapidMiner.

Η επιστήμη των δεδομένων έχει σημειώσει μεγάλη πρόοδο τα τελευταία δύο χρόνια και πολλοί οργανισμοί χρησιμοποιούν προηγμένα μοντέλα ανάλυσης ή μηχανικής μάθησης για να αποκτήσουν βαθύτερες γνώσεις σχετικά με τις διαδικασίες και, σε ορισμένες περιπτώσεις, ακόμη και για να προβλέψουν πιθανά αποτελέσματα για το μέλλον. Για άλλες «επιστήμες», συχνά δεν είναι σαφές εάν ένα έργο θα είναι επιτυχές ή όχι, και έχουν υπάρξει αναφορές ότι Το 87% των έργων επιστήμης δεδομένων δεν μπαίνει ποτέ στην παραγωγή. Ενώ δεν μπορεί να αναμένεται ποσοστό επιτυχίας 100%, υπάρχουν ορισμένα πρότυπα σε έργα επιστήμης δεδομένων που οδηγούν σε υψηλότερα ποσοστά επιτυχίας από αυτά που θα έπρεπε να θεωρούνται αποδεκτά στον τομέα. Αυτά τα προβληματικά μοτίβα φαίνεται να υπάρχουν ανεξάρτητα από οποιαδήποτε συγκεκριμένη βιομηχανία ή περίπτωση χρήσης, γεγονός που υποδηλώνει ότι υπάρχει ένα παγκόσμιο πρόβλημα στην επιστήμη των δεδομένων που πρέπει να αντιμετωπιστεί.

Μέτρηση της επιτυχίας της μηχανικής μάθησης

Οι επιστήμονες δεδομένων που δημιουργούν μοντέλα μηχανικής μάθησης (ML) βασίζονται σε καλά καθορισμένα μαθηματικά κριτήρια για να μετρήσουν πόσο καλά αποδίδουν τέτοια μοντέλα. Ποιο από αυτά τα κριτήρια εφαρμόζεται εξαρτάται κυρίως από τον τύπο του μοντέλου. Ας υποθέσουμε ότι ένα μοντέλο θα πρέπει να προβλέπει κλάσεις ή κατηγορίες για νέες καταστάσεις — για παράδειγμα, εάν ένας πελάτης πρόκειται να ξεφύγει ή όχι. Σε περιπτώσεις όπως αυτές, οι επιστήμονες δεδομένων θα χρησιμοποιούσαν μετρήσεις όπως η ακρίβεια (πόσο συχνά το μοντέλο είναι σωστό) ή η ακρίβεια (πόσο συχνά οι πελάτες αναδεύονται αν προβλέπουμε την ανατροπή).

Οι επιστήμονες δεδομένων χρειάζονται αντικειμενικά κριτήρια όπως αυτό, επειδή μέρος της δουλειάς τους είναι να βελτιστοποιήσουν αυτά τα κριτήρια αξιολόγησης για να παράγουν το καλύτερο μοντέλο. Στην πραγματικότητα, δίπλα στην προετοιμασία των δεδομένων για να είναι έτοιμα για μοντελοποίηση, είναι η κατασκευή και ο συντονισμός αυτών των μοντέλων όπου οι επιστήμονες δεδομένων περνούν τον περισσότερο χρόνο τους.

Το μειονέκτημα αυτού είναι ότι οι επιστήμονες δεδομένων δεν εστιάζουν στην πραγματικότητα πολύ στην παραγωγή αυτών των μοντέλων, κάτι που είναι ένα ζήτημα για περισσότερους από έναν λόγους. Πρώτα και κύρια, τα μοντέλα που δεν παράγουν επιτυχημένα αποτελέσματα δεν μπορούν να χρησιμοποιηθούν για τη δημιουργία επιχειρηματικού αντίκτυπου για τους οργανισμούς που τα αναπτύσσουν. Δεύτερον, επειδή αυτοί οι οργανισμοί έχουν ξοδέψει χρόνο και χρήμα για την ανάπτυξη, την εκπαίδευση και τη λειτουργικότητα μοντέλων που δεν έχουν παράγει αποτελέσματα με επιτυχία όταν αντιμετωπίζονται με δεδομένα «πραγματικού κόσμου», είναι πιο πιθανό να θεωρήσουν την ML και άλλα εργαλεία επιστήμης δεδομένων ως άχρηστα για τον οργανισμό τους. και αρνούνται να προχωρήσουν με μελλοντικές πρωτοβουλίες επιστήμης δεδομένων.

Η αλήθεια είναι ότι οι επιστήμονες δεδομένων απλώς απολαμβάνουν την προσαρμογή των μοντέλων και αφιερώνουν πολύ χρόνο σε αυτό. Αλλά χωρίς επιχειρηματικό αντίκτυπο, αυτός ο χρόνος δεν ξοδεύεται με σύνεση, κάτι που είναι ιδιαίτερα οδυνηρό δεδομένου του πόσο σπάνιοι είναι οι επιστήμονες δεδομένων πόρων στον σημερινό κόσμο.

Το βραβείο Netflix και η αποτυχία παραγωγής

Έχουμε δει αυτό το φαινόμενο της υπερεπένδυσης στην κατασκευή μοντέλων και όχι στη λειτουργικότητα των μοντέλων να διαδραματίζεται τα τελευταία χρόνια. ο Βραβείο Netflix ήταν ένας ανοιχτός διαγωνισμός για τον καλύτερο συνεργατικό αλγόριθμο φιλτραρίσματος για την πρόβλεψη αξιολογήσεων χρηστών για ταινίες. Εάν επρόκειτο να δώσετε υψηλή βαθμολογία σε μια νέα ταινία, πιθανότατα σας άρεσε αυτή η ταινία – επομένως, χρησιμοποιώντας αυτό το σύστημα αξιολόγησης, το Netflix θα σας προτείνει συγκεκριμένους τίτλους και εάν σας αρέσει το προτεινόμενο περιεχόμενο, πιθανότατα θα παραμείνετε περισσότερο ως πελάτης του Netflix. Το μεγάλο έπαθλο ήταν το ποσό του 1 εκατομμυρίου USD, που δόθηκε στην ομάδα που μπόρεσε να βελτιώσει τον αλγόριθμο του ίδιου του Netflix κατά τουλάχιστον 10%.

Η πρόκληση ξεκίνησε το 2006 και τα επόμενα τρία χρόνια, οι συνεισφορές περισσότερων από 40,000 ομάδων επιστήμης δεδομένων παγκοσμίως οδήγησαν σε μια εντυπωσιακή βελτίωση άνω του 10% για την επιτυχία της σύστασης τίτλου. Ωστόσο, τα μοντέλα της νικήτριας ομάδας δεν τέθηκαν ποτέ σε λειτουργία. Το Netflix είπε ότι «η αύξηση της ακρίβειας δεν φαίνεται να δικαιολογεί την προσπάθεια που απαιτείται για να τεθούν αυτά τα μοντέλα στην παραγωγή».

Γιατί το βέλτιστο δεν είναι πάντα το βέλτιστο

Η ακρίβεια του μοντέλου και άλλα κριτήρια επιστήμης δεδομένων έχουν χρησιμοποιηθεί από καιρό ως μετρική για τη μέτρηση της επιτυχίας ενός μοντέλου πριν τεθεί το υπό εξέταση μοντέλο στην παραγωγή. Όπως είδαμε, πολλά μοντέλα δεν φτάνουν ποτέ σε αυτό το στάδιο – κάτι που είναι σπατάλη πόρων, τόσο από άποψη ενέργειας όσο και από άποψη χρόνου.

Αλλά υπάρχουν περισσότερα προβλήματα με αυτήν την κουλτούρα υπερεπένδυσης στην προσαρμογή μοντέλων. Το πρώτο είναι μια ακούσια υπερβολική προσαρμογή στα δεδομένα των δοκιμών, που θα οδηγήσει σε μοντέλα που φαίνονται καλά στον επιστήμονα διαχείρισης δεδομένων, αλλά στην πραγματικότητα δεν έχουν χαμηλή απόδοση μόλις στην παραγωγή - μερικές φορές προκαλούν ακόμη και βλάβη. Αυτό συμβαίνει για δύο λόγους:

  1. Υπάρχει μια γνωστή ασυμφωνία μεταξύ του σφάλματος δοκιμής και αυτού που θα δείτε στην παραγωγή
  2. Τα κριτήρια απόδοσης του επιχειρηματικού αντίκτυπου και της επιστήμης δεδομένων συχνά συσχετίζονται, αλλά τα «βέλτιστα» μοντέλα δεν έχουν πάντα τον μεγαλύτερο αντίκτυπο

Το πρώτο σημείο παραπάνω ονομάζεται επίσης "υπερπροσαρμογή στο σετ δοκιμής.» Είναι ένα πολύ γνωστό φαινόμενο, ειδικά μεταξύ των συμμετεχόντων σε διαγωνισμούς επιστήμης δεδομένων όπως αυτοί από Kaggle. Για αυτούς τους διαγωνισμούς, μπορείτε να δείτε μια ισχυρότερη εκδοχή αυτού του φαινομένου ήδη μεταξύ του δημόσιου και του ιδιωτικού leaderboard. Στην πραγματικότητα, ένας συμμετέχων θα μπορούσε να κερδίσει το δημόσιο leaderboard σε έναν διαγωνισμό Kaggle χωρίς ακόμη και διαβάζοντας τα δεδομένα. Ομοίως, ο νικητής του ιδιωτικού βαθμολογικού πίνακα και του συνολικού διαγωνισμού μπορεί να μην έχει δημιουργήσει ένα μοντέλο που να μπορεί να διατηρήσει την απόδοσή του σε οποιοδήποτε άλλο σύνολο δεδομένων εκτός από αυτό στο οποίο έχει αξιολογηθεί.

Η ακρίβεια δεν ισούται με τον επιχειρηματικό αντίκτυπο

Για πάρα πολύ καιρό έχουμε αποδεχθεί αυτήν την πρακτική, η οποία οδηγεί στην αργή προσαρμογή των μοντέλων στα σύνολα δεδομένων δοκιμής. Ως αποτέλεσμα, αυτό που μοιάζει με το καλύτερο μοντέλο αποδεικνύεται μέτριο στην καλύτερη περίπτωση:

  • Μετρήσεις όπως η προγνωστική ακρίβεια συχνά δεν ισούται με τον επιχειρηματικό αντίκτυπο
  • Μια βελτίωση της ακρίβειας κατά 1% δεν μπορεί να μεταφραστεί σε 1% καλύτερο επιχειρηματικό αποτέλεσμα
  • Υπάρχουν περιπτώσεις στις οποίες ένα μοντέλο χαμηλής απόδοσης υπερτερεί των άλλων, όσον αφορά τον επιχειρηματικό αντίκτυπο
  • Άλλοι παράγοντες, όπως η συντήρηση, η ταχύτητα βαθμολογίας ή η ανθεκτικότητα στις αλλαγές με την πάροδο του χρόνου (που ονομάζεται «ανθεκτικότητα») πρέπει επίσης να ληφθούν υπόψη.

Αυτό το τελευταίο σημείο είναι ιδιαίτερα σημαντικό. Τα καλύτερα μοντέλα δεν θα κερδίσουν απλώς διαγωνισμούς ή θα φαίνονται καλά στο εργαστήριο επιστήμης δεδομένων, αλλά θα αντέχουν στην παραγωγή και θα έχουν καλή απόδοση σε μια ποικιλία σετ δοκιμών. Αυτά τα μοντέλα είναι αυτά που ονομάζουμε ανθεκτικά μοντέλα.

Drift και η σημασία της ανθεκτικότητας

Όλα τα μοντέλα φθείρονται με την πάροδο του χρόνου. Το μόνο ερώτημα είναι πόσο γρήγορα συμβαίνει αυτό και πόσο καλά αποδίδει το μοντέλο υπό τις μεταβαλλόμενες συνθήκες. Ο λόγος αυτής της επιδείνωσης είναι το γεγονός ότι ο κόσμος δεν είναι στατικός. Επομένως, τα δεδομένα στα οποία εφαρμόζεται το μοντέλο αλλάζουν επίσης με την πάροδο του χρόνου. Εάν αυτές οι αλλαγές συμβαίνουν αργά, το ονομάζουμε "εννοιολογική μετατόπιση". Εάν οι αλλαγές συμβούν απότομα, το ονομάζουμε "μετατόπιση εννοιών". Για παράδειγμα, οι πελάτες μπορεί να αλλάξουν την καταναλωτική τους συμπεριφορά αργά με την πάροδο του χρόνου, έχοντας επηρεαστεί από τις τάσεις ή/και το μάρκετινγκ. Τα μοντέλα με τάση μπορεί να μην λειτουργούν πλέον σε ένα συγκεκριμένο σημείο. Αυτές οι αλλαγές μπορούν να επιταχυνθούν δραστικά σε ορισμένες περιπτώσεις. Ο COVID-19, για παράδειγμα, οδήγησε την πώληση αντικειμένων όπως χαρτί υγείας και απολυμαντικά — μια απροσδόκητη απότομη αύξηση σε συγκεκριμένα προϊόντα που μπορεί να ρίξει εντελώς εκτός πορείας ένα τέτοιο μοντέλο.

Ένα ανθεκτικό μοντέλο μπορεί να μην είναι το καλύτερο μοντέλο που βασίζεται σε μέτρα όπως η ακρίβεια ή η ακρίβεια, αλλά θα έχει καλή απόδοση σε ένα ευρύτερο φάσμα συνόλων δεδομένων. Για το λόγο αυτό, θα έχει επίσης καλύτερες επιδόσεις για μεγαλύτερο χρονικό διάστημα και, ως εκ τούτου, είναι καλύτερα σε θέση να έχει σταθερό επιχειρηματικό αντίκτυπο.

Τα γραμμικά και άλλα είδη απλών μοντέλων είναι συχνά πιο ανθεκτικά, επειδή είναι πιο δύσκολο να τα προσαρμόσετε σε ένα συγκεκριμένο σύνολο δοκιμών ή χρονική στιγμή. Πιο ισχυρά μοντέλα μπορούν και πρέπει να χρησιμοποιηθούν ως «προκλητές» για ένα απλούστερο μοντέλο, επιτρέποντας στους επιστήμονες δεδομένων να δουν εάν μπορεί επίσης να αντέξει με την πάροδο του χρόνου. Αλλά αυτό θα πρέπει να χρησιμοποιηθεί στο τελικό σημείο, όχι στην αρχή του ταξιδιού μοντελοποίησης.

Ενώ ένας επίσημος KPI για τη μέτρηση της ανθεκτικότητας δεν έχει ακόμη εισαχθεί στον τομέα της επιστήμης δεδομένων, υπάρχουν διάφοροι τρόποι με τους οποίους οι επιστήμονες δεδομένων μπορούν να αξιολογήσουν πόσο ανθεκτικά είναι τα μοντέλα τους:

  • Μικρότερες τυπικές αποκλίσεις σε μια εκτέλεση διασταυρούμενης επικύρωσης σημαίνουν ότι η απόδοση του μοντέλου εξαρτιόταν λιγότερο από τις ιδιαιτερότητες των διαφορετικών συνόλων δοκιμών
  • Ακόμα κι αν οι επιστήμονες δεδομένων δεν εκτελούν πλήρεις διασταυρούμενες επικυρώσεις, μπορούν να χρησιμοποιήσουν δύο διαφορετικά σύνολα δεδομένων για δοκιμές και επικύρωση. Μικρότερη απόκλιση μεταξύ των ποσοστών σφάλματος για τα σύνολα δεδομένων δοκιμής και επικύρωσης υποδηλώνει υψηλότερη ανθεκτικότητα
  • Εάν το μοντέλο παρακολουθείται σωστά στην παραγωγή, τα ποσοστά σφάλματος μπορούν να φανούν με την πάροδο του χρόνου. Η συνέπεια των ποσοστών σφάλματος με την πάροδο του χρόνου είναι ένα καλό σημάδι για την ανθεκτικότητα του μοντέλου.
  • Εάν η λύση παρακολούθησης μοντέλων επιλογής λαμβάνει υπόψη τη μετατόπιση, οι επιστήμονες δεδομένων θα πρέπει επίσης να δώσουν προσοχή στο πόσο καλά επηρεάζεται το μοντέλο από αυτή τη μετατόπιση εισόδου.

Αλλαγή της κουλτούρας της Επιστήμης Δεδομένων

Μετά την ανάπτυξη ενός μοντέλου στο στάδιο της λειτουργίας, εξακολουθούν να υπάρχουν απειλές για την ακρίβεια ενός μοντέλου. Τα δύο τελευταία σημεία παραπάνω σχετικά με την ανθεκτικότητα του μοντέλου απαιτούν ήδη σωστή παρακολούθηση των μοντέλων στην παραγωγή. Ως σημείο εκκίνησης για μια αλλαγή κουλτούρας στην επιστήμη των δεδομένων, συνιστάται στις εταιρείες να επενδύσουν στη σωστή παρακολούθηση μοντέλων και να αρχίσουν να ζητούν από τους επιστήμονες δεδομένων υπεύθυνους για την έλλειψη απόδοσης μετά τη διάθεση των μοντέλων στην παραγωγή. Αυτό θα αλλάξει αμέσως την κουλτούρα από μια κουλτούρα δημιουργίας μοντέλων σε μια κουλτούρα δημιουργίας και διατήρησης αξίας για τον τομέα της επιστήμης δεδομένων.

Όπως μας έδειξαν τα πρόσφατα παγκόσμια γεγονότα, ο κόσμος αλλάζει γρήγορα. Τώρα, περισσότερο από ποτέ, χρειάζεται να δημιουργήσουμε ανθεκτικά μοντέλα —όχι μόνο ακριβή— για να καταγράψουμε ουσιαστικό επιχειρηματικό αντίκτυπο με την πάροδο του χρόνου. Η Kaggle, για παράδειγμα, φιλοξενεί μια πρόκληση για να κινητοποιήσει τους επιστήμονες δεδομένων σε όλο τον κόσμο για να βοηθήσουν στη δημιουργία μοντέλων λύσεων που θα χρησιμοποιηθούν στον παγκόσμιο αγώνα κατά του COVID-19. Αναμένω ότι τα πιο επιτυχημένα μοντέλα που παράγονται ως αποτέλεσμα αυτής της πρόκλησης θα είναι τα πιο ανθεκτικά, όχι τα πιο ακριβή, καθώς έχουμε δει πόσο γρήγορα μπορούν να αλλάξουν τα δεδομένα COVID-19 σε μια μέρα.

Η επιστήμη των δεδομένων πρέπει να είναι για την εύρεση της αλήθειας, όχι την παραγωγή του «καλύτερου» μοντέλου. Διατηρώντας τους εαυτούς μας σε υψηλότερο επίπεδο ανθεκτικότητας έναντι της ακρίβειας, οι επιστήμονες δεδομένων θα είναι σε θέση να προσφέρουν μεγαλύτερο επιχειρηματικό αντίκτυπο για τους οργανισμούς μας και να βοηθήσουν στη θετική διαμόρφωση του μέλλοντος.

Ο Ingo Mierswa είναι ένας βετεράνος επιστήμονας δεδομένων από τότε που άρχισε να αναπτύσσεται RapidMiner στο Τμήμα Τεχνητής Νοημοσύνης του Πανεπιστημίου TU Dortmund στη Γερμανία. Ο Mierswa, ο επιστήμονας, έχει συγγράψει πολυάριθμες βραβευμένες δημοσιεύσεις σχετικά με την προγνωστική ανάλυση και τα μεγάλα δεδομένα. Ο Mierswa, ο επιχειρηματίας, είναι ο ιδρυτής της RapidMiner. Είναι υπεύθυνος για τη στρατηγική καινοτομία και ασχολείται με όλα τα μεγάλα ερωτήματα γύρω από τις τεχνολογίες της RapidMiner. Υπό την ηγεσία του, το RapidMiner αυξήθηκε έως και 300% ετησίως τα πρώτα επτά χρόνια. Το 2012, ηγήθηκε της διεθνούς στρατηγικής με το άνοιγμα γραφείων στις ΗΠΑ, καθώς και στο Ηνωμένο Βασίλειο και την Ουγγαρία. Μετά από δύο γύρους συγκέντρωσης κεφαλαίων, την εξαγορά της Radoop και την υποστήριξη της τοποθέτησης της RapidMiner με κορυφαίες εταιρείες αναλυτών όπως η Gartner και η Forrester, ο Ingo είναι πολύ περήφανος που φέρνει την καλύτερη ομάδα του κόσμου στο RapidMiner.