στέλεχος Πώς η προκατάληψη θα σκοτώσει τη στρατηγική AI/ML σας και τι να κάνετε γι 'αυτό - Unite.AI
Συνδεθείτε μαζί μας

Ηγέτες της σκέψης

Πώς η προκατάληψη θα σκοτώσει τη στρατηγική AI/ML σας και τι πρέπει να κάνετε γι 'αυτό

mm

Δημοσιευμένα

 on

Η «προκατάληψη» σε μοντέλα οποιουδήποτε τύπου περιγράφει μια κατάσταση στην οποία το μοντέλο ανταποκρίνεται ανακριβώς σε προτροπές ή δεδομένα εισόδου, επειδή δεν έχει εκπαιδευτεί με αρκετά υψηλής ποιότητας, διαφορετικά δεδομένα για να παρέχει ακριβή απόκριση. Ένα παράδειγμα θα ήταν Η λειτουργία ξεκλειδώματος τηλεφώνου αναγνώρισης προσώπου της Apple, η οποία απέτυχε σε σημαντικά υψηλότερο ποσοστό για άτομα με πιο σκούρα δέρματα σε αντίθεση με πιο ανοιχτούς τόνους. Το μοντέλο δεν είχε εκπαιδευτεί σε αρκετές εικόνες ανθρώπων με πιο σκούρο δέρμα. Αυτό ήταν ένα παράδειγμα μεροληψίας σχετικά χαμηλού κινδύνου, αλλά είναι ακριβώς ο λόγος που ο νόμος της ΕΕ για την τεχνητή νοημοσύνη έχει θέσει απαιτήσεις για την απόδειξη της αποτελεσματικότητας του μοντέλου (και των ελέγχων) πριν κυκλοφορήσει στην αγορά. Τα μοντέλα με αποτελέσματα που επηρεάζουν επιχειρηματικές, οικονομικές, υγειονομικές ή προσωπικές καταστάσεις πρέπει να είναι αξιόπιστα, διαφορετικά δεν θα χρησιμοποιηθούν.

Αντιμετώπιση προκατάληψης με δεδομένα

Μεγάλοι όγκοι δεδομένων υψηλής ποιότητας

Μεταξύ πολλών σημαντικών πρακτικών διαχείρισης δεδομένων, α βασικό στοιχείο για την υπέρβαση και την ελαχιστοποίηση της μεροληψίας στα μοντέλα AI/ML είναι η απόκτηση μεγάλων όγκων υψηλής ποιότητας, ποικίλων δεδομένων. Αυτό απαιτεί συνεργασία με πολλούς οργανισμούς που διαθέτουν τέτοια δεδομένα. Παραδοσιακά, η απόκτηση δεδομένων και οι συνεργασίες αμφισβητούνται από ανησυχίες σχετικά με το απόρρητο ή/και την προστασία της IP – τα ευαίσθητα δεδομένα δεν μπορούν να αποσταλούν στον κάτοχο του μοντέλου και ο κάτοχος του μοντέλου δεν μπορεί να διακινδυνεύσει να διαρρεύσει το IP του σε έναν κάτοχο δεδομένων. Μια κοινή λύση είναι η εργασία με εικονικά ή συνθετικά δεδομένα, τα οποία μπορεί να είναι χρήσιμα, αλλά έχουν και περιορισμούς σε σύγκριση με τη χρήση πραγματικών δεδομένων πλήρους περιβάλλοντος. Εδώ είναι που οι τεχνολογίες ενίσχυσης της ιδιωτικής ζωής (PET) παρέχουν τις πολύ αναγκαίες απαντήσεις.

Συνθετικά δεδομένα: Κλείσιμο, αλλά όχι αρκετά

Συνθετικά δεδομένα δημιουργείται τεχνητά για να μιμείται πραγματικά δεδομένα. Αυτό είναι δύσκολο να γίνει, αλλά γίνεται ελαφρώς πιο εύκολο με τα εργαλεία AI. Τα συνθετικά δεδομένα καλής ποιότητας θα πρέπει να έχουν τις ίδιες αποστάσεις χαρακτηριστικών με τα πραγματικά δεδομένα, διαφορετικά δεν θα είναι χρήσιμα. Τα ποιοτικά συνθετικά δεδομένα μπορούν να χρησιμοποιηθούν για την αποτελεσματική ενίσχυση της ποικιλομορφίας των δεδομένων εκπαίδευσης συμπληρώνοντας κενά για μικρότερους, περιθωριοποιημένους πληθυσμούς ή για πληθυσμούς που ο πάροχος τεχνητής νοημοσύνης απλά δεν έχει αρκετά δεδομένα. Τα συνθετικά δεδομένα μπορούν επίσης να χρησιμοποιηθούν για την αντιμετώπιση περιπτώσεων αιχμής που μπορεί να είναι δύσκολο να βρεθούν σε επαρκείς όγκους στον πραγματικό κόσμο. Επιπλέον, οι οργανισμοί μπορούν να δημιουργήσουν ένα σύνολο συνθετικών δεδομένων για να ικανοποιήσουν τις απαιτήσεις διαμονής δεδομένων και απορρήτου που εμποδίζουν την πρόσβαση στα πραγματικά δεδομένα. Αυτό ακούγεται υπέροχο. Ωστόσο, τα συνθετικά δεδομένα είναι απλώς ένα κομμάτι του παζλ, όχι η λύση.

Ένας από τους προφανείς περιορισμούς των συνθετικών δεδομένων είναι η αποσύνδεση από τον πραγματικό κόσμο. Για παράδειγμα, τα αυτόνομα οχήματα που έχουν εκπαιδευτεί αποκλειστικά σε συνθετικά δεδομένα θα αντιμετωπίσουν πραγματικές, απρόβλεπτες οδικές συνθήκες. Επιπλέον, τα συνθετικά δεδομένα κληρονομούν μεροληψία από τα δεδομένα του πραγματικού κόσμου που χρησιμοποιούνται για τη δημιουργία τους – καταργώντας αρκετά τον σκοπό της συζήτησής μας. Συμπερασματικά, τα συνθετικά δεδομένα είναι μια χρήσιμη επιλογή για τον ακριβή συντονισμό και την αντιμετώπιση περιπτώσεων αιχμής, αλλά σημαντικές βελτιώσεις στην αποτελεσματικότητα του μοντέλου και στην ελαχιστοποίηση της μεροληψίας εξακολουθούν να βασίζονται στην πρόσβαση σε δεδομένα πραγματικού κόσμου.

Ένας καλύτερος τρόπος: Πραγματικά δεδομένα μέσω ροών εργασίας με δυνατότητα PET

Τα PET προστατεύουν τα δεδομένα κατά τη χρήση. Όταν πρόκειται για μοντέλα AI/ML, μπορούν επίσης να προστατεύσουν την IP του μοντέλου που εκτελείται – «δύο πουλιά, μια πέτρα». Οι λύσεις που χρησιμοποιούν PET παρέχουν την επιλογή εκπαίδευσης μοντέλων σε πραγματικά, ευαίσθητα σύνολα δεδομένων που δεν ήταν προηγουμένως προσβάσιμα λόγω ανησυχιών σχετικά με το απόρρητο των δεδομένων και την ασφάλεια. Αυτό το ξεκλείδωμα των ροών δεδομένων σε πραγματικά δεδομένα είναι η καλύτερη επιλογή για τη μείωση της προκατάληψης. Αλλά πώς θα λειτουργούσε πραγματικά;

Προς το παρόν, οι κορυφαίες επιλογές ξεκινούν με ένα εμπιστευτικό υπολογιστικό περιβάλλον. Στη συνέχεια, μια ενσωμάτωση με μια λύση λογισμικού που βασίζεται σε PET που το καθιστά έτοιμο για χρήση εκτός συσκευασίας, ενώ αντιμετωπίζει τις απαιτήσεις διακυβέρνησης δεδομένων και ασφάλειας που δεν περιλαμβάνονται σε ένα τυπικό περιβάλλον αξιόπιστης εκτέλεσης (TEE). Με αυτήν τη λύση, όλα τα μοντέλα και τα δεδομένα κρυπτογραφούνται πριν σταλούν σε ένα ασφαλές υπολογιστικό περιβάλλον. Το περιβάλλον μπορεί να φιλοξενηθεί οπουδήποτε, κάτι που είναι σημαντικό όταν αντιμετωπίζονται ορισμένες απαιτήσεις εντοπισμού δεδομένων. Αυτό σημαίνει ότι τόσο η IP του μοντέλου όσο και η ασφάλεια των δεδομένων εισόδου διατηρούνται κατά τη διάρκεια του υπολογισμού – ούτε καν ο πάροχος του αξιόπιστου περιβάλλοντος εκτέλεσης δεν έχει πρόσβαση στα μοντέλα ή τα δεδομένα μέσα σε αυτό. Στη συνέχεια, τα κρυπτογραφημένα αποτελέσματα αποστέλλονται πίσω για έλεγχο και τα αρχεία καταγραφής είναι διαθέσιμα για έλεγχο.

Αυτή η ροή ξεκλειδώνει τα δεδομένα καλύτερης ποιότητας ανεξάρτητα από το πού βρίσκονται ή ποιος τα έχει, δημιουργώντας μια διαδρομή για ελαχιστοποίηση προκατάληψης και μοντέλα υψηλής αποτελεσματικότητας που μπορούμε να εμπιστευτούμε. Αυτή η ροή είναι επίσης αυτό που περιέγραφε ο νόμος της ΕΕ για την τεχνητή νοημοσύνη στις απαιτήσεις τους για ένα ρυθμιστικό sandbox για την τεχνητή νοημοσύνη.

Διευκόλυνση της ηθικής και νομικής συμμόρφωσης

Η απόκτηση καλής ποιότητας, πραγματικών δεδομένων είναι δύσκολη. Οι απαιτήσεις απορρήτου δεδομένων και τοπικής προσαρμογής περιορίζουν αμέσως τα σύνολα δεδομένων στα οποία μπορούν να έχουν πρόσβαση οι οργανισμοί. Για να υπάρξει καινοτομία και ανάπτυξη, τα δεδομένα πρέπει να ρέουν σε εκείνους που μπορούν να αντλήσουν την αξία από αυτά.

Το άρθρο 54 του νόμου της ΕΕ για την τεχνητή νοημοσύνη προβλέπει απαιτήσεις για τύπους μοντέλων «υψηλού κινδύνου» όσον αφορά το τι πρέπει να αποδειχθεί προτού διατεθούν στην αγορά. Εν ολίγοις, οι ομάδες θα χρειαστεί να χρησιμοποιήσουν δεδομένα πραγματικού κόσμου μέσα σε ένα AI Regulatory Sandbox για να δείξει επαρκή αποτελεσματικότητα και συμμόρφωση του μοντέλου με όλους τους ελέγχους που περιγράφονται λεπτομερώς στον Τίτλο III Κεφάλαιο 2. Τα στοιχεία ελέγχου περιλαμβάνουν παρακολούθηση, διαφάνεια, επεξήγηση, ασφάλεια δεδομένων, προστασία δεδομένων, ελαχιστοποίηση δεδομένων και προστασία μοντέλου – σκεφτείτε DevSecOps + Data Ops.

Η πρώτη πρόκληση θα είναι η εύρεση ενός πραγματικού συνόλου δεδομένων προς χρήση – καθώς αυτά είναι εγγενώς ευαίσθητα δεδομένα για τέτοιους τύπους μοντέλων. Χωρίς τεχνικές εγγυήσεις, πολλοί οργανισμοί μπορεί να διστάσουν να εμπιστευτούν τα δεδομένα τους στον πάροχο του μοντέλου ή να μην τους επιτραπεί να το πράξουν. Επιπλέον, ο τρόπος με τον οποίο η πράξη ορίζει ένα «Ρυθμιστικό Sandbox AI» είναι μια πρόκληση από μόνος του. Ορισμένες από τις απαιτήσεις περιλαμβάνουν την εγγύηση ότι τα δεδομένα αφαιρούνται από το σύστημα μετά την εκτέλεση του μοντέλου, καθώς και τους ελέγχους διακυβέρνησης, την επιβολή και την αναφορά για την απόδειξη.

Πολλοί οργανισμοί έχουν δοκιμάσει να χρησιμοποιήσουν out-of-the-box καθαρά δωμάτια δεδομένων (DCR) και αξιόπιστα περιβάλλοντα εκτέλεσης (TEE). Όμως, από μόνες τους, αυτές οι τεχνολογίες απαιτούν σημαντική τεχνογνωσία και εργασία για να λειτουργήσουν και να ανταποκριθούν στις κανονιστικές απαιτήσεις δεδομένων και τεχνητής νοημοσύνης.
Τα DCR είναι πιο απλά στη χρήση, αλλά δεν είναι ακόμη χρήσιμα για πιο ισχυρές ανάγκες AI/ML. Τα TEE είναι ασφαλείς διακομιστές και εξακολουθούν να χρειάζονται μια ολοκληρωμένη πλατφόρμα συνεργασίας για να είναι χρήσιμα, γρήγορα. Αυτό, ωστόσο, εντοπίζει μια ευκαιρία για τεχνολογικές πλατφόρμες που ενισχύουν το απόρρητο να ενσωματωθούν με TEE για την κατάργηση αυτού του έργου, ασήμαντη τη ρύθμιση και τη χρήση ενός ρυθμιστικού sandbox AI και, επομένως, την απόκτηση και χρήση ευαίσθητων δεδομένων.

Επιτρέποντας τη χρήση πιο διαφορετικών και περιεκτικών συνόλων δεδομένων με τρόπο διατήρησης του απορρήτου, αυτές οι τεχνολογίες συμβάλλουν στη διασφάλιση ότι οι πρακτικές τεχνητής νοημοσύνης και ML συμμορφώνονται με τα δεοντολογικά πρότυπα και τις νομικές απαιτήσεις που σχετίζονται με το απόρρητο δεδομένων (π.χ. GDPR και νόμος AI της ΕΕ στην Ευρώπη). Συνοψίζοντας, ενώ οι απαιτήσεις αντιμετωπίζονται συχνά με ηχητικά γρυλίσματα και αναστεναγμούς, αυτές οι απαιτήσεις απλώς μας καθοδηγούν στη δημιουργία καλύτερων μοντέλων στα οποία μπορούμε να εμπιστευόμαστε και να βασιζόμαστε για τη λήψη σημαντικών αποφάσεων βάσει δεδομένων, προστατεύοντας παράλληλα το απόρρητο των υποκειμένων των δεδομένων που χρησιμοποιούνται για την ανάπτυξη μοντέλων και προσαρμογή.

Ο Adi Hirschtein είναι ο αντιπρόεδρος του προϊόντος στο Τεχνολογίες δυαδικότητας. Η Adi φέρνει περισσότερα από 20 χρόνια εμπειρίας ως στέλεχος, διευθυντής προϊόντων και επιχειρηματίας που δημιουργεί και οδηγεί την καινοτομία σε εταιρείες τεχνολογίας που επικεντρώνονται κυρίως σε νεοφυείς επιχειρήσεις B2B στον τομέα των δεδομένων και της τεχνητής νοημοσύνης. Πριν από το Duality, ο Adi υπηρέτησε ως αντιπρόεδρος προϊόντος για την Iguazio (εταιρεία MLOps) που εξαγοράστηκε από τη McKinsey και πριν από αυτό διετέλεσε διευθυντής προϊόντος στην EMC μετά την εξαγορά μιας άλλης startup που ονομάζεται Zettapoint (εταιρεία βάσης δεδομένων και αποθήκευσης) όπου υπηρετούσε ως αντιπρόεδρος του προϊόντος που οδηγεί το προϊόν από την αρχή έως τη διείσδυση και την ανάπτυξη στην αγορά.