Συνεντεύξεις
Δρ. Judith Bishop, Senior Director of AI Specialists στην Appen – Σειρά Συνεντεύξεων

Η Δρ. Judith Bishop, είναι Senior Director of AI Specialists για την περιοχή APAC/US στην Appen. Ηγείται και αναπτύσσει μια κορυφαία ομάδα εξαιρετικά καταρτισμένων και έμπειρων γλωσσολόγων, υπολογιστικών γλωσσολόγων και ειδικών σε όλους τους τρόπους ανθρώπινης επικοινωνίας (ομιλία, γραφή και χειρονομία), για να παρέχει δεδομένα εκπαίδευσης AI με μια ανεπανάληπτη συνδυασμό ποιότητας και ταχύτητας.
Τι σας έκανε να ενδιαφερθείτε αρχικά για τη γλωσσολογία;
Άκουσα για πρώτη φορά για τη γλωσσολογία από einen αγαπημένο δάσκαλο αγγλικών στο γυμνάσιο. Ήμουν ένα από αυτά τα παιδιά που είναι εξίσου προσελκυσμένα από τις ξένες γλώσσες και τις ανθρωπιστικές επιστήμες, και τα μαθηματικά και τις επιστήμες. Η γλωσσολογία είναι η επιστήμη του πώς λειτουργεί η γλώσσα, οπότε έφερε μαζί τις ενδιαφερόμενες περιοχές για μένα. Όπως και πολλοί άλλοι, μια φορά που έμαθα για αυτό, ήμουν完全 hooked. Τι θα μπορούσε να είναι πιο ενδιαφέρον από το πώς επικοινωνούμε τις σκέψεις και τα συναισθήματά μας ο ένας στον άλλον; Η γλωσσολογία εξετάζει τις γλωσσικές δομές που, παρά τις διαφορές στα ήχη και τα συστήματα γραφής, είναι συχνά παρόμοιες κάτω από την επιφάνεια,既然 είναι όλα προϊόντα, τελικά, της κοινής ανθρώπινης ύπαρξης.
Μπορείτε να μοιραστείτε την ιστορία της γέννησης του πώς βρεθήκατε να εργάζεστε στο AI;
Έχω εργαστεί στην Appen από το 2004 υποστηρίζοντας την ανάπτυξη προϊόντων και υπηρεσιών τεχνολογίας γλώσσας. Κατά τη διάρκεια αυτής της περιόδου, το AI έχει αναδυθεί ως ένα ολοκληρωμένο πλαίσιο, αποστολή και όραση για την τεχνολογία να μιμείται και να επεκτείνει τις ανθρώπινες ικανότητες επικοινωνίας, συλλογισμού και αντίληψης. Το 2019, η ομάδα μου μετονομάστηκε σε AI Specialists, αναγνωρίζοντας ότι οι γλωσσικές και γλωσσικές μας γνώσεις είναι κρίσιμες για την επιχείρηση AI. Τα αναγνωρισμένα δεδομένα μας παρέχουν απαραίτητη υποστήριξη για την επιτυχία των ανθρώπινων αλληλεπιδράσεων με προϊόντα και υπηρεσίες AI.
Έχετε εργαστεί στο AI για πάνω από 16 χρόνια, ποίες είναι μερικές από τις μεγαλύτερες αλλαγές που έχετε δει;
Η κύρια αλλαγή ήταν η διαφοροποίηση του εστιασμού από την ανάπτυξη βασικής τεχνολογίας στην μακρά ουρά των περιπτώσεων χρήσης και εφαρμογών. Για το μεγαλύτερο μέρος της καριέρας μου, ο εστιασμός της γλώσσας-βασισμένης AI ήταν να αναπτύξει και να βελτιώσει ένα βασικό σύνολο μοντέλων που μιμούνται την ανθρώπινη αντίληψη ομιλίας και παραγωγή, συγκεκριμένα, αναγνώριση ομιλίας, σύνθεση ομιλίας και επεξεργασία φυσικής γλώσσας. Τα δεδομένα συνήθως συμμορφώνονταν με κοινά πρότυπα ετικετών και δειγμάτων δεδομένων και συμβάσεων, όπως αυτά που αναπτύχθηκαν από το consortium Speecon (Διασυνδεδεμένες Διεπαφές για Καταναλωτικά Συσκευές). Αυτά τα πρότυπα έχουν επιτρέψει στους dévelopers της βασικής τεχνολογίας να μετρήσουν την απόδοσή τους σε κοινά δεδομένα και έχουν υποστηρίξει την ταχεία εξέλιξη του AI.
Η πανταχού παρούσα επέκταση των περιπτώσεων χρήσης του AI τα τελευταία χρόνια, ωστόσο, έχει φέρει μαζί της την αναγνώριση ότι τα βασικά, γενικά μοντέλα AI που κατασκευάστηκαν με αυτά τα δεδομένα δεν λειτουργούν επαρκώς σε πιο εξειδικευμένα τύποι δεδομένων χωρίς περαιτέρω ρύθμιση. Επιπλέον, αφού αναπτύχθηκαν σε δεδομένα που ήταν σκόπιμα καθαρά και ‘стандάρτ’, αυτά τα μοντέλα πρέπει τώρα να εκπαιδευτούν ή να ενημερωθούν για να κατανοήσουν και να ανταποκριθούν σε όλες τις διαφορές των ανθρώπινων εισόδων: όλες οι διαλέκτοι, όλες οι προφορές, όλες οι εθνοτικές ομάδες, όλα τα φύλα και όλες οι άλλες διαστάσεις της ανθρώπινης διαφοράς.
Μπορείτε να συζητήσετε τη σημασία των αμερόληπτων δεδομένων στη μηχανική μάθηση;
Τα μοντέλα μηχανικής μάθησης, είτε επιβλεπόμενα, είτε μη επιβλεπόμενα, είτε ενισχυμένα, θα αντανακλούν τις προκαταλήψεις που υπάρχουν στα δεδομένα στα οποία εκπαιδεύονται. Οι Alyssa Simpson Rochwerger και Wilson Pang παρέχουν几个 εξαιρετικά παραδείγματα αυτού του ζητήματος στο πρόσφατο βιβλίο τους, Real World AI. Αν υπάρχουν ανεπαρκή δεδομένα εκπαίδευσης για ένα τμήμα του πληθυσμού, το μοντέλο AI θα είναι λιγότερο ακριβές για αυτό το τμήμα.
Σε μια άλλη κοινή περίπτωση, η αναπαράσταση του πληθυσμού μπορεί να είναι επαρκής, αλλά αν τα δεδομένα εκπαίδευσης περιέχουν συσχετίσεις μεταξύ σημείων δεδομένων που αντανακλούν τις πραγματικές, αλλά ανεπιθύμητες, συνθήκες στον κόσμο (όπως μια χαμηλότερη ποσοστιαία απασχόληση για τις γυναίκες, ή μια υψηλότερη ποσοστιαία φυλάκισης για τους Αφροαμερικανούς), τα αποτελέσματα εφαρμογές AI μπορούν να ενισχύσουν και να διατηρήσουν αυτές τις συνθήκες.
Οι συσχετίσεις που υπάρχουν στη γλώσσα σε γενικές γραμμές μπορούν να δημιουργήσουν προκαταλήψεις στις εφαρμογές NLP, οι οποίες βασίζονται σε στατιστικές σχέσεις γνωστές ως word embeddings. Αν το ‘αυτή’ και ‘νοσηλεύτρια’ είναι πιο συχνά συνδεδεμένα στα δεδομένα εκπαίδευσης από το ‘αυτοί’ ή ‘αυτός’ και ‘νοσηλεύτρια’, τότε η εφαρμογή θα χρησιμοποιήσει ‘αυτή’ όταν θα πρέπει να επιλέξει ένα ενικό αντωνυμία για να αναφερθεί σε μια νοσηλεύτρια. Για να αντιμετωπίσουν αυτό το συγκεκριμένο ζήτημα, οι ερευνητές έχουν πρόσφατα αναπτύξει μια γενο-ουδέτερη παραλλαγή ενός κοινού αλγορίθμου word embedding, GN-GloVe.
Στις ευαίσθητες εφαρμογές, ζητήματα προκαταλήψεων όπως αυτά μπορούν να έχουν μια καταστροφική επίδραση στους χρήστες και μπορούν να εξαφανίσουν την επένδυση. Η καλή είδηση είναι ότι, εκτός από την ανάπτυξη νέων, πιο διαφανών και περιεκτικών συνόλων δεδομένων, ένας αυξανόμενος αριθμός εφαρμογών επιστημών δεδομένων αναπτύσσεται για να ελέγξει την παρουσία προκαταλήψεων στα υπάρχοντα δεδομένα εκπαίδευσης και εφαρμογές AI.
Η Appen πρόσφατα έλαunched νέα ποικιλόμορφα δεδομένα εκπαίδευσης για πρωτοβουλίες NLP. Μπορείτε να μοιραστείτε κάποια λεπτομέρειες σχετικά με το πώς αυτά τα δεδομένα θα επιτρέψουν στους τελικούς χρήστες να λαμβάνουν την ίδια εμπειρία ανεξάρτητα από τη γλωσσική ποικιλία, διάλεκτο, εθνολέκτο, προφορά, φύλο ή φύλο;
Για τους λόγους που αναφέρθηκαν παραπάνω, τα δεδομένα είναι απαραίτητα για τη διόρθωση των υφιστάμενων προκαταλήψεων στα συστήματα παραγωγής AI, εκτός από πιο περιεκτικά δεδομένα για την εκπαίδευση μελλοντικών συστημάτων. Τα δεδομένα της Appen που αναφέρετε θα υποστηρίξουν τη διόρθωση των προκαταλήψεων που σχετίζονται με την εθνοτική ομάδα και τις συνδεδεμένες εθνολέκτους, όπως η Αφροαμερικανική διαλέκτος. Θα παρέχουν συμπληρωματικά δεδομένα εκπαίδευσης για να ενισχύσουν την αναπαράσταση αυτού του πληθυσμού στα μοντέλα γλώσσας AI.
Η εθνοτική ομάδα αναδύεται ως một κρίσιμη δημογραφική διάσταση για ρητή ετικέτα στα δεδομένα AI. Οι γλωσσολόγοι αναφέρονται στις γλωσσικές ποικιλίες που συνδέονται με συγκεκριμένες εθνοτικές ομάδες ως ‘εθνολέκτους’. Οι παρόχοι δεδομένων AI όπως η Appen τώρα αναγνωρίζουν ότι εκτός αν οι κρίσιμες και μειονοτικές πληθυσμιακές ομάδες αντιπροσωπεύονται ρητά στα δεδομένα εκπαίδευσης AI, δεν μπορούμε να διασφαλίσουμε ότι τα αποτελέσματα συστήματα θα λειτουργούν εξίσου καλά για αυτές τις πληθυσμιακές ομάδες.
Ισότιμη απόδοση σημαίνει ότι το σύστημα αναγνωρίζει με την ίδια ακρίβεια τα λόγια και τις προθέσεις (τις σημασίες, ή τις ενέργειες που θέλουν να επιτύχουν) και σε ορισμένες περιπτώσεις, τη διάθεση, και ότι απαντά με τρόπους που ικανοποιούν εξίσου τις ανάγκες του χρήστη, και δεν παράγει μια πιο αρνητική επίδραση σε μια συγκεκριμένη πληθυσμιακή ομάδα χρηστών, είτε πρακτικά είτε ψυχολογικά.
Μια μακροχρόνια προσέγγιση συλλογής δεδομένων έχει sido να επικεντρωθεί στη γεωγραφική και διαλεκτική αντιπροσωπευτική δειγματοληψία σε βάσεις δεδομένων – υποθέτοντας ότι αυτό θα διασφαλίσει ότι η τεχνολογία θα γενικευτεί στο σύνολο του πληθυσμού των ομιλητών της γλώσσας. Η σχετικά χαμηλότερη απόδοση των γλωσσικών τεχνολογιών που έχουν τεκμηριωθεί πρόσφατα για τους ομιλητές της Αφροαμερικανικής διαλέκτου έχει δείξει ότι δεν είναι έτσι. Οι πληθυσμιακές ομάδες που είναι ποικιλόμορφες σε εθνοτική ομάδα, φύλο, γένος και προφορά, μεταξύ άλλων διαστάσεων, χρειάζονται να περιλαμβάνονται προληπτικά στα δεδομένα εκπαίδευσης για να διασφαλίσουν ότι οι φωνές τους ακούγονται και κατανοούνται από τα προϊόντα και τις υπηρεσίες AI.
Εκτός του AI, είστε επίσης ποιήτρια με πολλά από τα ποιήματά σας να κερδίζουν διαφορετικά βραβεία βιομηχανίας. Τι είναι η άποψή σας για το μέλλον του AI να εμφανίζει αυτό το είδος δημιουργικότητας, συμπεριλαμβανομένης της γραφής ποιημάτων;
Αυτό είναι ένα fascinující ερώτημα. Η ποίηση και άλλες μορφές ανθρώπινης δημιουργικότητας βασίζονται σε όλους τους ανθρώπινους πόρους της μνήμης, αντίληψης, αίσθησης και συναισθήματος, καθώς και τις δομές και τις νюανς της γλώσσας και της εικόνας, για να παράγουν εντυπώσεις που αντηχούν με τις σύγχρονες ανησυχίες. Η Emily Dickinson έγραψε, “Αν διαβάσω ένα βιβλίο και μου κάνει όλο το σώμα τόσο κρύο που καμία φωτιά δεν μπορεί να με θερμάνει, ξέρω ότι αυτό είναι ποίηση. Αν νιώσω σωματικά σαν να μου έχουν πάρει το πάνω μέρος του κεφαλιού, ξέρω ότι αυτό είναι ποίηση.” Πρέπει να υπάρχει ένα στοιχείο αντίληψης, αίσθησης ή συναισθηματικής αναγνώρισης, αλλά και γνήσια έκπληξη.
Τα προηγμένα μοντέλα AI όπως το GPT-3 στατιστικά μοντελοποιούν την πιθανότητα των λέξεων να εμφανίζονται μαζί σε διαφορετικά είδη, συμπεριλαμβανομένης της ποίησης. Αυτό σημαίνει ότι μπορούν να παράγουν κάτι που αναγνωρίζουμε ως “ποιητική” γλώσσα, όπως η χρήση υψηλής δικτυωμένης ορολογίας, ρίμης και απροσδόκητων ή σουρεαλιστικών συνδυασμών λέξεων. Αλλά αυτά τα γεννητικά μοντέλα γλώσσας λείπουν της περισσότερης των πόρων, που αναφέρθηκαν παραπάνω, που χρειάζονται για να παράγουν ένα έργο τέχνης που φωτίζει τι σημαίνει να είναι άνθρωπος στη σημερινή εποχή.
Τι βρίσκω ενδιαφέρον για το AI σε ένα δημιουργικό πλαίσιο είναι η δυνατότητά του να παράγει εντελώς νέες εντυπώσεις – εντυπώσεις που είναι διαφορετικές σε είδος και πέρα από την εμβέλεια του ανθρώπινου νου, ακόμη και του πιο πολυμαθούς ή βαθιά διαβασμένου και έμπειρου ανθρώπινου νου. Μόλις το AI έχει συνεχή πρόσβαση σε αισθητηριακά και αντιληπτικά δεδομένα για ανάλυση σε ένα ευρύ φάσμα ανθρώπινων τομέων (οπτικά, αισθητικά, ακουστικά, φυσιολογικά, συναισθηματικά) δεν υπάρχει καμία γνώση για ό,τι θα μάθουμε για τον εαυτό μας και τον κόσμο. Οι αναλυτικές ικανότητες του AI μπορεί να παράγουν γονιμούς νέους χώρους για ανθρώπινη εξερεύνηση.
Έχετε μια φανταστική καριέρα μέχρι τώρα, κατά την άποψή σας, τι κρατά περισσότερες γυναίκες πίσω από το να ενταχθούν στις STEM και συγκεκριμένα στο AI;
Η έλλειψη ρόλων μοντέλων μπορεί να είναι ένας ισχυρός παράγοντας (και ένας βίαιος κύκλος). Υπάρχει μια γνήσια δυσκολία – πολιτιστική, κοινωνική και πρακτική – στο να μπαίνεις σε περιοχές όπου οι γυναίκες, και οι άνθρωποι άλλων διαφορετικών φύλων, δεν έχουν ακόμη μια βαθιά καθιερωμένη παρουσία, και όπου ο σεβασμός για ό,τι μπορούμε να συνεισφέρουμε λείπει συχνά. Η δική μου εμπειρία ως ηγέτης με έχει δείξει πολλές φορές πόσο ανθεκτικές, δημιουργικές και επιτυχημένες ομάδες μπορούν να είναι όταν είναι περιεκτικές διαφορετικών εμπειριών και προοπτικών. Οι ηγέτες πρέπει να είναι τολμηροί στις προσλήψεις τους και θαρραλέοι στην εμπιστοσύνη τους ότι μπορούν να χειριστούν τις προκλήσεις στο τρόπο σκέψης που φέρνουν οι διαφορετικές προοπτικές, γνωρίζοντας ότι αυτή η θαρραλέότητα έχει επίσης αποδειχθεί ότι είναι ισχυρά συσχετισμένη με την οικονομική και εταιρική επιτυχία.
Υπάρχει κάτι άλλο που θα ήθελε να μοιραστεί σχετικά με την Appen ή το AI γενικά;
Οι παρόχοι δεδομένων όπως η Appen έχουν ένα ισχυρό δυναμικό να επηρεάσουν τα αποτελέσματα του AI προς το καλύτερο παρέχοντας περιεκτικά δεδομένα εκπαίδευσης.
Ωστόσο, η επίτευξη του στόχου του περιεκτικού AI θα απαιτήσει από όλους να συμμετάσχουν. Οι αγοραστές δεδομένων πρέπει επίσης να αναγνωρίσουν την ευθύνη τους να ζητήσουν ρητά – και να πληρώσουν – για τα περιεκτικά δεδομένα που θα διασφαλίσουν την βέλτιστη απόδοση των συστημάτων τους για όλους τους χρήστες στον πραγματικό κόσμο. Και εκείνοι από τις διαφορετικές κοινότητες που παρέχουν τα δεδομένα τους για την ανάπτυξη του AI πρέπει να μπορούν να εμπιστεύονται τις χρήσεις στις οποίες θα χρησιμοποιηθούν. Η κατασκευή αυτής της εμπιστοσύνης θα απαιτήσει ισχυρή διαφάνεια και ηθικές πρακτικές από όλους ceux που χειρίζονται ευαίσθητα δεδομένα.
Ευχαριστώ για τη μεγάλη συνέντευξη, απολάυσα να μάθω περισσότερα για τις απόψεις σας για το AI και τη γλωσσολογία. Οι αναγνώστες που επιθυμούν να μάθουν περισσότερα πρέπει να επισκεφθούν Appen.












