Interviuri
Dr. Judith Bishop, Director Senior al Specialiștilor în Inteligență Artificială la Appen – Seria de Interviuri

Dr. Judith Bishop este Director Senior al Specialiștilor în Inteligență Artificială pentru regiunea APAC/SUA la Appen. Ea conduce și dezvoltă o echipă de top, formată din lingviști calificați și experimentați, lingviști computaționali și experți în toate modurile de comunicare umană (vorbire, scriere și gest), pentru a furniza date de antrenament pentru inteligența artificială cu o combinație nemaiîntâlnită de calitate și viteză.
Ce v-a atras inițial către lingvistică?
Am aflat despre lingvistică de la un profesor de engleză preferat în liceu. Eram unul dintre acei copii care sunt la fel de atrași de limbi străine și științe umaniste, precum și de matematică și științe. Lingvistica este știința despre modul în care funcționează limba, așa că a adus împreună aceste interese pentru mine. Ca și mulți alți oameni, odată ce am aflat despre ea, am fost complet captivat. Ce ar putea fi mai fascinant decât modul în care ne comunicăm gândurile și sentimentele unii altora? Lingvistica explorează structurile lingvistice care, în ciuda tuturor diferențelor de sunete și sisteme de scriere, sunt adesea similare în esență, deoarece toate sunt produsul, în final, al existenței noastre umane comune.
Puteți împărtăși povestea genezei despre cum ați ajuns să lucrați în domeniul inteligenței artificiale?
Am lucrat la Appen din 2004, sprijinind dezvoltarea de produse și servicii de tehnologie lingvistică. De-a lungul acestui timp, inteligența artificială a apărut ca un cadru cuprinzător, misiune și viziune pentru tehnologie pentru a imita și extinde capacitățile umane de comunicare, raționament și percepție. În 2019, echipa mea și-a schimbat numele în Specialiști în Inteligență Artificială, recunoscând că cunoștințele noastre lingvistice și de limbă sunt esențiale pentru întreprinderea inteligenței artificiale. Datele noastre annotate oferă un sprijin esențial pentru succesul interacțiunilor umane cu produsele și serviciile de inteligență artificială.
Ați lucrat în domeniul inteligenței artificiale timp de peste 16 ani, ce sunt unele dintre cele mai mari schimbări pe care le-ați văzut?
Schimbarea majoră a fost o diversificare a accentului de la dezvoltarea tehnologiei de bază la o multitudine de cazuri de utilizare și aplicații. Pentru cea mai mare parte a carierei mele, accentul inteligenței artificiale bazate pe limbă a fost de a dezvolta și rafina un set central de modele care imită percepția și producția vorbirii umane, și anume recunoașterea vorbirii, sinteza vorbirii și procesarea limbajului natural. Seturile de date au conformat în general standardelor și convențiilor de etichetare și eșantionare a datelor, cum ar fi cele dezvoltate de consorțiul Speecon (Interfețe conduse de vorbire pentru dispozitive de consum). Aceste standarde au permis dezvoltatorilor de tehnologie de bază să-și evalueze performanța pe structuri de date comune și au sprijinit evoluția rapidă a inteligenței artificiale.
Extinderea pervasivă a cazurilor de utilizare a inteligenței artificiale în ultimii ani, însă, a adus cu sine recunoașterea că modelele centrale, generice de inteligență artificială construite cu aceste date nu funcționează adecvat pe tipuri de date mai specializate fără o ajustare suplimentară. Mai mult, fiind dezvoltate pe date care au fost intenționat curate și “standard”, aceste modele trebuie acum antrenate sau actualizate pentru a înțelege și răspunde tuturor diversității de intrări umane: toate dialectele, toate accentele, toate etniile, toate genurile și toate celelalte dimensiuni ale diferențelor umane.
Puteți discuta despre importanța datelor neînclinate în învățarea automată?
Modelele de învățare automată, fie că sunt supervizate, nesupervizate sau de învățare prin întărire, vor reflecta încălcările prezentate în datele pe care sunt antrenate. Alyssa Simpson Rochwerger și Wilson Pang oferă câteva exemple excelente ale acestei probleme în cartea lor recentă, Inteligență Artificială în Lumea Reală. Dacă există date de antrenament insuficiente pentru un segment al populației, modelul de inteligență artificială va fi mai puțin precis pentru acel segment.
Într-un alt caz comun, reprezentarea populației poate fi suficientă, dar dacă datele de antrenament conțin corelații între punctele de date care reflectă condiții reale, dar nedorite, din lume (cum ar fi o rată mai mică de angajare pentru femei sau o rată mai mare de încarcerare pentru afro-americani), aplicațiile rezultate ale inteligenței artificiale pot întări și perpetua aceste condiții.
Asocierile prezente în limbajul în general pot crea încălcări în aplicațiile de procesare a limbajului natural, care se bazează pe relații statistice cunoscute sub numele de încorporări de cuvinte. Dacă “ea” și “asistentă” sunt asociate mai frecvent în datele de antrenament selectate decât “ei” sau “el” și “asistentă”, atunci aplicația rezultată va folosi “ea” atunci când este forțată să aleagă un pronume singular pentru a se referi la o asistentă. Pentru a aborda această problemă specifică, cercetătorii au dezvoltat recent o variantă neutră din punct de vedere al genului a unui algoritm de încorporare de cuvinte utilizat în mod obișnuit, GN-GloVe.
În aplicațiile sensibile, problemele de încălcare a datelor, cum ar fi cele menționate mai sus, pot avea un impact devastator asupra utilizatorilor și pot anula investiția de afaceri. Vestea bună este că, pe lângă dezvoltarea de noi seturi de date mai transparente și mai incluzive, o serie tot mai mare de aplicații de știință a datelor sunt dezvoltate pentru a verifica prezența încălcărilor în seturile de date de antrenament existente și în aplicațiile de inteligență artificială.
Appen a lansat recent noi seturi de date de antrenament diverse pentru inițiativele de procesare a limbajului natural (NLP). Puteți împărtăși detalii despre cum aceste seturi de date vor permite utilizatorilor finali să primească aceeași experiență, indiferent de varietatea de limbă, dialect, etnolect, accent, rasă sau gen?
Pentru motivele menționate mai sus, sunt necesare seturi de date pentru a corecta încălcările existente în sistemele de producție a inteligenței artificiale, pe lângă seturile de date mai incluzive pentru antrenarea sistemelor viitoare. Seturile de date Appen pe care le menționați vor sprijini corectarea încălcărilor legate de etnie și de etnolecte asociate, cum ar fi engleza vernaculară african-americană. Vor furniza date suplimentare de antrenament pentru a spori reprezentarea acestei populații în modelele de limbă ale inteligenței artificiale.
Etnia este în curs de a deveni o dimensiune demografică critică pentru etichetarea explicită în datele de inteligență artificială. Lingviștii se referă la varietățile de limbă asociate cu etnii specifice ca “etnolecte”. Furnizorii de date de inteligență artificială, cum ar fi Appen, recunosc acum că, dacă populațiile cheie și diverse nu sunt reprezentate în mod explicit în seturile de date de antrenament pentru inteligență artificială, nu putem asigura că sistemele rezultate funcționează la fel de bine pentru aceste populații.
Performanța egală înseamnă că sistemul recunoaște cu aceeași acuratețe cuvintele și intențiile utilizatorului (înțelesurile sau acțiunile pe care dorește să le realizeze) și, în unele cazuri, sentimentul; și că răspunde în moduri care satisfac în mod egal nevoile utilizatorului și nu produc un impact mai negativ asupra unei anumite populații de utilizatori, fie practic, fie psihologic.
O abordare de colectare a datelor de lungă durată a fost de a se concentra pe mostre geografice și dialectale reprezentative în baze de date – presupunând că acest lucru va asigura faptul că tehnologia se va generaliza la întreaga populație de vorbitori de limbă. Performanța relativ slabă a tehnologiilor lingvistice documentate recent pentru vorbitorii de engleză vernaculară african-americană a arătat că acest lucru nu este adevărat. Populațiile diverse din punct de vedere etnic, rasial, de gen și accent, printre alte dimensiuni, trebuie să fie incluse proactiv în seturile de date de antrenament pentru a asigura că vocile lor sunt auzite și înțelese de produsele și serviciile de inteligență artificială. Seturile de date diverse de inteligență artificială Appen abordează această nevoie.
În afara inteligenței artificiale, sunteți și poet, cu mai multe dintre poeziile dvs. câștigând diferite premii din industrie. Care sunt punctele dvs. de vedere despre inteligența artificială viitoare care va arăta acest tip de creativitate, inclusiv scrierea de poezie?
Este o întrebare fascinantă. Poezia și alte forme de creativitate umană se bazează pe toate resursele noastre umane de memorie, percepție, senzație și emoție, precum și pe structurile și nuanțele limbajului și imaginii, pentru a produce insight-uri care rezonă cu preocupările contemporane. Emily Dickinson a scris: “Dacă citesc o carte și îmi face întregul corp atât de rece, încât niciun foc nu mă poate încălzi, știu că aceasta este poezie. Dacă simt fizic ca și cum partea superioară a capului meu ar fi luată, știu că aceasta este poezie.” Trebuie să existe un element de recunoaștere perceptuală, senzorială sau emoțională, dar și o surpriză autentică.
Modelele avansate de inteligență artificială, cum ar fi GPT-3, modelează statistic probabilitatea cuvintelor de a apărea împreună în diferite genuri, inclusiv poezie. Acest lucru înseamnă că pot produce ceva pe care îl recunoaștem ca “limbaj poetic”, cum ar fi utilizarea unei dicționare înălțate, rimă și combinații neașteptate sau suprarealiste de cuvinte. Dar aceste modele generative de limbaj lipsesc majoritatea resurselor menționate mai sus, care sunt necesare pentru a produce o operă de artă care să ilustreze ceea ce înseamnă să fii om în prezent.
Ce găsesc însă convingător despre inteligența artificială într-un context creativ este potențialul său de a produce insight-uri complet noi – insight-uri care sunt diferite ca natură și dincolo de puterea oricărui singur minte umană, chiar și a celui mai polimat sau profund citit și experimentat. Odată ce inteligența artificială are acces consistent la date senzoriale și percepționale pentru analiză într-o gamă largă de domenii umane (vizual, tactil, auditiv, fiziologic, emoțional), nu există nicio limită a ceea ce vom învăța despre noi înșine și lume. Capacitățile analitice ale inteligenței artificiale pot produce noi terenuri fertile pentru explorarea creativă umană.
Ați avut o carieră fenomenală până acum, în opinia dvs., ce împiedică mai multe femei să se alăture STEM și, în special, inteligenței artificiale?
Lipsa modelelor de rol poate fi un factor puternic (și un cerc vicios). Există o dificultate reală – culturală, socială și practică – în a pătrunde în domenii în care femeile și persoanele de alte genuri diverse nu au încă o prezență profund stabilită și în care respectul pentru ceea ce putem contribui este adesea lipsă. Experiența mea ca lider mi-a arătat de nenumărate ori cât de rezistente, creative și de succes pot fi echipele atunci când sunt incluzive pentru experiențe și orientări diverse. Liderii trebuie să fie aventuroși în angajarea lor și curajoși în încrederea lor că pot face față provocărilor aduse modului lor de gândire de perspective diverse, știind că această curaj este, de asemenea, puternic corelată cu succesul financiar și corporativ.
Există altceva pe care ați dori să-l împărtășiți despre Appen sau inteligența artificială în general?
Furnizorii de date, cum ar fi Appen, au un potențial puternic de a influența rezultatele inteligenței artificiale în bine, prin furnizarea de date de antrenament incluzive.
Cu toate acestea, atingerea obiectivului de inteligență artificială incluzivă va necesita participarea tuturor. Cumpărătorii de date trebuie, de asemenea, să-și recunoască responsabilitatea de a cere în mod explicit – și de a plăti – pentru datele incluzive care vor asigura performanța optimă a sistemelor pentru toți utilizatorii din lumea reală. Și cei din comunitățile diverse care furnizează date pentru dezvoltarea inteligenței artificiale trebuie să poată avea încredere în utilizările la care vor fi supuse. Construirea acestei încrederi va necesita practici transparente și etice puternice din partea tuturor celor care manipulează date sensibile.
Mulțumim pentru interviul minunat, am apreciat să aflu mai multe despre punctele dvs. de vedere despre inteligența artificială și lingvistică. Citiitorii care doresc să afle mai multe trebuie să viziteze Appen.












