Inteligență artificială
Anastassia Loukina, Senior Research Scientist (NLP/Speech) la ETS – Seria de interviuri

Anastassia Loukina este cercetător științific la Educational Testing Services (ETS), unde lucrează la evaluarea automată a vorbirii.
Interesele sale de cercetare acoperă o gamă largă de subiecte. Ea a lucrat, printre altele, la dialectele grecești moderne, ritmul vorbirii și analiza automată a prozodiei.
Lucrarea sa actuală se concentrează pe combinarea instrumentelor și metodelor din tehnologiile vorbirii și învățarea automată cu insight-uri din studii despre percepția și producerea vorbirii, pentru a construi modele de evaluare automate pentru evaluarea vorbirii non-native.
Este evident că aveți o iubire pentru limbi, ce v-a introdus în această pasiune?
Am crescut vorbind rusă la St. Petersburg, Rusia și îmi amintesc că am fost fascinat când am fost introdus pentru prima dată în limba engleză: pentru unele cuvinte, exista un model care făcea posibilă “conversia” unui cuvânt rus într-un cuvânt englez. Și apoi dădeam peste un cuvânt unde “modelul” meu a eșuat și încercam să vin cu o regulă mai bună, mai generală. La acea vreme, desigur, nu știam nimic despre tipologia lingvistică sau despre diferența dintre cuvinte împrumutate și cuvinte moștenite, dar acest lucru a alimentat curiozitatea și dorința mea de a învăța mai multe limbi. Această pasiune pentru identificarea modelelor în felul în care oamenii vorbesc și testarea lor pe date este ceea ce m-a condus la fonetică, învățarea automată și la lucrul pe care îl fac acum.
Înainte de a lucra la Natural Language Processing (NLP), ați fost traducător între engleză-rusă și greacă modernă-rusă. Credeți că lucrul dvs. ca traducător v-a oferit insight-uri suplimentare în ceea ce privește nuanțele și problemele asociate cu NLP?
Identitatea mea principală a fost întotdeauna aceea de cercetător. Este adevărat că am început cariera mea academică ca savant al limbii grecești moderne, sau mai specific, al foneticii limbii grecești moderne. Pentru lucrarea mea doctorală, am explorat diferențele fonetice dintre mai multe dialecte ale limbii grecești moderne și cum diferențele dintre aceste dialecte ar fi putut fi legate de istoria zonei. Am argumentat că unele dintre diferențele dintre dialecte ar fi putut apărea ca urmare a contactului lingvistic dintre fiecare dialect și alte limbi vorbite în zonă. Deși nu mai lucrez la limba greacă modernă, schimbările care au loc atunci când două limbi intră în contact una cu cealaltă sunt încă în centrul lucrului meu: doar că de data aceasta mă concentrez pe ceea ce se întâmplă atunci când un individ învață o nouă limbă și cum tehnologia poate ajuta la acest proces în modul cel mai eficient.
Când vine vorba de limba engleză, există o multitudine de accente. Cum proiectați un NLP cu capacitatea de a înțelege toate dialectele diferite? Este oare un lucru simplu de a hrăni algoritmul de învățare profundă cu date suplimentare mari din fiecare tip de accent?
Există mai multe abordări care au fost utilizate în trecut pentru a aborda această problemă. În plus față de a construi un singur model mare care acoperă toate accentele, puteți identifica mai întâi accentul și apoi utiliza un model personalizat pentru acest accent, sau puteți încerca mai multe modele simultan și alegeți cel care funcționează cel mai bine. În cele din urmă, pentru a obține o performanță bună pe o gamă largă de accente, aveți nevoie de date de antrenare și evaluare reprezentative pentru multe accente pe care sistemul le-ar putea întâlni.
La ETS, efectuăm evaluări cuprinzătoare pentru a ne asigura că scorurile produse de sistemele noastre automate reflectă diferențele reale în abilitățile pe care dorim să le măsurăm și nu sunt influențate de caracteristicile demografice ale învățătorului, cum ar fi sexul, rasa sau țara de origine.
Copiii și/sau învățătorii de limbă adesea au dificultăți cu pronunția perfectă. Cum depășiți problema pronunției?
Nu există un lucru ca o pronunție perfectă: felul în care vorbim este strâns legat de identitatea noastră și, ca dezvoltatori și cercetători, scopul nostru este să ne asigurăm că sistemele noastre sunt corecte pentru toți utilizatorii.
Atât copiii, cât și învățătorii de limbă prezintă provocări speciale pentru sistemele bazate pe vorbire. De exemplu, vocile copiilor nu numai că au o calitate acustică foarte diferită, dar copiii vorbesc și diferit de adulți și există o mare varietate între copii. Ca urmare, dezvoltarea unui sistem de recunoaștere automată a vorbirii pentru copii este de obicei o sarcină separată care necesită o cantitate mare de date de vorbire ale copiilor.
La fel, deși există multe asemănări între învățătorii de limbă din același mediu, învățătorii pot varia foarte mult în utilizarea modelelor fonetice, gramaticale și lexicale, făcând recunoașterea vorbirii o sarcină deosebit de dificilă. Când construim sistemele noastre pentru evaluarea competenței lingvistice în limba engleză, utilizăm date de la învățători de limbă cu o gamă largă de competențe și limbi materne.
În ianuarie 2018, ați publicat ‘Utilizarea răspunsurilor exemplare pentru antrenarea și evaluarea sistemelor automate de evaluare a vorbirii‘. Care sunt unele dintre principalele descoperiri fundamentale care ar trebui înțelese din această lucrare?
În această lucrare, am examinat modul în care calitatea datelor de antrenare și testare afectează performanța sistemelor automate de evaluare.
Sistemele automate de evaluare, ca și multe alte sisteme automate, sunt antrenate pe date care au fost etichetate de către oameni. În acest caz, acestea sunt scoruri atribuite de evaluatorii umani. Evaluatorii umani nu sunt întotdeauna de acord cu scorurile pe care le atribuie. Există mai multe strategii utilizate în evaluare pentru a se asigura că scorul final raportat testatorului rămâne foarte fiabil, în ciuda variației în acordul uman la nivelul întrebării individuale. Cu toate acestea, deoarece sistemele automate de evaluare sunt de obicei antrenate utilizând scoruri la nivel de răspuns, orice incoerențe în astfel de scoruri datorate varietății de motive menționate mai sus pot afecta negativ sistemul.
Am avut acces la o cantitate mare de date cu diferite acorduri între evaluatorii umani și am comparat performanța sistemului în diferite condiții. Ceea ce am găsit este că antrenarea sistemului pe date perfecte nu îmbunătățește în realitate performanța sa față de un sistem antrenat pe date cu etichete mai zgomotoase. Etichetele perfecte vă oferă un avantaj doar atunci când dimensiunea totală a setului de antrenare este foarte mică. Pe de altă parte, calitatea etichetelor umane a avut un efect uriaș asupra evaluării sistemului: estimările dvs. de performanță pot fi cu până la 30% mai mari dacă evaluați pe etichete curate.
Mesajul principal este că, dacă aveți multe date și resurse pentru a curăța etichetele dvs. de referință, s-ar putea să fie mai inteligent să curățați etichetele din setul de evaluare, mai degrabă decât etichetele din setul de antrenare. Și această constatare se aplică nu numai evaluării automate, ci și multor alte domenii.
Ne puteți descrie o parte din lucrul dvs. la ETS?
Lucrez la un sistem de evaluare a vorbirii care procesează limba vorbită într-un context educațional. Un astfel de sistem este SpeechRater®, care utilizează tehnologia avansată de recunoaștere și analiză a vorbirii pentru a evalua și a oferi feedback detaliat despre competența lingvistică în limba engleză. SpeechRater este o aplicație foarte matură care există de peste 10 ani. Construiesc modele de evaluare pentru diferite aplicații și lucrez cu alți colegi de la ETS pentru a ne asigura că scorurile noastre sunt fiabile, corecte și valabile pentru toți testatorii. De asemenea, lucrăm cu alte grupuri de la ETS pentru a monitoriza în mod continuu performanța sistemului.
În plus față de menținerea și îmbunătățirea sistemelor noastre operaționale, prototipăm sisteme noi. Unul dintre proiectele la care sunt foarte entuziasmat este RelayReader™: o aplicație proiectată pentru a ajuta cititorii în dezvoltare să câștige fluență și încredere. Când citiți cu RelayReader, un utilizator alternează între a asculta și a citi cu voce tare o carte. Citirea lor este apoi trimisă pe serverele noastre pentru a oferi feedback. În ceea ce privește procesarea vorbirii, principala provocare a acestei aplicații este modul în care se măsoară învățarea și se oferă feedback util și fiabil, fără a interfera cu implicarea cititorului în carte.
Ce este partea dvs. preferată a lucrului la ETS?
Ceea ce m-a atras inițial la ETS este faptul că este o organizație non-profit cu misiunea de a avansa calitatea educației pentru toți oamenii din lume. În timp ce, desigur, este minunat când cercetarea conduce la un produs, apreciez oportunitatea de a lucra la proiecte care sunt mai fundamentale în natură, dar care vor ajuta la dezvoltarea de produse în viitor. De asemenea, prețuiesc faptul că ETS ia foarte în serios problemele legate de confidențialitatea datelor și corectitudine, iar toate sistemele noastre sunt supuse unei evaluări foarte stricte înainte de a fi implementate operațional.
Dar ceea ce face cu adevărat ETS un loc minunat de lucru este oamenii. Avem o comunitate uimitoare de oameni de știință, ingineri și dezvoltatori din multe medii diferite, ceea ce permite colaborări foarte interesante.
Credeți că un AI va reuși vreodată să treacă testul Turing?
De la anii 1950, a existat o mulțime de interpretări cu privire la modul în care testul Turing ar trebui realizat în practică. Probabil că există un acord general că testul Turing nu a fost trecut în sensul filosofic că nu există niciun sistem AI care să gândească ca un om. Cu toate acestea, acesta a devenit și un subiect foarte de nișă. Majoritatea oamenilor nu construiesc sisteme pentru a trece testul Turing – dorim ca acestea să atingă obiective specifice.
Pentru unele dintre aceste sarcini, de exemplu, recunoașterea vorbirii sau înțelegerea limbajului natural, performanța umană poate fi considerată în mod justificat standardul de aur. Cu toate acestea, există și multe alte sarcini în care ne așteptăm ca un sistem automat să funcționeze mult mai bine decât oamenii sau în care un sistem automat și un expert uman trebuie să lucreze împreună pentru a obține cel mai bun rezultat. De exemplu, într-un context educațional, nu dorim ca un sistem AI să înlocuiască un profesor: dorim ca acesta să ajute profesorii, fie prin identificarea modelelor în traiectoriile de învățare ale elevilor, ajutor la notare sau găsirea celor mai bune materiale didactice.
Există altceva pe care ați dori să-l împărtășiți despre ETS sau NLP?
Mulți oameni cunosc ETS pentru evaluările și sistemele sale de evaluare automate. Dar facem mult mai mult decât atât. Avem multe capacități, de la biometria vocală la aplicații de dialog vorbit și suntem întotdeauna în căutarea unor modalități noi de a integra tehnologia în procesul de învățare. Acum, că mulți studenți învață de acasă, am deschis mai multe dintre capacitățile noastre de cercetare publicului larg.
Mulțumim pentru interviu și pentru oferirea acestor insight-uri despre ultimele avansuri în NLP și recunoașterea vorbirii. Cine dorește să afle mai multe poate vizita Educational Testing Services.












