entrevistes

Anastassia Loukina, investigadora científica sènior (PNL/Discurs) a ETS - Sèrie d'entrevistes

actualitzat on Desembre 9, 2022

Anastassia Loukina és investigadora científica de Serveis de proves educatives (ETS) on treballa en la puntuació automatitzada de la parla.

Els seus interessos de recerca abasten una àmplia gamma de temes. Ha treballat, entre altres coses, en dialectes grecs moderns, ritme de parla i anàlisi automatitzada de prosòdies.

El seu treball actual se centra a combinar eines i mètodes de les tecnologies de la parla i l'aprenentatge automàtic amb els coneixements d'estudis sobre percepció/producció de la parla per tal de construir models de puntuació automatitzats per avaluar la parla no nativa.

És evident que tens un amor pels idiomes, què et va introduir en aquesta passió?

Vaig créixer parlant rus a Sant Petersburg, Rússia i recordo que em va fascinar quan em van introduir per primera vegada l'idioma anglès: per a algunes paraules, hi havia un patró que permetia "convertir" una paraula russa en una paraula anglesa. I aleshores em trobaria amb una paraula en què el "meu" patró fallava i intentaria trobar una regla millor i més general. En aquella època, és clar, no sabia res de la tipologia lingüística ni de la diferència entre cognats i préstecs, però això va alimentar la meva curiositat i el meu desig d'aprendre més idiomes. Aquesta passió per identificar patrons de com parla la gent i provar-los amb les dades és el que em porta a la fonètica, l'aprenentatge automàtic i la feina que estic fent ara.

Abans del teu treball actual en Processament del llenguatge natural (PNL), vas ser traductor entre l'anglès-rus i el grec-rus modern. Creus que la teva feina com a traductor t'ha donat una visió addicional d'alguns dels matisos i problemes associats a la PNL?

La meva identitat principal sempre ha estat la d'investigador. És cert que vaig començar la meva carrera acadèmica com a estudiós del grec modern, o més concretament, de la fonètica del grec modern. Per al meu treball doctoral, vaig explorar les diferències fonètiques entre diversos dialectes grecs moderns i com les diferències entre aquests dialectes es podrien relacionar amb la història de la zona. Vaig argumentar que algunes de les diferències entre els dialectes podrien haver sorgit com a resultat del contacte lingüístic entre cada dialecte i altres llengües parlades a la zona. Tot i que ja no treballo amb el grec modern, els canvis que es produeixen quan dues llengües entren en contacte continuen sent el centre del meu treball: només que aquesta vegada em concentro en què passa quan una persona està aprenent una nova llengua i com la tecnologia. pot ajudar a fer-ho de la manera més eficient.

Quan es tracta de la llengua anglesa, hi ha una infinitat d'accents. Com dissenyeu un PNL amb la capacitat d'entendre tots els diferents dialectes? És una qüestió senzilla d'alimentar l'algoritme d'aprenentatge profund amb grans dades addicionals de cada tipus d'accent?

Hi ha diversos enfocaments que s'han utilitzat en el passat per solucionar-ho. A més de crear un model gran que cobreixi tots els accents, primer podeu identificar l'accent i després utilitzar un model personalitzat per a aquest accent, o podeu provar diversos models alhora i triar el que funcioni millor. En definitiva, per aconseguir un bon rendiment en una àmplia gamma d'accents necessiteu dades de formació i avaluació representatives dels molts accents que pot trobar un sistema.

A ETS realitzem avaluacions exhaustives per assegurar-nos que les puntuacions produïdes pels nostres sistemes automatitzats reflecteixen les diferències en les habilitats reals que volem mesurar i no estan influenciades per les característiques demogràfiques de l'alumne, com ara el seu gènere, raça o país d'origen.

Nens i/o aprenents d'idiomes sovint tenen dificultats amb la pronunciació perfecta. Com superes el problema de la pronunciació?

No existeix una pronunciació perfecta: la nostra manera de parlar està molt lligada a la nostra identitat i, com a desenvolupadors i investigadors, el nostre objectiu és assegurar-nos que els nostres sistemes siguin justos per a tots els usuaris.

Tant els aprenents d'idiomes com els nens presenten reptes particulars per als sistemes basats en la parla. Per exemple, les veus dels nens no només tenen una qualitat acústica molt diferent sinó que els nens també parlen de manera diferent als adults i hi ha molta variabilitat entre els nens. Com a resultat, desenvolupar un reconeixement de parla automatitzat per a nens sol ser una tasca independent que requereix una gran quantitat de dades de parla infantil.

De la mateixa manera, tot i que hi ha moltes similituds entre aprenents d'idiomes de la mateixa formació, els aprenents poden variar àmpliament en l'ús de patrons fonètics, gramaticals i lèxics, fent que el reconeixement de la parla sigui una tasca especialment difícil. Quan creem els nostres sistemes per avaluar el domini de l'anglès, utilitzem les dades dels aprenents d'idiomes amb una àmplia gamma de competències i idiomes nadius.

El gener de 2018 vau publicar 'Ús de respostes exemplars per entrenar i avaluar sistemes automatitzats de puntuació de la parla'. Quins són alguns dels principals avenços fonamentals que s'han d'entendre d'aquest document?

En aquest article, hem analitzat com la qualitat de les dades de formació i proves afecta el rendiment dels sistemes de puntuació automatitzats.

Els sistemes de puntuació automatitzats, com molts altres sistemes automatitzats, s'entrenen amb dades que s'han etiquetat per a humans. En aquest cas, es tracta de puntuacions assignades pels avaluadors humans. Els valoradors humans no sempre estan d'acord en les puntuacions que assignen. Hi ha diverses estratègies diferents que s'utilitzen en l'avaluació per garantir que la puntuació final comunicada a la persona que pren la prova segueixi sent altament fiable malgrat la variació de l'acord humà a nivell de la pregunta individual. Tanmateix, atès que els motors de puntuació automatitzats solen entrenar-se mitjançant puntuacions a nivell de resposta, qualsevol inconsistència en aquestes puntuacions a causa de la varietat de motius esbossats anteriorment pot afectar negativament el sistema.

Vam poder tenir accés a una gran quantitat de dades amb diferents acords entre evaluadors humans i comparar el rendiment del sistema en diferents condicions. El que hem trobat és que entrenar el sistema amb dades perfectes no millora el seu rendiment en comparació amb un sistema entrenat amb dades amb etiquetes més sorolloses. Les etiquetes perfectes només us donen un avantatge quan la mida total del conjunt d'entrenament és molt baixa. D'altra banda, la qualitat de les etiquetes humanes va tenir un efecte enorme en l'avaluació del sistema: les vostres estimacions de rendiment poden ser fins a un 30% més altes si avalueu les etiquetes netes.

El missatge per emportar és que si teniu moltes dades i recursos per netejar les vostres etiquetes estàndard, pot ser més intel·ligent netejar les etiquetes del conjunt d'avaluació en lloc de les etiquetes del conjunt d'entrenament. I aquesta troballa s'aplica no només a la puntuació automatitzada, sinó també a moltes altres àrees.

Podries descriure alguns dels teus treballs a ETS?

Treballo en un sistema de motor de puntuació de la parla que processa el llenguatge parlat en un context educatiu. Un d'aquests sistemes és SpeechRater®, que utilitza tecnologia avançada de reconeixement i anàlisi de la parla per avaluar i proporcionar comentaris detallats sobre el domini de l'anglès. SpeechRater és una aplicació molt madura que fa més de 10 anys. Creo models de puntuació per a diferents aplicacions i treballo amb altres companys de l'ETS per assegurar-me que les nostres puntuacions siguin fiables, justes i vàlides per a tots els participants. També treballem amb altres grups de l'ETS per supervisar contínuament el rendiment del sistema.

A més de mantenir i millorar els nostres sistemes operatius, fem prototips de nous sistemes. Un dels projectes que estic molt emocionat és RelayReader™: una aplicació dissenyada per ajudar els lectors en desenvolupament a guanyar fluïdesa i confiança. Quan llegeix amb RelayReader, un usuari escolta i llegeix en veu alta un llibre per torns. Aleshores, la seva lectura s'envia als nostres servidors per proporcionar comentaris. Pel que fa al processament de la parla, el principal repte d'aquesta aplicació és com mesurar l'aprenentatge i proporcionar comentaris fiables i accionables de manera discreta, sense interferir amb el compromís del lector amb el llibre.

Quina és la teva part preferida de treballar amb ETS?

El que em va atraure inicialment a ETS és que és una organització sense ànim de lucre amb la missió d'avançar en la qualitat de l'educació per a totes les persones del món. Tot i que, per descomptat, és fantàstic quan la investigació condueix a un producte, agraeixo tenir l'oportunitat de treballar en projectes de naturalesa més fonamental, però que ajudaran amb el desenvolupament del producte en el futur. També estimo el fet que ETS es prengui molt seriosament qüestions com la privadesa i l'equitat de les dades i tots els nostres sistemes se sotmeten a una avaluació molt estricta abans de desplegar-se de manera operativa.

Però el que realment fa que ETS sigui un gran lloc per treballar és la seva gent. Tenim una increïble comunitat de científics, enginyers i desenvolupadors de molts orígens diferents que permeten moltes col·laboracions interessants.

Creus que una IA mai podrà passar la prova de Turing?

Des de la dècada de 1950, hi ha hagut molta interpretació de com s'ha de fer la prova de Turing a la pràctica. Probablement hi ha un acord general que la prova de Turing no s'ha aprovat en un sentit filosòfic que no hi ha cap sistema d'IA que pensi com un humà. Tanmateix, això també s'ha convertit en un tema molt especial. La majoria de la gent no construeix els seus sistemes per passar la prova de Turing; volem que assoleixin objectius específics.

Per a algunes d'aquestes tasques, per exemple, el reconeixement de la parla o la comprensió del llenguatge natural, el rendiment humà es pot considerar correctament l'estàndard d'or. Però també hi ha moltes altres tasques on esperem que un sistema automatitzat funcioni molt millor que els humans o on un sistema automatitzat i un expert humà necessiten treballar junts per aconseguir el millor resultat. Per exemple, en un context educatiu no volem que un sistema d'IA substitueixi un professor: volem que ajudi els docents, ja sigui mitjançant la identificació de patrons en les trajectòries d'aprenentatge dels estudiants, ajuda amb la qualificació o la recerca dels millors materials didàctics.

Hi ha alguna cosa més que t'agradaria compartir sobre ETS o PNL?

Moltes persones coneixen ETS per les seves avaluacions i sistemes de puntuació automatitzats. Però fem molt més que això. Tenim moltes capacitats, des de la biometria de veu fins a les aplicacions de diàleg parlat, i sempre estem buscant noves maneres d'integrar la tecnologia en l'aprenentatge. Ara que molts estudiants estan aprenent des de casa, hem obert diverses de les nostres capacitats de recerca al públic en general.

Gràcies per l'entrevista i per oferir aquesta informació sobre els últims avenços en PNL i reconeixement de parla. Tothom que vulgui aprendre més pot visitar-lo Serveis de proves educatives.