Intelligenza artificiale
Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

Anastassia Loukina è una ricercatrice presso Educational Testing Services (ETS) dove lavora sulla valutazione automatica del discorso.
I suoi interessi di ricerca spaziano su una vasta gamma di argomenti. Ha lavorato, tra le altre cose, sui dialetti greci moderni, sul ritmo del discorso e sull’analisi automatica della prosodia.
Il suo lavoro attuale si concentra sull’integrazione di strumenti e metodi delle tecnologie del discorso e dell’apprendimento automatico con le conoscenze degli studi sulla percezione/produzione del discorso al fine di costruire modelli di valutazione automatica per la valutazione del discorso non nativo.
È chiaro che lei ha una grande passione per le lingue, cosa l’ha introdotta a questa passione?
Sono cresciuta parlando russo a San Pietroburgo, in Russia e ricordo di essere stata affascinata quando ho incontrato per la prima volta la lingua inglese: per alcune parole, c’era un modello che rendeva possibile “convertire” una parola russa in una parola inglese. E poi mi sono imbattuta in una parola in cui il “mio” modello non funzionava e ho cercato di creare una regola migliore, più generale. A quel tempo, naturalmente, non sapevo nulla di tipologia linguistica o della differenza tra cognati e prestiti, ma questo ha alimentato la mia curiosità e il mio desiderio di imparare altre lingue. Questa passione per l’identificazione di modelli nel modo in cui le persone parlano e per testarli sui dati è ciò che mi ha portato alla fonetica, all’apprendimento automatico e al lavoro che sto facendo adesso.
Prima del suo lavoro attuale nel Natural Language Processing (NLP) lei era un traduttore tra inglese-russo e greco moderno-russo. Crede che il suo lavoro come traduttore le abbia dato ulteriori insight sui nuclei e sui problemi associati al NLP?
La mia identità principale è sempre stata quella di ricercatrice. È vero che ho iniziato la mia carriera accademica come studiosa di greco moderno, o più specificamente, di fonetica del greco moderno. Per il mio dottorato, ho esplorato le differenze fonetiche tra diversi dialetti del greco moderno e come le differenze tra questi dialetti potessero essere collegate alla storia dell’area. Ho sostenuto che alcune delle differenze tra i dialetti potrebbero essere emerse come risultato del contatto linguistico tra ogni dialetto e altre lingue parlate nell’area. Anche se non lavoro più sul greco moderno, i cambiamenti che si verificano quando due lingue vengono in contatto l’una con l’altra sono ancora al centro del mio lavoro: solo che questa volta mi concentro su ciò che accade quando un individuo sta imparando una nuova lingua e su come la tecnologia possa aiutare a farlo nel modo più efficiente.
Quando si tratta della lingua inglese, ci sono una miriade di accenti. Come progetta un NLP con la capacità di comprendere tutti i diversi dialetti? È una questione semplice di alimentare l’algoritmo di apprendimento profondo con ulteriori big data da ogni tipo di accento?
Ci sono diversi approcci che sono stati utilizzati in passato per affrontare questo problema. Oltre a costruire un unico modello che copra tutti gli accenti, potresti identificare prima l’accento e poi utilizzare un modello personalizzato per quell’accento, o puoi provare più modelli contemporaneamente e scegliere quello che funziona meglio. In ultima analisi, per ottenere una buona prestazione su una vasta gamma di accenti, hai bisogno di dati di training e valutazione rappresentativi dei molti accenti che un sistema potrebbe incontrare.
In ETS conduciamo valutazioni complete per assicurarci che i punteggi prodotti dai nostri sistemi automatici riflettano le differenze nelle abilità reali che vogliamo misurare e non siano influenzati dalle caratteristiche demografiche dell’apprendente, come il loro genere, razza o paese di origine.
I bambini e/o gli apprendenti di lingue spesso hanno difficoltà con la pronuncia perfetta. Come supera il problema della pronuncia?
Non esiste una cosa come la pronuncia perfetta: il modo in cui parliamo è strettamente legato alla nostra identità e, come sviluppatori e ricercatori, il nostro obiettivo è assicurarci che i nostri sistemi siano equi per tutti gli utenti.
Sia i bambini che gli apprendenti di lingue presentano sfide particolari per i sistemi basati sul discorso. Ad esempio, le voci dei bambini non hanno solo una qualità acustica molto diversa, ma i bambini parlano anche in modo diverso dagli adulti e c’è molta variabilità tra i bambini. Di conseguenza, sviluppare un riconoscimento automatico del discorso per i bambini è di solito un compito separato che richiede una grande quantità di dati di discorso infantile.
Allo stesso modo, anche se ci sono molte somiglianze tra gli apprendenti di lingue provenienti dallo stesso background, gli apprendenti possono variare ampiamente nell’uso di modelli fonetici, grammaticali e lessicali, rendendo il riconoscimento del discorso un compito particolarmente impegnativo. Quando costruiamo i nostri sistemi per la valutazione della competenza linguistica inglese, utilizziamo i dati di apprendenti di lingue con una vasta gamma di competenze e lingue native.
Nel gennaio 2018, ha pubblicato ‘Utilizzo di risposte esemplari per l’addestramento e la valutazione dei sistemi di valutazione automatica del discorso‘. Quali sono alcuni dei principali progressi fondamentali che dovrebbero essere compresi da questo documento?
In questo documento, abbiamo esaminato come la qualità dei dati di training e testing influisca sulla prestazione dei sistemi di valutazione automatica.
I sistemi di valutazione automatica, come molti altri sistemi automatici, sono addestrati su dati etichettati per gli esseri umani. In questo caso, si tratta di punteggi assegnati da valutatori umani. I valutatori umani non sempre concordano nei punteggi che assegnano. Ci sono diverse strategie utilizzate nella valutazione per assicurarsi che il punteggio finale riportato al candidato rimanga altamente affidabile nonostante la variazione nell’accordo umano a livello di singola domanda. Tuttavia, poiché i motori di valutazione automatica sono solitamente addestrati utilizzando punteggi a livello di risposta, eventuali incoerenze in tali punteggi a causa della varietà di motivi sopra menzionati potrebbero influire negativamente sul sistema.
Siamo stati in grado di accedere a una grande quantità di dati con diversi accordi tra valutatori umani e di confrontare le prestazioni del sistema in diverse condizioni. Quello che abbiamo trovato è che addestrare il sistema su dati perfetti non migliora effettivamente le sue prestazioni rispetto a un sistema addestrato su dati con etichette più rumorose. Le etichette perfette ti danno un vantaggio solo quando la dimensione totale dell’insieme di training è molto bassa. D’altra parte, la qualità delle etichette umane ha avuto un enorme effetto sulla valutazione del sistema: le tue stime di prestazione possono essere fino al 30% più alte se valuti su etichette pulite.
Il messaggio da prendere è che se hai molti dati e risorse per pulire le etichette di riferimento, potrebbe essere più intelligente pulire le etichette nel set di valutazione piuttosto che le etichette nel set di training. E questo risultato si applica non solo alla valutazione automatica, ma anche a molte altre aree.
Potrebbe descrivere alcuni dei suoi lavori presso ETS?
Lavoro su un sistema di valutazione del discorso che elabora la lingua parlata in un contesto educativo. Uno di questi sistemi è SpeechRater®, che utilizza tecnologie avanzate di riconoscimento e analisi del discorso per valutare e fornire feedback dettagliato sulla competenza linguistica inglese parlata. SpeechRater è un’applicazione molto matura che esiste da oltre 10 anni. Costruisco modelli di valutazione per diverse applicazioni e lavoro con altri colleghi in ETS per assicurarmi che i nostri punteggi siano affidabili, equi e validi per tutti i candidati. Lavoriamo anche con altri gruppi in ETS per monitorare costantemente le prestazioni del sistema.
Oltre a mantenere e migliorare i nostri sistemi operativi, prototipiamo nuovi sistemi. Uno dei progetti che mi entusiasma particolarmente è RelayReader™: un’applicazione progettata per aiutare i lettori in sviluppo a guadagnare fluidità e fiducia. Quando si legge con RelayReader, un utente alterna ascolto e lettura ad alta voce di un libro. La loro lettura viene quindi inviata ai nostri server per fornire feedback. In termini di elaborazione del discorso, la principale sfida di questa applicazione è come misurare l’apprendimento e fornire feedback azionabile e affidabile in modo non invasivo, senza interferire con l’impegno del lettore con il libro.
Qual è la sua parte preferita del lavoro con ETS?
Ciò che mi ha inizialmente attirato in ETS è che si tratta di un’organizzazione no-profit con una missione di avanzare la qualità dell’istruzione per tutte le persone in tutto il mondo. Mentre naturalmente è fantastico quando la ricerca porta a un prodotto, apprezzo l’opportunità di lavorare su progetti che sono più fondamentali per natura, ma che aiuteranno lo sviluppo del prodotto in futuro. Apprezzo anche il fatto che ETS prende molto seriamente questioni come la privacy dei dati e l’equità e che tutti i nostri sistemi subiscono una valutazione molto rigorosa prima di essere distribuiti operativamente.
Ma ciò che rende ETS un ottimo posto in cui lavorare sono le persone. Abbiamo una comunità incredibile di scienziati, ingegneri e sviluppatori provenienti da molti background diversi, il che consente molte collaborazioni interessanti.
Crede che un’intelligenza artificiale sarà mai in grado di superare il test di Turing?
Dal 1950, ci sono state molte interpretazioni di come il test di Turing debba essere eseguito nella pratica. C’è probabilmente un accordo generale sul fatto che il test di Turing non sia stato superato in senso filosofico, nel senso che non esiste un sistema di intelligenza artificiale che pensi come un essere umano. Tuttavia, questo è anche diventato un argomento molto di nicchia. La maggior parte delle persone non costruisce i propri sistemi per superare il test di Turing: vogliamo che raggiungano obiettivi specifici.
Per alcuni di questi compiti, ad esempio il riconoscimento del discorso o la comprensione del linguaggio naturale, le prestazioni umane potrebbero essere giustamente considerate lo standard oro. Tuttavia, ci sono anche molti altri compiti in cui ci aspettiamo che un sistema automatico funzioni molto meglio degli esseri umani o in cui un sistema automatico e un esperto umano devono lavorare insieme per ottenere il miglior risultato. Ad esempio, in un contesto educativo, non vogliamo che un sistema di intelligenza artificiale sostituisca un insegnante: vogliamo che aiuti gli insegnanti, sia attraverso l’identificazione di modelli nei percorsi di apprendimento degli studenti, aiutando con la valutazione o trovando i migliori materiali didattici.
C’è qualcos’altro che lei vorrebbe condividere su ETS o NLP?
Molte persone conoscono ETS per le sue valutazioni e sistemi di valutazione automatica. Ma facciamo molto più di questo. Abbiamo molte capacità, dalla biometria vocale alle applicazioni di dialogo parlato, e stiamo sempre cercando nuovi modi per integrare la tecnologia nell’apprendimento. Ora che molti studenti stanno imparando da casa, abbiamo aperto alcune delle nostre capacità di ricerca al pubblico in generale.
Grazie per l’intervista e per aver offerto questo insight sugli ultimi progressi nel NLP e nel riconoscimento del discorso. Chiunque desideri saperne di più può visitare Educational Testing Services.












