Artificiell intelligens
Anastassia Loukina, Senior Research Scientist (NLP/Speech) pĂ„ ETS – Intervjuserie

Anastassia Loukina är en forskningsvetenskapsman på Educational Testing Services (ETS) där hon arbetar med automatisk poängsättning av tal.
Hennes forskningsintressen spänner över ett brett spektrum av ämnen. Hon har bland annat arbetat med moderna grekiska dialekter, tals rytm och automatisk prosodianalys.
Hennes nuvarande arbete fokuserar på att kombinera verktyg och metoder från talteknologier och maskinlärning med insikter från studier om tals perception/produktion för att bygga automatiska poängsättningsmodeller för att utvärdera icke-infödda tal.
Du har tydligtvis en kärlek till språk, vad introducerade dig till denna passion?
Jag växte upp med att tala ryska i St Petersburg, Ryssland och jag minns att jag blev fascinerad när jag först introducerades till det engelska språket: för vissa ord fanns det ett mönster som gjorde det möjligt att “omvandla” ett ryskt ord till ett engelskt ord. Och sedan skulle jag komma över ett ord där “mitt” mönster misslyckades och försöka komma med en bättre, mer allmän regel. Vid den tiden visste jag naturligtvis ingenting om lingvistisk typologi eller skillnaden mellan kognater och lånord, men detta bränsle min nyfikenhet och önskan att lära mig fler språk. Denna passion för att identifiera mönster i hur människor talar och testa dem på data är vad som ledde mig till fonetik, maskinlärning och det arbete jag gör nu.
Före ditt nuvarande arbete inom Natural Language Processing (NLP) var du översättare mellan engelska-ryska och modern grekiska-ryska. Tror du att ditt arbete som översättare har gett dig ytterligare insikter i några av de nyanser och problem som är förknippade med NLP?
Min primära identitet har alltid varit den som forskare. Det är sant att jag började min akademiska karriär som en forskare inom modern grekiska, eller mer specifikt, modern grekisk fonetik. För min doktorsavhandling undersökte jag fonetiska skillnader mellan flera moderna grekiska dialekter och hur skillnaderna mellan dessa dialekter kunde kopplas till områdets historia. Jag hävdade att vissa av skillnaderna mellan dialekterna kunde ha uppkommit som ett resultat av språkkontakt mellan varje dialekt och andra språk som talades i området. Även om jag inte längre arbetar med modern grekiska, är de förändringar som sker när två språk kommer i kontakt med varandra fortfarande i centrum för mitt arbete: bara den här gången fokuserar jag på vad som händer när en individ lär sig ett nytt språk och hur teknologi kan hjälpa till att göra detta så effektivt som möjligt.
När det gäller det engelska språket, finns det en mängd olika accenter. Hur designar du en NLP med förmågan att förstå alla olika dialekter? Är det en enkel fråga om att mata den djupa inlärningsalgoritmen med ytterligare stora data från varje typ av accent?
Det finns flera tillvägagångssätt som har använts tidigare för att hantera detta. Utöver att bygga en stor modell som täcker alla accenter, kan du först identifiera accenten och sedan använda en anpassad modell för denna accent, eller så kan du försöka med flera modeller samtidigt och välja den som fungerar bäst. Till slut, för att uppnå en bra prestanda på en stor mängd accenter, behöver du tränings- och utvärderingsdata som representerar de många accenter som systemet kan möta.
På ETS genomför vi omfattande utvärderingar för att säkerställa att de poäng som produceras av våra automatiska system återspeglar skillnader i de faktiska färdigheter vi vill mäta och inte påverkas av den demografiska karaktären hos lärande, såsom deras kön, ras eller ursprungsland.
Barn och/eller språkinlärare har ofta svårt att uppnå perfekt uttal. Hur övervinner du uttalsproblemet?
Det finns inget sådant som perfekt uttal: sättet vi talar på är nära kopplat till vår identitet och som utvecklare och forskare är vårt mål att säkerställa att våra system är rättvist för alla användare.
Både språkinlärare och barn presenterar särskilda utmaningar för talbaserade system. Till exempel har barns röster inte bara en mycket annorlunda akustisk kvalitet, utan barn talar också annorlunda än vuxna och det finns en stor variation mellan barn. Som ett resultat är utveckling av automatisk taligenkänning för barn vanligtvis en separat uppgift som kräver en stor mängd barns talsdata.
På liknande sätt, även om det finns många likheter mellan språkinlärare från samma bakgrund, kan inlärare variera mycket i sin användning av fonetiska, grammatiska och lexikala mönster, vilket gör taligenkänning till en särskilt utmanande uppgift. När vi bygger våra system för att poängsätta engelska språkfärdigheter, använder vi data från språkinlärare med en stor variation av färdigheter och modersmål.
I januari 2018 publicerade du ’Användning av exempelrespons för utbildning och utvärdering av automatiska talsköringssystem‘. Vad är några av de viktigaste genombrotten och grundläggande principer som bör förstås från denna artikel?
I denna artikel undersökte vi hur kvaliteten på tränings- och testdata påverkar prestandan hos automatiska poängsättningsystem.
Automatiska poängsättningsystem, som de flesta andra automatiska system, tränas på data som har märkts av människor. I detta fall är det poäng som tilldelats av mänskliga bedömare. Mänskliga bedömare är inte alltid överens om de poäng de tilldelar. Det finns flera olika strategier som används i bedömning för att säkerställa att den slutliga poängen som rapporteras till testtagaren förblir mycket tillförlitlig trots variation i mänsklig överensstämmelse på enskilda frågor. Men eftersom automatiska poängsättningsmotorer vanligtvis tränas med hjälp av svars-poäng, kan eventuella inkonsekvenser i sådana poäng på grund av olika orsaker negativt påverka systemet.
Vi hade möjlighet att få tillgång till en stor mängd data med olika överensstämmelse mellan mänskliga bedömare och att jämföra systemprestanda under olika förhållanden. Vad vi fann var att träning av systemet på perfekta data inte faktiskt förbättrar dess prestanda över ett system som tränats på data med mer bullriga etiketter. Perfekta etiketter ger dig bara en fördel när din totala storlek på träningsuppsättningen är mycket låg. Å andra sidan hade kvaliteten på mänskliga etiketter en enorm effekt på systemutvärdering: dina prestandauppskattningar kan vara upp till 30% högre om du utvärderar på rena etiketter.
Meddelandet är att om du har en stor mängd data och resurser för att rensa dina guldstandard-etiketter, kan det vara smartare att rensa etiketterna i utvärderingsuppsättningen snarare än etiketterna i träningsuppsättningen. Och denna upptäckt gäller inte bara automatisk poängsättning utan många andra områden också.
Kan du beskriva något av ditt arbete på ETS?
Jag arbetar på ett talsköringssystem som bearbetar talat språk i en utbildningskontext. Ett sådant system är SpeechRater®, som använder avancerad taligenkänning och analys-teknologi för att bedöma och ge detaljerad feedback om engelska språkfärdigheter. SpeechRater är en mycket mogen applikation som har funnits i över 10 år. Jag bygger poängsättningsmodeller för olika tillämpningar och arbetar med andra kollegor på ETS för att säkerställa att våra poäng är tillförlitliga, rättvist och giltiga för alla testtagare. Vi arbetar också med andra grupper på ETS för att kontinuerligt övervaka systemprestanda.
Förutom att underhålla och förbättra våra operativa system, prototypar vi nya system. Ett av projekten som jag är mycket entusiastisk över är RelayReader™: en applikation som är utformad för att hjälpa utvecklande läsare att vinna flyt och självförtroende. När du läser med RelayReader tar du turas om att lyssna på och läsa högt ur en bok. Din läsning skickas sedan till våra servrar för att ge feedback. När det gäller talsbehandling är den största utmaningen för denna applikation hur man mäter inlärning och ger handlingsbar och tillförlitlig feedback på ett sätt som inte stör läsarens engagemang i boken.
Vad är din favoritdel av att arbeta med ETS?
Vad som initialt lockade mig till ETS var att det är en icke-vinstdrivande organisation med en mission att främja utbildningskvaliteten för alla människor runt om i världen. Medan det naturligtvis är bra när forskning leder till en produkt, uppskattar jag att ha möjlighet att arbeta på projekt som är mer grundläggande till sin natur men som kommer att hjälpa till med produktutveckling i framtiden. Jag uppskattar också det faktum att ETS tar frågor som dataskydd och rättvisa på allvar och att alla våra system genomgår mycket stränga utvärderingar innan de distribueras operationellt.
Men det som verkligen gör ETS till en bra plats att arbeta är människorna. Vi har en fantastisk gemenskap av forskare, ingenjörer och utvecklare från många olika bakgrunder, vilket möjliggör många intressanta samarbeten.
Tror du att en AI någonsin kommer att kunna klara Turingtestet?
Sedan 1950-talet har det funnits många tolkningar av hur Turingtestet ska utföras i praktiken. Det finns förmodligen en allmän överensstämmelse om att Turingtestet inte har klarats i filosofisk mening att det inte finns något AI-system som tänker som en människa. Men detta har också blivit ett mycket nischat ämne. De flesta människor bygger inte sina system för att klara Turingtestet – vi vill att de ska uppnå specifika mål.
För vissa av dessa uppgifter, till exempel taligenkänning eller naturlig språkförståelse, kan mänsklig prestanda med rätta anses vara guldstandarden. Men det finns också många andra uppgifter där vi förväntar oss att ett automatiskt system ska fungera mycket bättre än människor eller där ett automatiskt system och en mänsklig expert behöver arbeta tillsammans för att uppnå det bästa resultatet. Till exempel i en utbildningskontext vill vi inte att ett AI-system ska ersätta en lärare: vi vill att det ska hjälpa lärare, antingen genom att identifiera mönster i studenters inlärningsbanor, hjälpa till med bedömning eller hitta de bästa undervisningsmaterialen.
Finns det något annat som du skulle vilja dela om ETS eller NLP?
Många människor känner till ETS för dess bedömningar och automatiska poängsättningsystem. Men vi gör mycket mer än så. Vi har många funktioner, från röstbiometri till talade dialogapplikationer, och vi letar alltid efter nya sätt att integrera teknologi i lärande. Nu när många studenter lär sig hemma har vi öppnat flera av våra forskningsförmågor för allmänheten.
Tack för intervjun och för att erbjuda denna insikt i de senaste framstegen inom NLP och talsigenkänning. Alla som vill lära sig mer kan besöka Educational Testing Services.












