Kunstmatige intelligentie
Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

Anastassia Loukina is een onderzoeker bij Educational Testing Services (ETS) waar ze werkt aan geautomatiseerde beoordeling van spraak.
Haar onderzoeksinteresses omvatten een breed scala aan onderwerpen. Ze heeft gewerkt aan onder andere moderne Griekse dialecten, spraakritme en geautomatiseerde prosodieanalyse.
Haar huidige werk richt zich op het combineren van tools en methoden uit spraaktechnologie en machine learning met inzichten uit studies over spraakperceptie/produktie om geautomatiseerde beoordelingsmodellen te ontwikkelen voor het evalueren van niet-moedertaalsprekers.
U heeft duidelijk een liefde voor talen, wat heeft u geïntroduceerd tot deze passie?
Ik ben opgegroeid met het spreken van Russisch in St. Petersburg, Rusland en ik herinner me dat ik gefascineerd was toen ik voor het eerst kennismaakte met de Engelse taal: voor sommige woorden was er een patroon dat het mogelijk maakte om een Russisch woord “om te zetten” in een Engels woord. En toen kwam ik een woord tegen waar “mijn” patroon faalde en probeerde ik een beter, meer algemeen patroon te vinden. Toen wist ik natuurlijk niets over linguïstische typologie of het verschil tussen cognaten en leenwoorden, maar dit voedde mijn nieuwsgierigheid en verlangen om meer talen te leren. Deze passie voor het identificeren van patronen in hoe mensen spreken en het testen ervan op gegevens is wat me naar fonetiek, machine learning en het werk dat ik nu doe heeft geleid.
Voordat u aan uw huidige werk in Natural Language Processing (NLP) begon, was u vertaler tussen Engels-Russisch en Modern Grieks-Russisch. Gelooft u dat uw werk als vertaler u extra inzichten heeft gegeven in enkele van de nuances en problemen die samenhangen met NLP?
Mijn primaire identiteit is altijd die van onderzoeker geweest. Het is waar dat ik mijn academische carrière begon als onderzoeker van het Modern Grieks, of meer specifiek, de fonetiek van het Modern Grieks. Voor mijn proefschrift onderzocht ik de fonetische verschillen tussen verschillende moderne Griekse dialecten en hoe de verschillen tussen deze dialecten kunnen worden gelinkt aan de geschiedenis van het gebied. Ik betoogde dat sommige van de verschillen tussen de dialecten kunnen zijn ontstaan als gevolg van taalcontact tussen elke dialect en andere talen die in het gebied werden gesproken. Hoewel ik niet langer werk aan het Modern Grieks, staan de veranderingen die optreden wanneer twee talen met elkaar in contact komen nog steeds centraal in mijn werk: alleen richt ik me nu op wat er gebeurt wanneer een individu een nieuwe taal leert en hoe technologie kan helpen om dit zo efficiënt mogelijk te doen.
Wanneer het gaat om de Engelse taal, zijn er een groot aantal accenten. Hoe ontwerpt u een NLP met de mogelijkheid om alle verschillende dialecten te begrijpen? Is het een eenvoudige kwestie van het voeden van het diepe leer-algoritme met extra grote gegevens van elk type accent?
Er zijn verschillende benaderingen die in het verleden zijn gebruikt om dit aan te pakken. Naast het bouwen van één groot model dat alle accenten omvat, kunt u eerst het accent identificeren en vervolgens een aangepast model voor dat accent gebruiken, of u kunt meerdere modellen tegelijk proberen en het model kiezen dat het beste werkt. Uiteindelijk hebt u om een goede prestatie te bereiken op een breed scala aan accenten trainings- en evaluatiegegevens nodig die representatief zijn voor de vele accenten die een systeem kan tegenkomen.
Bij ETS voeren we uitgebreide evaluaties uit om ervoor te zorgen dat de scores die worden gegenereerd door onze geautomatiseerde systemen de verschillen in de werkelijke vaardigheden die we willen meten weerspiegelen en niet worden beïnvloed door de demografische kenmerken van de leerling, zoals geslacht, ras of land van herkomst.
Kinderen en/of taalleerders hebben vaak moeite met perfecte uitspraak. Hoe overwint u het uitspraakprobleem?
Er is geen zoiets als perfecte uitspraak: de manier waarop we spreken is nauw verbonden met onze identiteit en als ontwikkelaars en onderzoekers is ons doel ervoor te zorgen dat onze systemen eerlijk zijn voor alle gebruikers.
Zowel taalleerders als kinderen vormen bijzondere uitdagingen voor spraakgebaseerde systemen. Kinderstemmen hebben bijvoorbeeld niet alleen een heel andere akoestische kwaliteit, maar kinderen spreken ook anders dan volwassenen en er is veel variatie tussen kinderen. Als gevolg daarvan is het ontwikkelen van geautomatiseerde spraakherkenning voor kinderen meestal een aparte taak die een grote hoeveelheid kinderspraakgegevens vereist.
Net zoals er veel overeenkomsten zijn tussen taalleerders van dezelfde achtergrond, kunnen leerders zich sterk onderscheiden in hun gebruik van fonetische, grammaticale en lexicale patronen, waardoor spraakherkenning een bijzonder moeilijke taak is. Wanneer we onze systemen voor het beoordelen van Engelse taalvaardigheid ontwikkelen, gebruiken we gegevens van taalleerders met een breed scala aan vaardigheidsniveaus en moedertalen.
In januari 2018 publiceerde u ‘Using exemplar responses for training and evaluating automated speech scoring systems‘. Wat zijn enkele van de belangrijkste doorbraken en basisbeginselen die uit dit artikel moeten worden begrepen?
In dit artikel hebben we gekeken naar hoe de kwaliteit van trainings- en testgegevens de prestaties van geautomatiseerde beoordelingssystemen beïnvloedt.
Geautomatiseerde beoordelingssystemen, net als veel andere geautomatiseerde systemen, worden getraind op gegevens die door mensen zijn gelabeld. In dit geval gaat het om scores die door menselijke beoordelaars zijn toegewezen. Menselijke beoordelaars zijn het niet altijd eens over de scores die ze toewijzen. Er zijn verschillende strategieën die in de beoordeling worden gebruikt om ervoor te zorgen dat de uiteindelijke score die aan de testkandidaat wordt gerapporteerd, zeer betrouwbaar blijft ondanks de variatie in menselijke overeenstemming op het niveau van de individuele vraag. Echter, omdat geautomatiseerde beoordelingssystemen meestal worden getraind met behulp van responsniveauscores, kunnen inconsistenties in dergelijke scores vanwege de verschillende redenen die hierboven zijn uiteengezet, de prestaties van het systeem nadelig beïnvloeden.
We hadden toegang tot een grote hoeveelheid gegevens met verschillende overeenstemming tussen menselijke beoordelaars en konden het systeemprestatie onder verschillende omstandigheden vergelijken. Wat we vonden, is dat het trainen van het systeem op perfecte gegevens de prestaties niet noodzakelijkerwijs verbetert ten opzichte van een systeem dat is getraind op gegevens met meer lawaaibeleid. Perfecte labels geven u alleen een voordeel wanneer de totale grootte van de trainingsset zeer laag is. Aan de andere kant had de kwaliteit van de menselijke labels een enorme invloed op systeemevaluatie: uw prestatieschattingen kunnen tot 30% hoger zijn als u deze op schone labels evalueert.
De belangrijkste boodschap is dat, als u veel gegevens en middelen heeft om uw gouden standaardlabels schoon te maken, het misschien slimmer is om de labels in de evaluatieset schoon te maken in plaats van de labels in de trainingsset. En deze bevinding is niet alleen van toepassing op geautomatiseerde beoordeling, maar ook op veel andere gebieden.
Kunt u enkele van uw werkzaamheden bij ETS beschrijven?
Ik werk aan een spraakbeoordelingssysteem dat gesproken taal in een educatieve context verwerkt. Een van dergelijke systemen is SpeechRater®, dat geavanceerde spraakherkenning en analyse technologie gebruikt om Engelse taalvaardigheid te beoordelen en gedetailleerde feedback te geven. SpeechRater is een zeer volwassen applicatie die al meer dan 10 jaar bestaat. Ik ontwikkel beoordelingsmodellen voor verschillende toepassingen en werk samen met andere collega’s bij ETS om ervoor te zorgen dat onze scores betrouwbaar, eerlijk en geldig zijn voor alle testkandidaten. We werken ook samen met andere groepen bij ETS om de prestaties van het systeem voortdurend te monitoren.
Naast het onderhouden en verbeteren van onze operationele systemen, maken we prototypes van nieuwe systemen. Een van de projecten waar ik erg enthousiast over ben, is RelayReader™: een applicatie die is ontworpen om beginnende lezers te helpen bij het ontwikkelen van vaardigheden en vertrouwen. Wanneer u met RelayReader leest, neemt de gebruiker beurtelings luistert naar en leest hardop een boek. De leesgegevens worden vervolgens naar onze servers gestuurd om feedback te geven. Wat betreft spraakverwerking is de belangrijkste uitdaging van deze applicatie hoe te meten wat er wordt geleerd en actiegerichte en betrouwbare feedback onopvallend te geven zonder de betrokkenheid van de lezer bij het boek te verstoren.
Wat is uw favoriete deel van het werken bij ETS?
Wat me aanvankelijk aantrok bij ETS, is dat het een non-profitorganisatie is met als missie de kwaliteit van onderwijs voor alle mensen over de hele wereld te verbeteren. Hoewel het natuurlijk geweldig is als onderzoek leidt tot een product, waardeer ik de mogelijkheid om te werken aan projecten die meer fundamenteel van aard zijn, maar die in de toekomst zullen helpen bij productontwikkeling. Ik waardeer ook het feit dat ETS kwesties zoals gegevensbescherming en eerlijkheid zeer serieus neemt en dat al onze systemen een zeer strenge beoordeling ondergaan voordat ze operationeel worden ingezet.
Maar wat ETS echt een geweldige plek maakt om te werken, zijn de mensen. We hebben een geweldige gemeenschap van wetenschappers, ingenieurs en ontwikkelaars uit veel verschillende achtergronden, wat leidt tot veel interessante samenwerkingen.
Gelooft u dat een AI ooit in staat zal zijn de Turing-test te doorstaan?
Sinds de jaren 50 is er veel interpretatie van hoe de Turing-test in de praktijk moet worden uitgevoerd. Er is waarschijnlijk een algemene overeenstemming dat de Turing-test in filosofische zin nog niet is doorstaan, dat wil zeggen dat er nog geen AI-systeem is dat op menselijke wijze denkt. Echter, dit is ook een zeer niche-onderwerp geworden. De meeste mensen bouwen hun systemen niet om de Turing-test te doorstaan – we willen dat ze specifieke doelen bereiken.
Voor sommige van deze taken, zoals spraakherkenning of natuurlijke taalbegrip, kan de menselijke prestatie terecht als de gouden standaard worden beschouwd. Maar er zijn ook veel andere taken waarbij we verwachten dat een geautomatiseerd systeem veel beter presteert dan mensen, of waarbij een geautomatiseerd systeem en een menselijke expert moeten samenwerken om het beste resultaat te bereiken. Bijvoorbeeld, in een educatieve context willen we geen AI-systeem dat een leraar vervangt: we willen dat het leraren helpt, of het nu gaat om het identificeren van patronen in leerlingprestaties, het helpen met beoordelen of het vinden van de beste lesmaterialen.
Is er nog iets anders dat u zou willen delen over ETS of NLP?
Veel mensen kennen ETS vanwege onze beoordelingen en geautomatiseerde beoordelingssystemen. Maar we doen veel meer dan dat. We hebben veel mogelijkheden, van spraakbiometrie tot gespreksapplicaties, en we zijn altijd op zoek naar nieuwe manieren om technologie in het leerproces te integreren. Nu veel studenten thuis leren, hebben we enkele van onze onderzoekspossibilitelen voor het algemene publiek geopend.
Bedankt voor het interview en voor het bieden van deze kijk op de laatste ontwikkelingen in NLP en spraakherkenning. Iedereen die meer wilt leren, kan Educational Testing Services bezoeken.












