Kunstig intelligens

Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anastassia Loukina er en forskningsvidenskabsmand ved Educational Testing Services (ETS), hvor hun arbejder med automatiseret scoring af tale.

Hendes forskningsinteresser dækker et bredt spektrum af emner. Hun har arbejdet med bl.a. moderne græske dialekter, tale-rytme og automatiseret prosodi-analyse.

Hendes nuværende arbejde fokuserer på at kombinere værktøjer og metoder fra tale-teknologier og maskinlæring med indsigt fra studier om tale-perception/produktion for at opbygge automatiserede scoring-modeller til evaluering af ikke-native tale.

Jeg voksede op med at tale russisk i St. Petersburg, Rusland, og jeg husker, at jeg var fascineret, da jeg først blev introduceret til det engelske sprog: for nogle ord var der en mønster, der gjorde det muligt at “omdanne” et russisk ord til et engelsk ord. Og så ville jeg støde på et ord, hvor “mit” mønster fejlede, og prøve at komme med en bedre, mere generel regel. På det tidspunkt vidste jeg selvfølgelig ingenting om lingvistisk typologi eller forskellen mellem kognater og låneord, men dette fødde min nysgerrighed og ønske om at lære mere sprog. Denne passion for at identificere mønstre i, hvordan mennesker taler, og teste dem på data er det, der har ført mig til fonetik, maskinlæring og det arbejde, jeg laver i dag.

Min primære identitet har altid været som forsker. Det er sandt, at jeg startede min akademiske karriere som en forsker i moderne græsk, eller mere specifikt, moderne græsk fonetik. Til min doktorafhandling undersøgte jeg fonetiske forskelle mellem flere moderne græske dialekter og hvordan forskellene mellem disse dialekter kunne relateres til områdets historie. Jeg argumenterede for, at nogle af forskellene mellem dialekterne kunne være opstået som resultat af sprogkontakt mellem hver dialekt og andre sprog, der tales i området. Selv om jeg ikke længere arbejder med moderne græsk, er de ændringer, der sker, når to sprog kommer i kontakt med hinanden, stadig i centrum for mit arbejde: kun denne gang fokuserer jeg på, hvad der sker, når en person lærer et nyt sprog, og hvordan teknologi kan hjælpe med at gøre dette mest effektivt.

Der er flere tilgange, der er blevet brugt i fortiden til at adresse dette. Ud over at bygge en stor model, der dækker alle accenter, kunne du først identificere accenten og derefter bruge en brugerdefineret model til denne accent, eller du kan prøve multiple modeller på én gang og vælge den, der fungerer bedst. I sidste ende for at opnå en god præstation på en bred vifte af accenter har du brug for trænings- og evalueringdata, der repræsenterer de mange accenter, et system kan møde.

Ved ETS gennemfører vi omfattende evalueringer for at sikre, at de scores, der produceres af vores automatiserede systemer, reflekterer forskelle i de faktiske færdigheder, vi ønsker at måle, og ikke påvirkes af lærenes demografiske karakteristika, såsom deres køn, race eller oprindelsesland.

Der er ikke noget sådant som perfekt udtale: måden, vi taler på, er tæt forbundet med vores identitet, og som udviklere og forskere er vores mål at sikre, at vores systemer er retfærdige over for alle brugere.

Både sprog-lærere og børn stiller særlige udfordringer for tale-baserede systemer. For eksempel har børnestemmer ikke kun en meget anderledes akustisk kvalitet, men børn taler også anderledes end voksne, og der er meget variation mellem børn. Som følge heraf er udvikling af automatiseret tale-genkendelse for børn normalt en separat opgave, der kræver en stor mængde børne-tale-data.

På samme måde, selv om der er mange ligheder mellem sprog-lærere fra samme baggrund, kan lærere variere bredt i deres brug af fonetiske, grammatiske og leksikalske mønstre, hvilket gør tale-genkendelse til en særligt udfordrende opgave. Når vi bygger vores systemer til scoring af engelsk sprog-færdighed, bruger vi data fra sprog-lærere med en bred vifte af færdighedsniveauer og modersmål.

I denne artikel undersøgte vi, hvordan kvaliteten af trænings- og testdata påvirker præstationen af automatiserede scoring-systemer.

Automatiserede scoring-systemer, som de fleste andre automatiserede systemer, trænes på data, der er mærket af mennesker. I dette tilfælde er det scores, der er tildelt af menneskelige bedømmere. Menneskelige bedømmere er ikke altid enige i de scores, de tildeler. Der er flere forskellige strategier, der bruges i vurdering til at sikre, at den endelige score, der rapporteres til test-personen, forbliver meget pålidelig, på trods af variation i menneskelig enighed på niveauet for den enkelte spørgsmål. Imidlertid, da automatiserede scoring-motorer normalt trænes ved hjælp af respons-niveauscores, kan eventuelle inkonsistenser i sådanne scores på grund af de mange årsager, der er nævnt ovenfor, negativt påvirke systemet.

Vi havde adgang til en stor mængde data med forskellig enighed mellem menneskelige bedømmere og kunne sammenligne system-præstation under forskellige betingelser. Det, vi fandt, var, at træning af systemet på perfekt data ikke faktisk forbedrer dets præstation over for et system, der er trænet på data med mere støjende mærker. Perfekte mærker giver kun en fordel, når din samlede størrelse af trænings-sættet er meget lav. På den anden side havde kvaliteten af menneskelige mærker en enorm effekt på system-vurdering: dine præstations-estimater kan være op til 30% højere, hvis du vurderer på rene mærker.

Udtag-meldingen er, at hvis du har en masse data og ressourcer til at rense dine guldmærker, kan det være klogere at rense mærkerne i evaluering-sættet i stedet for mærkerne i trænings-sættet. Og denne opdagelse gælder ikke kun for automatiseret scoring, men også for mange andre områder.

Jeg arbejder på et tale-scoring-motor-system, der behandler talt sprog i en uddannelsesmæssig kontekst. Et sådant system er SpeechRater®, der bruger avanceret tale-genkendelse og analyse-teknologi til at vurder og give detaljeret feedback om engelsk sprog-talende færdighed. SpeechRater er en meget moden ansøgning, der har været til stede i mere end 10 år. Jeg bygger scoring-modeller for forskellige ansøgninger og arbejder med andre kollegaer på tværs af ETS for at sikre, at vores scores er pålidelige, retfærdige og gyldige for alle test-personer. Vi arbejder også med andre grupper på ETS for at kontinuerligt overvåge system-præstation.

Ud over at vedligeholde og forbedre vores operationelle systemer, prototyper vi nye systemer. Et af projekterne, jeg er meget begejstret for, er RelayReader™: en ansøgning designet til at hjælpe udviklende læsere med at opnå flydende og tillid. Når du læser med RelayReader, tager du skiftevis til at lytte til og læse højt en bog. Din læsning sendes derefter til vores servere for at give feedback. I forhold til tale-behandling er den primære udfordring for denne ansøgning, hvordan man kan måle læring og give handlebare og pålidelige feedback ubemærket, uden at forstyrre læserens engagement med bogen.

Det, der oprindeligt tiltrak mig til ETS, er, at det er en non-profit-organisation med en mission om at fremme uddannelseskvaliteten for alle mennesker over hele verden. Selv om det naturligvis er godt, når forskning fører til et produkt, værdsætter jeg muligheden for at arbejde på projekter, der er mere grundlæggende i naturen, men som vil hjælpe med produktudvikling i fremtiden. Jeg værdsætter også det faktum, at ETS tager spørgsmål som data-privatliv og retfærdighed meget alvorligt, og alle vores systemer undergår meget strenge vurderinger, før de deployes operationelt.

Men det, der virkelig gør ETS til et godt sted at arbejde, er menneskene. Vi har en fantastisk fællesskab af videnskabsmænd, ingeniører og udviklere fra mange forskellige baggrunde, hvilket giver mulighed for mange interessante samarbejder.

Siden 1950’erne har der været mange fortolkninger af, hvordan Turing-testen skal gøres i praksis. Der er sandsynligvis en generel enighed om, at Turing-testen ikke er blevet bestået i en filosofisk forstand, så der ikke er nogen AI-system, der tænker som et menneske. Imidlertid er dette også blevet et meget niche-emne. De fleste mennesker bygger ikke deres systemer til at bestå Turing-testen – vi ønsker, at de skal opnå bestemte mål.

Til nogle af disse opgaver, for eksempel tale-genkendelse eller naturlig sprog-forståelse, kan menneskelig præstation med rette betragtes som standarden. Men der er også mange andre opgaver, hvor vi vil forvente, at et automatiseret system skal gøre det meget bedre end mennesker, eller hvor et automatiseret system og en menneskelig ekspert skal arbejde sammen for at opnå det bedste resultat. For eksempel i en uddannelsesmæssig kontekst ønsker vi ikke, at et AI-system skal erstatte en lærer: vi ønsker, at det skal hjælpe lærere, enten det er gennem at identificere mønstre i elev-lærings-traektorier, hjælpe med bedømmelse eller finde de bedste undervisningsmaterialer.

Mange mennesker kender ETS for dets vurderinger og automatiserede scoring-systemer. Men vi gør meget mere end det. Vi har mange kapaciteter, fra tale-biometri til tale-dialog-applikationer, og vi søger altid efter nye måder at integrere teknologi i læring på. Nu, hvor mange studerende lærer fra hjemmet, har vi åbnet flere af vores forsknings-kapaciteter for offentligheden.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.

Unite.AI

Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

You may like