stub The Future of Speech Scoring - Tankeledare - Unite.AI
Anslut dig till vårt nätverk!
Array ( [ID] => 24 [user_firstname] => Klaus [user_efternamn] => Zechner [smeknamn] => KlausZechner [user_nicename] => klauszechner [display_name] => Klaus Zechner [user_email] => [e-postskyddad]
    [user_url] => [user_registered] => 2020-05-20 22:38:00 [user_description] => Ansvarig senior forskare, tal, inom forskning och utveckling på  Utbildningstestning 
 (ETS). [user_avatar] => mm
)

Artificiell intelligens

Framtiden för talpoäng – tankeledare

Uppdaterad on

Över hela världen fortsätter antalet engelska språkinlärare att öka. Utbildningsinstitutioner och arbetsgivare måste kunna bedöma språkkunskaperna hos språkinlärare – i synnerhet deras talförmåga, eftersom talat språk fortfarande är en av de viktigaste språkförmågorna. Utmaningen, för både bedömningsutvecklare och slutanvändare, är att hitta ett sätt att göra det som är korrekt, snabbt och ekonomiskt lönsamt. Som en del av denna utmaning kommer poängsättningen av dessa bedömningar med sin egen uppsättning faktorer, särskilt när vi tar hänsyn till de olika områden (tal, skrift, etc.) som man testas på. Eftersom efterfrågan på engelska kunskaper över hela världen bara förväntas öka, hur skulle framtiden för talpoäng se ut för att möta dessa behov?

Svaret på den frågan finns delvis i utvecklingen av talpoängning hittills. Bedömning av konstruerade talade svar har historiskt gjorts med hjälp av mänskliga bedömare. Denna process tenderar dock att vara dyr och långsam och har ytterligare utmaningar, inklusive skalbarhet och olika brister hos mänskliga bedömare själva (t.ex. bedömares subjektivitet eller partiskhet). Som diskuteras i vår bok Automatisk talbedömning: Använda språkteknologier för att poängsätta spontant tal, för att möta dessa utmaningar använder ett ökande antal bedömningar nu automatiserad talpoängteknik som den enda källan till poängsättning eller i kombination med mänskliga bedömare. Innan automatiserade poängmotorer implementeras måste deras prestanda dock utvärderas noggrant, särskilt i förhållande till poängtillförlitlighet, validitet (mäter systemet vad det ska?) och rättvisa (dvs. systemet bör inte införa bias relaterad till befolkningsundergrupper såsom kön eller modersmål).

Sedan 2006 har ETS egen talpoängmotor, SpeechRater®, operationaliserats i TOEFL® Practice Online (TPO)-bedömningen (används av blivande testtagare för att förbereda sig för TOEFL iBT®-bedömningen), och sedan 2019 har SpeechRater också använts , tillsammans med mänskliga bedömare, för att betygsätta den talande delen av TOEFL iBT®-bedömningen. Motorn utvärderar ett brett spektrum av talfärdigheter för spontant icke-inhemskt tal, inklusive uttal och flyt, ordförråd och grammatik, och talarförmåga på högre nivå relaterade till koherens och idéutveckling. Dessa funktioner beräknas med hjälp av naturlig språkbehandling (NLP) och talbearbetningsalgoritmer. En statistisk modell tillämpas sedan på dessa funktioner för att tilldela ett slutresultat till en testtagares svar.

Även om den här modellen tränas på tidigare observerade data från mänskliga bedömare, granskas den också av innehållsexperter för att maximera dess giltighet. Om ett svar visar sig vara icke-poängbart på grund av ljudkvalitet eller andra problem, kan motorn flagga det för ytterligare granskning för att undvika att generera ett potentiellt opålitligt eller ogiltigt resultat. Mänskliga bedömare är alltid involverade i poängsättningen av talade svar i TOEFL iBT-talbedömningen med hög insats.

Eftersom mänskliga bedömare och SpeechRater för närvarande används tillsammans för att betygsätta testtagarnas svar i höginsatsbedömningar, spelar båda en roll i hur framtiden för att bedöma engelska språkkunskaper kan bli. Mänskliga bedömare har förmågan att förstå innehållet och diskursorganisationen i ett talat svar på ett djupt sätt. Däremot kan automatiserade talpoängmotorer mer exakt mäta vissa detaljerade aspekter av tal, såsom flyt eller uttal, uppvisa perfekt konsistens över tid, kan minska den totala poängtiden och kostnaden och är lättare att skala för att stödja stora testvolymer. När mänskliga bedömare och automatiserade talpoängsystem kombineras, kan det resulterande systemet dra nytta av styrkorna i varje poängsättningsmetod.

För att kontinuerligt utveckla automatiserade talpoängmotorer måste forskning och utveckling fokusera på följande aspekter, bland annat:

  • Att bygga automatiska taligenkänningssystem med högre noggrannhet: Eftersom de flesta funktioner i ett talpoängsystem förlitar sig direkt eller indirekt på denna komponent i systemet som omvandlar testtagarens tal till en texttranskription, är mycket exakt automatisk taligenkänning avgörande för att få giltiga funktioner;
  • Utforskning av nya sätt att kombinera mänskliga och automatiserade poäng: För att dra full nytta av de respektive styrkorna hos mänskliga bedömarpoäng och automatiserade motorpoäng, behöver fler sätt att kombinera dessa bevis undersökas;
  • Redovisning av avvikelser i svar, både tekniska och beteendemässiga: Högpresterande filter som kan flagga sådana svar och utesluta dem från automatisk poängsättning är nödvändiga för att säkerställa giltigheten och tillförlitligheten hos de resulterande bedömningspoängen;
  • Bedömning av spontant eller konversationstal som förekommer oftast i det dagliga livet: Även om automatiserad poängsättning av sådant interaktivt tal är ett viktigt mål, innebär dessa punkter många poängutmaningar, inklusive övergripande utvärdering och poängsättning;
  • Utforska djupinlärningsteknologier för automatiserad taligenkänning: Detta relativt nya paradigm inom maskininlärning har producerat avsevärda prestandaökningar på många artificiell intelligens (AI) uppgifter under de senaste åren (t.ex. automatisk taligenkänning, bildigenkänning), och därför är det troligt att automatiserade poäng kan också dra nytta av att använda denna teknik. Men eftersom de flesta av dessa system kan betraktas som "svarta lådan"-metoder, kommer det att vara viktigt att uppmärksamma tolkningen av resultatet för att upprätthålla en viss grad av transparens.

För att tillgodose en växande och föränderlig engelskspråkig elevpopulation måste nästa generations talpoängsystem utöka automatiseringen och utbudet av vad de kan mäta, vilket möjliggör konsekvens och skalbarhet. Det betyder inte att det mänskliga elementet kommer att tas bort, särskilt för bedömningar med hög insats. Mänskliga bedömare kommer sannolikt att förbli viktiga för att fånga vissa aspekter av tal som kommer att förbli svåra att utvärdera korrekt med automatiserade poängsystem ett tag framöver, inklusive de detaljerade aspekterna av talat innehåll och diskurs. Att använda automatiserade talpoängsystem isolerat för följdbedömningar riskerar också att inte identifiera problematiska svar från testpersoner - till exempel svar som är utanför ämnet eller plagierade, och som en konsekvens kan leda till minskad validitet och tillförlitlighet. Att använda både mänskliga bedömare och automatiserade poängsystem i kombination kan vara det bästa sättet att poängsätta tal i höginsatsbedömningar under överskådlig framtid, särskilt om spontant tal eller samtalstal utvärderas.

Skriven av: Keelan Evanini, direktör för talforskning, ETS & Klaus Zechner, ledande senior forskare, tal, ETS

ETS samarbetar med utbildningsinstitutioner, företag och regeringar för att bedriva forskning och utveckla bedömningsprogram som ger meningsfull information som de kan lita på för att utvärdera människor och program. ETS utvecklar, administrerar och betygsätter mer än 50 miljoner tester årligen i mer än 180 länder på mer än 9,000 XNUMX platser över hela världen. Vi utformar våra bedömningar med branschledande insikter, rigorös forskning och ett kompromisslöst engagemang för kvalitet så att vi kan hjälpa utbildning och arbetsplatser att fatta välgrundade beslut. För att lära dig mer besök ETS.