Künstliche Intelligenz

Die Zukunft der Sprachbewertung – Vordenker

Aktualisiert on 9. Dezember 2022

Weltweit steigt die Zahl der Englischlernenden weiter. Bildungseinrichtungen und Arbeitgeber müssen in der Lage sein, die Englischkenntnisse von Sprachlernern zu beurteilen – insbesondere ihre Sprechfähigkeiten, da die gesprochene Sprache nach wie vor zu den wichtigsten Sprachfähigkeiten zählt. Die Herausforderung sowohl für Bewertungsentwickler als auch für Endbenutzer besteht darin, einen Weg zu finden, der genau, schnell und finanziell tragbar ist. Als Teil dieser Herausforderung bringt die Bewertung dieser Tests eine Reihe eigener Faktoren mit sich, insbesondere wenn wir die verschiedenen Bereiche (Sprache, Schreiben usw.) berücksichtigen, in denen jemand getestet wird. Da die Nachfrage nach Englischkenntnissen weltweit voraussichtlich weiter steigen wird, stellt sich die Frage, wie die Zukunft der Sprachbewertung aussehen müsste, um diesen Bedarf zu decken.

Die Antwort auf diese Frage liegt zum Teil in der bisherigen Entwicklung der Sprachbewertung. Die Bewertung konstruierter gesprochener Antworten erfolgte in der Vergangenheit mithilfe menschlicher Bewerter. Dieser Prozess ist jedoch tendenziell teuer und langsam und bringt zusätzliche Herausforderungen mit sich, darunter die Skalierbarkeit und verschiedene Mängel der menschlichen Bewerter selbst (z. B. Subjektivität oder Voreingenommenheit der Bewerter). Wie in unserem Buch besprochen Automatisierte Sprechbewertung: Verwendung von Sprachtechnologien zur Bewertung spontaner SpracheUm diesen Herausforderungen zu begegnen, nutzen immer mehr Beurteilungen automatisierte Sprachbewertungstechnologie als alleinige Bewertungsquelle oder in Kombination mit menschlichen Bewertern. Vor dem Einsatz automatisierter Scoring-Engines muss deren Leistung jedoch gründlich bewertet werden, insbesondere im Hinblick auf die Zuverlässigkeit, Validität (misst das System, was es soll?) und Fairness (d. h. das System sollte keine Verzerrungen im Zusammenhang mit der Bewertung einführen). Bevölkerungsuntergruppen wie Geschlecht oder Muttersprache).

Seit 2006 wird die ETS-eigene Sprachbewertungs-Engine SpeechRater® in der TOEFL® Practice Online (TPO)-Bewertung eingesetzt (die von potenziellen Testteilnehmern zur Vorbereitung auf die TOEFL iBT®-Bewertung verwendet wird), und seit 2019 wird auch SpeechRater verwendet , zusammen mit menschlichen Bewertern, für die Bewertung des Sprechabschnitts der TOEFL iBT®-Bewertung. Die Engine bewertet ein breites Spektrum an Sprechfähigkeiten für spontanes nicht-muttersprachliches Sprechen, einschließlich Aussprache und Geläufigkeit, Wortschatzumfang und Grammatik sowie höherstufige Sprechfähigkeiten in Bezug auf Kohärenz und Fortschritt von Ideen. Diese Merkmale werden mithilfe von Algorithmen zur Verarbeitung natürlicher Sprache (NLP) und zur Sprachverarbeitung berechnet. Auf diese Merkmale wird dann ein statistisches Modell angewendet, um der Antwort eines Testteilnehmers eine Endbewertung zuzuordnen.

Während dieses Modell auf zuvor beobachteten Daten trainiert wird, die von menschlichen Bewertern bewertet wurden, wird es auch von Inhaltsexperten überprüft, um seine Gültigkeit zu maximieren. Wenn sich herausstellt, dass eine Antwort aufgrund von Audioqualität oder anderen Problemen nicht bewertbar ist, kann die Engine sie zur weiteren Überprüfung markieren, um die Generierung einer möglicherweise unzuverlässigen oder ungültigen Bewertung zu vermeiden. Beim anspruchsvollen TOEFL iBT-Sprachtest sind immer menschliche Bewerter an der Bewertung der gesprochenen Antworten beteiligt.

Da menschliche Bewerter und SpeechRater derzeit zusammen eingesetzt werden, um die Antworten der Testteilnehmer in anspruchsvollen Sprachtests zu bewerten, spielen beide eine Rolle bei der Zukunft der Bewertung der Englischkenntnisse. Menschliche Bewerter haben die Fähigkeit, den Inhalt und die Diskursorganisation einer gesprochenen Antwort tiefgreifend zu verstehen. Im Gegensatz dazu können automatisierte Sprachbewertungs-Engines bestimmte Detailaspekte der Sprache, wie Sprachflüssigkeit oder Aussprache, präziser messen, über einen längeren Zeitraum eine perfekte Konsistenz aufweisen, den Gesamtzeit- und Kostenaufwand für die Bewertung reduzieren und lassen sich leichter skalieren, um große Testvolumina zu unterstützen. Wenn menschliche Bewerter und automatisierte Sprachbewertungssysteme kombiniert werden, kann das resultierende System von den Stärken jedes Bewertungsansatzes profitieren.

Um automatisierte Sprachbewertungsmaschinen kontinuierlich weiterzuentwickeln, müssen sich Forschung und Entwicklung unter anderem auf die folgenden Aspekte konzentrieren:

Aufbau automatischer Spracherkennungssysteme mit höherer Genauigkeit: Da die meisten Funktionen eines Sprachbewertungssystems direkt oder indirekt auf dieser Komponente des Systems basieren, die die Sprache des Testteilnehmers in eine Texttranskription umwandelt, ist eine hochpräzise automatische Spracherkennung für den Erhalt gültiger Merkmale unerlässlich.
Erforschung neuer Wege zur Kombination menschlicher und automatisierter Bewertungen: Um die jeweiligen Stärken menschlicher Bewerter-Bewertungen und automatisierter Maschinen-Bewertungen voll auszunutzen, müssen weitere Möglichkeiten zur Kombination dieser Erkenntnisse untersucht werden;
Berücksichtigung von Anomalien in den Antworten, sowohl technischer als auch verhaltensbezogener Art: Hochleistungsfilter, die in der Lage sind, solche Antworten zu kennzeichnen und von der automatischen Bewertung auszuschließen, sind erforderlich, um die Gültigkeit und Zuverlässigkeit der resultierenden Bewertungsergebnisse sicherzustellen;
Bewertung spontaner oder gesprochener Sprache, die im Alltag am häufigsten vorkommt: Während die automatisierte Bewertung solcher interaktiver Sprache ein wichtiges Ziel ist, stellen diese Elemente zahlreiche Bewertungsherausforderungen dar, einschließlich der Gesamtbewertung und -bewertung;
Erforschung von Deep-Learning-Technologien für die automatisierte Sprachbewertung: Dieses relativ junge Paradigma des maschinellen Lernens hat in den letzten Jahren zu erheblichen Leistungssteigerungen bei vielen Aufgaben der künstlichen Intelligenz (KI) geführt (z. B. automatische Spracherkennung, Bilderkennung) und ist daher wahrscheinlich automatisiert Auch die Bewertung kann von der Verwendung dieser Technologie profitieren. Da die meisten dieser Systeme jedoch als „Black-Box“-Ansätze betrachtet werden können, ist es wichtig, auf die Interpretierbarkeit der resultierenden Bewertung zu achten, um ein gewisses Maß an Transparenz aufrechtzuerhalten.

Um einer wachsenden und sich verändernden Bevölkerung von Englischlernern gerecht zu werden, müssen Sprachbewertungssysteme der nächsten Generation die Automatisierung und den Umfang ihrer Messmöglichkeiten erweitern, um Konsistenz und Skalierbarkeit zu ermöglichen. Das heißt nicht, dass das menschliche Element wegfällt, insbesondere bei Beurteilungen, bei denen viel auf dem Spiel steht. Menschliche Bewerter werden wahrscheinlich weiterhin von entscheidender Bedeutung sein, um bestimmte Aspekte der Sprache zu erfassen, die von automatisierten Bewertungssystemen noch für eine Weile nur schwer genau bewertet werden können, einschließlich der detaillierten Aspekte des gesprochenen Inhalts und des Diskurses. Die isolierte Verwendung automatisierter Sprachbewertungssysteme für Folgebewertungen birgt auch das Risiko, problematische Antworten von Testteilnehmern nicht zu erkennen – beispielsweise Antworten, die nicht zum Thema gehören oder plagiiert sind – und kann infolgedessen zu einer verminderten Validität und Zuverlässigkeit führen. Der Einsatz von menschlichen Bewertern und automatischen Bewertungssystemen in Kombination könnte auf absehbare Zeit die beste Möglichkeit zur Bewertung von Sprache in hochriskanten Beurteilungen sein, insbesondere wenn spontane oder gesprochene Sprache bewertet wird.

Geschrieben von: Keelan Evanini, Direktor für Sprachforschung, ETS & Klaus Zechner, leitender wissenschaftlicher Mitarbeiter, Rede, ETS

ETS arbeitet mit Bildungseinrichtungen, Unternehmen und Regierungen zusammen, um Forschung zu betreiben und Bewertungsprogramme zu entwickeln, die aussagekräftige Informationen liefern, auf die sie sich bei der Bewertung von Personen und Programmen verlassen können. ETS entwickelt, verwaltet und bewertet jährlich mehr als 50 Millionen Tests in mehr als 180 Ländern an mehr als 9,000 Standorten weltweit. Wir entwerfen unsere Beurteilungen mit branchenführenden Erkenntnissen, strenger Forschung und einem kompromisslosen Bekenntnis zur Qualität, damit wir Bildung und Arbeitsgemeinschaften dabei unterstützen können, fundierte Entscheidungen zu treffen. Um mehr zu erfahren, besuchen Sie ETS.