Künstliche Intelligenz

Die Zukunft der Sprachbewertung – Thought Leaders

Published May 21, 2020

Updated April 28, 2026

Keelan Evanini and Klaus Zechner

Weltweit steigt die Zahl der Englischlerner stetig. Bildungseinrichtungen und Arbeitgeber müssen in der Lage sein, die Englischkenntnisse der Lerner – insbesondere ihre Sprechfähigkeit – zu beurteilen, da die gesprochene Sprache zu den wichtigsten Sprachfähigkeiten gehört. Die Herausforderung für Entwickler von Bewertungstests und Endnutzer besteht darin, eine Möglichkeit zu finden, dies genau, schnell und finanziell tragbar zu tun. Im Rahmen dieser Herausforderung kommen bei der Bewertung dieser Tests eigene Faktoren zum Tragen, insbesondere wenn man die verschiedenen Bereiche (Sprechen, Schreiben usw.) berücksichtigt, in denen getestet wird. Da die Nachfrage nach Englischkenntnissen weltweit nur zu erhöhen ist, wie muss die Zukunft der Sprachbewertung aussehen, um diese Bedürfnisse zu erfüllen?

Die Antwort auf diese Frage liegt teilweise in der Entwicklung der Sprachbewertung bis heute. Die Bewertung konstruierter mündlicher Antworten wurde historisch von menschlichen Bewertern durchgeführt. Dieser Prozess ist jedoch teuer und langwierig und hat zusätzliche Herausforderungen, einschließlich Skalierbarkeit und verschiedenen Mängeln der menschlichen Bewerter selbst (z. B. Subjektivität oder Voreingenommenheit der Bewerter). Wie in unserem Buch Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech diskutiert, nutzen zunehmend mehr Bewertungstests, um diese Herausforderungen zu bewältigen, automatisierte Sprachbewertungstechnologie als einzige Bewertungsquelle oder in Kombination mit menschlichen Bewertern. Bevor jedoch automatisierte Bewertungsmotoren eingesetzt werden, muss ihre Leistung gründlich bewertet werden, insbesondere in Bezug auf die Zuverlässigkeit der Bewertung, die Gültigkeit (misst das System, was es messen soll?) und die Fairness (d. h. das System sollte keine Voreingenommenheit gegenüber Bevölkerungsuntergruppen wie Geschlecht oder Muttersprache einführen).

Seit 2006 ist der eigene Sprachbewertungsmotor von ETS, SpeechRater®, im TOEFL® Practice Online (TPO)-Test (den potenziellen Testteilnehmern zur Vorbereitung auf den TOEFL iBT®-Test) operationalisiert, und seit 2019 wird SpeechRater auch für die Bewertung des Sprechteils des TOEFL iBT®-Tests verwendet, zusammen mit menschlichen Bewertern. Der Motor bewertet ein breites Spektrum an Sprechfähigkeiten für spontane nicht-muttersprachliche Sprache, einschließlich Aussprache und Flüssigkeit, Vokabular und Grammatik sowie höhere Sprechfähigkeiten im Zusammenhang mit Kohärenz und Ideenfortschritt. Diese Merkmale werden durch Verwendung von Technologien der natürlichen Sprachverarbeitung (NLP) und Sprachverarbeitungsalgorithmen berechnet. Ein statistisches Modell wird dann auf diese Merkmale angewendet, um eine endgültige Bewertung der Antwort eines Testteilnehmers zuzuweisen.

Während dieses Modell auf zuvor beobachteten Daten trainiert wird, die von menschlichen Bewertern bewertet wurden, wird es auch von Inhaltsexperten überprüft, um seine Gültigkeit zu maximieren. Wenn eine Antwort aufgrund von Audioqualität oder anderen Problemen als nicht bewertbar eingestuft wird, kann der Motor sie für eine weitere Überprüfung kennzeichnen, um eine möglicherweise unzuverlässige oder ungültige Bewertung zu vermeiden. Menschliche Bewerter sind immer an der Bewertung mündlicher Antworten im hochrangigen TOEFL iBT-Sprechtest beteiligt.

Da menschliche Bewerter und SpeechRater derzeit zusammen zur Bewertung der Antworten der Testteilnehmer in hochrangigen Sprechtests eingesetzt werden, spielen beide eine Rolle bei der Zukunft der Bewertung der Englischsprachkenntnisse. Menschliche Bewerter haben die Fähigkeit, den Inhalt und die Diskursorganisation einer mündlichen Antwort auf tiefere Weise zu verstehen. Im Gegensatz dazu können automatisierte Sprachbewertungsmotoren bestimmte detaillierte Aspekte der Sprache, wie Flüssigkeit oder Aussprache, genauer messen, zeigen eine perfekte Konsistenz über die Zeit, können die Gesamtbewertungszeit und -kosten reduzieren und sind leichter skalierbar, um große Testvolumina zu unterstützen. Wenn menschliche Bewerter und automatisierte Sprachbewertungssysteme kombiniert werden, kann das resultierende System von den Stärken jedes Bewertungsansatzes profitieren.

Um automatisierte Sprachbewertungsmotoren kontinuierlich weiterzuentwickeln, muss die Forschung und Entwicklung auf die folgenden Aspekte konzentriert werden, unter anderem:

Entwicklung automatischer Spracherkennungssysteme mit höherer Genauigkeit: Da die meisten Merkmale eines Sprachbewertungssystems direkt oder indirekt von diesem Systemkomponenten abhängen, der die Sprache des Testteilnehmers in eine Texttranskription umwandelt, ist eine hochgenaue automatische Spracherkennung für die Erzielung gültiger Merkmale unerlässlich;
Erkundung neuer Möglichkeiten, menschliche und automatisierte Bewertungen zu kombinieren: Um den jeweiligen Stärken der menschlichen Bewerter und der automatisierten Motorbewertungen vollständig zu nutzen, müssen mehr Möglichkeiten zur Kombination dieser Beweise erforscht werden;
Berücksichtigung von Anomalien in Antworten, sowohl technischer als auch verhaltensbedingter Art: Hochleistungsfähige Filter, die solche Antworten kennzeichnen und von der automatisierten Bewertung ausschließen können, sind notwendig, um die Gültigkeit und Zuverlässigkeit der resultierenden Testbewertungen zu gewährleisten;
Bewertung spontaner oder konversationeller Sprache, die am häufigsten im Alltagsleben vorkommt: Während die automatisierte Bewertung solcher interaktiven Sprache ein wichtiges Ziel ist, stellen diese Elemente zahlreiche Bewertungsherausforderungen dar, einschließlich der Gesamtbewertung und -bewertung;
Erkundung von Deep-Learning-Technologien für die automatisierte Sprachbewertung: Dieses relativ neue Paradigma innerhalb des maschinellen Lernens hat in den letzten Jahren erhebliche Leistungssteigerungen bei vielen künstlichen Intelligenzaufgaben (z. B. automatische Spracherkennung, Bilderkennung) erzielt und es ist daher wahrscheinlich, dass die automatisierte Bewertung auch von dieser Technologie profitieren kann. Da jedoch die meisten dieser Systeme als “Black-Box”-Ansätze betrachtet werden können, ist es wichtig, die Interpretierbarkeit der resultierenden Bewertung zu beachten, um einen bestimmten Grad an Transparenz zu wahren.

Um einer wachsenden und sich ändernden Englischlerner-Bevölkerung gerecht zu werden, müssen next-generation-Sprachbewertungssysteme die Automatisierung und den Umfang dessen, was sie messen können, erweitern, um Konsistenz und Skalierbarkeit zu ermöglichen. Das bedeutet jedoch nicht, dass das menschliche Element entfernt wird, insbesondere bei hochrangigen Bewertungen. Menschliche Bewerter werden wahrscheinlich weiterhin unerlässlich sein, um bestimmte Aspekte der Sprache zu erfassen, die für automatisierte Bewertungssysteme weiterhin schwer zu bewerten sein werden, einschließlich der detaillierten Aspekte des gesprochenen Inhalts und der Diskursorganisation. Die Verwendung automatisierter Sprachbewertungssysteme in Isolation für folgenreiche Bewertungen birgt auch das Risiko, problematische Antworten von Testteilnehmern nicht zu erkennen – beispielsweise Antworten, die vom Thema abweichen oder plagiiert sind – und kann zu einer verringerten Gültigkeit und Zuverlässigkeit führen. Die Verwendung von menschlichen Bewertern und automatisierten Bewertungssystemen in Kombination kann der beste Weg sein, um Sprache in hochrangigen Bewertungen für die absehbare Zukunft zu bewerten, insbesondere wenn spontane oder konversationelle Sprache bewertet wird.

Geschrieben von: Keelan Evanini, Direktor der Sprachforschung, ETS & Klaus Zechner, Managing Senior Research Scientist, Speech, ETS

ETS arbeitet mit Bildungseinrichtungen, Unternehmen und Regierungen zusammen, um Forschung durchzuführen und Bewertungsprogramme zu entwickeln, die wertvolle Informationen liefern, auf die sie zählen können, um Menschen und Programme zu bewerten. ETS entwickelt, administriert und bewertet mehr als 50 Millionen Tests jährlich in über 180 Ländern an über 9.000 Standorten weltweit. Wir entwerfen unsere Bewertungen mit branchenführendem Einblick, strenger Forschung und einem unerschütterlichen Engagement für Qualität, damit wir Bildungs- und Arbeitsplatzgemeinschaften helfen können, fundierte Entscheidungen zu treffen. Um mehr zu erfahren, besuchen Sie ETS.

Keelan Evanini

Leiter der Sprachforschung in Forschung und Entwicklung bei Educational Testing Service (ETS).

Klaus Zechner

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).

Unite.AI

Die Zukunft der Sprachbewertung – Thought Leaders

You may like