Künstliche Intelligenz

Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anastassia Loukina ist eine Forschungswissenschaftlerin bei Educational Testing Services (ETS), wo sie an der automatisierten Bewertung von Sprache arbeitet.

Ihre Forschungsinteressen umfassen eine breite Palette von Themen. Sie hat unter anderem an modernen griechischen Dialekten, Sprachrhythmus und automatisierter Prosodieanalyse gearbeitet.

Ihre derzeitige Arbeit konzentriert sich darauf, Tools und Methoden aus der Sprachtechnologie und dem Maschinellen Lernen mit Erkenntnissen aus Studien über Sprachwahrnehmung/Produktion zu kombinieren, um automatisierte Bewertungsmodelle für die Bewertung von nicht-muttersprachlichem Sprachgebrauch zu entwickeln.

Sie haben offensichtlich eine Liebe zu Sprachen, was hat Sie zu dieser Leidenschaft gebracht?

Ich wuchs in St. Petersburg, Russland, auf und sprach Russisch, und ich erinnere mich daran, wie fasziniert ich war, als ich zum ersten Mal die englische Sprache kennenlernte: Für einige Wörter gab es ein Muster, das es ermöglichte, ein russisches Wort in ein englisches Wort “umzuwandeln”. Und dann kam ich auf ein Wort, bei dem mein “Muster” versagte, und versuchte, eine bessere, allgemeinere Regel zu finden. Zu dieser Zeit wusste ich natürlich nichts über linguistische Typologie oder den Unterschied zwischen Kognaten und Lehnwörtern, aber dies schürte meine Neugier und den Wunsch, mehr Sprachen zu lernen. Diese Leidenschaft für das Identifizieren von Mustern in der Art, wie Menschen sprechen, und das Testen auf Daten ist es, was mich zur Phonetik, zum Maschinellen Lernen und der Arbeit, die ich jetzt mache, geführt hat.

Bevor Sie Ihre derzeitige Arbeit im Bereich Natural Language Processing (NLP) aufnahmen, waren Sie Übersetzer zwischen Englisch-Russisch und Modern-Griechisch-Russisch. Glauben Sie, dass Ihre Arbeit als Übersetzer Ihnen zusätzliche Einblicke in einige der Nuancen und Probleme im Zusammenhang mit NLP gegeben hat?

Meine primäre Identität war immer die eines Forschers. Es ist wahr, dass ich meine akademische Karriere als Gelehrter des Modernen Griechisch begann, oder genauer gesagt, der Phonetik des Modernen Griechisch. Für meine Doktorarbeit erforschte ich phonetische Unterschiede zwischen mehreren modernen griechischen Dialekten und wie die Unterschiede zwischen diesen Dialekten mit der Geschichte des Gebiets in Verbindung gebracht werden könnten. Ich argumentierte, dass einige der Unterschiede zwischen den Dialekten als Ergebnis des Sprachkontakts zwischen jedem Dialekt und anderen im Gebiet gesprochenen Sprachen entstanden sein könnten. Obwohl ich nicht mehr an Modernem Griechisch arbeite, sind die Veränderungen, die auftreten, wenn zwei Sprachen in Kontakt kommen, immer noch im Mittelpunkt meiner Arbeit: Nur diesmal konzentriere ich mich darauf, was passiert, wenn eine Person eine neue Sprache lernt und wie Technologie dabei helfen kann, dies am effizientesten zu tun.

Wenn es um die englische Sprache geht, gibt es eine Vielzahl von Akzenten. Wie entwerfen Sie ein NLP mit der Fähigkeit, alle verschiedenen Dialekte zu verstehen? Ist es ein einfaches Problem, dem Deep-Learning-Algorithmus zusätzliche Big-Data von jedem Akzenttyp zuzuführen?

Es gibt mehrere Ansätze, die in der Vergangenheit verwendet wurden, um dieses Problem zu lösen. Neben dem Aufbau eines großen Modells, das alle Akzente abdeckt, könnten Sie zunächst den Akzent identifizieren und dann ein benutzerdefiniertes Modell für diesen Akzent verwenden oder mehrere Modelle gleichzeitig ausprobieren und dasjenige auswählen, das am besten funktioniert. Letztendlich benötigen Sie zum Erzielen einer guten Leistung auf einer breiten Palette von Akzenten Trainings- und Evaluierungsdaten, die die vielen Akzente repräsentieren, denen das System begegnen kann.

Bei ETS führen wir umfassende Evaluierungen durch, um sicherzustellen, dass die von unseren automatisierten Systemen erzeugten Bewertungen die tatsächlichen Fähigkeiten widerspiegeln, die wir messen möchten, und nicht von den demografischen Merkmalen des Lernenden wie Geschlecht, Rasse oder Herkunftsland beeinflusst werden.

Kinder und/oder Sprachlerner haben oft Schwierigkeiten mit der perfekten Aussprache. Wie überwinden Sie das Aussprache-Problem?

Es gibt keine perfekte Aussprache: Die Art, wie wir sprechen, ist eng mit unserer Identität verbunden, und als Entwickler und Forscher ist unser Ziel, sicherzustellen, dass unsere Systeme fair zu allen Benutzern sind.

Sowohl Sprachlerner als auch Kinder stellen besondere Herausforderungen für sprachbasierte Systeme dar. Zum Beispiel haben Kinderstimmen nicht nur eine sehr unterschiedliche akustische Qualität, sondern Kinder sprechen auch anders als Erwachsene, und es gibt eine große Variabilität zwischen Kindern. Die Entwicklung eines automatisierten Spracherkennungssystems für Kinder ist daher in der Regel eine separate Aufgabe, die eine große Menge an Kindersprachdaten erfordert.

Ebenso gibt es, obwohl es viele Ähnlichkeiten zwischen Sprachlernern aus dem gleichen Hintergrund gibt, eine große Vielfalt in der Verwendung phonetischer, grammatischer und lexikalischer Muster, was die Spracherkennung zu einer besonders herausfordernden Aufgabe macht. Wenn wir unsere Systeme für die Bewertung der englischen Sprachkenntnisse aufbauen, verwenden wir Daten von Sprachlernern mit einer breiten Palette von Sprachkenntnissen und Muttersprachen.

Im Januar 2018 veröffentlichten Sie ‘Verwendung von Beispielaufgaben für die Schulung und Bewertung automatisierter Sprachbewertungssysteme‘. Was sind einige der wichtigsten Durchbrüche und Grundlagen, die aus diesem Papier verstanden werden sollten?

In diesem Papier untersuchten wir, wie die Qualität der Trainings- und Testdaten die Leistung automatisierter Bewertungssysteme beeinflusst.

Automatisierte Bewertungssysteme, wie viele andere automatisierte Systeme, werden auf Daten trainiert, die von Menschen beschriftet wurden. In diesem Fall handelt es sich um von menschlichen Bewertern zugewiesene Bewertungen. Menschliche Bewerter stimmen nicht immer in den Bewertungen überein, die sie zuweisen. Es gibt mehrere Strategien, die in der Bewertung verwendet werden, um sicherzustellen, dass die endgültige Bewertung, die dem Testteilnehmer mitgeteilt wird, sehr zuverlässig bleibt, trotz der Variation in der menschlichen Übereinstimmung auf der Ebene der einzelnen Frage. Allerdings können inkonsistente Bewertungen aufgrund der Vielzahl von Gründen, die oben genannt wurden, die Leistung des Systems negativ beeinflussen.

Wir hatten Zugang zu einer großen Menge an Daten mit unterschiedlicher Übereinstimmung zwischen menschlichen Bewertern und konnten die Systemleistung unter verschiedenen Bedingungen vergleichen. Was wir feststellten, ist, dass das Training des Systems auf perfekten Daten seine Leistung nicht verbessert, wenn es mit einem System verglichen wird, das auf Daten mit lauteren Beschriftungen trainiert wurde. Perfekte Beschriftungen bieten nur einen Vorteil, wenn die Gesamtgröße des Trainingssets sehr gering ist. Andererseits hatte die Qualität der menschlichen Beschriftungen einen großen Einfluss auf die Systembewertung: Ihre Leistungsabschätzungen können bis zu 30% höher sein, wenn Sie auf sauberen Beschriftungen bewertet werden.

Die Kernbotschaft ist, dass es, wenn Sie über eine große Menge an Daten und Ressourcen verfügen, um Ihre Gold-Standard-Beschriftungen zu reinigen, cleverer sein kann, die Beschriftungen im Evaluierungsset zu reinigen, anstatt die Beschriftungen im Trainingsset. Und diese Erkenntnis gilt nicht nur für die automatisierte Bewertung, sondern auch für viele andere Bereiche.

Können Sie einige Ihrer Arbeiten bei ETS beschreiben?

Ich arbeite an einem Sprachbewertungssystem, das gesprochene Sprache in einem Bildungskontext verarbeitet. Ein solches System ist SpeechRater®, das fortschrittene Spracherkennungs- und Analysetechnologie verwendet, um die englische Sprachkenntnis zu bewerten und detaillierte Rückmeldungen zu liefern. SpeechRater ist eine sehr ausgereifte Anwendung, die bereits über 10 Jahre existiert. Ich baue Bewertungsmodelle für verschiedene Anwendungen und arbeite mit anderen Kollegen bei ETS zusammen, um sicherzustellen, dass unsere Bewertungen zuverlässig, fair und gültig für alle Testteilnehmer sind. Wir arbeiten auch mit anderen Gruppen bei ETS zusammen, um die Systemleistung kontinuierlich zu überwachen.

Neben der Wartung und Verbesserung unserer operativen Systeme entwickeln wir auch neue Systeme. Ein Projekt, das mich sehr begeistert, ist RelayReader™: Eine Anwendung, die entwickelten Lesern helfen soll, ihre Leseflüssigkeit und ihr Selbstvertrauen zu verbessern. Wenn man mit RelayReader liest, liest der Benutzer abwechselnd zu und spricht einen Text. Seine Lesung wird dann an unsere Server gesendet, um Feedback zu liefern. Im Hinblick auf die Sprachverarbeitung ist die Hauptaufgabe dieser Anwendung, wie man das Lernen misst und handhabbares und zuverlässiges Feedback unauffällig liefert, ohne die Auseinandersetzung des Lesers mit dem Buch zu stören.

Was ist Ihr Lieblingsteil der Arbeit bei ETS?

Was mich ursprünglich zu ETS gezogen hat, ist, dass es sich um eine gemeinnützige Organisation handelt, die sich zum Ziel gesetzt hat, die Qualität der Bildung für alle Menschen auf der ganzen Welt zu verbessern. Während es natürlich großartig ist, wenn Forschung zu einem Produkt führt, schätze ich die Gelegenheit, an Projekten zu arbeiten, die eher grundlegender Natur sind, aber bei der Produktentwicklung in der Zukunft helfen werden. Ich schätze auch die Tatsache, dass ETS Fragen wie Datenschutz und Fairness sehr ernst nimmt und alle unsere Systeme einer sehr strengen Bewertung unterzogen werden, bevor sie operationell eingesetzt werden.

Aber was ETS wirklich zu einem großartigen Arbeitsplatz macht, sind die Menschen. Wir haben eine fantastische Gemeinschaft von Wissenschaftlern, Ingenieuren und Entwicklern aus vielen verschiedenen Hintergründen, was zu vielen interessanten Zusammenarbeiten führt.

Glauben Sie, dass ein KI-System jemals den Turing-Test bestehen kann?

Seit den 1950er Jahren gibt es viele Interpretationen davon, wie der Turing-Test in der Praxis durchgeführt werden sollte. Es gibt wahrscheinlich eine allgemeine Übereinstimmung, dass der Turing-Test im philosophischen Sinne noch nicht bestanden wurde, dass es also kein KI-System gibt, das wie ein Mensch denkt. Allerdings ist dies auch zu einem sehr speziellen Thema geworden. Die meisten Menschen bauen ihre Systeme nicht, um den Turing-Test zu bestehen – wir wollen, dass sie bestimmte Ziele erreichen.

Für einige dieser Aufgaben, zum Beispiel die Spracherkennung oder das Verständnis natürlicher Sprache, kann die menschliche Leistung zu Recht als Goldstandard betrachtet werden. Es gibt jedoch auch viele andere Aufgaben, bei denen wir erwarten, dass ein automatisiertes System viel besser als Menschen ist oder bei denen ein automatisiertes System und ein menschlicher Experte zusammenarbeiten müssen, um das beste Ergebnis zu erzielen. Zum Beispiel möchten wir in einem Bildungskontext kein KI-System, das einen Lehrer ersetzt: Wir wollen, dass es den Lehrern hilft, sei es durch das Identifizieren von Mustern in den Lernkurven der Schüler, die Unterstützung bei der Bewertung oder das Finden der besten Lehrmaterialien.

Gibt es noch etwas, das Sie über ETS oder NLP teilen möchten?

Viele Menschen kennen ETS für seine Bewertungen und automatisierten Bewertungssysteme. Aber wir tun viel mehr als das. Wir haben viele Fähigkeiten, von Sprachbiometrie bis hin zu gesprochenen Dialoganwendungen, und wir suchen ständig nach neuen Möglichkeiten, Technologie in das Lernen zu integrieren. Jetzt, da viele Schüler von zu Hause aus lernen, haben wir einige unserer Forschungskapazitäten der Öffentlichkeit zugänglich gemacht.

Vielen Dank für das Interview und für die Einblicke in die neuesten Entwicklungen im Bereich NLP und Spracherkennung. Jeder, der mehr erfahren möchte, kann Educational Testing Services besuchen.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.

Unite.AI

Anastassia Loukina, Senior Research Scientist (NLP/Speech) at ETS – Interview Series

You may like