Künstliche Intelligenz

Google-Forscher entdecken Unterspezifikationsproblem, das viele KI-Modelle behindert

Published November 20, 2020

Updated April 5, 2026

Daniel Nelson

Kürzlich hat ein Team von Forschern von Google eine häufige Ursache für das Scheitern von KI-Modellen identifiziert und auf die Unterspezifikation als einen der Hauptgründe hingewiesen, warum maschinelle Lernmodelle oft in der realen Welt anders performen als während der Tests und der Entwicklung.

Maschinelle Lernmodelle scheitern oft, wenn sie in einer realen Umgebung eingesetzt werden, auch wenn die Modelle im Labor optimal performen. Es gibt viele Gründe, warum die Diskrepanz zwischen der Trainings-/Entwicklungs- und der realen Weltleistung auftritt. Einer der häufigsten Gründe, warum KI-Modelle bei realen Aufgaben scheitern, ist ein Konzept, das als Datenverschiebung bekannt ist. Datenverschiebung bezieht sich auf einen grundlegenden Unterschied zwischen den Daten, die zur Entwicklung eines maschinellen Lernmodells verwendet werden, und den Daten, die dem Modell während der Anwendung zugeführt werden. Als Beispiel werden Computer-Vision-Modelle, die auf hochwertigen Bilddaten trainiert werden, Schwierigkeiten haben, wenn sie mit Daten aus niedrigwertigen Kameras gefüttert werden, die in der täglichen Umgebung des Modells verwendet werden.

Laut MIT Technology Review hat ein Team von 40 verschiedenen Forschern bei Google einen weiteren Grund identifiziert, warum die Leistung eines maschinellen Lernmodells so stark variieren kann. Das Problem ist die “Unterspezifikation”, ein statistisches Konzept, das Probleme beschreibt, bei denen beobachtete Phänomene viele mögliche Ursachen haben, von denen nicht alle vom Modell berücksichtigt werden. Laut dem Leiter der Studie, Alex D’Amour, tritt das Problem in vielen maschinellen Lernmodellen auf und sagt, dass das Phänomen “überall passiert”.

Die typische Methode, ein maschinelles Lernmodell zu trainieren, besteht darin, dem Modell eine große Menge an Daten zu füttern, die es analysieren und aus denen es relevante Muster extrahieren kann. Anschließend wird dem Modell eine Reihe von Beispielen präsentiert, die es noch nicht gesehen hat, und es wird aufgefordert, die Natur dieser Beispiele auf der Grundlage der Merkmale vorherzusagen, die es gelernt hat. Sobald das Modell eine bestimmte Genauigkeit erreicht hat, wird die Trainingsphase in der Regel als abgeschlossen betrachtet.

Laut dem Google-Forschungsteam muss mehr getan werden, um sicherzustellen, dass die Modelle tatsächlich auf nicht-trainierte Daten verallgemeinert werden können. Die klassische Methode, maschinelle Lernmodelle zu trainieren, produziert verschiedene Modelle, die alle ihre Tests bestehen, aber diese Modelle unterscheiden sich in kleinen, scheinbar unwichtigen Aspekten, die jedoch nicht unwichtig sind. Verschiedene Knoten in den Modellen haben unterschiedliche zufällige Werte, oder die Trainingsdaten können auf verschiedene Weise ausgewählt oder dargestellt werden. Diese Variationen sind klein und oft willkürlich, und wenn sie keinen großen Einfluss auf die Leistung der Modelle während der Trainingsphase haben, sind sie leicht zu übersehen. Wenn jedoch der Einfluss all dieser kleinen Änderungen kumuliert, kann er zu großen Variationen in der realen Leistung führen.

Diese Unterspezifikation ist problematisch, weil sie bedeutet, dass, auch wenn der Trainingsprozess in der Lage ist, gute Modelle zu produzieren, er auch ein schlechtes Modell produzieren kann und der Unterschied nicht entdeckt wird, bis das Modell die Produktion verlässt und in den Einsatz geht.

Um den Einfluss der Unterspezifikation zu bewerten, untersuchte das Forschungsteam eine Reihe von Modellen. Jedes Modell wurde mit dem gleichen Trainingsprozess trainiert, und dann wurden die Modelle einer Reihe von Tests unterzogen, um die Unterschiede in der Leistung hervorzuheben. In einem Fall wurden 50 verschiedene Versionen eines Bilderkennungssystems auf dem ImageNet-Datensatz trainiert. Die Modelle waren alle gleich, außer dass sie zufällige Werte für das Neuronale Netzwerk zu Beginn der Trainingsphase zugewiesen wurden. Die Stress-tests, die verwendet wurden, um die Unterschiede in den Modellen zu ermitteln, wurden mit ImageNet-C durchgeführt, einer Variante des ursprünglichen Datensatzes, der Bilder mit Kontrast- oder Helligkeitsanpassung enthält. Die Modelle wurden auch auf ObjectNet getestet, einer Reihe von Bildern mit alltäglichen Objekten in ungewöhnlichen Orientierungen und Kontexten. Obwohl alle 50 Modelle etwa die gleiche Leistung auf dem Trainingsdatensatz hatten, variierte die Leistung stark, als die Modelle den Stress-Tests unterzogen wurden.

Das Forschungsteam fand ähnliche Ergebnisse, als sie zwei verschiedene NLP-Systeme trainierten und testeten, sowie als sie verschiedene Computer-Vision-Modelle testeten. In jedem Fall unterschieden sich die Modelle stark voneinander, obwohl der Trainingsprozess für alle Modelle der gleiche war.

Laut D’Amour müssen maschinelle Lernforscher und -ingenieure viel mehr Stress-Tests durchführen, bevor sie Modelle in die freie Wildbahn entlassen. Dies kann schwierig sein, da Stress-Tests auf spezifische Aufgaben zugeschnitten werden müssen, die Daten aus der realen Welt verwenden, die für bestimmte Aufgaben und Kontexte schwer zu erhalten sein können. Eine mögliche Lösung für das Problem der Unterspezifikation besteht darin, mehrere Modelle gleichzeitig zu produzieren und dann die Modelle auf eine Reihe von realen Aufgaben zu testen, um das Modell auszuwählen, das konsistent die besten Ergebnisse zeigt. Die Entwicklung von Modellen auf diese Weise erfordert viel Zeit und Ressourcen, aber der Trade-off könnte sich lohnen, insbesondere für KI-Modelle, die in medizinischen Kontexten oder anderen Bereichen eingesetzt werden, in denen Sicherheit ein Hauptanliegen ist. Wie D’Amour via MIT Technology Review erklärte:

“Wir müssen besser darin werden, genau zu spezifizieren, was unsere Anforderungen an unsere Modelle sind. Denn oft passiert es, dass wir diese Anforderungen erst entdecken, nachdem das Modell in der realen Welt gescheitert ist.”

Daniel Nelson

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.

Unite.AI

Google-Forscher entdecken Unterspezifikationsproblem, das viele KI-Modelle behindert

You may like