Künstliche Intelligenz

Überinterpretation kann eine größere und unüberwindbarere Bedrohung sein als Überanpassung

Published January 13, 2022

Updated April 5, 2026

Martin Anderson

Wenn Ihre gute Freundin Alice gerne gelbe Pullover trägt, werden Sie mehr gelbe Pullover sehen als der Durchschnittsmensch. Nach einer Weile ist es möglich, dass Ihnen, wenn Sie eine andere Frau mit einem gelben Pullover sehen, das Kernkonzept Alice in den Sinn kommt.

Wenn Sie eine Frau mit einem gelben Pullover sehen, die Ähnlichkeit mit Alice hat, können Sie sie sogar zeitweise für Ihre Freundin halten.

Aber es ist nicht Alice. Irgendwann werden Sie erkennen, dass gelber Pullover kein nützlicher Schlüssel für die Identifizierung von Alice ist, da sie ihn nie im Sommer trägt und auch nicht immer im Winter. Irgendwann in der Freundschaft werden Sie beginnen, gelben Pullover als möglichen Alice-Identifizierer herabzustufen, weil Ihre Erfahrung damit unbefriedigend war und die kognitive Energie, die für die Aufrechterhaltung dieses Shortcuts verwendet wird, nicht häufig belohnt wird.

Wenn Sie ein computerbasiertes Erkennungssystem sind, ist es jedoch durchaus möglich, dass Sie Alice überall sehen, wo Sie einen gelben Pullover sehen.

Es ist nicht Ihre Schuld; Sie wurden beauftragt, Alice unter allen Umständen zu identifizieren, mit dem minimal verfügbaren Informationsmaterial, und es gibt keine Knappheit an kognitiven Ressourcen, um diese reduktive Alice-Hilfe aufrechtzuerhalten.

Unheimliche Erkenntnis

Laut einer aktuellen Studie des MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) und Amazon Web Services ist dieses Syndrom, das als Überinterpretation bezeichnet wird, im Bereich der Computer-Vision (CV) weit verbreitet; kann nicht durch die Bekämpfung von Überanpassung gemildert werden (da es nicht direkt mit Überanpassung zusammenhängt); tritt häufig in Forschungen auf, die die beiden einflussreichsten Datensätze für Bilderkennung und -transformation, CIFAR-10 und ImageNet, verwenden; und hat keine einfachen Lösungen – sicherlich keine billigen Lösungen.

Die Forscher fanden heraus, dass, wenn die Eingabebilder auf nur 5% ihres kohärenten Inhalts reduziert werden, eine breite Palette von populären Frameworks die Bilder weiterhin korrekt klassifizieren, die in den meisten Fällen wie visuelles “Kauderwelsch” für jeden menschlichen Beobachter erscheinen:

Original-Trainingsbilder aus CIFAR-10, reduziert auf nur 5% des ursprünglichen Pixelinhalts, jedoch korrekt klassifiziert von einer Reihe von sehr beliebten Computer-Vision-Frameworks mit einer Genauigkeit von 90-99%. Quelle: https://arxiv.org/pdf/2003.08907.pdf

In einigen Fällen finden die Klassifizierungsframeworks diese vereinfachten Bilder sogar leichter zu klassifizieren als die vollständigen Frames in den ursprünglichen Trainingsdaten, wobei die Autoren beobachten, ‘[CNNs] sind sicherer auf diesen Pixel-Subsets als auf vollständigen Bildern’.

Dies deutet auf eine potenziell untergrabende Art von “Schummeln” hin, die bei CV-Systemen, die Benchmark-Datensätze wie CIFAR-10 und ImageNet sowie Benchmark-Frameworks wie VGG16, ResNet20 und ResNet18 verwenden, als gängige Praxis auftritt.

Überinterpretation hat bemerkenswerte Auswirkungen auf CV-basierte autonome Fahrzeugsysteme, die kürzlich mit Teslas Entscheidung in den Fokus gerückt sind, Bildinterpretation gegenüber LiDAR und anderen strahlungsbasierten Sensorsystemen für selbstfahrende Algorithmen zu bevorzugen.

Obwohl “Shortcut-Lernen” eine bekannte Herausforderung ist und ein aktives Forschungsgebiet in der Computer-Vision darstellt, kommentieren die Autoren der Studie, dass die deutsch-kanadische Forschung, die das Problem 2019 einrahmte, nicht erkennt, dass die “spurigen” Pixel-Subsets, die die Überinterpretation charakterisieren, “statistisch gültige Daten” sind, die möglicherweise in Bezug auf Architektur und höhere Ansätze angegangen werden müssen, anstatt durch sorgfältigere Kuratierung von Datensätzen.

Die Studie trägt den Titel Überinterpretation enthüllt Pathologien von Bildklassifizierungsmodellen und stammt von Brandon Carter, Siddhartha Jain und David Gifford von CSAIL in Zusammenarbeit mit Jonas Mueller von Amazon Web Services. Der Code für die Studie ist unter https://github.com/gifford-lab/overinterpretation verfügbar.

Aufteilung der Daten

Die Daten, die die Forscher verwendet haben, werden von ihnen als Ausreichende Eingabe-Subsets (SIS) bezeichnet – im Wesentlichen enthält ein SIS-Bild den minimal möglichen “äußeren Rahmen”, der ausreicht, um ein Bild gut genug zu umreißen, damit ein Computer-Vision-System das ursprüngliche Bild (z. B. Hund, Schiff usw.) identifizieren kann.

In der oberen Reihe sehen wir vollständige ImageNet-Validierungsbilder; unten die SIS-Subsets, korrekt klassifiziert von einem Inception-V3-Modell mit 90% Konfidenz, basierend offensichtlich auf allem, was von dem Bild übrig bleibt – Hintergrundkontext. Natürlich hat die letzte Spalte bemerkenswerte Auswirkungen auf die Erkennung von Verkehrszeichen in selbstfahrenden Fahrzeugalgorithmen.