Andersons Blickwinkel

KI-Modelle haben Schwierigkeiten, Links von Rechts in medizinischen Scans zu unterscheiden

Published August 4, 2025

Updated April 26, 2026

Martin Anderson

A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Eine neue Studie zeigt, dass KI-Bildmodelle wie ChatGPT medizinische Scans falsch interpretieren können, wenn die Anatomie gedreht oder gespiegelt ist, was das Risiko gefährlicher Fehler bei der Diagnose erhöht. Tests haben gezeigt, dass sie oft grundlegende räumliche Denkfähigkeiten in medizinischen Scans verfehlen – erraten, wo Organe sein sollten, anstatt tatsächlich auf das Bild zu schauen. Vielleicht von breiterem Interesse ist, dass die Forschung zeigt, dass diese Modelle möglicherweise Ihre hochgeladenen PDFs oder Bilder nicht lesen.

Wer regelmäßig Daten wie PDF-Inhalte zu einem führenden Sprachmodell wie ChatGPT hochlädt, weiß, dass LLMs nicht immer unbedingt lesen oder untersuchen, was Sie ihnen präsentieren; stattdessen machen sie oft Annahmen über das Material, basierend auf dem, was Sie über es in Ihrem Prompt geschrieben haben, als Sie es hochgeladen haben.

Es kann schwierig sein, ein Sprachmodell dazu zu bringen, zuzugeben, dass es den Inhalt nicht wirklich untersucht hat, sondern seine Antwort auf vorherigem Wissen, Metadaten oder allgemeinen Annahmen basiert. Quelle: https://chatgpt.com

Es kann schwierig sein, ein Sprachmodell dazu zu bringen, zuzugeben, dass seine Antwort auf vorherigem Wissen, Metadaten oder allgemeinen Annahmen basiert und nicht auf dem Inhalt, den es erhalten hat. Quelle: https://chatgpt.com

Ein möglicher Grund dafür ist, die Geschwindigkeit der Antwort zu erhöhen, indem das hochgeladene Material als “redundant” betrachtet wird und auf das vorherige Wissen des Systems zurückgegriffen wird – und so den Upload vermeidet und den Netzwerkverkehr minimiert.

Ein weiterer Grund ist die Ressourcenschonung (obwohl Anbieter dies wahrscheinlich nicht bekannt geben werden, wenn es zutrifft), bei der existing Metadaten, die das LLM aus früheren Gesprächen im Chat extrahiert hat, als Grundlage für weitere Antworten verwendet werden, auch wenn diese Gespräche und Metadaten nicht genug Informationen enthalten, um diesen Zweck zu erfüllen.

Links. Rechts?

Egal, welcher Grund für die unterschiedliche Aufmerksamkeit und Fokussierfähigkeit der aktuellen Generation von LLMs verantwortlich ist, gibt es Situationen und Kontexte, in denen Raten extrem gefährlich ist. Einer davon ist, wenn die KI gefragt wird, medizinische Dienstleistungen wie Screening oder Risikobewertung von radiologischem Material zu erbringen.

In dieser Woche haben Forscher aus Deutschland und den USA eine neue Studie veröffentlicht, in der die Wirksamkeit von vier führenden Vision-Sprachmodellen, einschließlich ChatGPT-4o, untersucht wird, wenn sie aufgefordert werden, die Lage von Organen in medizinischen Scans zu identifizieren.

Überraschenderweise erreichen die Basismodelle trotz ihrer State-of-the-Art-Eigenschaften in diesem Bereich keine höhere Erfolgsrate als reiner Zufall, da sie offensichtlich nicht in der Lage sind, ihr trainiertes Wissen über die menschliche Anatomie ausreichend zu trennen und tatsächlich schauen, was auf dem Bild präsentiert wird, anstatt auf ein leichtes trainiertes Prior aus ihren Trainingsdaten zurückzugreifen.

Die Forscher fanden heraus, dass die getesteten LLMs erheblich besser abschnitten, wenn die zu betrachtenden Abschnitte durch andere Indikatoren (wie Punkte und alphanumerische Sequenzindikatoren) sowie benannt wurden – und am besten, wenn keine Erwähnung von Organen oder Anatomie in der Abfrage enthalten war:

Variierende Erfolgsraten, die zunehmen, wenn die Fähigkeit des Modells, auf trainierte Daten zurückzugreifen, verringert wird und es gezwungen wird, sich auf die vorliegenden Daten zu konzentrieren. Quelle: https://wolfda95.github.io/your_other_left/

Die Arbeit beobachtet*:

‘State-of-the-Art-VLMs verfügen bereits über starkes vorheriges anatomisches Wissen, das in ihren Sprachkomponenten eingebettet ist. Mit anderen Worten, sie “wissen”, wo anatomische Strukturen typischerweise in der Standard-Mensch-Anatomie liegen.

‘Wir gehen davon aus, dass VLMs oft ihre Antworten auf diesem vorherigen Wissen basieren, anstatt den tatsächlichen Bildinhalt zu analysieren. Zum Beispiel könnte ein Modell, wenn es gefragt wird, ob die Leber rechts vom Magen liegt, bejahen, ohne das Bild zu untersuchen, und sich allein auf das gelernte Normale verlassen, dass die Leber normalerweise rechts vom Magen liegt.

‘Ein solches Verhalten könnte zu kritischen Fehldiagnosen in Fällen führen, in denen die tatsächlichen Positionen von den typischen anatomischen Mustern abweichen, wie bei situs inversus, post-chirurgischen Veränderungen oder Tumorverdrängung.’

Um das Problem in zukünftigen Bemühungen zu mildern, haben die Autoren ein Dataset entwickelt, das dieses Problem angehen soll.

Die Ergebnisse der Studie dürften für viele Leser, die die Entwicklung von medizinischer KI verfolgt haben, überraschend sein, da die Radiographie sehr früh als einer der Jobs identifiziert wurde, der am stärksten von der Automatisierung durch maschinelles Lernen betroffen sein wird.

Die neue Arbeit heißt Ihre andere Linke! Vision-Sprachmodelle können relative Positionen in medizinischen Bildern nicht identifizieren und stammt von sieben Forschern aus zwei Fakultäten der Universität Ulm und Axiom Bio in den USA.

Methode und Daten

Die Forscher versuchten, vier Fragen zu beantworten: ob State-of-the-Art-Vision-Sprachmodelle relative Positionen in radiologischen Bildern korrekt bestimmen können; ob die Verwendung von visuellen Markern ihre Leistung bei dieser Aufgabe verbessert; ob sie mehr auf vorheriges anatomisches Wissen als auf den tatsächlichen Bildinhalt zurückgreifen; und wie gut sie relative Positionierungsaufgaben bewältigen, wenn sie von jedem medizinischen Kontext befreit werden.

Dazu curierten sie das Medical Imaging Relative Positioning (MIRP)-Dataset.

Obwohl die meisten vorhandenen visuellen Frage-Antwort-Benchmarks für CT- oder MRT-Scheiben anatomische und Lokalisierungsaufgaben enthalten, übersehen diese älteren Sammlungen die Kernherausforderung der Bestimmung relativer Positionen, was viele Aufgaben mit alleinigem medizinischem Wissen lösbar macht.

MIRP soll dies angehen, indem relative Positionierungsfragen zwischen anatomischen Strukturen getestet, der Einfluss von visuellen Markern bewertet und zufällige Rotationen und Spiegelungen angewendet werden, um die Abhängigkeit von gelernten Normen zu blockieren. Das Dataset konzentriert sich auf abdominale CT-Scheiben aufgrund ihrer Komplexität und Häufigkeit in der Radiologie.

MIRP enthält eine gleiche Anzahl von Ja– und Nein-Antworten, wobei die anatomischen Strukturen in jeder Frage optional für Klarheit markiert werden.

Drei Arten von visuellen Markern wurden getestet: schwarze Zahlen in einem weißen Kasten; schwarze Buchstaben in einem weißen Kasten; und ein roter und ein blauer Punkt:

Die verschiedenen visuellen Marker, die in MIRP verwendet werden. Quelle: https://arxiv.org/pdf/2508.00549

Die Sammlung wurde aus den vorhandenen Beyond the Cranial Vault (BTCV)- und Abdominal Multi-Organ Segmentation (AMOS)-Datasets quellen.

Annotierte Scheiben aus dem AMOS-Dataset. Quelle: https://arxiv.org/pdf/2206.08023

Das TotalSegmentator-Projekt wurde verwendet, um anatomische Flachbilder aus volumetrischen Daten zu extrahieren:

Einige der 104 anatomischen Strukturen, die in TotalSegmentator verfügbar sind. Quelle: https://arxiv.org/pdf/2208.05868

Axiale Bildscheiben wurden dann mit dem SimpleITK-Framework erhalten.

Die ‘Herausforderung’-Bildpositionen mussten mindestens 50px voneinander entfernt sein und eine Größe von mindestens doppelter Markergröße haben, um Frage-Antwort-Paare zu generieren.

Tests

Die vier getesteten Vision-Sprachmodelle waren GPT-4o; Llama3.2; Pixtral; und DeepSeeks JanusPro.

Die Forscher testeten jede ihrer vier Forschungsfragen nacheinander, wobei die erste (Q1) ‘Können aktuelle Top-Tier-VLMs relative Positionen in radiologischen Bildern genau bestimmen? war. Für diese Anfrage testeten die Forscher die Modelle auf plain, rotierten oder gespiegelten CT-Scheiben mit einem Standard-Frageformat, wie Ist die linke Niere unter dem Magen?.

Die Ergebnisse (siehe unten) zeigten Genauigkeiten nahe 50 Prozent über alle Modelle hinweg, was auf eine Leistung auf Zufallsniveau und eine Unfähigkeit, relative Positionen zuverlässig zu beurteilen, ohne visuelle Marker, hinweist:

Durchschnittliche Genauigkeit für alle Experimente mit bildbasierten Bewertungen auf dem MIRP-Benchmark (RQ1–RQ3) und dem Ablations-Datensatz (AS).

Um zu testen, ob visuelle Marker Vision-Sprachmodelle helfen können, relative Positionen in radiologischen Bildern zu bestimmen, wiederholten die Studie die Experimente mit CT-Scheiben, die mit Buchstaben, Zahlen oder roten und blauen Punkten annotiert waren; und hier wurde das Frageformat angepasst, um auf diese Marker zu verweisen – zum Beispiel Ist die linke Niere (A) unter dem Magen (B)? oder Ist die linke Niere (rot) unter dem Magen (blau)?.

Die Ergebnisse zeigten kleine Genauigkeitsgewinne für GPT-4o und Pixtral, wenn Buchstaben- oder Zahlenmarker verwendet wurden, während JanusPro und Llama3.2 wenig bis keine Vorteile sahen, was darauf hindeutet, dass Marker allein möglicherweise nicht ausreichen, um die Leistung wesentlich zu verbessern.

Genauigkeit für alle Experimente mit bildbasierten Bewertungen. Für RQ2, RQ3 und AS werden die Ergebnisse mit dem besten Marker-Typ für jedes Modell angezeigt: Buchstaben für GPT-4o und rote-blaue Punkte für Pixtral, JanusPro und Llama3.4.

Um die dritte Frage zu beantworten, Ob VLMs vorheriges anatomisches Wissen gegenüber visuellem Input priorisieren, wenn sie relative Positionen in radiologischen Bildern bestimmen, untersuchten die Autoren, ob Vision-Sprachmodelle mehr auf vorheriges anatomisches Wissen als auf visuellen Input zurückgreifen, wenn sie relative Positionen in radiologischen Bildern bestimmen.

Wenn auf rotierten oder gespiegelten CT-Scheiben getestet, produzierten GPT-4o und Pixtral oft Antworten, die mit den Standard-Anatomie-Positionen übereinstimmten, anstatt das zu reflektieren, was auf dem Bild gezeigt wurde, wobei GPT-4o über 75 Prozent Genauigkeit bei der anatomiebasierten Bewertung erreichte, aber nur eine Zufallsleistung bei der bildbasierten Bewertung.

Das Entfernen anatomischer Begriffe aus den Prompts und die Verwendung nur visueller Marker zwang die Modelle, sich auf den Bildinhalt zu verlassen, was zu deutlichen Gewinnen führte, wobei GPT-4o über 85 Prozent Genauigkeit mit Buchstabenmarkern und Pixtral über 75 Prozent mit Punkten erreichte.

Ein Vergleich der vier Vision-Sprachmodelle bei der Bestimmung der relativen Positionen anatomischer Strukturen in medizinischen Bildern – eine wichtige Anforderung für den klinischen Einsatz. Die Leistung liegt bei Zufallsniveau mit plain Bildern (RQ1) und zeigt nur geringe Gewinne mit visuellen Markern (RQ2). Wenn anatomische Namen entfernt und die Modelle gezwungen werden, sich ausschließlich auf die Marker zu verlassen, erreichen GPT-4o und Pixtral wesentliche Genauigkeitsverbesserungen (RQ3). Die Ergebnisse werden mit dem besten Marker-Typ für jedes Modell angezeigt.

Dies deutet darauf hin, dass beide Modelle die Aufgabe mit Bildaten ausführen können, aber tendenziell auf gelernte anatomische Priors zurückgreifen, wenn anatomische Namen gegeben werden – ein Muster, das nicht klar bei JanusPro oder Llama3.2 beobachtet wird.

Obwohl wir normalerweise keine Ablationsstudien abdecken, beantworteten die Autoren die vierte und letzte Forschungsfrage auf diese Weise. Daher testeten die Studie die relative Positionierungsfähigkeit ohne jeden medizinischen Kontext, indem sie plain weiße Bilder mit zufällig platzierten Markern verwendete und einfache Fragen wie Ist die Zahl 1 über der Zahl 2? stellte. Pixtral zeigte verbesserte Ergebnisse mit Punktmarkern, während die anderen Modelle ähnlich wie ihre RQ3-Ergebnisse abschnitten.

JanusPro und insbesondere Llama3.2 hatten Schwierigkeiten, sogar in diesem vereinfachten Setting, was auf zugrunde liegende Schwächen in der relativen Positionierung hinweist, die nicht auf medizinische Bilder beschränkt sind.

Die Autoren bemerken, dass GPT-4o mit Buchstabenmarkern am besten abschnitt, während Pixtral, JanusPro und Llama3.2 höhere Punktzahlen mit roten-blauen Punkten erreichten. GPT-4o war der Gesamtsieger, wobei Pixtral unter den Open-Source-Modellen führend war.

Schlussfolgerung

Auf persönlicher Note zog mich diese Arbeit nicht so sehr wegen ihrer medizinischen Bedeutung, sondern weil sie einen der am wenigsten berichteten und grundlegendsten Mängel der aktuellen Welle von SOTA-LLMs hervorhebt – dass, wenn die Aufgabe vermieden werden kann, und es sei denn, Sie präsentieren Ihr Material sorgfältig, sie nicht die Texte lesen, die Sie hochladen, oder die Bilder, die Sie vorstellen.

Weiterhin zeigt die Studie an, dass, wenn Ihr Text-Prompt auf irgendeine Weise erklärt, was das sekundär hochgeladene Material ist, die KI tendenziell es als ‘teleologisches’ Beispiel behandelt und viele Dinge darüber annimmt, basierend auf vorherigem Wissen, anstatt es zu untersuchen und zu berücksichtigen, was Sie hochgeladen haben.

Effektiv bedeutet dies, dass VLMs große Schwierigkeiten haben werden, ‘aberrantes’ Material zu identifizieren – eine der wichtigsten Fähigkeiten in der diagnostischen Medizin. Während es möglich ist, die Logik umzukehren und ein System zu haben, das nach Ausreißern sucht, anstatt nach Ergebnissen innerhalb der Verteilung, müsste das Modell eine außergewöhnliche Kuratierung haben, um das Signal nicht mit irrelevanten oder spurious Beispielen zu überwältigen.

* Inline-Zitate weggelassen, da es keine elegante Möglichkeit gibt, sie als Hyperlinks einzuschließen. Bitte beachten Sie die Quellenarbeit.

Erstveröffentlicht am Montag, den 4. August 2025