Andersons Blickwinkel
KI hat bei medizinischen Scans Schwierigkeiten, links von rechts zu unterscheiden

Eine neue Studie zeigt, dass KI-Bildmodelle wie ChatGPT gespiegelte oder gedrehte Anatomie falsch interpretieren können, was das Risiko gefährlicher Diagnosefehler erhöht. Tests zeigen, dass ihnen bei medizinischen Scans häufig das grundlegende räumliche Denken fehlt – Erraten wo Organe sein sollten, anstatt das Bild tatsächlich anzusehen. Vielleicht von allgemeinerem Interesse ist, dass die Forschung zeigt, dass diese Modelle Ihre hochgeladenen PDFs möglicherweise nicht lesen oder Ihre Bilder überhaupt nicht ansehen.
Jeder, der schon einmal regelmäßig Daten, wie etwa PDF-Inhalte, in ein führendes Sprachmodell wie ChatGPT hochgeladen hat, weiß, dass LLMs nicht immer unbedingt lesen oder prüfen, was Sie ihnen präsentieren; vielmehr machen sie sehr oft Annahmen über das Material, basierend auf dem, was Sie beim Hochladen in Ihrer Eingabeaufforderung darüber geschrieben haben.

Es kann schwierig sein, ein Sprachmodell davon zu ĂĽberzeugen, anzuerkennen, dass seine Antwort auf Vorwissen, Metadaten oder allgemeinen Annahmen beruht und nicht auf dem ihm gegebenen Inhalt. Quelle: https://chatgpt.com
Ein möglicher Grund hierfür ist die Erhöhung der Geschwindigkeit der Antwort, indem das hochgeladene Material als „redundant“ betrachtet wird und man sich bei der Textaufforderung auf das Vorwissen des Systems verlässt – wodurch der Upload vollständig vermieden und der Netzwerkverkehr minimiert wird.
Ein weiterer Grund ist die Ressourcenerhaltung (obwohl die Anbieter dies, falls zutreffend, wahrscheinlich nicht offen legen werden), wobei vorhandene Metadaten, die das LLM extrahiert hat, frĂĽhere Austausche im Chat als Grundlage fĂĽr weitere Antworten verwendet werden, auch wenn dieser Austausch und die Metadaten nicht genĂĽgend Informationen enthalten, um diesem Zweck zu dienen.
Links rechts?
Was auch immer der Grund für die unterschiedliche Aufmerksamkeitsspanne und Konzentrationsfähigkeit der aktuellen Generation von LLMs sein mag, es gibt Situationen und Kontexte, in denen Raten äußerst gefährlich ist. Einer davon ist, wenn die betreffende KI gebeten wird, medizinische Dienstleistungen wie Screening oder Risikoabschätzung von radiologischem Material.
Diese Woche veröffentlichten Forscher aus Deutschland und den USA eine neue Forschungsstudie, in der die Wirksamkeit von vier führenden Vision-Language-Modellen, darunter ChatGPT-4o, bei der Identifizierung der Position von Organen in medizinischen Scans untersucht wurde.
Überraschenderweise erreichen die Basismodelle, obwohl sie in dieser Hinsicht den neuesten Stand der Technik darstellen, in den meisten Fällen keine höhere Erfolgsquote als reiner Zufall – anscheinend, weil sie nicht in der Lage sind, ihr antrainiertes Wissen über die menschliche Anatomie ausreichend zu trennen, und tatsächlich aussehen auf die Bilder, die ihnen präsentiert werden, anstatt nach einem einfachen trainierten vor aus ihren Trainingsdaten.
Die Forscher stellten fest, dass die getesteten LLMs deutlich besser abschnitten, wenn die zu berücksichtigenden Abschnitte nicht nur benannt, sondern auch durch andere Indikatoren (wie Punkte und alphanumerische Sequenzindikatoren) gekennzeichnet waren – und am besten, wenn in der Abfrage überhaupt keine Erwähnung von Organen oder Anatomie enthalten war:

Unterschiedliche Erfolgsniveaus, die zunehmen, wenn die Fähigkeit des Modells, auf trainierte Daten zurückzugreifen, abnimmt und es gezwungen ist, sich auf die ihm vorliegenden Daten zu konzentrieren. Quelle: https://wolfda95.github.io/your_other_left/
In der Zeitung heiĂźt es*:
„Hochmoderne VLMs verfügen bereits über umfassende anatomische Vorkenntnisse, die in ihre Sprachkomponenten eingebettet sind. Mit anderen Worten: Sie „wissen“, wo sich anatomische Strukturen in der menschlichen Standardanatomie typischerweise befinden.“
„Wir gehen von der Hypothese aus, dass VLMs ihre Antworten häufig auf diesem Vorwissen basieren, anstatt den tatsächlichen Bildinhalt zu analysieren. Wenn ein Modell beispielsweise gefragt wird, ob sich die Leber rechts vom Magen befindet, könnte es dies bejahen, ohne das Bild zu untersuchen, und sich dabei ausschließlich auf die erlernte Norm verlassen, dass sich die Leber normalerweise rechts vom Magen befindet.“
„Ein solches Verhalten könnte zu schwerwiegenden Fehldiagnosen führen, wenn die tatsächlichen Positionen von typischen anatomischen Mustern abweichen, wie zum Beispiel bei Situs inversus, postoperative Veränderungen oder Tumorverschiebungen.“
Um das Problem bei zukünftigen Bemühungen zu mildern, haben die Autoren einen Datensatz entwickelt, der dieses Problem lösen soll.
Die Ergebnisse des Artikels könnten für viele Leser überraschend sein, die die Entwicklung der medizinischen KI verfolgt haben, da die Radiographie sehr früh vorgesehen als einer der Berufe, bei denen das größte Risiko einer Automatisierung durch maschinelles Lernen besteht.
Die neue Arbeit wird genannt Ihr anderes Links! Vision-Language-Modelle können relative Positionen in medizinischen Bildern nicht identifizierenund stammt von sieben Forschern aus zwei Fakultäten der Universität Ulm und von Axiom Bio in den USA.
Methode und Daten
Die Forscher wollten vier Fragen beantworten: ob moderne Vision-Language-Modelle relative Positionen in radiologischen Bildern korrekt bestimmen können; ob die Verwendung visueller Markierungen ihre Leistung bei dieser Aufgabe verbessert; ob sie sich eher auf anatomisches Vorwissen als auf den eigentlichen Bildinhalt stützen; und wie gut sie mit relativen Positionierungsaufgaben umgehen, wenn sie aus jedem medizinischen Kontext herausgelöst werden.
Zu diesem Zweck kuratierten sie die Relative Positionierung in der medizinischen Bildgebung (MIRP) Datensatz.
Obwohl die meisten vorhandenen visuellen Frage-Antwort-Benchmarks für CT- oder MRI-Schnitte anatomische und Lokalisierungsaufgaben beinhalten, übersehen diese älteren Sammlungen die Kernherausforderung der Bestimmung relative Positionen, sodass viele Aufgaben allein mit medizinischem Vorwissen lösbar sind.
MIRP soll dieses Problem lösen, indem es Fragen zur relativen Position testet. zwischen anatomischen Strukturen, Bewertung der Auswirkungen visueller Markierungen und Anwendung zufälliger Rotationen und Flips, um die Abhängigkeit von erlernten Normen zu blockieren. Der Datensatz konzentriert sich auf CT-Schnitte des Abdomens aufgrund ihrer Komplexität und Verbreitung in der Radiologie.
MIRP enthält eine gleiche Anzahl von ja sowie nicht Antworten, wobei die anatomischen Strukturen in jeder Frage zur Verdeutlichung optional markiert werden können.
Es wurden drei Arten von visuellen Markierungen getestet: schwarze Zahlen in einem weiĂźen Kasten, schwarze Buchstaben in einem weiĂźen Kasten sowie ein roter und ein blauer Punkt:

Die verschiedenen visuellen Marker, die in MIRP verwendet werden. Quelle: https://arxiv.org/pdf/2508.00549
Die Sammlung stammt aus dem bestehenden Jenseits des Schädelgewölbes (BTCV) und Abdominale Multiorgansegmentierung (AMOS)-Datensätze.

Kommentierte Ausschnitte aus dem AMOS-Datensatz. Quelle: https://arxiv.org/pdf/2206.08023
Die Gesamtsegmentator Das Projekt wurde verwendet, um anatomische Flachbilder aus volumetrischen Daten zu extrahieren:

Einige der 104 in TotalSegmentator verfĂĽgbaren anatomischen Strukturen. Quelle: https://arxiv.org/pdf/2208.05868
AnschlieĂźend wurden axiale Schnittbilder mit dem EinfachITK Rahmen.
Die Bildpositionen der „Herausforderung“ mussten mindestens 50 Pixel voneinander entfernt sein und mindestens die doppelte Größe der Markierungen aufweisen, um Frage-/Antwortpaare zu generieren.
Tests
Die vier getesteten Vision-Language-Modelle waren GPT-4o; Lama3.2; Pixtral; und DeepSeeks JanusPro.
Die Forscher testeten jede ihrer vier Forschungsfragen der Reihe nach, wobei die erste (Q1) lautete „Können aktuelle VLMs der Spitzenklasse relative Positionen in radiologischen Bildern genau bestimmen? Für diese Untersuchung testeten die Forscher die Modelle an einfachen, gedrehten oder gespiegelten CT-Schnitten unter Verwendung eines Standardfrageformats, wie beispielsweise Liegt die linke Niere unterhalb des Magens?.
Die Ergebnisse (siehe unten) zeigten Genauigkeiten von nahezu 50 Prozent bei allen Modellen, was auf eine Leistung auf Zufallsebene und die Unfähigkeit hindeutet, relative Positionen ohne visuelle Markierungen zuverlässig zu beurteilen:

Durchschnittliche Genauigkeit für alle Experimente unter Verwendung der bildbasierten Auswertung des MIRP-Benchmarks (RQ1–RQ3) und des Ablationsdatensatzes (AS).
Um zu testen, ob visuelle Markierungen Vision-Language-Modellen dabei helfen können, relative Positionen in radiologischen Bildern zu bestimmen, wiederholte die Studie die Experimente mit CT-Schnitten, die mit Buchstaben, Zahlen oder roten und blauen Punkten markiert waren. Dabei wurde das Fragenformat angepasst, um auf diese Markierungen zu verweisen – zum Beispiel: Befindet sich die linke Niere (A) unterhalb des Magens (B)? or Befindet sich die linke Niere (rot) unterhalb des Magens (blau)?.
Die Ergebnisse zeigten geringe Genauigkeitsgewinne für GPT-4o und Pixtral, wenn Buchstaben- oder Zahlenmarkierungen verwendet wurden, während bei JanusPro und Llama3.2 kaum oder gar keine Vorteile zu verzeichnen waren. Dies deutet darauf hin, dass Markierungen allein möglicherweise nicht ausreichen, um die Leistung deutlich zu verbessern.

Genauigkeit für alle Experimente mit bildbasierter Auswertung. Für RQ2, RQ3 und AS werden die Ergebnisse mit dem leistungsstärksten Markertyp für jedes Modell angezeigt: Buchstaben für GPT-4o und rot-blaue Punkte für Pixtral, JanusPro und Llama3.4.
Um die dritte Frage zu beantworten: Geben VLMs bei der Bestimmung relativer Positionen in radiologischen Bildern anatomischen Vorkenntnissen den Vorzug vor visuellen Eingaben? Die Autoren untersuchten, ob sich Bild-Sprachmodelle bei der Bestimmung relativer Positionen in radiologischen Bildern stärker auf anatomisches Vorwissen als auf visuelle Beweise stützen.
Bei Tests an gedrehten oder gespiegelten CT-Schnitten lieferten GPT-4o und Pixtral häufig Antworten, die mit den standardmäßigen anatomischen Positionen übereinstimmten, anstatt das wiederzugeben, was im Bild gezeigt wurde. Dabei erreichte GPT-4o bei der anatomiebasierten Auswertung eine Genauigkeit von über 75 Prozent, bei der bildbasierten Auswertung jedoch nur eine zufallsbasierte Leistung.
Durch das Entfernen anatomischer Begriffe aus den Eingabeaufforderungen und die ausschlieĂźliche Verwendung visueller Markierungen waren die Modelle gezwungen, sich auf Bildinhalte zu verlassen, was zu deutlichen Verbesserungen fĂĽhrte: GPT-4o erreichte bei Buchstabenmarkierungen eine Genauigkeit von ĂĽber 85 Prozent und Pixtral bei Punkten eine Genauigkeit von ĂĽber 75 Prozent.

Ein Vergleich der vier Vision-Language-Modelle bei der Bestimmung der relativen Positionen anatomischer Strukturen in medizinischen Bildern – eine wichtige Voraussetzung für den klinischen Einsatz. Die Leistung liegt bei einfachen Bildern auf Zufallsniveau (RQ1) und zeigt nur geringe Verbesserungen bei visuellen Markern (RQ2). Wenn anatomische Namen entfernt werden und die Modelle vollständig auf die Marker angewiesen sind, erzielen GPT-4o und Pixtral erhebliche Genauigkeitsverbesserungen (RQ3). Die Ergebnisse werden anhand des jeweils leistungsstärksten Markertyps des Modells angezeigt.
Dies deutet darauf hin, dass beide zwar die Aufgabe mithilfe von Bilddaten ausführen können, bei der Angabe anatomischer Namen jedoch dazu neigen, auf erlernte anatomische Vorkenntnisse zurückzugreifen – ein Muster, das bei JanusPro oder Llama3.2 nicht eindeutig zu beobachten ist.
Obwohl wir normalerweise keine Ablationsstudien behandeln, gingen die Autoren die vierte und letzte Forschungsfrage auf diese Weise an. Um die relative Positionierungsfähigkeit ohne medizinischen Kontext zu testen, verwendete die Studie einfache weiße Bilder mit zufällig platzierten Markierungen und stellte einfache Fragen wie: Steht die Zahl 1 über der Zahl 2?. Pixtral zeigte mit Punktmarkierungen verbesserte Ergebnisse, während die anderen Modelle ähnliche Ergebnisse wie ihre RQ3-Werte erzielten.
JanusPro und insbesondere Llama3.2 hatten selbst in dieser vereinfachten Umgebung Schwierigkeiten, was auf zugrunde liegende Schwächen bei der relativen Positionierung hindeutet, die nicht auf medizinische Bilder beschränkt sind.
Die Autoren stellten fest, dass GPT-4o mit Buchstabenmarkierungen die beste Leistung erzielte, während Pixtral, JanusPro und Llama3.2 mit rot-blauen Punkten höhere Werte erzielten. GPT-4o war insgesamt der Spitzenreiter, wobei Pixtral unter den Open-Source-Modellen die Nase vorn hatte.
Fazit
Persönlich hat mich dieses Papier nicht so sehr wegen seiner medizinischen Bedeutung interessiert, sondern weil es einen der am wenigsten berichteten und grundlegenden Mängel der aktuellen Welle von SOTA LLMs hervorhebt – dass sie, wenn die Aufgabe irgendwie vermieden werden kann und wenn Sie Ihr Material nicht sorgfältig präsentieren, nicht Lesen Sie die Texte, die Sie hochladen, oder untersuchen Sie die Bilder, die Sie ihm präsentieren.
Darüber hinaus zeigt die Studie, dass, wenn Ihre Textaufforderung in irgendeiner Weise erklärt, worum es sich bei dem sekundär eingereichten Material handelt, der LLM dazu neigt, es als „teleologisches“ Beispiel zu behandeln und aufgrund von Vorwissen viele Dinge darüber anzunehmen/vermuten wird, anstatt das von Ihnen eingereichte Material zu studieren und zu berücksichtigen.
Tatsächlich wird es VLMs in diesem Zustand große Schwierigkeiten bereiten, „abweichendes“ Material zu identifizieren – eine der wichtigsten Fähigkeiten in der diagnostischen Medizin. Zwar ist es möglich, die Logik umzukehren und ein System nach Ausreißern statt nach Verteilungsergebnissen suchen zu lassen, doch müsste das Modell besonders sorgfältig gepflegt werden, um eine Überlastung des Signals mit irrelevanten oder falschen Beispielen zu vermeiden.
* Inline-Zitate wurden weggelassen, da es keine elegante Möglichkeit gibt, sie als Hyperlinks einzufügen. Bitte beziehen Sie sich auf das Quelldokument.
Erstveröffentlichung Montag, 4. August 2025