Künstliche Intelligenz

Sehen, Denken, Erklären: Der Aufstieg von Vision Language-Modellen in der KI

Veröffentlicht May 19, 2025

Dr. Tehseen Zia

Vor etwa einem Jahrzehnt war die künstliche Intelligenz noch zwischen Bilderkennung und Sprachverständnis gespalten. Vision-Modelle konnten Objekte erkennen, aber nicht beschreiben, und Sprachmodelle generierten Text, konnten aber nicht „sehen“. Heute verschwindet diese Kluft schnell. Vision Language Modelle (VLMs) Sie kombinieren nun visuelle und sprachliche Fähigkeiten, wodurch sie Bilder interpretieren und auf eine fast menschliche Weise erklären können. Was sie wirklich bemerkenswert macht, ist ihr schrittweiser Denkprozess, bekannt als Gedankenkette, wodurch diese Modelle zu leistungsstarken, praktischen Werkzeugen in Branchen wie dem Gesundheits- und Bildungswesen werden. In diesem Artikel untersuchen wir, wie VLMs funktionieren, warum ihre Funktionsweise wichtig ist und wie sie Bereiche von der Medizin bis hin zu selbstfahrenden Autos verändern.

Vision Language-Modelle verstehen

Vision Language Models (VLMs) sind eine Form künstlicher Intelligenz, die Bilder und Text gleichzeitig verstehen kann. Im Gegensatz zu älteren KI-Systemen, die nur Text oder Bilder verarbeiten konnten, vereinen VLMs beide Fähigkeiten. Das macht sie unglaublich vielseitig. Sie können ein Bild betrachten und beschreiben, was passiert, Fragen zu einem Video beantworten oder sogar Bilder basierend auf einer schriftlichen Beschreibung erstellen.

Wenn Sie beispielsweise ein VLM bitten, ein Foto eines im Park laufenden Hundes zu beschreiben, sagt ein VLM nicht einfach: „Da ist ein Hund.“ Es kann Ihnen auch sagen: „Der Hund jagt einem Ball in der Nähe einer großen Eiche hinterher.“ Es sieht das Bild und verknüpft es auf sinnvolle Weise mit Worten. Diese Fähigkeit, visuelles und sprachliches Verständnis zu kombinieren, eröffnet vielfältige Möglichkeiten – von der Online-Suche nach Fotos bis hin zur Unterstützung bei komplexeren Aufgaben wie der medizinischen Bildgebung.

VLMs arbeiten im Kern mit der Kombination zweier Schlüsselkomponenten: einem Bildverarbeitungssystem zur Bildanalyse und einem Sprachsystem zur Textverarbeitung. Das Bildverarbeitungssystem erfasst Details wie Formen und Farben, während das Sprachsystem diese in Sätze umwandelt. VLMs werden anhand riesiger Datensätze mit Milliarden von Bild-Text-Paaren trainiert. Dadurch verfügen sie über umfassende Erfahrung, die ihnen ein fundiertes Verständnis und eine hohe Genauigkeit ermöglicht.

Was Gedankenketten-Argumentation in VLMs bedeutet

Chain-of-Thought-Reasoning (CoT) ist eine Methode, KI schrittweise denken zu lassen, ähnlich wie wir ein Problem durch Zerlegung angehen. Bei VLMs bedeutet dies, dass die KI nicht nur eine Antwort liefert, wenn man ihr eine Frage zu einem Bild stellt, sondern auch erklärt, wie sie dorthin gelangt ist, und erläutert dabei jeden logischen Schritt.

Angenommen, Sie zeigen einem VLM ein Bild von einer Geburtstagstorte mit Kerzen und fragen: „Wie alt ist die Person?“ Ohne CoT würde es vielleicht einfach eine Zahl erraten. Mit CoT denkt es gründlich nach: „Okay, ich sehe eine Torte mit Kerzen. Kerzen zeigen normalerweise das Alter einer Person an. Zählen wir sie, es sind zehn. Die Person ist also wahrscheinlich zehn Jahre alt.“ Sie können der Argumentation folgen, während sie sich entwickelt, was die Antwort deutlich vertrauenswürdiger macht.

Ähnlich verhält es sich, wenn dem VLM eine Verkehrsszene gezeigt und gefragt wird: „Ist es sicher, die Straße zu überqueren?“. Das VLM könnte argumentieren: „Die Fußgängerampel ist rot, Sie sollten also nicht überqueren. Außerdem biegt in der Nähe ein Auto ab, das sich bewegt und nicht anhält. Das bedeutet, dass es gerade nicht sicher ist.“ Indem die KI diese Schritte durchläuft, zeigt sie Ihnen genau, worauf sie im Bild achtet und warum sie sich für eine bestimmte Aktion entscheidet.

Warum die Gedankenkette bei VLMs wichtig ist

Die Integration der CoT-Argumentation in VLMs bringt mehrere wichtige Vorteile mit sich.

Erstens wird es der KI leichter vertrauenswürdig. Wenn sie ihre Schritte erklärt, versteht man klar, wie sie zu der Antwort gelangt ist. Das ist in Bereichen wie dem Gesundheitswesen wichtig. Beispielsweise könnte ein VLM bei der Betrachtung eines MRT-Scans sagen: „Ich sehe einen Schatten in der linken Gehirnhälfte. Dieser Bereich steuert die Sprache, und der Patient hat Schwierigkeiten beim Sprechen, es könnte also ein Tumor sein.“ Ein Arzt kann dieser Logik folgen und den Angaben der KI vertrauen.

Zweitens hilft es der KI, komplexe Probleme zu bewältigen. Durch die Aufschlüsselung kann sie Fragen beantworten, die mehr als einen kurzen Blick erfordern. Kerzen zählen ist beispielsweise einfach, aber die Sicherheit auf einer belebten Straße zu gewährleisten, erfordert mehrere Schritte, darunter das Überprüfen von Ampeln, das Erkennen von Autos und die Einschätzung der Geschwindigkeit. CoT ermöglicht es der KI, diese Komplexität zu bewältigen, indem sie sie in mehrere Schritte unterteilt.

Schließlich macht es die KI anpassungsfähiger. Indem sie Schritt für Schritt denkt, kann sie ihr Wissen auf neue Situationen anwenden. Auch wenn sie eine bestimmte Kuchensorte noch nie gesehen hat, kann sie den Zusammenhang zwischen Kerze und Alter herausfinden, weil sie es durchdacht und sich nicht nur auf auswendig gelernte Muster verlässt.

Wie Chain-of-Thought und VLMs Branchen neu definieren

Die Kombination von CoT und VLMs hat erhebliche Auswirkungen auf verschiedene Bereiche:

Gesundheitswesen: In der Medizin wie Googles Med-PaLM 2 CoT nutzt die KI, um komplexe medizinische Fragen in kleinere Diagnoseschritte zu zerlegen. Bei einem Röntgenbild der Brust und Symptomen wie Husten und Kopfschmerzen könnte die KI beispielsweise denken: „Diese Symptome könnten auf eine Erkältung, Allergien oder etwas Schlimmeres hindeuten. Keine geschwollenen Lymphknoten, also wahrscheinlich keine ernsthafte Infektion. Die Lunge scheint frei, also wahrscheinlich keine Lungenentzündung. Eine Erkältung passt am besten.“ Die KI geht die Optionen durch und findet eine Antwort, die den Ärzten eine klare Erklärung liefert.
Selbstfahrende Autos: Bei autonomen Fahrzeugen verbessern CoT-erweiterte VLMs die Sicherheit und die Entscheidungsfindung. Beispielsweise kann ein selbstfahrendes Auto eine Verkehrssituation Schritt für Schritt analysieren: Es prüft Fußgängersignale, identifiziert fahrende Fahrzeuge und entscheidet, ob die Weiterfahrt sicher ist. Systeme wie Wayves LINGO-1 Generieren Sie Kommentare in natürlicher Sprache, um Aktionen wie das Abbremsen für einen Radfahrer zu erklären. Dies hilft Ingenieuren und Passagieren, die Denkprozesse des Fahrzeugs zu verstehen. Die schrittweise Logik ermöglicht zudem einen besseren Umgang mit ungewöhnlichen Straßenbedingungen, indem sie visuelle Eingaben mit Kontextwissen kombiniert.
Geodatenanalyse: Google Es gilt das Gemini-Modell CoT-Reasoning für räumliche Daten wie Karten und Satellitenbilder. So lassen sich beispielsweise Hurrikanschäden durch die Integration von Satellitenbildern, Wettervorhersagen und demografischen Daten bewerten und anschließend klare Visualisierungen und Antworten auf komplexe Fragen generieren. Diese Fähigkeit beschleunigt die Katastrophenhilfe, indem sie Entscheidungsträgern zeitnahe und nützliche Erkenntnisse liefert, ohne dass technisches Fachwissen erforderlich ist.
Robotik: In der Robotik ermöglicht die Integration von CoT und VLMs Robotern die bessere Planung und Ausführung mehrstufiger Aufgaben. Wenn ein Roboter beispielsweise einen Gegenstand aufheben soll, kann er mithilfe von CoT-fähigem VLM den Becher identifizieren, die besten Greifpunkte bestimmen, einen kollisionsfreien Pfad planen und die Bewegung ausführen – und dabei jeden Schritt des Prozesses „erklären“. Projekte wie RT-2 demonstrieren, wie CoT es Robotern ermöglicht, sich besser an neue Aufgaben anzupassen und mit klaren Argumenten auf komplexe Befehle zu reagieren.
Ausbildung: Beim Lernen mögen KI-Tutoren Khanfreund Nutzen Sie CoT für besseren Unterricht. Bei einer Matheaufgabe könnte es Schüler anleiten: „Schreib zuerst die Gleichung auf. Als Nächstes erhältst du die Variable allein, indem du von beiden Seiten jeweils 5 subtrahierst. Anschließend dividierst du durch 2.“ Anstatt die Antwort vorzugeben, führt es die Schüler Schritt für Schritt durch den Prozess und hilft ihnen, die Konzepte zu verstehen.

Fazit

Vision Language Models (VLMs) ermöglichen es KI, visuelle Daten mithilfe menschenähnlicher, schrittweiser Denkprozesse durch Chain-of-Thought-Prozesse (CoT) zu interpretieren und zu erklären. Dieser Ansatz fördert Vertrauen, Anpassungsfähigkeit und Problemlösungskompetenz in Branchen wie dem Gesundheitswesen, selbstfahrenden Autos, der Geodatenanalyse, der Robotik und dem Bildungswesen. Indem sie die Art und Weise verändern, wie KI komplexe Aufgaben bewältigt und die Entscheidungsfindung unterstützt, setzen VLMs einen neuen Standard für zuverlässige und praktische intelligente Technologie.

Verwandte Themen:KI-Argumentationsmodelle Gedankengang Gedankenkette (CoT)Große multimodale Modelle LVLM Vision-Sprachmodell

Als nächstes

CivitAI in neuer Zahlungsanbieterkrise, während Trump Anti-Deepfake-Gesetz unterzeichnet

Verpassen Sie nicht

Die Schwierigkeiten der KI, analoge Uhren zu lesen, könnten eine tiefere Bedeutung haben

Dr. Tehseen Zia

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.