Künstliche Intelligenz

Sieh, Denk, Erkläre: Der Aufstieg von Vision-Sprachmodellen im Bereich KI

Published May 19, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Vor etwa einem Jahrzehnt war die künstliche Intelligenz in die Bilderkennung und die Sprachverständigung aufgeteilt. Vision-Modelle konnten Objekte erkennen, aber nicht beschreiben, und Sprachmodelle konnten Text generieren, aber nicht “sehen”. Heute verschwindet diese Trennung rasch. Vision-Sprachmodelle (VLMs) kombinieren nun visuelle und sprachliche Fähigkeiten, sodass sie Bilder interpretieren und auf eine fast menschliche Weise erklären können. Was sie wirklich bemerkenswert macht, ist ihr schrittweiser Denkprozess, der als Chain-of-Thought bekannt ist, der dazu beiträgt, diese Modelle zu leistungsstarken und praktischen Werkzeugen in Branchen wie der Gesundheitsversorgung und der Bildung zu machen. In diesem Artikel werden wir erforschen, wie VLMs funktionieren, warum ihre Argumentation wichtig ist und wie sie Bereiche von der Medizin bis hin zu selbstfahrenden Autos verändern.

Verständnis von Vision-Sprachmodellen

Vision-Sprachmodelle, oder VLMs, sind eine Art künstlicher Intelligenz, die sowohl Bilder als auch Text gleichzeitig verstehen kann. Im Gegensatz zu älteren KI-Systemen, die nur Text oder Bilder bearbeiten konnten, bringen VLMs diese beiden Fähigkeiten zusammen. Dies macht sie unglaublich vielseitig. Sie können ein Bild betrachten und beschreiben, was passiert, Fragen zu einem Video beantworten oder sogar Bilder auf der Grundlage einer schriftlichen Beschreibung erstellen.

Wenn Sie beispielsweise ein VLM auffordern, ein Foto eines Hundes zu beschreiben, der in einem Park rennt. Ein VLM sagt nicht nur: “Da ist ein Hund.” Es kann Ihnen sagen: “Der Hund jagt einem Ball in der Nähe eines großen Eichenbaums.” Es sieht das Bild und verbindet es mit Worten auf eine Weise, die Sinn ergibt. Diese Fähigkeit, visuelles und sprachliches Verständnis zu kombinieren, schafft alle Arten von Möglichkeiten, von der Suche nach Fotos im Internet bis hin zu komplexeren Aufgaben wie der medizinischen Bildgebung.

Im Kern funktionieren VLMs, indem sie zwei wichtige Komponenten kombinieren: ein Vision-System, das Bilder analysiert, und ein Sprachsystem, das Text verarbeitet. Der visuelle Teil erkennt Details wie Formen und Farben, während der sprachliche Teil diese Details in Sätze umwandelt. VLMs werden auf riesigen Datensätzen mit Milliarden von Bild-Text-Paaren trainiert, was ihnen umfassende Erfahrungen vermittelt, um ein starkes Verständnis und eine hohe Genauigkeit zu entwickeln.

Was Chain-of-Thought-Argumentation in VLMs bedeutet

Chain-of-Thought-Argumentation, oder CoT, ist eine Möglichkeit, die künstliche Intelligenz schrittweise denken zu lassen, ähnlich wie wir ein Problem angehen, indem wir es in kleinere Schritte aufteilen. Bei VLMs bedeutet dies, dass die künstliche Intelligenz nicht nur eine Antwort gibt, wenn Sie sie nach etwas über ein Bild fragen, sondern auch erklärt, wie sie dazu gekommen ist, indem sie jeden logischen Schritt auf dem Weg erklärt.

Nehmen wir an, Sie zeigen einem VLM ein Bild von einem Geburtstagskuchen mit Kerzen und fragen: “Wie alt ist die Person?” Ohne CoT könnte es einfach eine Zahl erraten. Mit CoT denkt es sich durch: “Okay, ich sehe einen Kuchen mit Kerzen. Kerzen zeigen normalerweise das Alter einer Person an. Lass uns sie zählen, es sind 10. Also ist die Person wahrscheinlich 10 Jahre alt.” Sie können der Argumentation folgen, während sie sich entfaltet, was die Antwort viel vertrauenswürdiger macht.

Ähnlich verhält es sich, wenn man einem VLM eine Verkehrsszene zeigt und fragt: “Ist es sicher, die Straße zu überqueren?” Das VLM könnte folgern: “Die Fußgängerampel ist rot, also sollten Sie nicht über die Straße gehen. Es gibt auch ein Auto, das in der Nähe abbiegt, und es bewegt sich, ist also nicht stehen geblieben. Das bedeutet, dass es gerade nicht sicher ist.” Indem es diese Schritte durchgeht, zeigt die künstliche Intelligenz genau, worauf sie in dem Bild achtet und warum sie bestimmte Entscheidungen trifft.

Warum Chain-of-Thought in VLMs wichtig ist

Die Integration von CoT-Argumentation in VLMs bringt mehrere wichtige Vorteile.

Erstens macht es die künstliche Intelligenz vertrauenswürdiger. Wenn sie ihre Schritte erklärt, erhalten Sie ein klares Verständnis davon, wie sie zur Antwort gekommen ist. Dies ist in Bereichen wie der Gesundheitsversorgung wichtig. Wenn beispielsweise ein VLM einen MRT-Scan betrachtet, könnte es sagen: “Ich sehe einen Schatten auf der linken Seite des Gehirns. Dieser Bereich kontrolliert die Sprache, und der Patient hat Schwierigkeiten zu sprechen, also könnte es ein Tumor sein.” Ein Arzt kann dieser Logik folgen und sich über die Eingabe der künstlichen Intelligenz im Klaren sein.

Zweitens hilft es der künstlichen Intelligenz, komplexe Probleme zu lösen. Durch die Aufteilung in Schritte kann sie Fragen angehen, die mehr als nur einen kurzen Blick erfordern. Zum Beispiel ist das Zählen von Kerzen einfach, aber die Beurteilung der Sicherheit auf einer belebten Straße erfordert mehrere Schritte, einschließlich der Überprüfung von Ampeln, der Erkennung von Autos und der Beurteilung der Geschwindigkeit. CoT ermöglicht es der künstlichen Intelligenz, diese Komplexität zu bewältigen, indem sie sie in mehrere Schritte unterteilt.

Drittens macht es die künstliche Intelligenz anpassungsfähiger. Wenn sie schrittweise denkt, kann sie ihr Wissen auf neue Situationen anwenden. Wenn sie beispielsweise noch nie einen bestimmten Kuchentyp gesehen hat, kann sie dennoch die Verbindung zwischen Kerzen und Alter herstellen, weil sie es durchdenkt, anstatt sich auf gemerkte Muster zu verlassen.

Wie Chain-of-Thought und VLMs Branchen neu definieren

Die Kombination von CoT und VLMs hat einen bedeutenden Einfluss auf verschiedene Bereiche:

Gesundheitsversorgung: In der Medizin verwenden VLMs wie Google’s Med-PaLM 2 CoT, um komplexe medizinische Fragen in kleinere diagnostische Schritte zu unterteilen. Zum Beispiel könnte das VLM, wenn es ein Röntgenbild der Brust und Symptome wie Husten und Kopfschmerzen erhält, folgern: “Diese Symptome könnten eine Erkältung, Allergien oder etwas Schlimmeres sein. Keine geschwollenen Lymphknoten, also ist es wahrscheinlich keine ernste Infektion. Die Lungen scheinen klar zu sein, also ist es wahrscheinlich keine Lungenentzündung. Eine gewöhnliche Erkältung passt am besten.” Es geht durch die Optionen und landet auf einer Antwort, die den Ärzten eine klare Erklärung gibt, mit der sie arbeiten können.
Self-Driving Cars: Für autonome Fahrzeuge verbessern CoT-verbesserte VLMs die Sicherheit und Entscheidungsfindung. Zum Beispiel kann ein selbstfahrendes Auto eine Verkehrsszene schrittweise analysieren: Es überprüft die Fußgängerampel, identifiziert bewegliche Fahrzeuge und entscheidet, ob es sicher ist, voranzufahren. Systeme wie Wayve’s LINGO-1 generieren natürliche Sprachkommentare, um Aktionen wie das Abbremsen für einen Radfahrer zu erklären. Dies hilft Ingenieuren und Passagieren, den Denkprozess des Fahrzeugs zu verstehen. Die schrittweise Logik ermöglicht es auch, ungewöhnliche Straßenbedingungen besser zu handhaben, indem visuelle Eingaben mit Kontextwissen kombiniert werden.
Geospatial Analysis: Google’s Gemini-Modell wendet CoT-Argumentation auf räumliche Daten wie Karten und Satellitenbilder an. Zum Beispiel kann es den Schaden durch einen Hurrikan bewerten, indem es Satellitenbilder, Wettervorhersagen und demografische Daten integriert und dann klare Visualisierungen und Antworten auf komplexe Fragen generiert. Diese Fähigkeit beschleunigt die Reaktion auf Katastrophen, indem Entscheidungsträgern rechtzeitig nützliche Erkenntnisse ohne technische Expertise bereitgestellt werden.
Robotik: In der Robotik ermöglicht die Integration von CoT und VLMs es Robotern, Planung und Ausführung von Aufgaben, die mehrere Schritte erfordern, besser zu bewältigen. Wenn beispielsweise ein Roboter den Auftrag erhält, ein Objekt aufzuheben, ermöglicht es CoT-aktivierte VLM, den Becher zu identifizieren, die besten Greifpunkte zu bestimmen, einen kollisionsfreien Pfad zu planen und die Bewegung auszuführen, während es jeden Schritt seines Prozesses “erklärt”. Projekte wie RT-2 demonstrieren, wie CoT es Robotern ermöglicht, sich besser an neue Aufgaben anzupassen und auf komplexe Befehle mit klaren Argumenten zu reagieren.
Bildung: Im Bildungsbereich verwenden künstliche Intelligenz-Tutoren wie Khanmigo CoT, um besser zu unterrichten. Bei einem Matheproblem könnte es beispielsweise einem Schüler folgendes erklären: “Schreiben Sie zunächst die Gleichung auf. Als Nächstes isolieren Sie die Variable, indem Sie 5 von beiden Seiten subtrahieren. Jetzt dividieren Sie durch 2.” Anstatt einfach die Antwort zu geben, geht es durch den Prozess, um dem Schüler zu helfen, Konzepte Schritt für Schritt zu verstehen.

Fazit

Vision-Sprachmodelle (VLMs) ermöglichen es der künstlichen Intelligenz, visuelle Daten mit Hilfe schrittweiser, menschlicher Argumentation durch Chain-of-Thought (CoT)-Prozesse zu interpretieren und zu erklären. Dieser Ansatz fördert Vertrauen, Anpassungsfähigkeit und Problemlösung in Branchen wie der Gesundheitsversorgung, selbstfahrenden Autos, geospatialer Analyse, Robotik und Bildung. Durch die Veränderung der Art und Weise, wie die künstliche Intelligenz komplexe Aufgaben angeht und Entscheidungen unterstützt, setzen VLMs einen neuen Standard für zuverlässige und praktische intelligente Technologie.

Related Topics:AI reasoning models chain of thought reasoning Chain-of-Thought (CoT)Large Multimodal Models LVLM vision language model

Dr. Tehseen Zia

Dr. Tehseen Zia ist ein fest angestellter Associate Professor an der COMSATS University Islamabad, der einen PhD in KI von der Vienna University of Technology, Österreich, besitzt. Er spezialisiert sich auf künstliche Intelligenz, Machine Learning, Data Science und Computer Vision und hat mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften wesentliche Beiträge geleistet. Dr. Tehseen hat auch verschiedene industrielle Projekte als Principal Investigator geleitet und als KI-Berater fungiert.