Künstliche Intelligenz
Sehen, Denken, Erklären: Der Aufstieg von Vision Language Models im Bereich KI

Vor etwa einem Jahrzehnt war die künstliche Intelligenz in zwei Bereiche aufgeteilt: Bilderkennung und Sprachverständnis. Vision-Modelle konnten Objekte erkennen, aber nicht beschreiben, und Sprachmodelle konnten Text generieren, aber nicht “sehen”. Heute verschwindet diese Trennung rapide. Vision Language Modelle (VLMs) kombinieren nun visuelle und sprachliche Fähigkeiten, sodass sie Bilder interpretieren und auf eine fast menschliche Weise erklären können. Was sie wirklich bemerkenswert macht, ist ihr schrittweiser Denkprozess, bekannt als Chain-of-Thought, der dazu beiträgt, diese Modelle zu leistungsstarken und praktischen Werkzeugen in Branchen wie Gesundheitswesen und Bildung umzuwandeln. In diesem Artikel werden wir untersuchen, wie VLMs funktionieren, warum ihre Argumentation wichtig ist und wie sie Branchen von der Medizin bis hin zu selbstfahrenden Autos transformieren.
Verständnis von Vision Language Modellen
Vision Language Modelle, oder VLMs, sind eine Art künstlicher Intelligenz, die sowohl Bilder als auch Text gleichzeitig verstehen kann. Im Gegensatz zu älteren KI-Systemen, die nur Text oder Bilder verarbeiten konnten, kombinieren VLMs diese beiden Fähigkeiten. Dies macht sie unglaublich vielseitig. Sie können ein Bild betrachten und beschreiben, was passiert, Fragen zu einem Video beantworten oder sogar Bilder auf der Grundlage einer schriftlichen Beschreibung erstellen.
Wenn Sie beispielsweise ein VLM bitten, ein Foto eines Hundes zu beschreiben, der in einem Park läuft. Ein VLM sagt nicht nur: “Da ist ein Hund.” Es kann Ihnen sagen: “Der Hund jagt einem Ball nach, der in der Nähe eines großen Eichenbaums liegt.” Es sieht das Bild und verbindet es mit Worten auf eine Weise, die Sinn ergibt. Diese Fähigkeit, visuelles und sprachliches Verständnis zu kombinieren, eröffnet allerlei Möglichkeiten, von der Suche nach Fotos im Internet bis hin zu komplexeren Aufgaben wie der medizinischen Bildgebung.
Im Kern funktionieren VLMs, indem sie zwei wichtige Komponenten kombinieren: ein Vision-System, das Bilder analysiert, und ein Sprachsystem, das Text verarbeitet. Der Vision-Teil erkennt Details wie Formen und Farben, während der Sprach-Teil diese Details in Sätze umwandelt. VLMs werden auf riesigen Datenmengen trainiert, die Milliarden von Bild-Text-Paaren enthalten, was ihnen umfassende Erfahrungen vermittelt, um ein starkes Verständnis und eine hohe Genauigkeit zu entwickeln.
Was Chain-of-Thought-Argumentation in VLMs bedeutet
Chain-of-Thought-Argumentation, oder CoT, ist eine Möglichkeit, KI schrittweise denken zu lassen, ähnlich wie wir ein Problem lösen, indem wir es in kleinere Schritte aufteilen. In VLMs bedeutet dies, dass die KI nicht nur eine Antwort gibt, wenn Sie sie nach etwas fragen, sondern auch erklärt, wie sie dazu gekommen ist, indem sie jeden logischen Schritt auf dem Weg dorthin erläutert.
Nehmen wir an, Sie zeigen einem VLM ein Bild von einem Geburtstagskuchen mit Kerzen und fragen: “Wie alt ist die Person?” Ohne CoT könnte es einfach eine Zahl erraten. Mit CoT denkt es sich durch: “Okay, ich sehe einen Kuchen mit Kerzen. Kerzen zeigen normalerweise das Alter an. Lass uns zählen, es sind 10. Also ist die Person wahrscheinlich 10 Jahre alt.” Sie können der Argumentation folgen, während sie sich entfaltet, was die Antwort viel vertrauenswürdiger macht.
Ähnlich verhält es sich, wenn ein VLM ein Verkehrsszenario gezeigt wird und gefragt wird: “Ist es sicher, die Straße zu überqueren?” Das VLM könnte folgern: “Die Fußgängerampel ist rot, also sollten Sie nicht überqueren. Es gibt auch ein Auto, das in der Nähe abbiegt, und es bewegt sich, ist also nicht stehen geblieben. Das bedeutet, es ist gerade nicht sicher.” Indem es diese Schritte durchgeht, zeigt die KI genau, worauf sie in dem Bild achtet und warum sie bestimmte Entscheidungen trifft.
Warum Chain-of-Thought in VLMs wichtig ist
Die Integration von CoT-Argumentation in VLMs bringt mehrere wichtige Vorteile.
Erstens macht es die KI vertrauenswürdiger. Wenn sie ihre Schritte erklärt, erhalten Sie ein klares Verständnis davon, wie sie zur Antwort gelangt ist. Dies ist in Bereichen wie dem Gesundheitswesen wichtig. Wenn beispielsweise ein VLM einen MRI-Scan betrachtet, könnte es sagen: “Ich sehe einen Schatten auf der linken Seite des Gehirns. Dieser Bereich steuert die Sprache, und der Patient hat Schwierigkeiten zu sprechen, also könnte es ein Tumor sein.” Ein Arzt kann dieser Logik folgen und sich über die Eingabe der KI im Klaren sein.
Zweitens hilft es der KI, komplexe Probleme zu lösen. Indem sie Dinge in kleinere Schritte aufteilt, kann sie Fragen bewältigen, die mehr als nur einen kurzen Blick erfordern. Zum Beispiel ist das Zählen von Kerzen einfach, aber die Beurteilung der Sicherheit auf einer belebten Straße erfordert mehrere Schritte, einschließlich der Überprüfung von Ampeln, der Erkennung von Fahrzeugen und der Beurteilung der Geschwindigkeit. CoT ermöglicht es der KI, diese Komplexität zu bewältigen, indem sie sie in kleinere Schritte unterteilt.
Schließlich macht es die KI anpassungsfähiger. Wenn sie schrittweise denkt, kann sie das Gelernte auf neue Situationen anwenden. Wenn sie beispielsweise noch nie einen bestimmten Kuchen gesehen hat, kann sie dennoch die Verbindung zwischen Kerzen und Alter herstellen, weil sie es durchdenkt, anstatt sich nur auf gemerkte Muster zu verlassen.
Wie Chain-of-Thought und VLMs Branchen neu definieren
Die Kombination von CoT und VLMs hat einen bedeutenden Einfluss auf verschiedene Branchen:
- Gesundheitswesen: In der Medizin verwenden VLMs wie Google’s Med-PaLM 2 CoT, um komplexe medizinische Fragen in kleinere diagnostische Schritte aufzuteilen. Wenn beispielsweise ein Röntgenbild der Brust und Symptome wie Husten und Kopfschmerzen gegeben werden, könnte die KI denken: “Diese Symptome könnten eine Grippe, Allergien oder etwas Schlimmeres sein. Keine geschwollenen Lymphknoten, also ist es wahrscheinlich keine schwerwiegende Infektion. Die Lungen scheinen klar zu sein, also ist es wahrscheinlich keine Lungenentzündung. Eine Grippe passt am besten.” Sie geht durch die Optionen und landet auf einer Antwort, die den Ärzten eine klare Erklärung liefert, mit der sie arbeiten können.
- Selbstfahrende Autos: Für autonome Fahrzeuge verbessern CoT-verbesserte VLMs die Sicherheit und Entscheidungsfindung. Wenn beispielsweise ein selbstfahrendes Auto ein Verkehrsszenario schrittweise analysiert, indem es Fußgängerampeln überprüft, bewegliche Fahrzeuge identifiziert und entscheidet, ob es sicher ist, voranzufahren. Systeme wie Wayve’s LINGO-1 generieren natürliche Sprachkommentare, um Aktionen wie das Abbremsen für einen Radfahrer zu erklären. Dies hilft Ingenieuren und Passagieren, den Entscheidungsprozess des Fahrzeugs zu verstehen. Schrittweise Logik ermöglicht auch eine bessere Handhabung ungewöhnlicher Straßenbedingungen durch die Kombination von visuellen Eingaben mit Kontextwissen.
- Geographische Analyse: Google’s Gemini-Modell wendet CoT-Argumentation auf geographische Daten wie Karten und Satellitenbilder an. Wenn beispielsweise ein Hurrikan-Schaden bewertet wird, indem Satellitenbilder, Wettervorhersagen und demographische Daten integriert und klare Visualisierungen und Antworten auf komplexe Fragen generiert werden. Diese Fähigkeit beschleunigt die Reaktion auf Katastrophen, indem Entscheidungsträgern rechtzeitige und nützliche Erkenntnisse ohne technische Expertise bereitgestellt werden.
- Robotik: In der Robotik ermöglicht die Integration von CoT und VLMs es Robotern, mehrschrittige Aufgaben besser zu planen und auszuführen. Wenn beispielsweise ein Roboter mit der Aufgabe betraut wird, ein Objekt aufzuheben, ermöglicht es ein CoT-aktiviertes VLM, den Becher zu identifizieren, die besten Greifpunkte zu bestimmen, einen kollisionsfreien Pfad zu planen und die Bewegung auszuführen, während es jeden Schritt seines Prozesses “erklärt”. Projekte wie RT-2 demonstrieren, wie CoT es Robotern ermöglicht, sich besser an neue Aufgaben anzupassen und auf komplexe Befehle mit klaren Erklärungen zu reagieren.
- Bildung: Im Bildungsbereich verwenden KI-Tutoren wie Khanmigo CoT, um besser zu unterrichten. Für ein Mathematikproblem könnte es beispielsweise einem Schüler anleiten: “Schreiben Sie zunächst die Gleichung auf. Als Nächstes isolieren Sie die Variable, indem Sie 5 von beiden Seiten subtrahieren. Jetzt dividieren Sie durch 2.” Anstatt einfach die Antwort zu liefern, führt es den Schüler durch den Prozess, um Konzepte schrittweise zu verstehen.
Das Fazit
Vision Language Modelle (VLMs) ermöglichen es der KI, visuelle Daten mit menschlichem, schrittweisem Denken durch Chain-of-Thought-Prozesse (CoT) zu interpretieren und zu erklären. Dieser Ansatz fördert Vertrauen, Anpassungsfähigkeit und Problemlösung in Branchen wie Gesundheitswesen, selbstfahrenden Autos, geographischer Analyse, Robotik und Bildung. Indem VLMs die Art und Weise verändern, wie KI komplexe Aufgaben angeht und Entscheidungen unterstützt, setzen sie einen neuen Standard für zuverlässige und praktische intelligente Technologie.












