Künstliche Intelligenz

Enthüllung von Large Multimodal Models: Die Landschaft von Sprachmodellen im Jahr 2024

Published January 8, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Wenn wir die Welt erleben, liefern unsere Sinne (Sehen, Hören, Riechen) eine vielfältige Menge an Informationen, und wir drücken uns mithilfe verschiedener Kommunikationsmethoden aus, wie z.B. Gesichtsausdrücken und Gesten. Diese Sinne und Kommunikationsmethoden werden zusammengefasst als Modalitäten bezeichnet, die die verschiedenen Arten darstellen, wie wir wahrnehmen und kommunizieren. Angeregt durch diese menschliche Fähigkeit werden Large Multimodal Modelle (LMM), eine Kombination aus generativen und multimodalen KI-Modellen, entwickelt, um Inhalte zu verstehen und zu erstellen, die verschiedene Arten wie Text, Bilder und Audio verwenden. In diesem Artikel gehen wir auf dieses neu entstehende Feld ein und erkunden, was LMMs (Large Multimodal Modelle) sind, wie sie konstruiert werden, bestehende Beispiele, die Herausforderungen, denen sie gegenüberstehen, und potenzielle Anwendungen.

Evolution von generativer KI im Jahr 2024: Von Large Language Modellen zu Large Multimodal Modellen

In ihrem neuesten Bericht bezeichnete McKinsey das Jahr 2023 als Durchbruchjahr für generative KI, was zu vielen Fortschritten in diesem Bereich führte. Wir haben eine bemerkenswerte Zunahme an Large Language Modellen (LLMs) beobachtet, die in der Lage sind, menschliche Sprache zu verstehen und zu generieren. Darüber hinaus haben Bildgenerierungsmodelle sich erheblich weiterentwickelt und ihre Fähigkeit unter Beweis gestellt, visuelle Inhalte aus textuellen Anregungen zu erstellen. Trotz erheblicher Fortschritte in einzelnen Modalitäten wie Text, Bildern oder Audio hat die generative KI Schwierigkeiten, diese Modalitäten nahtlos in den Generierungsprozess zu integrieren. Da die Welt von Natur aus multimodal ist, ist es für die KI von entscheidender Bedeutung, mit multimodalen Informationen umzugehen. Dies ist für eine sinnvolle Interaktion mit Menschen und einen erfolgreichen Betrieb in realen Szenarien unerlässlich.
Daher erwarten viele KI-Forscher den Aufstieg von LMMs als die nächste Grenze in der KI-Forschung und -Entwicklung im Jahr 2024. Diese sich entwickelnde Grenze konzentriert sich auf die Verbesserung der Fähigkeit der generativen KI, diverse Ausgaben zu verarbeiten und zu produzieren, die Text, Bilder, Audio, Video und andere Modalitäten umfassen. Es ist wichtig zu betonen, dass nicht alle multimodalen Systeme als LMMs qualifizieren. Modelle wie Midjourney und Stable Diffusion sind zwar multimodal, aber sie passen nicht in die Kategorie LMM, da sie die Anwesenheit von LLMs fehlen, die ein grundlegender Bestandteil von LMMs sind. Mit anderen Worten können wir LMMs als Erweiterung von LLMs beschreiben, die ihnen die Fähigkeit verleihen, verschiedene Modalitäten effizient zu handhaben.

Wie funktionieren LMMs?

Während Forscher verschiedene Ansätze zur Konstruktion von LMMs erforscht haben, umfassen sie typischerweise drei wesentliche Komponenten und Operationen. Zunächst werden Encoder für jede Datenmodalität eingesetzt, um Datenrepräsentationen (auch als Einbettungen bezeichnet) zu generieren, die spezifisch für diese Modalität sind. Zweitens werden verschiedene Mechanismen verwendet, um Einbettungen aus verschiedenen Modalitäten in einen einheitlichen multimodalen Einbettungsraum auszurichten. Drittens wird für generative Modelle ein LLM eingesetzt, um textuelle Antworten zu generieren. Da die Eingaben aus Text, Bildern, Videos und Audiodaten bestehen können, arbeiten Forscher an neuen Wegen, um Sprachmodelle zu ermöglichen, verschiedene Modalitäten bei der Antwort zu berücksichtigen.

Entwicklung von LMMs im Jahr 2023

Unten habe ich einige der bemerkenswerten LMMs aufgelistet, die im Jahr 2023 entwickelt wurden.

LLaVA ist ein Open-Source-LMM, der gemeinsam von der University of Wisconsin-Madison, Microsoft Research und der Columbia University entwickelt wurde. Das Modell zielt darauf ab, eine Open-Source-Version von multimodalem GPT4 anzubieten. Durch die Nutzung von Meta’s Llama-LLM integriert es den CLIP-Bildencoder für robustes visuelles Verständnis. Die auf Gesundheitswesen fokussierte Variante von LLaVA, bezeichnet als LLaVA-Med, kann Anfragen im Zusammenhang mit biomedizinischen Bildern beantworten.
ImageBind ist ein Open-Source-Modell, das von Meta entwickelt wurde, um die Fähigkeit des menschlichen Gehirns nachzuahmen, multimodale Daten in Beziehung zu setzen. Das Modell integriert sechs Modalitäten – Text, Bilder/Videos, Audio, 3D-Messungen, Temperaturdaten und Bewegungsdaten – und lernt eine einheitliche Repräsentation über diese verschiedenen Datentypen. ImageBind kann Objekte in Fotos mit Attributen wie Klängen, 3D-Formen, Temperatur und Bewegung verbinden. Das Modell kann beispielsweise verwendet werden, um eine Szene aus Text oder Klängen zu generieren.
SeamlessM4T ist ein multimodales Modell, das von Meta entwickelt wurde, um die Kommunikation zwischen mehrsprachigen Gemeinschaften zu fördern. SeamlessM4T exceliert in Übersetzungs- und Transkriptionsaufgaben und unterstützt Sprache-zu-Sprache-, Sprache-zu-Text-, Text-zu-Sprache- und Text-zu-Text-Übersetzungen. Das Modell verwendet einen nicht-autoregressiven Text-zu-Einheit-Decoder, um diese Übersetzungen durchzuführen. Die erweiterte Version, SeamlessM4T v2, bildet die Grundlage für Modelle wie SeamlessExpressive und SeamlessStreaming, die die Erhaltung von Ausdrucksformen über Sprachgrenzen hinweg betonen und Übersetzungen mit minimaler Verzögerung liefern.
GPT4, veröffentlicht von OpenAI, ist eine Weiterentwicklung seines Vorgängers, GPT3.5. Obwohl detaillierte architektonische Details nicht vollständig offengelegt sind, wird GPT4 für seine nahtlose Integration von textbasierten, bildbasierten und audio-basierten Modellen geschätzt. Das Modell kann Text aus sowohl schriftlichen als auch grafischen Eingaben generieren. Es exceliert in verschiedenen Aufgaben, einschließlich der Beschreibung von Humor in Bildern, der Zusammenfassung von Text aus Screenshots und der angemessenen Reaktion auf Prüfungsaufgaben mit Diagrammen. GPT4 wird auch für seine Anpassungsfähigkeit anerkannt, effektiv eine breite Palette von Eingabedatenformaten zu verarbeiten.
Gemini, entwickelt von Google DeepMind, zeichnet sich durch seine inhärente Multimodalität aus, die eine nahtlose Interaktion über verschiedene Aufgaben ohne die Notwendigkeit, einzelne Modalkomponenten zusammenzufügen, ermöglicht. Dieses Modell kann sowohl Text als auch verschiedene audiovisuelle Eingaben mühelos handhaben und zeigt seine Fähigkeit, Ausgaben in Text- und Bildformaten zu generieren.

Herausforderungen von Large Multimodal Modellen

Integrieren von mehr Datenmodalitäten: Die meisten bestehenden LMMs operieren mit Text und Bildern. Allerdings müssen LMMs über Text und Bilder hinausgehen und Modalitäten wie Videos, Musik und 3D integrieren.
Vielfältige Datensatzverfügbarkeit: Eine der Hauptherausforderungen bei der Entwicklung und Ausbildung multimodaler generativer KI-Modelle ist die Notwendigkeit großer und vielfältiger Datensätze, die mehrere Modalitäten umfassen. Beispielsweise benötigt ein Modell, das Text und Bilder gemeinsam generieren soll, einen Datensatz, der sowohl Text- als auch Bild-Eingaben enthält, die miteinander in Beziehung stehen.
Generieren von multimodalen Ausgaben: Während LMMs multimodale Eingaben handhaben können, bleibt die Generierung diverser Ausgaben, wie die Kombination von Text mit Grafiken oder Animationen, eine Herausforderung.
Befolgen von Anweisungen: LMMs stehen vor der Herausforderung, Dialoge und Anweisungen zu meistern und über die bloße Vervollständigung hinauszugehen.
Multimodale Argumentation: Während aktuelle LMMs bei der Umwandlung einer Modalität in eine andere exzellieren, bleibt die nahtlose Integration multimodaler Daten für komplexe Argumentationsaufgaben, wie das Lösen von schriftlichen Wortproblemen auf der Grundlage von auditiven Anweisungen, eine herausfordernde Aufgabe.
Komprimieren von LMMs: Die ressourcenintensive Natur von LMMs stellt ein erhebliches Hindernis dar und macht sie für Edge-Geräte mit begrenzten Rechenressourcen unpraktikabel. Das Komprimieren von LMMs, um ihre Effizienz zu verbessern und sie für die Bereitstellung auf ressourcenbeschränkten Geräten geeignet zu machen, ist ein wichtiger Bereich laufender Forschung.

Potenzielle Anwendungsfälle

Bildung: LMMs haben das Potenzial, die Bildung zu revolutionieren, indem sie diverse und ansprechende Lernmaterialien generieren, die Text, Bilder und Audio kombinieren. LMMs bieten umfassendes Feedback zu Aufgaben, fördern kollaborative Lernplattformen und verbessern die Fertigkeitenentwicklung durch interaktive Simulationen und reale Beispiele.
Gesundheitswesen: Im Gegensatz zu herkömmlichen KI-Diagnosesystemen, die sich auf eine einzelne Modalität konzentrieren, verbessern LMMs die medizinische Diagnose, indem sie mehrere Modalitäten integrieren. Sie unterstützen auch die Kommunikation über Sprachbarrieren zwischen Gesundheitsdienstleistern und Patienten und dienen als zentrales Repository für verschiedene KI-Anwendungen in Krankenhäusern.
Kunst- und Musikgenerierung: LMMs könnten in der Kunst- und Musikschöpfung exzellieren, indem sie verschiedene Modalitäten für einzigartige und ausdrucksstarke Ausgaben kombinieren. Beispielsweise kann ein Kunst-LMM visuelle und auditive Elemente miteinander verbinden und so ein immersives Erlebnis bieten. Ebenso kann ein Musik-LMM instrumentale und vokale Elemente integrieren und so dynamische und ausdrucksstarke Kompositionen hervorbringen.
Personalisierte Empfehlungen: LMMs können Benutzervorlieben über verschiedene Modalitäten analysieren, um personalisierte Empfehlungen für Inhalte wie Filme, Musik, Artikel oder Produkte zu liefern.

Wettervorhersage und Umweltüberwachung: LMMs können verschiedene Modalitäten von Daten analysieren, wie Satellitenbilder, atmosphärische Bedingungen und historische Muster, um die Genauigkeit von Wettervorhersagen und Umweltüberwachung zu verbessern.

Zusammenfassung

Die Landschaft von Large Multimodal Modellen (LMMs) markiert einen bedeutenden Durchbruch in der generativen KI, der Fortschritte in verschiedenen Bereichen verspricht. Da diese Modelle verschiedene Modalitäten wie Text, Bilder und Audio nahtlos integrieren, öffnet sich ihre Entwicklung Tür zu transformierenden Anwendungen in Gesundheitswesen, Bildung, Kunst und personalisierten Empfehlungen. Allerdings unterstreichen Herausforderungen wie die Integration von mehr Datenmodalitäten und das Komprimieren ressourcenintensiver Modelle die laufenden Forschungsbemühungen, die für die vollständige Realisierung des Potenzials von LMMs notwendig sind.

Dr. Tehseen Zia

Dr. Tehseen Zia ist ein fest angestellter Associate Professor an der COMSATS University Islamabad, der einen PhD in KI von der Vienna University of Technology, Österreich, besitzt. Er spezialisiert sich auf künstliche Intelligenz, Machine Learning, Data Science und Computer Vision und hat mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften wesentliche Beiträge geleistet. Dr. Tehseen hat auch verschiedene industrielle Projekte als Principal Investigator geleitet und als KI-Berater fungiert.