Vernetzen Sie sich mit uns

Künstliche Intelligenz

Mini-Gemini: Das Potenzial multimodaler Vision-Sprachmodelle ausschöpfen

mm

Veröffentlicht

 on

Mini-Gemini: Das Potenzial multimodaler Vision-Sprachmodelle ausschöpfen

Die Fortschritte bei große Sprachmodelle haben die Entwicklung erheblich beschleunigt Verarbeitung natürlicher Sprache, oder NLP. Die Einführung des Transformer-Frameworks erwies sich als Meilenstein und erleichterte die Entwicklung einer neuen Welle von Sprachmodellen, darunter OPT und BERT, die ein tiefgreifendes sprachliches Verständnis aufweisen. Darüber hinaus führte die Einführung von GPT (Generative Pre-trained Transformer-Modellen) ein neues Paradigma mit autoregressiver Modellierung ein und etablierte eine robuste Methode zur Sprachvorhersage und -generierung. Das Aufkommen von Sprachmodellen wie GPT-4, ChatGPT, Mixtral, LLaMA und anderen hat die rasante Entwicklung weiter vorangetrieben, wobei jedes Modell eine verbesserte Leistung bei Aufgaben mit komplexer Sprachverarbeitung aufweist. Unter den bestehenden Methoden hat sich die Optimierung von Anweisungen als eine Schlüsseltechnik zur Verfeinerung der Ausgabe vorab trainierter großer Sprachmodelle herausgestellt, und die Integration dieser Modelle mit spezifischen Werkzeugen für visuelle Aufgaben hat ihre Anpassungsfähigkeit hervorgehoben und Türen für zukünftige Anwendungen geöffnet. Diese gehen weit über die traditionelle textbasierte Verarbeitung von LLMs hinaus und umfassen multimodale Interaktionen.

Darüber hinaus hat die Konvergenz von natürlichen Sprachverarbeitungs- und Computer-Vision-Modellen zur Entstehung von VLMs oder Vision Language Models geführt, die Sprach- und Visionsmodelle kombinieren, um modalübergreifende Verständnis- und Argumentationsfähigkeiten zu erreichen. Die Integration und das Aufkommen visueller und sprachlicher Modelle haben eine entscheidende Rolle bei der Weiterentwicklung von Aufgaben gespielt, die sowohl Sprachverarbeitung als auch visuelles Verständnis erfordern. Das Aufkommen revolutionärer Modelle wie CLIP hat die Lücke zwischen Vision-Aufgaben und Sprachmodellen weiter geschlossen und die Machbarkeit und Praktikabilität modalübergreifender Anwendungen demonstriert. Neuere Frameworks wie LLaMA und BLIP nutzen maßgeschneiderte Befehlsdaten, um effiziente Strategien zu entwickeln, die die leistungsstarken Fähigkeiten des Modells demonstrieren. Darüber hinaus steht die Kombination großer Sprachmodelle mit Bildausgaben im Mittelpunkt der jüngsten multimodalen Forschung, wobei neuere Methoden in der Lage sind, die direkte Generierung zu umgehen, indem sie den Image-Retrieval-Ansatz nutzen, um Bildausgaben und verschachtelte Texte zu erzeugen.

Vor diesem Hintergrund und trotz der rasanten Fortschritte bei Vision-Language-Modellen, die grundlegendes Denken und visuellen Dialog erleichtern, besteht immer noch eine erhebliche Leistungslücke zwischen fortgeschrittenen Modellen wie GPT-4 und Vision-Language-Modellen. Mini-Gemini ist ein Versuch, die Lücke zwischen Vision-Sprachmodellen und fortgeschritteneren Modellen zu schließen, indem das Potenzial von VLMs für eine bessere Leistung unter drei Gesichtspunkten ausgeschöpft wird: VLM-gesteuerte Generierung, hochwertige Daten und hochauflösende visuelle Token. Um visuelle Token zu verbessern, schlägt das Mini-Gemini-Framework die Verwendung eines zusätzlichen visuellen Encoders für eine hochauflösende Verfeinerung vor, ohne die Anzahl der visuellen Token zu erhöhen. Das Mini-Gemini-Framework erstellt außerdem einen hochwertigen Datensatz, um das präzise Verständnis von Bildern und die auf Argumenten basierende Generierung zu fördern. Insgesamt versucht das Mini-Gemini-Framework, das Potenzial von Vision-Sprachmodellen auszuschöpfen, und zielt darauf ab, bestehende Frameworks gleichzeitig mit Bildschluss, Verständnis und generativen Fähigkeiten auszustatten. Ziel dieses Artikels ist es, das Mini-Gemini-Framework eingehend zu behandeln, und wir untersuchen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit modernen Frameworks. Also lasst uns anfangen. 

Mini-Gemini: Beschleunigung multimodaler VLMs

Im Laufe der Jahre haben sich große Sprachmodelle weiterentwickelt, die heute über bemerkenswerte multimodale Fähigkeiten verfügen und zu einem wesentlichen Bestandteil aktueller Vision-Sprachmodelle werden. Es besteht jedoch eine Lücke zwischen der multimodalen Leistung großer Sprachmodelle und Vision-Sprachmodellen, da neuere Forschungen nach Möglichkeiten suchen, Vision mit großen Sprachmodellen mithilfe von Bildern und Videos zu kombinieren. Für Sehaufgaben selbst ist die Bildauflösung ein entscheidendes Element, um die Umgebung mit minimalen visuellen Halluzinationen deutlich zu erkennen. Um diese Lücke zu schließen, entwickeln Forscher Modelle, um das visuelle Verständnis in der Gegenwart zu verbessern Vision-Sprachmodelle, und zwei der häufigsten Ansätze sind: Erhöhen der Auflösung und Erhöhen der Anzahl visueller Token. Obwohl die Erhöhung der Anzahl visueller Token bei Bildern mit höherer Auflösung das visuelle Verständnis verbessert, geht die Steigerung häufig mit einem höheren Rechenaufwand und den damit verbundenen Kosten einher, insbesondere bei der Verarbeitung mehrerer Bilder. Darüber hinaus sind die Fähigkeiten vorhandener Modelle, die Qualität vorhandener Daten und die Anwendbarkeit für einen beschleunigten Entwicklungsprozess nach wie vor unzureichend, sodass sich Forscher die Frage stellen: „wie man die Entwicklung von Vision-Sprachmodellen mit akzeptablen Kosten beschleunigen kann"?

Das Mini-Gemini-Framework ist ein Versuch, diese Frage zu beantworten, indem es versucht, das Potenzial von Vision-Sprachmodellen unter drei Aspekten zu erkunden: VLM-gesteuerte Generierung oder erweiterte Anwendungen, hochwertige Daten und hochauflösende visuelle Token. Erstens implementiert das Mini-Gemini-Framework eine ConvNet-Architektur, um Kandidaten mit höherer Auflösung effizient zu generieren, visuelle Details zu verbessern und gleichzeitig die Anzahl der visuellen Token für das große Sprachmodell beizubehalten. Das Mini-Gemini-Framework führt öffentlich verfügbare Datensätze hoher Qualität zusammen, um die Qualität der Daten zu verbessern, und integriert diese Erweiterungen mit hochmodernen generativen und großen Sprachmodellen, um die Leistung der VLMs zu steigern und zu verbessern die Benutzererfahrung. Die vom Mini-Gemini-Framework implementierte vielschichtige Strategie ermöglicht es, verborgene Fähigkeiten von Vision-Sprachmodellen zu erforschen und erhebliche Fortschritte bei offensichtlichen Ressourcenbeschränkungen zu erzielen. 

Im Allgemeinen verwendet das Mini-Gemini-Framework ein Any-to-Any-Paradigma, da es sowohl Text als auch Bilder als Eingabe und Ausgabe verarbeiten kann. Insbesondere führt das Mini-Gemini-Framework eine effiziente Pipeline zur Verbesserung visueller Token für Eingabebilder ein und verfügt über ein Dual-Encoder-System, das aus zwei Encodern besteht: Der erste Encoder ist für hochauflösende Bilder, während der zweite Encoder für Bilder mit niedriger Auflösung vorgesehen ist. hochwertige visuelle Einbettung. Während der Inferenz arbeiten die Encoder in einem Aufmerksamkeitsmechanismus, bei dem der Encoder mit niedriger Auflösung visuelle Abfragen generiert, während der Encoder mit hoher Auflösung Schlüssel und Werte als Referenz bereitstellt. Um die Datenqualität zu verbessern, sammelt und produziert das Mini-Gemini-Framework mehr Daten auf der Grundlage öffentlicher Ressourcen, einschließlich aufgabenorientierter Anweisungen, generierungsbezogener Daten und hochauflösender Antworten, wobei die erhöhte Menge und verbesserte Qualität die Gesamtleistung verbessert und Fähigkeiten des Modells. Darüber hinaus unterstützt das Mini-Gemini-Framework die gleichzeitige Text- und Bildgenerierung durch die Integration des Vision-Sprachmodells mit erweiterten generativen Modellen. 

Mini-Gemini: Methodik und Architektur

Im Kern ist das Mini-Gemini-Framework konzeptionell einfach und besteht aus drei Komponenten. 

  1. Das Framework verwendet Dual-Vision-Encoder, um visuelle Einbettungen mit niedriger Auflösung und Kandidaten mit hoher Auflösung bereitzustellen. 
  2. Das Framework schlägt die Implementierung von Patch-Info-Mining vor, um das Mining auf Patch-Ebene zwischen visuellen Abfragen mit niedriger Auflösung und Regionen mit hoher Auflösung durchzuführen. 
  3. Das Mini-Gemini-Framework nutzt ein großes Sprachmodell, um Text mit Bildern zu verbinden und so gleichzeitig zu generieren und zu verstehen. 

Dual-Vision-Encoder

Das Mini-Gemini-Framework kann sowohl Text- als auch Bildeingaben verarbeiten und bietet die Möglichkeit, diese entweder einzeln oder in Kombination zu verarbeiten. Wie in der folgenden Abbildung gezeigt, startet das Mini-Gemini-Framework den Prozess, indem es bilineare Interpolation einsetzt, um aus dem entsprechenden hochauflösenden Bild ein Bild mit niedriger Auflösung zu generieren. 

Anschließend verarbeitet das Framework diese Bilder und kodiert sie in eine visuelle Multi-Grid-Einbettung in zwei parallele Bildflüsse. Genauer gesagt behält das Mini-Gemini-Framework die traditionelle Pipeline für Flüsse mit niedriger Auflösung bei und verwendet einen CLIP-vortrainierten visuellen Transformator, um die visuellen Einbettungen zu kodieren, was es dem Modell erleichtert, die Fernbeziehung zwischen visuellen Patches für nachfolgende Interaktionen in großer Sprache beizubehalten Modelle. Für die hochauflösenden Flüsse verwendet das Mini-Gemini-Framework den auf CNN oder Convolution Neural Networks basierenden Encoder für eine adaptive und effiziente hochauflösende Bildverarbeitung. 

Patch-Info-Mining

Da die Dual-Vision-Encoder die LR-Einbettungen und HR-Funktionen generieren, schlägt das Mini-Gemini-Framework die Implementierung von Patch-Info-Mining vor, um das Potenzial von Vision-Sprachmodellen mit verbesserten visuellen Token zu erweitern. Um die Anzahl der visuellen Token für die Effizienz in großen Sprachmodellen beizubehalten, verwendet das Mini-Gemini-Framework die visuellen Einbettungen mit niedriger Auflösung als Abfrage und zielt darauf ab, relevante visuelle Hinweise von den HR-Feature-Kandidaten abzurufen, wobei das Framework die übernimmt HR-Feature-Map als Schlüssel und Wert.

Wie im obigen Bild gezeigt, kapselt die Formel den Prozess der Verfeinerung und Synthese visueller Hinweise, der zur Generierung erweiterter visueller Token für die anschließende Verarbeitung großer Sprachmodelle führt. Der Prozess stellt sicher, dass das Framework das Mining für jede Abfrage auf die entsprechende Unterregion in der HR-Feature-Map mit der pixelweisen Feature-Anzahl beschränken kann, was zu einer verbesserten Effizienz führt. Dank dieses Designs ist das Mini-Gemini-Framework in der Lage, die Details der HR-Funktionen zu extrahieren, ohne die Anzahl der visuellen Token zu erhöhen, und hält ein Gleichgewicht zwischen rechnerischer Durchführbarkeit und Detailreichtum aufrecht. 

Text- und Bildgenerierung

Das Mini-Gemini-Framework verkettet die visuellen Token und Eingabetext-Tokens als Eingabe für die großen Sprachmodelle zur automatischen regressiven Generierung. Im Gegensatz zu herkömmlichen Vision-Sprachmodellen unterstützt das Mini-Gemini-Framework sowohl die Nur-Text- als auch die Text-Bild-Generierung als Eingabe und Ausgabe, d Mini-Gemini ist in der Lage, qualitativ hochwertige Bilder zu erzeugen. Im Gegensatz zu neueren Arbeiten, die sich auf die Domänenlücke zwischen Texteinbettungen der Generierungsmodelle und großen Sprachmodellen konzentrieren, versucht das Mini-Gemini-Framework, die Lücke im Bereich der Spracheingabeaufforderungen zu optimieren, indem Benutzeranweisungen in hochwertige Eingabeaufforderungen übersetzt werden, die kontextrelevante Bilder erzeugen in latenten Diffusionsmodellen. Darüber hinaus sammelt das Mini-Gemini-Framework für ein besseres Verständnis der Feinabstimmung von Anweisungen und der modalitätsübergreifenden Ausrichtung Proben aus öffentlich verfügbaren Datensätzen hoher Qualität und verwendet das GPT-4-Turbo-Framework, um einen 13K-Anweisungsfolgedatensatz zur Unterstützung der Bilderzeugung weiter zu erstellen. 

Mini-Zwillinge: Experimente und Ergebnisse

Um seine Leistung zu bewerten, wird das Mini-Gemini-Framework mit dem vorab trainierten ConvNext-L-Framework für den HR-Vision-Encoder und mit einem vorab trainierten CLIP instanziiert Vision Transformator für den LR-Vision-Encoder. Um die Trainingseffizienz sicherzustellen, hält das Mini-Gemini-Framework die beiden Vision-Encoder fest und optimiert die Projektoren des Patch-Info-Mining in allen Phasen sowie das große Sprachmodell während der Instruktionsoptimierungsphase selbst. 

Die folgende Tabelle vergleicht die Leistung des Mini-Gemini-Frameworks mit modernsten Modellen in verschiedenen Umgebungen und berücksichtigt auch private Modelle. Wie man beobachten kann, übertrifft das Mini-Gemini bestehende Frameworks in einer Vielzahl von LLMs bei normaler Auflösung durchweg und zeigt in der Kategorie der effizienten Modelle eine überlegene Leistung, wenn es mit dem Gemma-2B konfiguriert wird. Darüber hinaus ist die Skalierbarkeit des Mini-Gemini-Frameworks offensichtlich, wenn größere Sprachmodelle verwendet werden. 

Um die Leistung bei hochauflösenden und erweiterten visuellen Token zu bewerten, werden die Experimente mit einer Eingabegröße von 672 für den LR-Vision-Encoder und 1536 für den visuellen Encoder durchgeführt. Wie bereits erwähnt, besteht der Hauptzweck des HR Visual Encoders darin, hochauflösende Kandidateninformationen bereitzustellen. Wie man beobachten kann, liefert das Mini-Gemini-Framework im Vergleich zu hochmodernen Frameworks eine überlegene Leistung. 

Um die visuelle Verständnisfähigkeit des Mini-Gemini-Frameworks in realen Umgebungen zu bewerten, wenden Entwickler das Modell außerdem auf eine Vielzahl von Denk- und Verständnisaufgaben an, wie in der folgenden Abbildung dargestellt. Wie man beobachten kann, ist das Mini-Gemini-Framework dank der Implementierung von Patch-Info-Mining und qualitativ hochwertigen Daten in der Lage, eine Vielzahl komplexer Aufgaben zu lösen. Beeindruckender ist jedoch die Tatsache, dass das Mini-Gemini-Framework eine ausgeprägte Detailgenauigkeit aufweist, die über die bloße Erkennungsfähigkeit hinausgeht und komplizierte Elemente detailliert beschreibt. 

Die folgende Abbildung bietet eine umfassende Bewertung der generativen Fähigkeiten des Mini-Gemini-Frameworks. 

Im Vergleich zu neueren Modellen wie ChatIllusion und AnyGPT weist das Mini-Gemini-Framework stärkere multimodale Verständnisfähigkeiten auf und ermöglicht so die Generierung Text zum Bild Bildunterschriften, die besser zu den Eingabeanweisungen passen und zu Bild-zu-Text-Antworten mit stärkerer konzeptioneller Ähnlichkeit führen. Beeindruckender ist die Tatsache, dass das Mini-Gemini-Framework eine bemerkenswerte Kompetenz bei der Generierung hochwertiger Inhalte unter Verwendung menschlicher Multimodell-Anweisungen nur mit Texttrainingsdaten zeigt, eine Fähigkeit, die die robusten semantischen Interpretations- und Bild-Text-Ausrichtungsfähigkeiten von Mini-Gemini veranschaulicht. 

Abschließende Überlegungen

In diesem Artikel haben wir über Mini-Gemini gesprochen, ein leistungsstarkes und optimiertes Framework für multimodale Vision-Sprachmodelle. Das Hauptziel des Mini-Gemini-Frameworks besteht darin, die latenten Fähigkeiten von Vision-Sprachmodellen mithilfe hochwertiger Daten, eines strategischen Designs des Frameworks und eines erweiterten Funktionsumfangs zu nutzen. Mini-Gemini ist ein Versuch, die Lücke zwischen Vision-Sprachmodellen und fortgeschritteneren Modellen zu schließen, indem das Potenzial von VLMs für eine bessere Leistung unter drei Gesichtspunkten ausgeschöpft wird: VLM-gesteuerte Generierung, hochwertige Daten und hochauflösende visuelle Token. Um visuelle Token zu verbessern, schlägt das Mini-Gemini-Framework die Verwendung eines zusätzlichen visuellen Encoders für eine hochauflösende Verfeinerung vor, ohne die Anzahl der visuellen Token zu erhöhen. Das Mini-Gemini-Framework erstellt außerdem einen hochwertigen Datensatz, um das präzise Verständnis von Bildern und die auf Argumenten basierende Generierung zu fördern. Insgesamt versucht das Mini-Gemini-Framework, das Potenzial von Vision-Sprachmodellen auszuschöpfen, und zielt darauf ab, bestehende Frameworks gleichzeitig mit Bildschluss, Verständnis und generativen Fähigkeiten auszustatten.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.