stub Mini-Gemini: Wydobywanie potencjału multimodalnych modeli języka wizyjnego – Unite.AI
Kontakt z nami

Artificial Intelligence

Mini-Gemini: wydobywanie potencjału multimodalnych modeli języka wizyjnego

mm

Opublikowany

 on

Mini-Gemini: wydobywanie potencjału multimodalnych modeli języka wizyjnego

Postępy w duże modele językowe znacznie przyspieszyły rozwój przetwarzanie języka naturalnegolub NLP. Wprowadzenie platformy transformatorowej okazało się kamieniem milowym, ułatwiającym rozwój nowej fali modeli językowych, w tym OPT i BERT, które charakteryzują się głębokim zrozumieniem językowym. Co więcej, pojawienie się modeli GPT, czyli generatywnych, wstępnie wyszkolonych transformatorów, wprowadziło nowy paradygmat z modelowaniem autoregresyjnym i ustanowiło solidną metodę przewidywania i generowania języka. Pojawienie się modeli językowych, takich jak GPT-4, ChatGPT, Mixtral, LLaMA i innych, spowodowało dalszą szybką ewolucję, a każdy model wykazał lepszą wydajność w zadaniach obejmujących złożone przetwarzanie języka. Wśród istniejących metod dostrajanie instrukcji okazało się kluczową techniką udoskonalania wyników wstępnie wytrenowanych dużych modeli językowych, a integracja tych modeli ze specyficznymi narzędziami do zadań wizualnych uwydatniła ich możliwości adaptacji i otworzyła drzwi do przyszłych zastosowań. Wykraczają one daleko poza tradycyjne przetwarzanie LLM w oparciu o tekst i obejmują interakcje multimodalne.

Co więcej, zbieżność przetwarzania języka naturalnego i modeli wizji komputerowej dała początek VLM, czyli modelom języka wizyjnego, które łączą modele językowe i wizyjne w celu osiągnięcia zdolności rozumienia i rozumowania międzymodalnego. Integracja i pojawienie się modeli wizualnych i językowych odegrało kluczową rolę w realizacji zadań wymagających zarówno przetwarzania języka, jak i zrozumienia wizualnego. Pojawienie się rewolucyjnych modeli, takich jak CLIP, jeszcze bardziej wypełniło lukę między zadaniami wzrokowymi a modelami językowymi, wykazując wykonalność i praktyczność zastosowań intermodalnych. Nowsze platformy, takie jak LLaMA i BLIP, wykorzystują dostosowane dane instrukcji do opracowywania skutecznych strategii, które demonstrują potężne możliwości modelu. Ponadto niedawne badania multimodalne skupiają się na łączeniu dużych modeli językowych z obrazami wyjściowymi, przy czym najnowsze metody umożliwiają ominięcie bezpośredniego generowania poprzez wykorzystanie podejścia do wyszukiwania obrazów w celu wygenerowania obrazów wyjściowych i przeplatanych tekstów.

Mając to na uwadze i pomimo szybkiego postępu w modelach języka wizyjnego ułatwiających podstawowe rozumowanie i dialog wizualny, nadal istnieje znaczna różnica w wydajności pomiędzy zaawansowanymi modelami, takimi jak GPT-4, a modelami języka wizyjnego. Mini-Gemini to próba zmniejszenia luki pomiędzy modelami języka wizyjnego a bardziej zaawansowanymi modelami poprzez wykorzystanie potencjału VLM w celu uzyskania lepszej wydajności w trzech aspektach: generowanie sterowane przez VLM, wysokiej jakości dane i tokeny wizualne o wysokiej rozdzielczości. Aby ulepszyć tokeny wizualne, platforma Mini-Gemini proponuje wykorzystanie dodatkowego kodera wizualnego w celu udoskonalenia wysokiej rozdzielczości bez zwiększania liczby tokenów wizualnych. Struktura Mini-Gemini tworzy ponadto wysokiej jakości zbiór danych, próbując promować precyzyjne zrozumienie obrazów i generowanie w oparciu o rozumowanie. Ogólnie rzecz biorąc, struktura Mini-Gemini próbuje wykorzystać potencjał modeli języka wizyjnego i ma na celu wzmocnienie istniejących ram jednocześnie w zakresie rozumowania, rozumienia i generowania obrazu. Celem tego artykułu jest szczegółowe omówienie frameworku Mini-Gemini oraz zbadanie mechanizmu, metodologii i architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Więc zacznijmy. 

Mini-Gemini: przyspieszanie multimodalnych VLM

Z biegiem lat duże modele językowe ewoluowały i obecnie mogą pochwalić się niezwykłymi możliwościami multimodalnymi, stając się istotną częścią obecnych modeli języków wizyjnych. Istnieje jednak rozbieżność między multimodalną wydajnością dużych modeli językowych a modelami języka wizyjnego, a najnowsze badania szukają sposobów łączenia wizji z dużymi modelami językowymi za pomocą obrazów i filmów. W przypadku samych zadań wzrokowych rozdzielczość obrazu jest kluczowym elementem pozwalającym wyraźnie dostrzec otaczające środowisko przy minimalnych halucynacjach wzrokowych. Aby wypełnić tę lukę, badacze opracowują modele poprawiające wizualne zrozumienie prądu modele języka wizji, a dwa najczęstsze podejścia to: zwiększenie rozdzielczości i zwiększenie liczby tokenów wizualnych. Chociaż zwiększenie liczby znaczników wizualnych za pomocą obrazów o wyższej rozdzielczości rzeczywiście poprawia zrozumienie wizualne, temu wzrostowi często towarzyszą zwiększone wymagania obliczeniowe i powiązane koszty, szczególnie w przypadku przetwarzania wielu obrazów. Co więcej, możliwości istniejących modeli, jakość istniejących danych i możliwość ich zastosowania w dalszym ciągu są niewystarczające dla przyspieszonego procesu rozwoju, co pozostawia badaczy z pytaniem: „jak przyspieszyć rozwój modeli języka wizyjnego przy akceptowalnych kosztach"?

Próbą odpowiedzi na to pytanie jest framework Mini-Gemini, który stara się zbadać potencjał modeli języka wizyjnego w trzech aspektach: generowanie sterowane przez VLM lub rozszerzone aplikacje, wysokiej jakości dane i tokeny wizualne o wysokiej rozdzielczości. Po pierwsze, platforma Mini-Gemini implementuje architekturę ConvNet w celu wydajnego generowania kandydatów o wyższej rozdzielczości, poprawiając szczegóły wizualne, zachowując jednocześnie liczbę tokenów wizualnych dla modelu dużego języka. Struktura Mini-Gemini łączy publicznie dostępne zestawy danych wysokiej jakości w celu poprawy jakości danych i integruje te ulepszenia z najnowocześniejszymi modelami generatywnymi i dużymi językami, próbując zwiększyć wydajność VLM i ulepszyć doświadczenie użytkownika. Wieloaspektowa strategia wdrożona przez platformę Mini-Gemini umożliwia badanie ukrytych możliwości modeli języka wizyjnego i osiąganie znaczących postępów przy ewidentnych ograniczeniach zasobów. 

Ogólnie rzecz biorąc, framework Mini-Gemini wykorzystuje paradygmat „od dowolnego do dowolnego”, ponieważ jest w stanie obsługiwać zarówno tekst, jak i obrazy jako dane wejściowe i wyjściowe. W szczególności platforma Mini-Gemini wprowadza wydajny potok ulepszania tokenów wizualnych dla obrazów wejściowych i zawiera system podwójnego kodera składający się z podwójnych koderów: pierwszy koder przeznaczony jest do obrazów o wysokiej rozdzielczości, a drugi koder do obrazów o niskiej rozdzielczości wysokiej jakości osadzanie wizualne. Podczas wnioskowania kodery działają w mechanizmie uwagi, w którym koder o niskiej rozdzielczości generuje zapytania wizualne, podczas gdy koder o wysokiej rozdzielczości dostarcza klucz i wartości w celach informacyjnych. Aby poprawić jakość danych, platforma Mini-Gemini gromadzi i generuje więcej danych w oparciu o zasoby publiczne, w tym instrukcje zorientowane na zadania, dane związane z generacją i odpowiedzi w wysokiej rozdzielczości, przy czym zwiększona ilość i lepsza jakość poprawiają ogólną wydajność i możliwości modelu. Co więcej, platforma Mini-Gemini obsługuje jednoczesne generowanie tekstu i obrazów w wyniku integracji modelu języka wizyjnego z zaawansowanymi modelami generatywnymi. 

Mini-Gemini: metodologia i architektura

W swojej istocie struktura Mini-Gemini jest koncepcyjnie prosta i składa się z trzech komponentów. 

  1. Struktura wykorzystuje kodery podwójnej wizji, aby zapewnić osadzanie wizualne w niskiej rozdzielczości i kandydatów o wysokiej rozdzielczości. 
  2. Struktura proponuje wdrożenie eksploracji informacji o poprawkach w celu eksploracji na poziomie poprawek pomiędzy zapytaniami wizualnymi o niskiej rozdzielczości a regionami o wysokiej rozdzielczości. 
  3. Struktura Mini-Gemini wykorzystuje duży model językowy do łączenia tekstu z obrazami w celu jednoczesnego generowania i zrozumienia. 

Enkodery z podwójną wizją

Framework Mini-Gemini może przetwarzać dane wejściowe zarówno w postaci tekstu, jak i obrazu, z możliwością obsługi ich indywidualnie lub w kombinacji. Jak pokazano na poniższym obrazie, platforma Mini-Gemini rozpoczyna proces, stosując interpolację dwuliniową w celu wygenerowania obrazu o niskiej rozdzielczości z odpowiadającego mu obrazu o wysokiej rozdzielczości. 

Następnie platforma przetwarza te obrazy i koduje je w wielosiatkowy obraz osadzony w dwóch równoległych przepływach obrazów. Mówiąc dokładniej, platforma Mini-Gemini utrzymuje tradycyjny potok dla przepływów o niskiej rozdzielczości i wykorzystuje wstępnie przeszkolony moduł Visual Transformer do kodowania osadzonych wizualizacji, ułatwiając modelowi zachowanie relacji dalekiego zasięgu między plamami wizualnymi dla późniejszych interakcji w dużym języku modele. W przypadku przepływów o wysokiej rozdzielczości platforma Mini-Gemini wykorzystuje koder oparty na CNN lub Convolution Neural Networks w celu adaptacyjnego i wydajnego przetwarzania obrazu o wysokiej rozdzielczości. 

Wyszukiwanie informacji o poprawkach

Dzięki koderom podwójnej wizji generującym osadzanie LR i funkcje HR, platforma Mini-Gemini proponuje wdrożenie eksploracji informacji o poprawkach w celu rozszerzenia potencjału modeli języka wizyjnego o ulepszone tokeny wizualne. Aby zachować liczbę tokenów wizualnych w celu zapewnienia wydajności w dużych modelach językowych, platforma Mini-Gemini przyjmuje osadzanie wizualne w niskiej rozdzielczości jako zapytanie i ma na celu uzyskanie odpowiednich wskazówek wizualnych od kandydatów na funkcje HR, przy czym platforma uwzględnia Mapa cech HR jako klucz i wartość.

Jak pokazano na powyższym obrazku, formuła obejmuje proces udoskonalania i syntezy wskazówek wizualnych, co prowadzi do generowania zaawansowanych tokenów wizualnych do późniejszego przetwarzania modelu wielkojęzykowego. Proces ten zapewnia, że ​​platforma jest w stanie ograniczyć eksplorację każdego zapytania do odpowiedniego podregionu na mapie cech HR z liczbą cech w pikselach, co skutkuje zwiększoną wydajnością. Dzięki tej konstrukcji platforma Mini-Gemini jest w stanie wyodrębnić szczegóły funkcji HR bez zwiększania liczby tokenów wizualnych i utrzymuje równowagę między wykonalnością obliczeniową a bogactwem szczegółów. 

Generowanie tekstu i obrazu

Struktura Mini-Gemini łączy tokeny wizualne i tokeny tekstu wejściowego jako dane wejściowe do dużych modeli językowych na potrzeby generowania autoregresji. W przeciwieństwie do tradycyjnych modeli języka wizyjnego, platforma Mini-Gemini obsługuje generowanie wyłącznie tekstu oraz generowania obrazów tekstowych jako danych wejściowych i wyjściowych, tj. dowolnego wnioskowania, i jest to wynikiem tych wyjątkowych możliwości rozumienia obrazu i tekstu oraz możliwości wnioskowania, Mini-Gemini jest w stanie generować obrazy wysokiej jakości. W przeciwieństwie do ostatnich prac, które koncentrują się na luce dziedzinowej pomiędzy osadzeniem tekstu modeli generacji a dużymi modelami językowymi, platforma Mini-Gemini próbuje zoptymalizować lukę w dziedzinie podpowiedzi językowych poprzez tłumaczenie instrukcji użytkownika na wysokiej jakości podpowiedzi, które tworzą obrazy odpowiednie do kontekstu w modelach dyfuzji utajonej. Co więcej, w celu lepszego zrozumienia dostrajania instrukcji i dopasowania międzymodalnego, platforma Mini-Gemini zbiera próbki z publicznie dostępnych zestawów danych wysokiej jakości i wykorzystuje platformę turbo GPT-4 do dalszego konstruowania instrukcji 13K po zestawie danych w celu wsparcia generowania obrazu. 

Mini-Gemini: eksperymenty i wyniki

Aby ocenić jego wydajność, tworzona jest instancja platformy Mini-Gemini przy użyciu wstępnie wytrenowanej platformy ConvNext-L dla kodera wizji HR oraz wstępnie przeszkolonej platformy CLIP Transformator wizji dla enkodera wizyjnego LR. Aby zapewnić efektywność szkolenia, platforma Mini-Gemini utrzymuje dwa kodery wizyjne na stałym poziomie i optymalizuje projektory eksploracji informacji o poprawkach na wszystkich etapach oraz optymalizuje model dużego języka na samym etapie dostrajania instrukcji. 

Poniższa tabela porównuje wydajność platformy Mini-Gemini z najnowocześniejszymi modelami w różnych ustawieniach, a także uwzględnia modele prywatne. Jak można zaobserwować, Mini-Gemini przewyższa istniejące platformy w szerokiej gamie LLM konsekwentnie przy normalnej rozdzielczości i wykazuje doskonałą wydajność w konfiguracji z Gemma-2B w kategorii wydajnych modeli. Co więcej, gdy stosowane są większe modele języków, skalowalność frameworku Mini-Gemini jest oczywista. 

Aby ocenić jego działanie na żetonach wizualnych o wysokiej rozdzielczości i rozszerzonych, eksperymenty przeprowadza się przy rozmiarze wejściowym 672 dla kodera wizyjnego LR i 1536 dla kodera wizualnego. Jak wspomniano wcześniej, głównym celem wizualnego kodera HR jest oferowanie informacji o kandydatach w wysokiej rozdzielczości. Jak można zaobserwować, framework Mini-Gemini zapewnia doskonałą wydajność w porównaniu z najnowocześniejszymi frameworkami. 

Co więcej, aby ocenić zdolność rozumienia wizualnego platformy Mini-Gemini w warunkach rzeczywistych, programiści stosują model do różnych zadań związanych z rozumowaniem i rozumieniem, jak pokazano na poniższej ilustracji. Jak można zaobserwować, framework Mini-Gemini jest w stanie rozwiązać szeroką gamę złożonych zadań dzięki implementacji eksploracji informacji o poprawkach i wysokiej jakości danych. Ale jeszcze bardziej imponujący jest fakt, że struktura Mini-Gemini wykazuje dużą dbałość o szczegóły, która wykracza poza zwykłe umiejętności rozpoznawania i szczegółowo opisuje skomplikowane elementy. 

Poniższy rysunek przedstawia wszechstronną ocenę możliwości generatywnych platformy Mini-Gemini. 

W porównaniu z najnowszymi modelami, takimi jak ChatIllusion i AnyGPT, platforma Mini-Gemini wykazuje silniejsze możliwości rozumienia multimodalnego, umożliwiając generowanie tekst na obraz podpisy, które są lepiej dopasowane do instrukcji wejściowych i powodują, że odpowiedzi typu „obraz na tekst” charakteryzują się większym podobieństwem koncepcyjnym. Jeszcze większe wrażenie robi fakt, że platforma Mini-Gemini wykazuje niezwykłą biegłość w generowaniu wysokiej jakości treści przy użyciu wielomodelowych instrukcji ludzkich, wyłącznie z tekstowymi danymi szkoleniowymi, co ilustruje solidną interpretację semantyczną i umiejętności dopasowywania obrazu do tekstu firmy Mini-Gemini. 

Final Thoughts

W tym artykule mówiliśmy o Mini-Gemini, potężnym i usprawnionym frameworku dla wielomodalnych modeli języka wizyjnego. Podstawowym celem platformy Mini-Gemini jest wykorzystanie ukrytych możliwości modeli języka wizyjnego przy użyciu danych wysokiej jakości, strategicznego projektu platformy i rozszerzonego zakresu funkcjonalnego. Mini-Gemini to próba zmniejszenia luki pomiędzy modelami języka wizyjnego a bardziej zaawansowanymi modelami poprzez wykorzystanie potencjału VLM w celu uzyskania lepszej wydajności w trzech aspektach: generowanie sterowane przez VLM, wysokiej jakości dane i tokeny wizualne o wysokiej rozdzielczości. Aby ulepszyć tokeny wizualne, platforma Mini-Gemini proponuje wykorzystanie dodatkowego kodera wizualnego w celu udoskonalenia wysokiej rozdzielczości bez zwiększania liczby tokenów wizualnych. Struktura Mini-Gemini tworzy ponadto wysokiej jakości zbiór danych, próbując promować precyzyjne zrozumienie obrazów i generowanie w oparciu o rozumowanie. Ogólnie rzecz biorąc, struktura Mini-Gemini próbuje wykorzystać potencjał modeli języka wizyjnego i ma na celu wzmocnienie istniejących ram jednocześnie w zakresie rozumowania, rozumienia i generowania obrazu.

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.