Sztuczna inteligencja
ORZEŁ: Eksploracja przestrzeni projektowej dla wielomodalowych dużych modeli językowych z mieszaniną encoderów
Możliwość dokładnej interpretacji złożonych informacji wizualnych jest kluczowym celem wielomodalowych dużych modeli językowych (MLLM). Ostatnie badania pokazują, że zwiększona percepcja wizualna znacznie redukuje halucynacje i poprawia wyniki w zadaniach wrażliwych na rozdzielczość, takich jak optyczne rozpoznawanie znaków i analiza dokumentów. Kilka ostatnich MLLM osiąga to, wykorzystując mieszaninę encoderów wizualnych. Pomimo ich sukcesu, brakuje systematycznych porównań i szczegółowych badań ablacjnych dotyczących krytycznych aspektów, takich jak wybór ekspertów i integracja wielu ekspertów wizualnych. Artykuł ten zapewnia obszerną eksplorację przestrzeni projektowej dla MLLM z wykorzystaniem mieszaniny encoderów wizualnych i rozdzielczości, ramy Eagle, która próbuje zbadać przestrzeń projektową dla wielomodalowych dużych modeli językowych z mieszaniną encoderów. Wyniki ujawniają kilka podstawowych zasad wspólnych dla różnych istniejących strategii, prowadząc do uproszczonej, ale skutecznej metody projektowej. Eagle odkrywa, że proste łączenie tokenów wizualnych z zestawu komplementarnych encoderów wizualnych jest tak skuteczne, jak bardziej złożone architektury mieszania lub strategie. Dodatkowo, Eagle wprowadza Pre-Alignment, aby zmostować lukę między encoderami wizualnymi a tokenami językowymi, poprawiając spójność modelu. Wynikająca z tego rodzina MLLM, Eagle, przewyższa inne wiodące modele open-source w głównych benchmarkach MLLM.
Praca Eagle jest związana z ogólną architekturą projektową wielomodalowych dużych modeli językowych (MLLM). Poza linią przedstawicielskich badań open-source, inne znaczące rodziny MLLM obejmują, ale nie ograniczają się do, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini i Llama 3.1. W zależności od tego, jak sygnały wizualne są integrowane z modelem językowym, MLLM można ogólnie zaklasyfikować jako “cross-modal attention” i “prefix-tuning”. Pierwsze wstrzykuje informacje wizualne do różnych warstw LLM za pomocą cross-modal attention, podczas gdy drugie traktuje tokeny wizualne jako część sekwencji tokenów językowych i bezpośrednio dołącza je z osadzeniami tekstowymi. Model Eagle należy do rodziny prefix-tuning, śledząc architekturę multimodalną w stylu LLaVA.
Praca Eagle jest ściśle związana z badaniami skupionymi na poprawie projektów encoderów wizualnych dla MLLM. Wczesne prace zwykle przyjmowały encodery wizualne wstępnie wyuczane na zadaniach wizualno-językowych, takich jak CLIP i EVA-CLIP. Silniejsze encodery wizualne, takie jak SigLIP i InternVL, zostały zaproponowane w celu poprawy zadań wizualno-językowych dzięki lepszym projektom, większym rozmiarom modelu i bardziej skutecznym recepturom szkoleniowym. Ponieważ modele są często wstępnie wyuczane na obrazach o niskiej rozdzielczości i mogą nie mieć możliwości kodowania drobnych szczegółów, często wykonywana jest adaptacja wyższej rozdzielczości w celu zwiększenia rozdzielczości wejściowej MLLM. Oprócz adaptacji wyższej rozdzielczości, modele takie jak LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer i InternVL wykorzystują tiling lub adaptacyjny tiling do obsługi wejściowej o wysokiej rozdzielczości, gdzie obrazy są dzielone na niższej rozdzielczości łaty i przetwarzane oddzielnie. Chociaż możliwość obsługi wyższej rozdzielczości jest możliwa dzięki wprowadzeniu dodatkowych ekspertów wizualnych, ten podejście nieco się różni od technik tilingu, chociaż oba są kompatybilne i mogą być łączone.
… (reszta treści)








