Kunstmatige intelligentie
EAGLE: Het Verkennen van het Ontwerpruimte voor Multimodale Grote Taalmodellen met een Mengsel van Encoders
De mogelijkheid om complexe visuele informatie nauwkeurig te interpreteren is een cruciaal aandachtspunt voor multimodale grote taalmodellen (MLLM’s). Recent onderzoek toont aan dat verbeterde visuele perceptie hallucinaties aanzienlijk vermindert en de prestaties op resolutiegevoelige taken, zoals optische tekenherkenning en documentanalyse, verbetert. Verschillende recente MLLM’s bereiken dit door een mengsel van visie-encoders te gebruiken. Ondanks hun succes ontbreekt er een systematische vergelijking en gedetailleerde ablatiestudies die kritische aspecten aanpakken, zoals expertselectie en de integratie van meerdere visie-experts. Dit artikel biedt een uitgebreide verkenning van de ontwerpruimte voor MLLM’s met een mengsel van visie-encoders en resoluties, het Eagle-kader dat probeert de ontwerpruimte voor multimodale grote taalmodellen met een mengsel van encoders te verkennen. De resultaten onthullen verschillende onderliggende principes die gemeenschappelijk zijn voor verschillende bestaande strategieën, waardoor een gestroomlijnde maar effectieve ontwerpbenadering ontstaat. Eagle ontdekt dat het simpelweg concateneren van visuele tokens van een set complementaire visie-encoders even effectief is als complexe mengarchitecturen of -strategieën. Bovendien introduceert Eagle Pre-Alignment om de kloof tussen visiegerichte encoders en taaltokens te overbruggen, waardoor de modelcoherentie wordt verbeterd. De resulterende familie van MLLM’s, Eagle, overtreft andere toonaangevende open-source modellen op belangrijke MLLM-benchmarks.
… (rest of the translation remains the same, following the exact structure and rules provided)








