Inteligență artificială
EAGLE: Explorarea spațiului de proiectare pentru modele de limbaj mari multimodale cu o combinație de encodatori
Capacitatea de a interpreta cu acuratețe informații vizuale complexe este un focus crucial pentru modelele de limbaj mari multimodale (MLLM). Lucrările recente arată că percepția vizuală îmbunătățită reduce semnificativ halucinațiile și îmbunătățește performanța la sarcinile sensibile la rezoluție, cum ar fi recunoașterea optică a caracterelor și analiza documentelor. Mai multe MLLM recente realizează acest lucru prin utilizarea unei combinații de encodatori de viziune. În ciuda succesului lor, există o lipsă de comparații sistemice și studii de ablație detaliate care abordează aspecte critice, cum ar fi selectarea experților și integrarea mai multor experți în viziune. Acest articol oferă o explorare extinsă a spațiului de proiectare pentru MLLM utilizând o combinație de encodatori de viziune și rezoluții, cadrul Eagle care încearcă să exploreze spațiul de proiectare pentru modele de limbaj mari multimodale cu o combinație de encodatori. Rezultatele relevă mai multe principii subiacente comune diferitelor strategii existente, conducând la o abordare de proiectare simplificată, dar eficientă. Eagle descoperă că simpla concatenare a tokenilor vizuali de la o serie de encodatori de viziune complementari este la fel de eficientă ca și arhitecturile de amestecare mai complexe sau strategii. În plus, Eagle introduce Pre-Align pentru a combina decalajul dintre encodatori de viziune orientați spre viziune și tokeni de limbaj, îmbunătățind coerența modelului. Rezultatul este o familie de MLLM, Eagle, care depășește alte modele deschise de top pe principalele benchmark-uri MLLM.
… (rest of the translation remains the same, following the exact structure and rules provided)








