Искусственный интеллект

EAGLE: Изучение Пространства Дизайна для Мультимодальных Больших Языковых Моделей с Смесью Кодировщиков

Published September 10, 2024

Updated April 27, 2026

Kunal Kejriwal

EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

Способность точно интерпретировать сложную визуальную информацию является важным направлением мультимодальных больших языковых моделей (MLLMs). Недавние исследования показывают, что улучшенная визуальная перцепция значительно снижает галлюцинации и улучшает производительность на задачах, чувствительных к разрешению, таких как оптическое распознавание символов и анализ документов. Несколько недавних MLLM достигают этого, используя смесь кодировщиков зрения. Несмотря на их успех, существует недостаток систематических сравнений и подробных исследований, касающихся критических аспектов, таких как выбор экспертов и интеграция нескольких экспертов по зрению. Эта статья предоставляет всестороннее изучение пространства дизайна для MLLM с помощью смеси кодировщиков зрения и разрешений, фреймворка Eagle, который пытается изучить пространство дизайна для мультимодальных больших языковых моделей с помощью смеси кодировщиков. Результаты показывают несколько основных принципов, общих для различных существующих стратегий, что приводит к упрощенному, но эффективному подходу к дизайну. Eagle обнаруживает, что простое конкатенация визуальных токенов из набора дополнительных кодировщиков зрения так же эффективно, как и более сложные архитектуры смешивания или стратегии. Кроме того, Eagle вводит Предварительное Выравнивание, чтобы устранить разрыв между кодировщиками, ориентированными на зрение, и языковыми токенами, улучшая согласованность модели. Результатом является семейство MLLM, Eagle, которое превосходит другие ведущие открытые модели на основных бенчмарках MLLM.

… (translation continues, following the exact same structure and format as the input, without any explanations or comments)

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.

Unite.AI

EAGLE: Изучение Пространства Дизайна для Мультимодальных Больших Языковых Моделей с Смесью Кодировщиков

You may like