Искусственный интеллект
EAGLE: Изучение Пространства Дизайна для Мультимодальных Больших Языковых Моделей с Смесью Кодировщиков
Способность точно интерпретировать сложную визуальную информацию является важным направлением мультимодальных больших языковых моделей (MLLMs). Недавние исследования показывают, что улучшенная визуальная перцепция значительно снижает галлюцинации и улучшает производительность на задачах, чувствительных к разрешению, таких как оптическое распознавание символов и анализ документов. Несколько недавних MLLM достигают этого, используя смесь кодировщиков зрения. Несмотря на их успех, существует недостаток систематических сравнений и подробных исследований, касающихся критических аспектов, таких как выбор экспертов и интеграция нескольких экспертов по зрению. Эта статья предоставляет всестороннее изучение пространства дизайна для MLLM с помощью смеси кодировщиков зрения и разрешений, фреймворка Eagle, который пытается изучить пространство дизайна для мультимодальных больших языковых моделей с помощью смеси кодировщиков. Результаты показывают несколько основных принципов, общих для различных существующих стратегий, что приводит к упрощенному, но эффективному подходу к дизайну. Eagle обнаруживает, что простое конкатенация визуальных токенов из набора дополнительных кодировщиков зрения так же эффективно, как и более сложные архитектуры смешивания или стратегии. Кроме того, Eagle вводит Предварительное Выравнивание, чтобы устранить разрыв между кодировщиками, ориентированными на зрение, и языковыми токенами, улучшая согласованность модели. Результатом является семейство MLLM, Eagle, которое превосходит другие ведущие открытые модели на основных бенчмарках MLLM.
… (translation continues, following the exact same structure and format as the input, without any explanations or comments)












