заглушки Мини-Близнецы: раскрытие потенциала многомодальных языковых моделей видения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Мини-Близнецы: раскрытие потенциала языковых моделей мультимодального видения

mm

опубликованный

 on

Мини-Близнецы: раскрытие потенциала языковых моделей мультимодального видения

Достижения в большие языковые модели значительно ускорили развитие обработки естественного языкаили НЛП. Внедрение структуры преобразователя оказалось важной вехой, способствовавшей развитию новой волны языковых моделей, включая OPT и BERT, которые демонстрируют глубокое лингвистическое понимание. Кроме того, появление GPT, или моделей генеративных предварительно обученных трансформаторов, представило новую парадигму с авторегрессионным моделированием и создало надежный метод прогнозирования и генерации языка. Появление языковых моделей, таких как GPT-4, ChatGPT, Mixtral, LLaMA и других, способствовало быстрой эволюции: каждая модель демонстрирует повышенную производительность в задачах, связанных со сложной языковой обработкой. Среди существующих методов настройка инструкций стала ключевым методом уточнения результатов предварительно обученных больших языковых моделей, а интеграция этих моделей со специальными инструментами для визуальных задач подчеркнула их адаптивность и открыла двери для будущих приложений. Они выходят далеко за рамки традиционной текстовой обработки LLM и включают мультимодальные взаимодействия.

Кроме того, конвергенция моделей обработки естественного языка и компьютерного зрения привела к появлению VLM или моделей языка видения, которые объединяют лингвистические и зрительные модели для достижения кросс-модального понимания и возможностей рассуждения. Интеграция и появление визуальных и лингвистических моделей сыграли решающую роль в решении задач, требующих как языковой обработки, так и визуального понимания. Появление революционных моделей, таких как CLIP, еще больше сократило разрыв между задачами машинного зрения и языковыми моделями, продемонстрировав осуществимость и практичность кросс-модальных приложений. Более поздние платформы, такие как LLaMA и BLIP, используют данные адаптированных инструкций для разработки эффективных стратегий, демонстрирующих мощные возможности модели. Кроме того, объединение больших языковых моделей с выходными изображениями находится в центре внимания недавних мультимодальных исследований, причем последние методы позволяют обойти прямую генерацию, используя подход поиска изображений для создания выходных изображений и чередующихся текстов.

При этом, несмотря на быстрое развитие моделей языка видения, облегчающих базовое рассуждение и визуальный диалог, все еще существует значительный разрыв в производительности между продвинутыми моделями, такими как GPT-4, и моделями языка видения. Mini-Gemini — это попытка сократить разрыв, существующий между моделями языка видения и более продвинутыми моделями, путем изучения потенциала VLM для повышения производительности по трем аспектам: генерация под управлением VLM, высококачественные данные и визуальные токены высокого разрешения. Для улучшения визуальных токенов платформа Mini-Gemini предлагает использовать дополнительный визуальный кодировщик для уточнения с высоким разрешением без увеличения количества визуальных токенов. Платформа Mini-Gemini дополнительно создает высококачественный набор данных, пытаясь обеспечить точное понимание изображений и генерацию на основе рассуждений. В целом, фреймворк Mini-Gemini пытается раскрыть потенциал моделей языка видения и стремится расширить возможности существующих фреймворков с помощью образного рассуждения, понимания и генеративных возможностей одновременно. Целью этой статьи является подробное освещение фреймворка Mini-Gemini, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Итак, давайте начнем. 

Mini-Gemini: ускорение мультимодальных VLM

За прошедшие годы большие языковые модели развивались, и теперь они могут похвастаться замечательными мультимодальными возможностями и становятся важной частью современных языковых моделей видения. Однако существует разрыв между мультимодальной производительностью больших языковых моделей и языковыми моделями видения, поскольку недавние исследования искали способы объединить зрение с большими языковыми моделями с использованием изображений и видео. Для самих задач зрения разрешение изображения является решающим элементом, позволяющим четко видеть окружающую среду с минимальными зрительными галлюцинациями. Чтобы преодолеть этот разрыв, исследователи разрабатывают модели, улучшающие визуальное понимание в современных условиях. модели языка виденияи два наиболее распространенных подхода: увеличение разрешения и увеличение количества визуальных токенов. Хотя увеличение количества визуальных токенов с изображениями более высокого разрешения действительно улучшает визуальное понимание, это повышение часто сопровождается увеличением вычислительных требований и связанных с ними затрат, особенно при обработке нескольких изображений. Более того, возможности существующих моделей, качество существующих данных и применимость остаются недостаточными для ускоренного процесса разработки, что ставит перед исследователями вопрос: «как ускорить разработку языковых моделей видения с приемлемыми затратами»?

Платформа Mini-Gemini — это попытка ответить на этот вопрос, поскольку она пытается изучить потенциал языковых моделей видения с трех аспектов: генерация или расширенные приложения под управлением VLM, высококачественные данные и визуальные токены высокого разрешения. Во-первых, платформа Mini-Gemini реализует архитектуру ConvNet для эффективной генерации кандидатов с более высоким разрешением, улучшая визуальные детали, сохраняя при этом количество визуальных токенов для большой языковой модели. Платформа Mini-Gemini объединяет общедоступные высококачественные наборы данных в попытке повысить качество данных и интегрирует эти улучшения с современными генеративными и большими языковыми моделями с целью повысить производительность VLM и улучшить пользовательский опыт. Многогранная стратегия, реализованная в среде Mini-Gemini, позволяет ей исследовать скрытые возможности языковых моделей видения и достигать значительных успехов при очевидных ограничениях ресурсов. 

В общем, платформа Mini-Gemini использует парадигму «любой к любому», поскольку она способна обрабатывать как текст, так и изображения в качестве входных и выходных данных. В частности, платформа Mini-Gemini представляет эффективный конвейер для улучшения визуальных токенов для входных изображений и включает систему двойного кодирования, состоящую из двух кодеров: первый кодировщик предназначен для изображений с высоким разрешением, а второй кодировщик — для изображений с низким разрешением. качественное визуальное встраивание. Во время вывода кодировщики работают по принципу внимания: кодировщик с низким разрешением генерирует визуальные запросы, а кодировщик с высоким разрешением предоставляет ключ и значения для справки. Чтобы повысить качество данных, платформа Mini-Gemini собирает и производит больше данных на основе общедоступных ресурсов, включая ориентированные на задачи инструкции, данные, связанные с генерацией, и ответы с высоким разрешением, причем увеличенный объем и повышенное качество улучшают общую производительность и возможности модели. Кроме того, платформа Mini-Gemini поддерживает одновременную генерацию текста и изображений в результате интеграции языковой модели видения с расширенными генеративными моделями. 

Мини-Близнецы: методология и архитектура

По своей сути структура Mini-Gemini концептуально проста и состоит из трех компонентов. 

  1. Платформа использует кодировщики двойного зрения для обеспечения визуального внедрения с низким разрешением и кандидатов с высоким разрешением. 
  2. Платформа предлагает реализовать интеллектуальный анализ информации о исправлениях для проведения анализа на уровне исправлений между визуальными запросами с низким разрешением и областями с высоким разрешением. 
  3. Платформа Mini-Gemini использует большую языковую модель для объединения текста с изображениями для одновременной генерации и понимания. 

Двойные кодеры

Платформа Mini-Gemini может обрабатывать как текстовые, так и графические входные данные с возможностью обработки их по отдельности или в комбинации. Как показано на следующем изображении, платформа Mini-Gemini начинает процесс с использования билинейной интерполяции для создания изображения с низким разрешением из соответствующего изображения с высоким разрешением. 

Затем платформа обрабатывает эти изображения и кодирует их в многосеточное визуальное встраивание в два параллельных потока изображений. В частности, платформа Mini-Gemini поддерживает традиционный конвейер для потоков с низким разрешением и использует предварительно обученный CLIP визуальный преобразователь для кодирования визуальных вложений, что позволяет модели сохранять дальние связи между визуальными фрагментами для последующего взаимодействия на большом языке. модели. Для потоков с высоким разрешением платформа Mini-Gemini использует кодер на основе CNN или нейронных сетей Convolution для адаптивной и эффективной обработки изображений с высоким разрешением. 

Информация о патче Майнинг

Благодаря кодерам двойного видения, генерирующим встраивания LR и функции HR, платформа Mini-Gemini предлагает реализовать интеллектуальный анализ информации о патчах с целью расширения потенциала моделей языка видения с помощью улучшенных визуальных токенов. Чтобы поддерживать количество визуальных токенов для повышения эффективности в больших языковых моделях, платформа Mini-Gemini использует в качестве запроса визуальные встраивания с низким разрешением и стремится получить соответствующие визуальные подсказки от кандидатов в функции HR, при этом платформа принимает Карта функций HR как ключ и ценность.

Как показано на изображении выше, формула инкапсулирует процесс уточнения и синтеза визуальных сигналов, что приводит к созданию расширенных визуальных токенов для последующей обработки большой языковой модели. Этот процесс гарантирует, что платформа сможет ограничить анализ каждого запроса соответствующей подобластью на карте функций HR с попиксельным подсчетом функций, что приводит к повышению эффективности. Благодаря такому дизайну платформа Mini-Gemini способна извлекать детали функций HR без увеличения количества визуальных токенов и поддерживать баланс между вычислительной осуществимостью и богатством деталей. 

Генерация текста и изображений

Платформа Mini-Gemini объединяет визуальные токены и входные текстовые токены в качестве входных данных для больших языковых моделей для авторегрессионной генерации. В отличие от традиционных языковых моделей видения, платформа Mini-Gemini поддерживает генерацию только текста, а также текст-изображение в качестве входных и выходных данных, т.е. от любого к любому выводу, и это является результатом выдающихся возможностей понимания изображения-текста и рассуждения, Mini-Gemini способен генерировать изображения высокого качества. В отличие от недавних работ, в которых основное внимание уделяется разрыву между встраиванием текста в модели генерации и большими языковыми моделями, платформа Mini-Gemini пытается оптимизировать разрыв в области языковых подсказок путем перевода пользовательских инструкций в высококачественные подсказки, которые создают контекстно-зависимые изображения. в моделях скрытой диффузии. Кроме того, для лучшего понимания точной настройки инструкций и перекрестного согласования модальности платформа Mini-Gemini собирает образцы из общедоступных наборов данных высокого качества и использует турбо-инфраструктуру GPT-4 для дальнейшего построения инструкции из 13 КБ после набора данных для поддержки генерации изображений. 

Мини-Близнецы: эксперименты и результаты

Для оценки производительности создается экземпляр платформы Mini-Gemini с предварительно обученной платформой ConvNext-L для кодировщика HR-видения и с предварительно обученным CLIP. Трансформатор видения для видеокодера LR. Чтобы обеспечить эффективность обучения, платформа Mini-Gemini сохраняет два видеокодировщика фиксированными и оптимизирует проекторы для интеллектуального анализа информации о патчах на всех этапах, а также оптимизирует большую языковую модель на самом этапе настройки инструкций. 

В следующей таблице сравнивается производительность платформы Mini-Gemini с современными моделями в различных условиях, а также учитываются частные модели. Как можно заметить, Mini-Gemini превосходит существующие системы по широкому спектру LLM при нормальном разрешении и демонстрирует превосходную производительность при настройке с Gemma-2B в категории эффективных моделей. Более того, при использовании более крупных языковых моделей масштабируемость структуры Mini-Gemini очевидна. 

Чтобы оценить его производительность на высоком разрешении и расширенных визуальных токенах, эксперименты проводятся с входным размером 672 для видеокодера LR и 1536 для визуального кодера. Как упоминалось ранее, основная цель визуального кодировщика HR — предоставить информацию о кандидатах в высоком разрешении. Как можно заметить, платформа Mini-Gemini обеспечивает превосходную производительность по сравнению с современными платформами. 

Кроме того, чтобы оценить качество визуального понимания платформы Mini-Gemini в реальных условиях, разработчики применяют модель к различным задачам рассуждения и понимания, как показано на следующем изображении. Как можно заметить, фреймворк Mini-Gemini способен решать широкий спектр сложных задач благодаря реализации интеллектуального анализа информации о патчах и высококачественным данным. Но что еще более впечатляет, так это тот факт, что структура Mini-Gemini демонстрирует тонкое добавление деталей, выходящее за рамки простого распознавания, и замысловато описывает сложные элементы. 

На следующем рисунке представлена ​​всесторонняя оценка генеративных способностей структуры Mini-Gemini. 

По сравнению с недавними моделями, такими как ChatIllusion и AnyGPT, платформа Mini-Gemini демонстрирует более сильные способности мультимодального понимания, что позволяет ей генерировать текст к изображению подписи, которые лучше согласуются с инструкциями по вводу, и приводят к получению изображений и текстовых ответов с более сильным концептуальным сходством. Что еще более впечатляет, так это тот факт, что платформа Mini-Gemini демонстрирует замечательную способность генерировать высококачественный контент с использованием многомодельных человеческих инструкций только с данными обучения текста, и эта способность иллюстрирует надежную семантическую интерпретацию Mini-Gemini и навыки выравнивания изображения и текста. 

Заключение

В этой статье мы говорили о Mini-Gemini, мощной и оптимизированной структуре для мультимодальных языковых моделей видения. Основная цель платформы Mini-Gemini — использовать скрытые возможности языковых моделей видения с использованием высококачественных данных, стратегического дизайна структуры и расширенного функционального объема. Mini-Gemini — это попытка сократить разрыв, существующий между моделями языка видения и более продвинутыми моделями, путем изучения потенциала VLM для повышения производительности по трем аспектам: генерация под управлением VLM, высококачественные данные и визуальные токены высокого разрешения. Для улучшения визуальных токенов платформа Mini-Gemini предлагает использовать дополнительный визуальный кодировщик для уточнения с высоким разрешением без увеличения количества визуальных токенов. Платформа Mini-Gemini дополнительно создает высококачественный набор данных, пытаясь обеспечить точное понимание изображений и генерацию на основе рассуждений. В целом, фреймворк Mini-Gemini пытается раскрыть потенциал моделей языка видения и стремится расширить возможности существующих фреймворков с помощью образного рассуждения, понимания и генеративных возможностей одновременно.

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.