Свяжитесь с нами:

Представление крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году

Искусственный интеллект

Представление крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году

mm

Когда мы познаем мир, наши чувства (зрение, звуки, запахи) предоставляют разнообразную информацию, и мы выражаем свои мысли, используя различные методы общения, такие как мимика и жесты. Эти чувства и методы общения вместе называются модальностями и представляют собой различные способы нашего восприятия и общения. Черпая вдохновение из этих человеческих способностей, большая мультимодальная модель (LMM)сочетание генеративных и мультимодальный ИИ, разрабатываются для понимания и создания контента с использованием различных типов, таких как текст, изображения и аудио. В этой статье мы подробно рассмотрим эту новую область, рассмотрим, что такое большие мультимодальные модели (LMM), как они создаются, существующие примеры, проблемы, с которыми они сталкиваются, и потенциальные области применения.

Эволюция генеративного ИИ в 2024 году: от больших языковых моделей к большим мультимодальным моделям

В своем последнем отчете McKinsey обозначила 2023 год как год прорыва для генеративный ИИ, что привело ко многим достижениям в этой области. Мы стали свидетелями заметного роста распространенности большие языковые модели (LLM) способен понимать и генерировать человеческий язык. Более того, модели генерации изображений значительно эволюционировали, продемонстрировав свою способность создавать визуальные эффекты из текстовых подсказок. Однако, несмотря на значительный прогресс в отдельных модальностях, таких как текст, изображения или аудио, генеративный ИИ столкнулся с проблемами в плавном объединении этих модальностей в процессе генерации. Поскольку мир по своей природе мультимодален, для ИИ крайне важно справляться с мультимодальной информацией. Это важно для значимого взаимодействия с людьми и успешной работы в реальных сценариях.

Следовательно, многие исследователи ИИ ожидают, что появление LMM станет следующим рубежом в исследованиях и разработках ИИ в 2024 году. другие модальности. Важно подчеркнуть, что не все мультимодальные системы можно отнести к LMM. Такие модели, как Середина пути и Стабильная диффузия, несмотря на свою мультимодальность, не подпадают под категорию LMM главным образом потому, что у них отсутствуют LLM, которые являются фундаментальным компонентом LMM. Другими словами, мы можем описать LMM как расширение LLM, предоставляющее им возможность умело работать с различными модальностями.

Как работают LMM?

Пока исследователи исследовали различные подходы Для создания LMM они обычно включают три основных компонента и операции. Во-первых, для каждой модальности данных используются кодеры для генерации представлений данных (называемых встраиваниями), специфичных для этой модальности. Во-вторых, используются разные механизмы для объединения вложений из разных модальностей в единое мультимодальное пространство встраивания. В-третьих, для генеративных моделей LLM используется для генерации текстовых ответов. Поскольку входные данные могут состоять из текста, изображений, видео и аудио, исследователи работают над новыми способами заставить языковые модели учитывать различные модальности при предоставлении ответов.

Развитие ЛММ в 2023 году

Ниже я кратко описал некоторые из примечательных LMM, разработанных в 2023 году.

  • ЛЛаВА — это LMM с открытым исходным кодом, разработанная совместно Университетом Висконсин-Мэдисон, Microsoft Research и Колумбийским университетом. Целью модели является предложить версию мультимодального транспорта с открытым исходным кодом. GPT4. Использование Лама Меты, магистр права, он включает в себя CLIP визуальный кодер для надежного визуального восприятия. Вариант LLaVa, ориентированный на здравоохранение, называемый ЛЛаВА-Мед, может ответить на вопросы, связанные с биомедицинскими изображениями.
  • привязка изображения — это модель с открытым исходным кодом, созданная Meta, имитирующая способность человеческого восприятия связывать мультимодальные данные. Модель объединяет шесть модальностей — текст, изображения/видео, аудио, 3D-измерения, данные о температуре и данные о движении — создавая единое представление для этих разнообразных типов данных. ImageBind может соединять объекты на фотографиях с помощью таких атрибутов, как звук, трехмерные формы, температура и движение. Модель можно использовать, например, для создания сцены из текста или звуков.
  • БесшовныйM4T — это мультимодальная модель, разработанная Meta для содействия общению между многоязычными сообществами. SeamlessM4T превосходно справляется с задачами перевода и транскрипции, поддерживая переводы «речь в речь», «речь в текст», «текст в речь» и «текст в текст». Модель использует неавторегрессионный декодер преобразования текста в единицы для выполнения этих переводов. Расширенная версия, БесшовныйM4T v2, составляет основу для таких моделей, как БесшовныйВыразительный и Бесшовная потоковая передача, уделяя особое внимание сохранению выражения мнений на разных языках и обеспечению переводов с минимальной задержкой.
  • GPT4, выпущенный OpenAI, является развитием своего предшественника, GPT3.5. Хотя подробные архитектурные особенности не раскрыты полностью, GPT4 хорошо известен за плавную интеграцию моделей только для текста, только для изображения и только для аудио. Модель может генерировать текст как из письменных, так и из графических данных. Он превосходно справляется с различными задачами, включая юмористическое описание в изображениях, обобщение текста со скриншотов и умелые ответы на экзаменационные вопросы с использованием диаграмм. GPT4 также известен своей адаптируемостью при эффективной обработке широкого спектра форматов входных данных.
  • Gemini, созданный Google DeepMind, отличается своей мультимодальностью, обеспечивая плавное взаимодействие между различными задачами, не полагаясь на объединение одномодальных компонентов. Эта модель легко управляет как текстовыми, так и разнообразными аудиовизуальными входами, демонстрируя свою способность генерировать выходные данные как в текстовом, так и в графическом форматах.

Проблемы больших мультимодальных моделей

  • Включение большего количества модальностей данных: Большинство существующих LMM работают с текстом и изображениями. Однако LMM необходимо развиваться за пределами текста и изображений, включая такие модальности, как видео, музыку и 3D.
  • Доступность разнообразных наборов данных: Одной из ключевых проблем при разработке и обучении мультимодальных генеративных моделей ИИ является потребность в больших и разнообразных наборах данных, включающих несколько модальностей. Например, чтобы обучить модель совместному генерированию текста и изображений, набор данных должен включать как текстовые, так и графические входные данные, связанные друг с другом.
  • Генерация мультимодальных выходов: Хотя LMM могут обрабатывать мультимодальные входные данные, создание разнообразных выходных данных, таких как объединение текста с графикой или анимацией, остается проблемой.
  • Следующие инструкции: LMM сталкиваются с проблемой овладения диалогом и выполнением инструкций, выходя за рамки простого завершения.
  • Мультимодальное рассуждение: В то время как современные LMM превосходно преобразуют одну модальность в другую, бесшовная интеграция мультимодальных данных для сложных задач рассуждения, таких как решение письменных задач на основе слуховых инструкций, остается сложной задачей.
  • Сжатие LMM: Ресурсоемкий характер LMM представляет собой серьезное препятствие, делающее их непрактичными для периферийных устройств с ограниченными вычислительными ресурсами. Сжатие LMM для повышения эффективности и возможности их развертывания на устройствах с ограниченными ресурсами является важнейшей областью текущих исследований.

Возможные случаи использования

  • Образование: LMM обладают потенциалом изменить образование, создавая разнообразные и увлекательные учебные материалы, сочетающие в себе текст, изображения и аудио. LMM предоставляют исчерпывающую обратную связь по заданиям, продвигают платформы совместного обучения и улучшают развитие навыков с помощью интерактивного моделирования и примеров из реальной жизни.
  • Здравоохранение: В отличие от традиционных диагностических систем искусственного интеллекта, ориентированных на один метод, LMM улучшают медицинскую диагностику за счет интеграции нескольких методов. Они также поддерживают общение между поставщиками медицинских услуг и пациентами, преодолевая языковые барьеры, выступая в качестве централизованного хранилища для различных приложений искусственного интеллекта в больницах.
  • Генерация искусства и музыки: LMM могли бы преуспеть в создании произведений искусства и музыки, комбинируя различные методы для получения уникальных и выразительных результатов. Например, художественный LMM может сочетать визуальные и слуховые элементы, обеспечивая эффект присутствия. Аналогичным образом, музыкальный LMM может объединять инструментальные и вокальные элементы, что приводит к созданию динамичных и выразительных композиций.
  • Персональные рекомендации: LMM могут анализировать предпочтения пользователей по различным параметрам, чтобы предоставлять персонализированные рекомендации по потреблению контента, такого как фильмы, музыка, статьи или продукты.
  • Прогноз погоды и мониторинг окружающей среды: LMM могут анализировать различные виды данных, такие как спутниковые изображения, атмосферные условия и исторические закономерности, чтобы повысить точность прогнозирования погоды и мониторинга окружающей среды.

Выводы

Появление больших мультимодальных моделей (БММ) знаменует собой значительный прорыв в области генеративного ИИ, обещающий достижения в различных областях. Поскольку эти модели легко интегрируют различные модальности, такие как текст, изображения и аудио, их развитие открывает возможности для революционных приложений в здравоохранении, образовании, искусстве и персонализированных рекомендациях. Однако существующие проблемы, включая поддержку большего количества модальностей данных и сжатие ресурсоёмких моделей, подчёркивают необходимость проведения дальнейших исследований для полной реализации потенциала БММ.

Доктор Техсин Зия — штатный доцент Университета COMSATS в Исламабаде, имеет докторскую степень в области искусственного интеллекта, полученную в Венском технологическом университете, Австрия. Специализируясь на искусственном интеллекте, машинном обучении, науке о данных и компьютерном зрении, он внес значительный вклад, публикуя публикации в авторитетных научных журналах. Доктор Техсин также руководил различными промышленными проектами в качестве главного исследователя и консультанта по искусственному интеллекту.