Искусственный интеллект

Salmonn: К направлению общих слуховых способностей для крупномасштабных языковых моделей

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Слух, который включает в себя восприятие и понимание общей слуховой информации, имеет решающее значение для агентов ИИ в реальных условиях. Эта слуховая информация охватывает три основных типа звуков: музыку, аудиособытия и речь. Недавно фреймворки крупномасштабных языковых моделей (LLM) на основе текста показали замечательные способности, достигая человеческого уровня производительности в широком диапазоне задач обработки естественного языка (NLP). Кроме того, настройка инструкций, метод обучения с использованием пар ссылочных ответов и подсказок пользователя, стала популярной. Этот подход обучает крупномасштабные языковые модели более эффективно следовать открытым инструкциям пользователя. Однако текущие исследования все больше сосредоточены на улучшении крупномасштабных языковых моделей с возможностью воспринимать многомодальную информацию.

Сосредоточившись на этом же, в этой статье мы будем говорить о SALMONN или Speech Audio Language Music Open Neural Network, государственной сетевой нейронной сети речи, аудио, языка и музыки, построенной путем включения кодировщиков речи и аудио в предварительно обученную текстовую крупномасштабную языковую модель в единую аудио-текстовую многомодальную модель. Модель SALMONN позволяет крупномасштабным языковым моделям понимать и обрабатывать общие аудиовходы напрямую и обеспечивать конкурентоспособную производительность в широком диапазоне аудио- и речевых задач, используемых при обучении, включая задачи, основанные на слуховой информации, ответы на вопросы, распознавание и перевод речи, проверку говорящего, распознавание эмоций, подпись аудио и музыки и многое другое. Мы будем более подробно изучать фреймворк SALMONN и исследовать его работу, архитектуру и результаты в широком диапазоне задач NLP. Итак, давайте начнем.

SALMONN: Введение в единую аудио-текстовую многомодальную крупномасштабную языковую модель

SALMONN означает Speech Audio Language Music Open Neural Network, и это единственный аудио-текстовый многомодальный крупномасштабный языковой фреймворк, способный воспринимать и понимать три основных типа звуков или звука, включая речь, аудиособытия и музыку. Модель SALMONN позволяет крупномасштабным языковым моделям понимать и обрабатывать общие аудиовходы напрямую и обеспечивать конкурентоспособную производительность в широком диапазоне аудио- и речевых задач.

Чтобы повысить свою производительность как в речевых, так и в неречевых аудиозадачах, фреймворк SALMONN использует двойную структуру кодировщика, состоящую из аудиокодировщика BEATs и кодировщика речи, полученного из модели Whisper. Кроме того, фреймворк SALMONN также использует модуль подключения Q-Former или запроса Transformer на уровне окна, чтобы эффективно преобразовать выходную последовательность переменной длины кодировщика в аудиотокены переменного количества и, в конечном итоге, достичь высокой временной разрешающей способности для аудио-текстового выравнивания. Подход LoRA или Low Rank Adaptation используется в качестве адаптера для выравнивания выходного пространства с его дополненным входным пространством в попытке进一步 повысить его производительность. В фреймворке SALMONN способность выполнять кросс-модальные задачи, не виденные во время фазы обучения, потерянные во время обучения инструкций в качестве кросс-модальных эмерджентных способностей, является основной причиной, по которой фреймворк SALMONN реализует дополнительную стадию активации, чтобы вернуть общую эмерджентную способность фреймворка LLM.

Кроме того, фреймворк использует широкий спектр аудиособытий, музыкальных тестов и речевых тестов для оценки своих когнитивных слуховых способностей и делит тесты на три уровня. На первом уровне тестирования фреймворк обучает восемь задач в инструктивном обучении, включая перевод, аудиоподпись и распознавание речи. Другие два уровня тестирования являются задачами, не обученными, а второй уровень тестирования состоит из пяти речевых задач обработки естественного языка, таких как извлечение слотов и перевод на не обученные языки, полагаясь на высококачественные многоязычные выравнивания между текстовыми и речевыми токенами. Финальные задачи тестирования пытаются понять речевую и неречевую слуховую информацию для речевого аудио-со-рассуждения и аудио-основного рассказывания.

Чтобы суммировать, фреймворк SALMONN является

Первой многомодальной крупномасштабной языковой моделью, способной понимать и воспринимать общие аудиовходы, включая аудиособытия, речь и музыку, до максимальной степени своих возможностей.
Попыткой проанализировать кросс-модальные эмерджентные способности, реализованные путем реализации коэффициента масштабирования LoRA и использования дополнительной бюджетной активации во время обучения для активации кросс-модальных эмерджентных способностей фреймворка.

SALMONN: Архитектура и методология

В этом разделе мы будем рассматривать архитектуру, метод обучения и экспериментальную установку для фреймворка SALMONN.

Модельная архитектура

В основе своей архитектуры фреймворк SALMONN синхронизирует и объединяет выходные данные от двух слуховых кодировщиков, после чего фреймворк реализует Q-Former на уровне кадра в качестве модуля подключения. Выходная последовательность, сгенерированная Q-Former, объединяется с текстовыми инструктивными подсказками, и затем предоставляется в качестве входных данных для подхода адаптации LoRA для генерации необходимого ответа.

Слуховые кодировщики

Фреймворк SALMONN использует два слуховых кодировщика: неречевой аудиокодировщик BEATs и кодировщик речи, полученный из фреймворка Whisper. Аудиокодировщик BEATs обучен использовать саморегулируемый итеративный подход к обучению для извлечения неречевых высокоуровневых аудиосемантик, в то время как кодировщик речи обучен на большом количестве слабо контролируемых данных для задач распознавания и перевода речи, с выходными особенностями кодировщика, подходящими для включения фонового шума и информации речи. Модель сначала токенизирует входной аудио, а затем маскирует и прогнозирует его при обучении. Результатные слуховые особенности этих двух кодировщиков дополняют друг друга и подходят как для речевых, так и для неречевых данных.

Q-Former на уровне окна

Реализация структуры Q-Former является распространенным подходом, используемым в фреймворках LLM для преобразования выходных данных кодировщика изображения в текстовые токены, и некоторая модификация необходима при работе с аудиотокенами переменной длины. Более конкретно, фреймворк рассматривает выходные данные кодировщика входного изображения как объединенную выходную последовательность кодировщика, и Q-Former развертывает фиксированное количество обучаемых запросов для преобразования выходной последовательности кодировщика в текстовые токены с использованием стэкованных блоков Q-Former. Стэкованный блок Q-Former напоминает блок декодера Transformer с исключениями, удаляющими казуальные маски в слоях самообращения, и использованием фиксированного количества обучаемых статических запросов в начальных блоках.

LoRA и LLM

Фреймворк SALMONN также развертывает крупномасштабную языковую модель Vicuna, которая является крупномасштабной языковой моделью LLaMA, дообученной для более точного и эффективного выполнения инструкций. Фреймворк LoRA является распространенным методом, используемым для параметроэффективного дообучения, и его включение в фреймворк SALMONN для оценки матриц весов и адаптации запроса в слоях самообращения.

Метод обучения

Фреймворк SALMONN использует трехэтапный подход кросс-модального обучения. Этап обучения включает предварительный этап обучения и этап настройки инструкций, которые включены в большинство визуальных фреймворков LLM, и дополнительный этап активации реализуется для решения проблем переобучения, встречающихся при задачах аудиоподписи и распознавания речи.

Предварительный этап обучения

Чтобы ограничить разрыв, наблюдаемый между предварительно обученными параметрами, включая кодировщики и LLM, и случайно инициализированными параметрами, включая адаптер и модули подключения, фреймворк SALMONN использует большое количество данных аудиоподписи и распознавания речи для предварительного обучения компонентов LoRA и Q-Former. Эти задачи содержат важную слуховую информацию о ключевом содержании аудиособытий, как речевых, так и неречевых, и ни одна из них не требует сложного понимания или рассуждения для изучения выравнивания между текстовой и слуховой информацией.

Этап настройки инструкций

Этап настройки инструкций, реализованный в фреймворке SALMONN, напоминает тот, который реализован в фреймворках NLP и визуальных LLM, используя список аудиособытий, музыкальных задач и речевых событий для дообучения аудио-текстовых инструкций. Задачи отдаются приоритет на основе их важности в различных тестах, включая распознавание телефона, распознавание перекрывающейся речи и музыкальные подписи. Кроме того, текстовая информация, сопряженная с аудиоданными, образует основу для генерации инструктивных подсказок.

Переобучение задач

Даже при реализации только первых двух этапов обучения фреймворк SALMONN обеспечивает конкурентоспособные результаты на задачах настройки инструкций, хотя производительность не на высшем уровне при выполнении кросс-модальных задач, особенно на задачах, требующих кросс-модальных ко-рассуждений. Конкретно, модель иногда нарушает инструктивные подсказки, что приводит к генерации нерелевантных или неправильных ответов, и это явление называется переобучением задач в фреймворке SALMONN, и этап активации реализуется для решения этих проблем переобучения.

Этап активации

Эффективным подходом к решению проблем переобучения является регуляризация внутренних условных языковых моделей с использованием более длинных и разнообразных ответов, таких как рассказывание историй или ответы на вопросы, основанные на слуховой информации. Затем фреймворк генерирует парные данные обучения для таких задач, используя текст, сопряженный с аудио или речью, или музыкальными подписями.

Спецификация задач

Чтобы оценить кросс-модальные эмерджентные способности SALMONN, разработчики включили 15 речевых, аудио- и музыкальных задач, разделенных на три уровня.

Уровень 1

На первом уровне задачи используются для настройки инструкций и, следовательно, они являются наиболее простыми задачами, которые фреймворк SALMONN должен выполнить.

Уровень 2

Второй уровень состоит из задач, не обученных, и уровень сложности выше по сравнению с задачами уровня 1. На уровне 2 задачи являются задачами обработки естественного языка, включая извлечение речевых ключевых слов, используемых для оценки точности фреймворка при извлечении определенных ключевых слов с помощью речи. Другие задачи включают SQQA или ответы на вопросы на основе устных запросов, которые оценивают общие знания, которые фреймворк извлекает с помощью вопросов, задачу SF или заполнение речевых слотов для оценки точности значений слотов, и, наконец, есть две задачи AST для перевода с английского на немецкий и английский на японский.

Уровень 3

Сложность задач на уровне 3 является максимальной по сравнению с двумя другими уровнями и включает задачи SAC или речевого аудио-со-рассуждения и аудио-основного рассказывания. Задача SAC требует от фреймворка SALMONN понять вопрос, включенный в аудиоклип, поданный в модель, найти поддерживающие доказательства, используя аудиособытия или музыку на фоне, и, наконец, сгенерировать подходящую причину для ответа на вопрос. Задачи аудио-основного рассказывания требуют от модели сгенерировать осмысленный рассказ на основе слуховой информации, полученной из общих аудиовходов.

Результаты

Задачи уровня 1

Следующая таблица демонстрирует результаты на задачах уровня 1, и, как можно наблюдать, фреймворк SALMONN возвращает конкурентоспособные результаты на задачах уровня 1 с или без активации.

Задачи уровня 2 и 3

Хотя фреймворк SALMONN возвращает конкурентоспособные результаты на задачах уровня 1 даже без дообучения, то же самое нельзя сказать о задачах уровня 2 и 3, поскольку без активации фреймворк SALMONN сильно страдает от переобучения на задачах. Производительность снижается еще больше на задачах SQQA, SAC и рассказывания, с упором на мультимодальные взаимодействия, и фреймворк SALMONN испытывает трудности с выполнением инструкций без активации. Однако с активацией результаты значительно улучшаются, и результаты включены в следующем изображении.

Коэффициент масштабирования LoRA

Коэффициент масштабирования LoRA оценивает влияние использования временного коэффициента масштабирования LoRA для минимизации проблем переобучения на задачах. Как можно наблюдать в следующем изображении, снижение коэффициента масштабирования LoRA до 2,0 повышает кросс-модальную рассуждательную способность фреймворка SALMONN на задачах ASR и PR, задачах SQQA, задачах рассказывания и задачах SAC соответственно.

Оценка переобучения задач

Чтобы подчеркнуть активацию, фреймворк SALMONN анализирует изменения в недоумении во время трех этапов обучения, и, как можно видеть в следующем изображении, изменения в недоумении для задач AAC и ASR имеют небольшие конечные значения после первого этапа обучения, указывая на обучение модели кросс-модальных выравниваний.

Кроме того, недоумение задачи PR также снижается после настройки инструкций из-за его зависимости от компонента LoRA для изучения выходных токенов. Также наблюдается, что хотя настройка инструкций помогает снизить недоумение на задачах рассказывания и SAC, разрыв все еще достаточно велик, чтобы выполнить задачи успешно, если не добавить дополнительный этап активации или не удалить компонент LoRA.

Активация

Фреймворк SALMONN исследует различные методы активации, включая обучение модели на текстовых задачах ответов на вопросы с длинными ответами или использование аудио-основных длинных написанных историй, тогда как использование длинных речевых транскрипций для задач ASR. Оба компонента Q-Former и LoRA дообучены с использованием этих трех методов. Кроме того, фреймворк игнорирует аудио- и входные данные Q-Former в попытке дообучить компоненты LoRA и Vicuna в качестве адаптивного текстового крупномасштабного языкового модели, и результаты демонстрируются в следующем изображении, и, как можно видеть, модель не может быть активирована с помощью ASR (обучение ASR с длинными метками), ни Story, ни Text-based, обучая компонент LoRA с помощью текстовых входных данных.

Окончательные мысли

В этой статье мы говорили о SALMONN или Speech Audio Language Music Open Neural Network, едином аудио-текстовом многомодальном крупномасштабном языковом фреймворке, способном воспринимать и понимать три основных типа звуков или звука, включая речь, аудиособытия и музыку. Модель SALMONN позволяет крупномасштабным языковым моделям понимать и обрабатывать общие аудиовходы напрямую и обеспечивать конкурентоспособную производительность в широком диапазоне аудио- и речевых задач.

Фреймворк SALMONN обеспечивает конкурентоспособную производительность в широком диапазоне обученных задач, включая аудиоподпись, перевод и распознавание речи, и многое другое, а также обобщается на широкий спектр задач понимания, не обученных, включая перевод речи для извлечения ключевых слов и не обученных языков. Благодаря своим способностям фреймворк SALMONN можно рассматривать как следующий шаг к улучшению общих слуховых способностей крупномасштабных языковых моделей.