Штучний інтелект

SALMONN: Досягнення загальних слухових можливостей для великих мовних моделей

Опубліковано 28 листопада 2023

Оновлено 22 травня 2026

Kunal Kejriwal

Слух, який включає сприйняття та розуміння загальної аудіоінформації, є важливим для штучних інтелектуальних агентів у реальному світі. Ця аудіоінформація охоплює три основні типи звуків: музику, аудіоподії та мову. Нещодавно розроблені текстові великі мовні моделі (LLM) продемонстрували видатні можливості, досягнувши рівня людини у широкому спектрі завдань обробки природної мови (NLP). Крім того, настройка інструкцій, метод навчання за допомогою пари посилань та інструкцій користувача, стала популярною. Цей підхід тренує великі мовні моделі для більш ефективного виконання відкритих інструкцій користувача. Однак сучасні дослідження все частіше зосереджуються на підвищенні можливостей великих мовних моделей з допомогою багатомодальної інформації.

Зосередившись на цьому ж, у цій статті ми будемо говорити про SALMONN або Speech Audio Language Music Open Neural Network, сучасну відкриту мовну музику нейронну мережу, створену шляхом інтеграції мовних та аудіоенкодерів з попередньо натренованою текстовою великою мовною моделлю у єдину аудіо-текстову багатомодальну модель. Модель SALMONN дозволяє великим мовним моделям розуміти та обробляти загальні аудіовхідні напряму, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань, які використовуються під час навчання, включаючи аудіоінформаційне питання-відповідь, мовне визнання та переклад, верифікацію мовця, розпізнавання емоцій, аудіо- та музичні підписи та багато іншого. Ми будемо детальніше вивчати rámework SALMONN, його роботу, архітектуру та результати у широкому спектрі завдань NLP. Тому почнімо.

SALMONN: Введення у великі мовні моделі з однією аудіо-текстовою багатомодальністю

SALMONN означає Speech Audio Language Music Open Neural Network, і це рамwerk великої мовної моделі з однією аудіо-текстовою багатомодальністю, здатної сприймати та розуміти три основні типи аудіо- чи звукових сигналів, включаючи мову, аудіоподії та музику. Модель SALMONN дозволяє великим мовним моделям розуміти та обробляти загальні аудіовхідні напряму, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань.

Для підвищення продуктивності як у мовних, так і в немовних аудіозадачах рамwerk SALMONN використовує подвійну структуру кодування, що складається з аудіоенкодера BEATs та мовного кодера з моделі Whisper. Крім того, рамwerk SALMONN використовує вікно-рівневий Q-Former або запит-Трансформер як модуль з’єднання для ефективної конвертації вивідної послідовності змінної довжини кодера у посилені аудіотокени змінної кількості, і в кінцевому підсумку досягнення високої часової роздільності для аудіо-текстового вирівнювання. Підхід LoRA або Low Rank Adaptation використовується як міжмодальний адаптер до рамwerku Vicuna для вирівнювання його вивідного простору з його посиленого входового простору у спробі подальшого підвищення його продуктивності. У рамwerku SALMONN здатність виконувати міжмодальні завдання, яких не було під час тренування, втрачена під час тренування інструкцій як міжмодальні емерджентні можливості, що є основною причиною, чому рамwerk SALMONN реалізує додатковий кількаетапний етап активації для відновлення загальних емерджентних можливостей рамwerku LLM.

Крім того, рамwerk використовує широкий спектр аудіоподій, музичних бенчмарків та мовних бенчмарків для оцінки його когнітивних слухових можливостей, і розділяє бенчмарки на три рівні. На першому рівні бенчмарку рамwerk тренує вісім завдань у навчанні інструкцій, включаючи переклад, аудіокапціонування та мовне визнання. Інші два рівні бенчмарку складаються з незатренованих завдань, а другий рівень бенчмарку складається з п’яти мовних завдань NLP, таких як заповнення слота та переклад на незатреновані мови, що залежать від високоякісних багатомовних вирівнювань між текстом та мовними токенами. Завдання третього рівня бенчмарку намагаються зрозуміти мовну та немовну аудіоінформацію для мовно-аудіо ко-розвитку та аудіо-орієнтованого оповідання.

Підсумувавши, рамwerk SALMONN є

Першою багатомодальною великою мовною моделлю, здатною розуміти та сприймати загальні аудіовхідні, включаючи аудіоподії, мову та музику, до максимальної межі своїх можливостей.
Спробою проаналізувати міжмодальні емерджентні можливості шляхом реалізації фактору масштабування LoRA та використання додаткового бюджетного етапу активації під час тренування для активації міжмодальних емерджентних можливостей рамwerku.

SALMONN: Архітектура та методологія

У цьому розділі ми розглянемо архітектуру, метод тренування та експериментальну установку для рамwerku SALMONN.

Архітектура моделі

У центрі своєї архітектури рамwerk SALMONN синхронізує та поєднує вивідні дані від двох аудіоенкодерів, після чого рамwerk реалізує Q-Former на рівні кадру як модуль з’єднання. Вивідна послідовність, згенерована Q-Former, поєднується з текстовими інструкціями та подається як вхід для підходу адаптації LoRA для генерації необхідної відповіді.

Аудіоенкодери

Рамwerk SALMONN використовує два аудіоенкодери: немовний аудіоенкодер BEATs та мовний кодер з моделі Whisper. Аудіоенкодер BEATs тренується за допомогою самонавчального ітеративного підходу для витягування немовних високорівневих аудіосемантик, тоді як мовний кодер тренується на великому обсязі слабко наглядуємої інформації для завдань мовного визнання та перекладу, з вивідними особливостями кодера, придатними для включення фонового шуму та мовної інформації. Модель спочатку токеніzuє вхідний аудіо, а потім маскує та передбачає його під час тренування. Вивідні аудіоособливості цих двох кодерів доповнюють одна одну та придатні для мовної та немовної інформації.

Вікно-рівневий Q-Former

Реалізація структури Q-Former є загальним підходом, використовуваним у рамwerках LLM для конвертації вивідної послідовності зображення у текстові токени, і деякі модифікації потрібні при роботі з аудіотокенами змінної довжини. Конкретно, рамwerk розглядає вивід кодера вхідного зображення як послідовність вивідного кодера, а Q-Former розгортає фіксовану кількість тренованих запитів для перетворення послідовності вивідного кодера у текстові токени за допомогою стекових блоків Q-Former. Стековий блок Q-Former нагадує декодерний блок Трансформера з виключенням казуальних масок у самообслуговуючих шарах та використанням фіксованої кількості тренованих статичних запитів у початкових блоках.

LoRA та LLM

Рамwerk SALMONN також розгортає велику мовну модель Vicuna, яка є рамwerком LLaMA, дофільтрованим для більш точного виконання інструкцій. Підхід LoRA є загальним методом для параметро-ефектного дофільтрування, і його включення у рамwerk SALMONN для оцінки вагових матриць та адаптації запиту у самообслуговуючих шарах.

Метод тренування

Рамwerk SALMONN використовує триетапний підхід тренування з багатомодальною взаємодією. Етап тренування складається з попереднього тренування та етапу налаштування інструкцій, які включаються у більшість візуальних рамwerків LLM, і додатковий етап активації реалізується для вирішення проблем надмірного підгонки під час завдань аудіокапціонування та мовного визнання.

Попередній етап тренування

Для обмеження розриву між попередньо натренованими параметрами, включаючи кодери та LLM, та випадково ініціалізованими параметрами, включаючи адаптер та модуль з’єднання, рамwerk SALMONN використовує великий обсяг даних аудіокапціонування та мовного визнання для попереднього тренування компонентів LoRA та Q-Former. Ці завдання містять важливу аудіоінформацію про ключовий вміст аудіоподій як мовних, так і немовних, і жодне з них не вимагає складного розуміння чи виводу для вивчення вирівнювання між текстовими та аудіоінформаційними даними.

Етап налаштування інструкцій

Етап налаштування інструкцій, реалізований у рамwerku SALMONN, нагадує той, який реалізований у рамwerках NLP та візуальних LLM, шляхом використання списку аудіоподій, музичних завдань та мовних подій для налаштування аудіотекстових інструкцій. Завдання пріоритезуються на основі їхньої важливості у різних тестах, включаючи визнання телефону, перекриття мовного визнання та музичні підписи. Крім того, текстова інформація, поєднана з аудіоданими, утворює основу для генерації інструкційних提示.

Завдання надмірної підгонки

Навіть при реалізації лише перших двох етапів тренування рамwerk SALMONN демонструє конкурентоспроможні результати на завданнях налаштування інструкцій, хоча продуктивність не на рівні під час виконання міжмодальних завдань, особливо на завданнях, які вимагають міжмодальної ко-розвитку. Конкретно, модель іноді порушує інструкційні промпти, що призводить до генерації неважливих чи неправильних відповідей, і це явище називається завданням надмірної підгонки у рамwerku SALMONN, і етап активації реалізується для вирішення цих проблем надмірної підгонки.

Етап активації

Ефективним підходом для вирішення проблем надмірної підгонки є регуляризація внутрішніх умовних мовних моделей за допомогою довших та більш різноманітних відповідей, таких як завдання оповідання або аудіоінформаційне питання-відповідь. Рамwerk тоді генерує пару тренувальних даних для таких завдань, використовуючи текст, поєднаний з аудіо- чи мовними підписами.

Завдання специфікації

Для оцінки міжмодальних емерджентних можливостей рамwerku SALMONN розробники включили 15 мовних, аудіо- та музичних завдань, розділених на три рівні.

Рівень 1

На першому рівні завдання використовуються для налаштування інструкцій, і тому вони є найлегшим набором завдань, які рамwerk SALMONN повинен виконувати.

Рівень 2

Другий рівень складається з незатренованих завдань, і рівень складності вищий порівняно з завданнями рівня 1. На рівні 2 завдання є завданням NLP, включаючи визнання мовних ключових слів, яке використовується для оцінки точності рамwerku при витягуванні певних ключових слів за допомогою мови. Інші завдання включають SQQA або питання-відповідь на основі мовних запитів, які оцінюють знання рамwerku, витягнуте з мовних запитів, завдання SF або мовного заповнення слота для оцінки точності значень слота, і, нарешті, два завдання AST для перекладу з англійської на німецьку та англійської на японську.

Рівень 3

Рівень складності завдань на рівні 3 є максимальним порівняно з іншими двома рівнями, і включає завдання SAC або мовно-аудіо ко-розвитку, і аудіо-орієнтованого оповідання. Завдання SAC вимагає від рамwerku SALMONN зрозуміти питання, включене в аудіокліп, поданий моделі, знайти підтримуючі докази, використовуючи аудіоподії чи музику на фоні, і, нарешті, згенерувати відповідну причину для відповіді на питання. Завдання аудіо-орієнтованого оповідання вимагають від моделі згенерувати значущу історію на основі аудіоінформації, витягнутої з загальних аудіовхідних.

Результати

Завдання рівня 1

Наступна таблиця демонструє результати на завданнях рівня 1, і, як можна бачити, рамwerk SALMONN повертає конкурентоспроможні результати на завданнях рівня 1 з або без активації.

Завдання рівня 2 та 3

Хоч рамwerk SALMONN повертає конкурентоспроможні результати на завданнях рівня 1 навіть без дофільтрування, те саме не можна сказати про завдання рівня 2 та 3, оскільки без активації рамwerk SALMONN сильно страждає від надмірної підгонки на завданнях. Продуктивність падає ще далі на завданнях SQQA, SAC та оповідання, з акцентом на багатомодальні взаємодії, і рамwerk SALMONN бореться з виконанням інструкцій без активації. Однак з активацією результати покращуються значно, і результати включені в наступному зображенні.

Дисконтування фактору масштабування LoRA

Дисконтування фактору масштабування LoRA оцінює вплив використання часу-тестового дисконтування фактору масштабування LoRA для мінімізації проблем надмірної підгонки на завданнях. Як можна бачити в наступному зображенні, зниження фактору масштабування LoRA до 2,0 підвищує міжмодальну здатність рамwerku SALMONN до виводу на завданнях ASR та PR, SQQA, оповідання та SAC відповідно.

Оцінка завдань надмірної підгонки

Для акценту на активації рамwerk SALMONN аналізує зміни в перплексії під час трьох етапів тренування, і, як можна бачити в наступному зображенні, зміни перплексії для завдань AAC та ASR мають малий остатній значення після першого етапу тренування, вказуючи на навчання моделі міжмодальних вирівнювань.

Крім того, перплексія завдання PR також знижується після налаштування інструкцій через свою залежність від компонента LoRA для вивчення вивідних токенів. Також спостерігається, що хоча налаштування інструкцій допомагає у зменшенні перплексії на завданнях оповідання та SAC, розрив все ще досить великий для успішного виконання завдань, якщо не додати додатковий етап активації або не видалити компонент LoRA.

Активація

Рамwerk SALMONN досліджує різні методи активації, включаючи тренування моделі на завданнях питання-відповідь з довгими відповідями, або використання аудіо-орієнтованих довгих написаних історій, тоді як використання довгих мовних транскрипцій для завдань ASR. Обидва компоненти Q-Former та LoRA дофільтровуються за допомогою цих трьох методів. Крім того, рамwerk ігнорує аудіо- та Q-Former-вхідні дані для дофільтрування компонентів LoRA та Vicuna як адаптивної текстової великої мовної моделі, і результати демонструються в наступному зображенні, і, як можна бачити, модель не може бути активована за допомогою ASR (тренування ASR з довгими мітками), ні за допомогою історії чи текстової активації за допомогою тренування компонента LoRA за допомогою текстових вхідних даних.

Фінальні думки

У цій статті ми говорили про SALMONN або Speech Audio Language Music Open Neural Network, рамwerk великої мовної моделі з однією аудіо-текстовою багатомодальністю, здатної сприймати та розуміти три основні типи аудіо- чи звукових сигналів, включаючи мову, аудіоподії та музику. Модель SALMONN дозволяє великим мовним моделям розуміти та обробляти загальні аудіовхідні напряму, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань.

Рамwerk SALMONN демонструє конкурентоспроможну продуктивність у широкому спектрі тренованих завдань, включаючи аудіокапціонування, мовне визнання та переклад, і узагальнює до великої кількості незатренованих завдань розуміння, включаючи переклад мови для витягування ключових слів та незатренованих мов. Завдяки своїм можливостям рамwerk SALMONN можна вважати наступним кроком до підвищення загальних слухових можливостей великих мовних моделей.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.