Connect with us

Salmonn: Досягнення загальних слухових можливостей для великих мовних моделей

Штучний інтелект

Salmonn: Досягнення загальних слухових можливостей для великих мовних моделей

mm

Слух, який включає сприйняття та розуміння загальної аудіоінформації, є важливим для агентів штучного інтелекту в реальних середовищах. Ця аудіоінформація охоплює три основні типи звуків: музику, аудіоподії та мову. Недавно текстові великомасштабні мовні моделі (LLM) продемонстрували видатні можливості, досягнувши рівня людини у широкому спектрі завдань обробки природної мови (NLP). Крім того, настройка інструкцій, метод навчання за допомогою пар посилання та користувацьких запитів, стала популярною. Цей підхід тренує великі мовні моделі для більш ефективного виконання відкритих користувацьких інструкцій. Однак поточні дослідження все частіше зосереджуються на розширенні великих мовних моделей можливістю сприймати мультимодальну інформацію.

Зосереджуючись на тому ж, у цій статті ми будемо говорити про SALMONN або Speech Audio Language Music Open Neural Network, передову відкриту мовну мережу, що поєднує мову та аудіо, створену шляхом інтеграції мовних та аудіо-кодувальників з попередньо натренованою текстовою великомасштабною мовною моделлю в єдину аудіо-текстову мультимодальну модель. Модель SALMONN дозволяє великим мовним моделям зрозуміти та обробити загальні аудіовхідні безпосередньо, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань, використаних під час навчання, включаючи завдання з аудіоінформацією, питання-відповідь, визнання мовлення та переклад, верифікацію мовця, розпізнавання емоцій, аудіо- та музичні підписи та багато іншого. Ми будемо глибше вивчати рамки SALMONN, і досліджувати її роботу, архітектуру та результати у широкому спектрі завдань NLP. Тому почнімо.

SALMONN : Введення в одиницю аудіо-текстових мультимодальних великомасштабних мовних моделей

SALMONN означає Speech Audio Language Music Open Neural Network, і це одиниця аудіо-текстової мультимодальної великомасштабної мовної моделі, здатна сприймати та розуміти три основні типи звуків або аудіо, включаючи мову, аудіоподії та музику. Модель SALMONN дозволяє великим мовним моделям зрозуміти та обробити загальні аудіовхідні безпосередньо, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань.

Для підвищення продуктивності як у мовних, так і в немовних аудіозавдань рамки SALMONN використовують подвійну структуру кодувальників, що складається з аудіо-кодувальника BEATs та мовного кодувальника, отриманого з моделі Whisper. Крім того, рамки SALMONN також використовують вікно-рівневий Q-Former або запит-Трансформер як модуль з’єднання для ефективної конвертації вихідної послідовності змінної довжини кодувальника в аудіо-жетони змінної кількості, і в кінцевому підсумку досягти високої часовою роздільності для аудіо-текстового вирівнювання. Підхід LoRA або низькорангової адаптації використовується як міжмодальний адаптер до рамок Vicuna для вирівнювання його простору виходу з його розширеним простором входу в спробі далі підвищити його продуктивність. У рамках SALMONN здатність виконувати міжмодальні завдання, не бачені під час фази навчання, втрачені під час навчання інструкцій як міжмодальні емерджентні можливості, що є основною причиною, чому рамки SALMONN реалізують додатковий етап активації для відновлення загальних емерджентних можливостей рамок LLM.

Крім того, рамки використовують широкий спектр аудіоподій, музичних бенчмарків та мовних бенчмарків для оцінки її когнітивних слухових можливостей, і ділять бенчмарки на три рівні. На першому рівні бенчмарку рамки тренують вісім завдань у фазі інструкційного навчання, включаючи переклад, аудіо-підписи та визнання мовлення. Інші два рівні бенчмарків складаються з незнаваних завдань, а другий рівень бенчмарку складається з 5 мовних завдань обробки природної мови, таких як витягування слітів та переклад на незнайомі мови, що покладаються на високоякісні багатомовні вирівнювання між текстовими та мовними жетонами. Завдання останнього рівня бенчмарку намагаються зрозуміти мовну та немовну аудіоінформацію для мовно-аудіо-ко-розуміння та аудіо-оповідання.

Підсумувавши, рамки SALMONN являють собою

  1. Першу мультимодальну великомасштабну мовну модель, здатну зрозуміти та сприйняти загальні аудіовхідні, включаючи аудіоподії, мову та музику, до максимальної своєї здатності.
  2. Спробу проаналізувати міжмодальні емерджентні можливості, реалізовані шляхом реалізації фактору масштабування LoRA, і використання додаткового бюджетного етапу активації під час навчання для активації міжмодальних емерджентних можливостей рамок.

SALMONN : Архітектура та методологія

У цьому розділі ми будемо xem虑вати архітектуру, метод навчання та експериментальну установку для рамок SALMONN.

Модель архітектури

У центрі своєї архітектури рамки SALMONN синхронізують та поєднують виходи від двох аудіо-кодувальників, після чого рамки реалізують Q-Former на рівні кадру як модуль з’єднання. Вихідна послідовність, згенерована Q-Former, поєднується з текстовими інструкціями та подається як вхід до підходу адаптації LoRA для генерації необхідної відповіді.

Аудіо-кодувальники

Рамки SALMONN використовують два аудіо-кодувальники: немовний аудіо-кодувальник BEATs та мовний кодувальник, отриманий з моделі Whisper. Аудіо-кодувальник BEATs тренується для використання самонавчального ітеративного підходу для витягування немовних високорівневих аудіосемантик, тоді як мовний кодувальник тренується на великому обсязі слабко наглядалих даних для завдань визнання мовлення та перекладу мовлення з виходом кодувальника, придатним для включення фонового шуму та інформації мовлення. Модель спочатку токенізає вхідний аудіо, а потім маскує та передбачає його під час навчання. Результатні аудіо-особливості цих двох кодувальників доповнюють одна одну та придатні для мовних та немовних завдань.

Q-Former рівня вікна

Реалізація структури Q-Former є загальним підходом, використовуваним у рамках LLM для конвертації виходу кодувальника зображення в текстові жетони, і деякі модифікації необхідні при роботі з аудіо-жетонами змінної довжини. Конкретно, рамки розглядають вихід кодувальника вхідного зображення як послідовність кодувальників, а Q-Former розгортає фіксовану кількість тренованих запитів для перетворення послідовності кодувальників у текстові жетони за допомогою стекових блоків Q-Former. Блок Q-Former нагадує блок декодера Трансформера з винятками, що включають видалення каскадних масок у самоїх увагах, і використання фіксованої кількості тренованих статичних запитів у початкових блоках.

LoRA та LLM

Рамки SALMONN також розгортають модель LLM Vicuna, яка є великомасштабною мовною моделлю LLaMA, дофінована для більш точного виконання інструкцій. Підхід LoRA є загальним методом, використовуваним для параметро-ефективної дофіни, і його включення у рамки SALMONN для оцінки матриць ваг та адаптації запиту у самоїх увагах.

Метод навчання

Рамки SALMONN використовують триетапний підхід навчання з міжмодальною взаємодією. Фаза навчання складається з попередньої фази навчання та фази налаштування інструкцій, які включаються у більшості візуальних рамок LLM, і додатковий етап активації реалізується для вирішення проблем надмірної підгонки під час завдань аудіо-підписів та визнання мовлення.

Попередня фаза навчання

Для обмеження розриву між попередньо натренованими параметрами, включаючи кодувальники та LLM, і випадково ініціалізованими параметрами, включаючи адаптер та модулі з’єднання, рамки SALMONN використовують великий обсяг даних аудіо-підписів та визнання мовлення для попереднього навчання компонентів LoRA та Q-Former. Ці завдання містять важливу аудіоінформацію про ключовий зміст аудіоподій, як мовних, так і немовних, і жодне з них не вимагає складного розуміння чи розуміння для вивчення вирівнювання між текстовими та аудіоінформаціями.

Фаза налаштування інструкцій

Фаза налаштування інструкцій, реалізована у рамках SALMONN, нагадує ту, що реалізована у рамках NLP та візуальних LLM, шляхом використання списку аудіоподій, музичних завдань та мовних подій для налаштування аудіо-текстових інструкцій. Завдання пріоритезуються на основі їхньої важливості у різних тестах, включаючи визнання телефонів, перекриття мовлення та музичні підписи. Крім того, текстова інформація, поєднана з аудіоданими, утворює основу для генерації інструкційних запитів.

Перефільтрація завдань

Навіть при реалізації лише перших двох фаз навчання рамки SALMONN демонструють конкурентоспроможні результати на завданнях налаштування інструкцій, хоча продуктивність не є на рівні виконання міжмодальних завдань, особливо на завданнях, які вимагають міжмодальних ко-розумінь можливостей. Конкретно, модель іноді порушує інструкційні запити, що призводить до генерації нерелевантних чи неправильних відповідей, і це явище називається перефільтрацією завдань у рамках SALMONN, і етап активації реалізується для вирішення цих проблем надмірної підгонки.

Етап активації

Ефективним підходом для вирішення проблем надмірної підгонки є регуляризація внутрішніх умовних мовних моделей за допомогою довших та більш різноманітних відповідей, таких як оповідання чи аудіоінформаційні питання-відповіді. Рамки тоді генерують пару тренувальних даних для таких завдань, використовуючи текст, поєднаний з аудіо- чи мовними підписами.

Специфікація завдань

Для оцінки міжмодальних емерджентних можливостей SALMONN розробники включили 15 мовних, аудіо- та музичних завдань, розділених на три рівні.

Рівень 1

На першому рівні завдання використовуються для налаштування інструкцій, і тому вони є найлегшими завданнями, які рамки SALMONN повинні виконувати.

Рівень 2

Другий рівень складається з незнаваних завдань, і рівень складності вищий порівняно з завданнями рівня 1. На рівні 2 завдання є мовними завданнями обробки природної мови, включаючи витягування слітів з мовлення, яке використовується для оцінки точності рамок при витягуванні певних слітів за допомогою мовлення. Інші завдання включають SQQA або запит-відповідь на основі мовних запитів, які оцінюють загальний смисл рамок, витягнутий за допомогою мовних запитів, завдання SF або мовного заповнення слітів для оцінки точності значень слітів, і, нарешті, є два завдання AST для перекладу англійською на німецьку та англійською на японську мови.

Рівень 3

Складність завдань на рівні 3 є максимальною порівняно з іншими двома рівнями, і вона включає завдання SAC або мовно-аудіо-ко-розуміння, і аудіо-оповідання. Завдання SAC вимагає від рамок SALMONN зрозуміти питання, включене в аудіокліп, поданий моделі, знайти підтримуючі докази за допомогою аудіоподій або музики на фоні, і, нарешті, згенерувати відповідну причину для відповіді на питання. Завдання аудіо-оповідання вимагають від моделі згенерувати значущу історію на основі аудіоінформації, отриманої з загальних аудіовхідних.

Результати

Завдання рівня 1

Наступна таблиця демонструє результати на завданнях рівня 1, і, як можна побачити, рамки SALMONN повертають конкурентоспроможні результати на завданнях рівня 1 з або без активації.

Завдання рівня 2 та 3

Хоча рамки SALMONN повертають конкурентоспроможні результати на завданнях рівня 1 навіть без дофіни, те ж саме не можна сказати про завдання рівня 2 та 3, оскільки без активації рамки SALMONN сильно страждають від надмірної підгонки на завданнях, особливо на завданнях, які вимагають міжмодального ко-розуміння, таких як SQQA, SAC та оповідання. Продуктивність падає ще далі на завданнях SQQA, SAC та оповідання, з акцентом на мультимодальних взаємодіях, і рамки SALMONN борються з виконанням інструкцій без активації. Однак з активацією результати покращуються суттєво, і результати включені в наступному зображенні.

Дисконтування фактору масштабування LoRA

Дисконтування фактору масштабування LoRA оцінює вплив використання часу-дисконтованого фактору масштабування LoRA для мінімізації проблем надмірної підгонки на завданнях. Як можна побачити на наступному зображенні, зниження фактору масштабування LoRA до 2,0 підвищує міжмодальну здатність розуміння рамок SALMONN на завданнях ASR та PR, SQQA, оповідання та SAC відповідно.

Оцінка перефільтрації завдань

Для акцентування на активації рамки SALMONN аналізують зміни в складності під час трьох фаз навчання, і, як можна побачити на наступному зображенні, зміни складності для завдань AAC та ASR мають малий кінцевий значення після першої фази навчання, вказуючи на навчання моделі міжмодального вирівнювання.

Крім того, складність завдання PR також падає після налаштування інструкцій через свою залежність від компоненту LoRA для навчання виходових жетонів. Також спостерігається, що хоча налаштування інструкцій допомагає зменшити складність на завданнях оповідання та SAC, розрив все ще досить великий для успішного виконання завдань, якщо не додати додатковий етап активації або не видалити компонент LoRA.

Активація

Рамки SALMONN глибоко вивчають різні методи активації, включаючи навчання моделі на текстових завданнях питань-відповідей з довгими відповідями, або використання аудіо-оповідань з довгими написаними історіями, тоді як використання довгих мовних транскрипцій для завдань визнання мовлення. Обидва компоненти Q-Former та LoRA дофінуються за допомогою цих трьох методів. Крім того, рамки ігнорують аудіо- та Q-Former-вхідні дані в спробі дофінувати компоненти LoRA та Vicuna як адаптивну текстову великомасштабну мовну модель, і результати демонструються на наступному зображенні, і, як можна побачити, модель не може бути активована за допомогою ASR (навчання ASR з довгими мітками), ні оповіданням, ні текстовим шляхом навчання компоненту LoRA за допомогою текстових запитів.

Остатні думки

У цій статті ми говорили про SALMONN або Speech Audio Language Music Open Neural Network, одиницю аудіо-текстової мультимодальної великомасштабної мовної моделі, здатну сприймати та розуміти три основні типи звуків або аудіо, включаючи мову, аудіоподії та музику. Модель SALMONN дозволяє великим мовним моделям зрозуміти та обробити загальні аудіовхідні безпосередньо, і демонструє конкурентоспроможну продуктивність у широкому спектрі аудіо- та мовних завдань.

Рамки SALMONN демонструють конкурентоспроможну продуктивність у широкому спектрі тренувальних завдань, включаючи аудіо-підписи, переклад мовлення та визнання, і узагальнюються до великого спектру незнаваних завдань розуміння, включаючи переклад мовлення для витягування слітів та незнайомих мов. Оwing до своїх можливостей, рамки SALMONN можна вважати наступним кроком до підвищення загальних слухових можливостей великомасштабних мовних моделей.

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.