Umělá inteligence

Salmonn: Směrem k obecným sluchovým schopnostem pro velké jazykové modely

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Sluch, který zahrnuje vnímání a pochopení obecných zvukových informací, je zásadní pro agentů AI v reálném prostředí. Tyto zvukové informace zahrnují tři základní typy zvuku: hudbu, audio události a řeč. Nedávno prokázaly textové rámce velkých jazykových modelů (LLM) pozoruhodné schopnosti, dosahující lidské úrovně ve širokém spektru úkolů zpracování přirozeného jazyka (NLP). Kromě toho se instruction tuning, metoda školení pomocí párů referenčních odpovědí a uživatelských příkazů, stala populární. Tento přístup školení velkých jazykových modelů umožňuje lépe následovat otevřené uživatelské příkazy. Nicméně, současné výzkumy se stále více zaměřují na zlepšení velkých jazykových modelů o schopnost vnímat multimodální obsah.

Soustředíme se na totéž, v tomto článku budeme mluvit o SALMONN nebo Speech Audio Language Music Open Neural Network, state of the art otevřené speech audio language music neuronové síti postavené pomocí začlenění speech a audio encoderů s předškoleno textovým velkým jazykovým modelem do jediného audio-text multimodálního modelu. SALMONN model umožňuje velkým jazykovým modelům pochopit a zpracovat obecné audio vstupy přímo, a dodat konkurenceschopný výkon na širokém spektru audio & speech úkolů používaných ve školení, včetně zvukových informací-založených otázek a odpovědí, rozpoznání řeči a překladu, ověření mluvčího, rozpoznání emocí, audio & hudby popisu a mnohem více. Budeme se blíže zabývat rámcem SALMONN, a prozkoumáme jeho fungování, architekturu a výsledky napříč širokým spektrem NLP úkolů. Takže pojďme začít.

SALMONN : Úvod do jediného audio-text multimodálního velkého jazykového modelu

SALMONN znamená Speech Audio Language Music Open Neural Network, a je to jediný audio-text multimodální velký jazykový modelový rámec schopný vnímat a pochopit tři základní audio nebo zvukové typy včetně řeči, audio událostí a hudby. SALMONN model umožňuje velkým jazykovým modelům pochopit a zpracovat obecné audio vstupy přímo, a dodat konkurenceschopný výkon na širokém spektru audio & speech úkolů.

Pro zlepšení svého výkonu na obou speech a non-speech audio úkolech, SALMONN rámec používá dual encoder strukturu skládající se z BEATs audio encoderu a speech encoderu z Whisper speech modelu. Kromě toho SALMONN rámec také používá window-level Q-Former nebo query Transformer jako spojovací modul pro efektivní konverzi výstupní sekvence proměnné délky encoderu na augmentované audio tokeny proměnného počtu, a nakonec dosáhnout vysoké časové rozlišení pro audio-text sladění. LoRA nebo Low Rank Adaptation přístup je použit jako cross-modální adaptér pro Vicuna rámec pro sladění jeho výstupního prostoru s jeho augmentovaným vstupním prostorem v pokusu o další zlepšení jeho výkonu. V SALMONN rámci, schopnost provádět cross-modální úkoly neviditelné během školení fáze ztracené během školení instrukcí jako cross-modální emergentní schopnosti, což je primární důvod, proč SALMONN rámec implementuje další few-shot aktivaci fázi pro znovuzískání LLM rámce obecných emergentních schopností.

Dále, rámec využívá širokého spektra audio událostí, hudby benchmarků a speech benchmarků pro hodnocení jeho kognitivních sluchových schopností, a dělí benchmarky do tří úrovní. Na první úrovni benchmarku, rámec školení osm úkolů ve školení instrukcí, včetně překladu, audio popisu a rozpoznání řeči. Další dvě úrovně benchmarků jsou neškolené úkoly s druhou úrovní benchmarku skládající se z 5 speech-založených NLP úkolů, jako je slot filling a překlad do neškolených jazyků, spoléhající se na vysoké kvalitní multilingvální sladění mezi textovými a speech tokeny. Konečné úrovně benchmark úkolů se snaží pochopit speech a non-speech zvukové informace pro speech-audio ko-reasoning a audio-založené vyprávění.

Shrnutí, SALMONN rámec je

První multimodální velký jazykový model schopný pochopit a vnímat obecné audio vstupy, včetně audio událostí, řeči a hudby, na maximum své schopnosti.
Pokusu o analýzu cross-modálních emergentních schopností nabízených implementací LoRA škálovacího faktoru, a použití extra rozpočtově přívětivého aktivace fáze během školení pro aktivaci cross-modálních emergentních schopností rámce.

SALMONN : Architektura a Metodika

V této sekci, budeme se blíže zabývat architekturou, školicí metodou a experimentální nastavení pro SALMONN rámec.

Modelová Architektura

V jádru své architektury, SALMONN rámec synchronizuje a kombinuje výstupy ze dvou zvukových encoderů, následované implementací Q-Former na úrovni rámce jako spojovací modul. Výstupní sekvence generovaná Q-Former je sloučena s textovými instrukčními příkazy a je pak poskytnuta jako vstup pro LoRA adaptaci přístupu pro generování požadované odpovědi.

Zvukové Encodery

SALMONN rámec využívá dva zvukové encodery: non-speech BEATs audio encoder a speech encoder z OpenAI’s Whisper rámce. BEATs audio encoder je školen pro použití self-supervised iterativní školicí přístupu v pokusu o extrahovat non-speech vysoké úrovně audio sémantiky, zatímco speech encoder je školen na velkém množství slabě dohlížených dat pro rozpoznání řeči a překlad řeči úkoly s výstupními funkcemi encoderu vhodné pro zahrnutí pozadí hluku a řečové informace. Model nejprve tokenizuje vstupní audio, a následuje maskování a předpovídání ve školení. Výsledné zvukové funkce těchto dvou encoderů se doplňují, a jsou vhodné pro obě speech a non-speech informace.

Window Level Q-Former

Implementace Q-Former struktury je společný přístup používaný v LLM rámcích pro konverzi výstupu obrazového encoderu na textové vstupní tokeny, a einige modifikace jsou potřebné, když se jedná o audio tokeny proměnné délky. Konkrétněji, rámec považuje výstup encoderu vstupního obrazu jako spojovací výstupní sekvenci, a Q-Former nasazuje pevný počet školených dotazů pro transformaci výstupní sekvence encoderu na textové tokeny pomocí zásobníků Q-Former. Zásobník Q-Former připomíná Transformer dekodérový blok s výjimkami odstranění kauzálních masek ve self-attention vrstvách, a použití pevného počtu školených statických dotazů v počátečních blocích.

LoRA a LLM

SALMONN rámec také nasazuje Vicuna LLM, který je LLaMA velký jazykový modelový rámec fine-tuned pro následování instrukcí více přesně a efektivně. LoRA rámec je společný přístup používaný pro parametr-efektivní fine-tuning, a jeho zařazení do SALMONN rámce pro hodnotu hmotnostních matic a adaptaci dotazu ve self-attention vrstvách.

Školicí Metoda

SALMONN rámec využívá tří-etapového cross-modálního školicího přístupu. Školicí etapa zahrnuje pre-školicí etapu a instrukční fine-tuning etapu, které jsou zahrnuty v meisten vizuálních LLM rámcích, a další aktivace fine-tuning etapa je implementována pro řešení over-fitting problémů, se kterými se setkáváme během audio popisu a rozpoznání řeči úkolů.

Pre-Školicí Etapa

Pro omezení mezery pozorované mezi pre-školeno parametry, včetně encoderů a LLM, a náhodně inicializovanými parametry, včetně adaptéru a spojovacích modulů, SALMONN rámec využívá velké množství audio popisu a rozpoznání řeči dat pro pre-školení LoRA a Q-Former komponentů. Tyto úkoly obsahují vitální zvukové informace o klíčovém obsahu audio událostí, både speech a non-speech, a ani jeden z nich nevyžaduje komplexní pochopení nebo odůvodnění pro naučení se sladění mezi textovými a zvukovými informacemi.

Instruction Fine-Tuning Etapa

Instruction fine-tuning etapa implementovaná v SALMONN rámci připomíná tu, která je implementována v NLP a vizuálních LLM rámcích, pomocí seznamu audio událostí, hudby úkolů a speech událostí pro fine-tuning audio-text instrukcí. Úkoly jsou prioritizovány na základě jejich důležitosti napříč různými testy, včetně telefonního rozpoznání, překrývající se řeči rozpoznání a hudby popisu. Kromě toho, textová informace spárovaná s audio daty tvoří základ pro generování instrukčních příkazů.

Úkol Over-Fitting

I když je implementována pouze první dvě školicí etapy, SALMONN rámec dodává konkurenceschopný výkon na instrukční fine-tuning úkolech, nicméně výkon není na úrovni, když se jedná o cross-modální úkoly, zejména na úkolech, které vyžadují cross-modální ko-reasoning schopnosti. Konkrétněji, model občas porušuje instrukční příkazy, což vede k generování irelevantních nebo nesprávných odpovědí, a toto jevu je nazýváno úkol over-fitting v SALMONN rámci, a aktivace fine-tuning etapa je implementována pro řešení těchto over-fitting problémů.

Aktivace Fine-Tuning Etapa

Efektivní přístup pro řešení over-fitting problémů je regularizace intrinsic podmíněných jazykových modelů pomocí delších a rozmanitějších odpovědí, jako je vyprávění nebo zvukových informací-založených otázek a odpovědí. Rámec poté generuje pár školicích dat pro takové úkoly pomocí textu spárovaného s audio nebo řeči nebo hudby popisu.

Úkol Specifikace

Pro hodnocení SALMONN’s zero-shot cross-modálních emergentních schopností, vývojáři zahrnuli 15 speech, audio a hudby úkolů rozdělených napříč třemi úrovněmi.

Úroveň 1

Na první úrovni, úkoly jsou použity pro instrukční fine-tuning, a proto jsou to nejjednodušší sada úkolů, které SALMONN rámec musí provést.

Úroveň 2

Druhá úroveň se skládá z neškolených úkolů, a úroveň složitosti je vyšší ve srovnání s úrovní 1 úkoly. Na úrovni 2, úkoly jsou NLP-založené úkoly, včetně speech klíčového slova extrakce, který je použit pro hodnocení rámce přesnosti, když se jedná o extrahování určitých klíčových slov pomocí řeči. Další úkoly zahrnují SQQA nebo Spoken Query-based Otázka a odpověď, který hodnotí rámec společný smysl extrahovaný pomocí speech otázek, SF nebo Speech-založené Slot Filling úkol pro hodnocení rámce přesnosti, když se jedná o slot hodnoty, a konečně, jsou zde dva AST úkoly pro anglicko-německé a anglicko-japonské konverze.

Úroveň 3

Složitost úkolů na úrovni 3 je maximální ve srovnání s prvními dvěma úrovněmi, a zahrnuje SAC nebo Speech Audio Co-Reasoning, a Audio-založené vyprávění úkoly. SAC úkol vyžaduje SALMONN rámec pochopit otázku zahrnutou v audio klipu, najít podpůrné důkazy pomocí audio událostí nebo hudby na pozadí, a nakonec generovat vhodnou odpověď na otázku. Audio-založené vyprávění úkoly vyžadují model generovat smysluplný příběh na základě zvukových informací z obecných audio vstupů.

Výsledky

Úroveň 1 Úkoly

Následující tabulka demonstruje výsledky na úrovni 1 úkolech, a jak je vidět, SALMONN rámec dodává konkurenceschopný výkon na úrovni 1 úkolech s nebo bez aktivace-tuning.

Úroveň 2 a 3 Úkoly

Ačkoli SALMONN rámec dodává konkurenceschopný výkon na úrovni 1 úkolech, dokonce i bez fine-tuning, totéž nelze říci o úrovni 2 a 3 úkolech, protože bez aktivace, SALMONN rámec trpí silně over-fitting na úkolech. Výkon klesá ještě více na SQQA, SAC a vyprávění úkolech s důrazem na multimodální interakce, a SALMONN rámec se potýká s následováním instrukcí bez aktivace tuning. Nicméně, s aktivace tuning, výsledky se zlepšují podstatně, a výsledky jsou zahrnuty v následující obraz.

Sleva LoRA Škálovacího Faktoru

Sleva LoRA Škálovacího Faktoru hodnotí vliv použití časově-testované slevy LoRA škálovacího faktoru pro minimalizaci over-fitting problémů na úkolech. Jak je vidět v následující obraz, pokles LoRA škálovacího faktoru na 2,0 zvyšuje cross-modální odůvodnění schopnosti SALMONN rámce na ASR & PR úkolech, SQQA úkolech, vyprávění úkolech a SAC úkolech.

Hodnocení Úkol-Over-Fitting

Pro zdůraznění aktivace tuning, SALMONN rámec analyzuje změny v perplexitě během tří školicích etap, a jak je vidět v následující obraz, změny perplexity pro AAC a ASR úkoly mají malé konečné hodnoty po první školicí etapě, indikující modelovo učení cross-modálních sladění.

Kromě toho, perplexita PR úkolu také klesá po instrukční fine-tuning etapě, díky své závislosti na LoRA komponentě pro naučení výstupních tokenů. Je také pozorováno, že i když instrukční fine-tuning pomáhá snižovat perplexitu na vyprávění a SAC úkolech, mezera je stále dostatečně velká, aby úkoly provedly úspěšně, pokud není přidána další aktivace etapa nebo LoRA komponenta odstraněna.

Aktivace Tuning

SALMONN rámec se zabývá různými aktivacemi metodami, včetně školení modelu na textovém QA úkolovém páru s dlouhými odpověďmi, nebo použití audio-založených dlouhých psaných příběhů, zatímco použití dlouhých speech transkriptů pro ASR úkoly. Obě Q-Former a LoRA komponenty jsou fine-tuned pomocí těchto tří metod. Kromě toho, rámec ignoruje audio a Q-Former vstupy v pokusu o fine-tuning LoRA a Vicuna komponenty jako adaptivní textový velký jazykový model, a výsledky jsou zobrazeny v následující obraz, a jak je vidět, model nemůže být aktivován ASR (školení ASR s dlouhými popisy), ani Story nebo Text-založené vyprávěním LoRA komponenty pomocí textových příkazů.

Konečné Myšlenky

V tomto článku, jsme mluvili o SALMONN nebo Speech Audio Language Music Open Neural Network, jediný audio-text multimodální velký jazykový modelový rámec schopný vnímat a pochopit tři základní audio nebo zvukové typy, včetně řeči, audio událostí a hudby. SALMONN model umožňuje velkým jazykovým modelům pochopit a zpracovat obecné audio vstupy přímo, a dodat konkurenceschopný výkon na širokém spektru audio & speech úkolů.

SALMONN rámec dodává konkurenceschopný výkon na širokém spektru školených úkolů, včetně audio popisu, speech překladu a rozpoznání, a více, zatímco generalizuje na host untrained understanding úkolů, včetně speech překladu pro klíčové slovo extrakci a untrained jazyky. Díky svým schopnostem, SALMONN rámec může být považován za další krok směrem k zlepšení obecných sluchových schopností velkých jazykových modelů.