Inteligență artificială

Salmonn: Către Abilități Generice De Auz pentru Modelele Limbajului Mare

Publicat 28 noiembrie 2023

Actualizat 22 mai 2026

Kunal Kejriwal

Auzul, care implică percepția și înțelegerea informațiilor auditive generice, este esențial pentru agenții inteligenți artificiali în medii reale. Aceste informații auditive cuprind trei tipuri principale de sunete: muzică, evenimente audio și vorbire. Recent, cadrele de lucru bazate pe text ale Modelelor Limbajului Mare (LLM) au demonstrat abilități remarcabile, atingând performanțe la nivel uman într-o gamă largă de sarcini de Procesare a Limbajului Natural (NLP). De asemenea, ajustarea instrucțiunilor, o metodă de antrenare utilizând perechi de răspunsuri de referință și promturi de utilizator, a devenit populară. Această abordare antrenează modelele de limbaj mare pentru a urma mai eficient instrucțiunile deschise ale utilizatorului. Cu toate acestea, cercetarea actuală se axează din ce în ce mai mult pe îmbunătățirea modelelor de limbaj mare cu capacitatea de a percepe conținut multimodal.

Focalizându-ne pe același lucru, în acest articol, vom discuta despre SALMONN sau Rețeaua Neurală Deschisă de Limbaj Audio Muzică și Vorbire, un cadru de ultimă generație de rețea neurală deschisă de limbaj audio și muzică, construit prin încorporarea codatorilor de vorbire și audio cu un model de limbaj mare preantrenat pe text într-un singur model audio-text multimodal. Modelul SALMONN permite Modelelor Limbajului Mare să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și de vorbire utilizate în antrenare, incluzând răspunsuri la întrebări bazate pe informații auditive, recunoaștere a vorbirii și traducere, verificare a vorbitorului, recunoaștere a emoțiilor, capturarea audio și a muzicii, și multe altele. Vom face o analiză mai profundă a cadruului SALMONN și vom explora funcționarea, arhitectura și rezultatele sale într-o gamă largă de sarcini NLP. Așa că să începem.

SALMONN: O Introducere în Modelele Limbajului Mare Multimodale Audio-Text

SALMONN înseamnă Rețeaua Neurală Deschisă de Limbaj Audio Muzică și Vorbire, și este un cadru de model de limbaj mare multimodal audio-text capabil să perceapă și să înțeleagă trei tipuri de bază de sunete sau audio, incluzând vorbirea, evenimentele audio și muzica. Modelul SALMONN permite Modelelor Limbajului Mare să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și de vorbire.

Pentru a-și îmbunătăți performanța atât pe sarcinile de vorbire, cât și pe cele de non-vorbire, cadru SALMONN utilizează o structură de codator dual, constând dintr-un codator audio BEATs și un codator de vorbire provenit de la modelul Whisper de vorbire. De asemenea, cadru SALMONN utilizează și un Q-Former la nivel de fereastră ca modul de conectare pentru a converti eficient o secvență de ieșire de lungime variabilă a codatorului în tokeni audio augmentați de număr variabil, și în final pentru a atinge o înaltă rezoluție temporală pentru alinierea audio-text. Abordarea LoRA sau Adaptare de Rang Scăzut este utilizată ca adaptor cross-modal pentru cadru Vicuna pentru a alinia spațiul său de ieșire cu spațiul său de intrare augmentat în încercarea de a-și îmbunătăți și mai mult performanța. În cadru SALMONN, capacitatea de a efectua sarcini cross-modale neobservate în timpul fazei de antrenare, pierdute în timpul antrenării instrucțiunilor ca abilități emergente cross-modale, este motivul principal pentru care cadru SALMONN implementează o etapă suplimentară de activare pentru a-și recâștiga abilitățile emergente generale ale cadru LLM.

Mai mult, cadru utilizează o gamă largă de evenimente audio, benchmark-uri de muzică și benchmark-uri de vorbire pentru a evalua abilitățile sale cognitive de auz, și împarte benchmark-urile în trei niveluri. La primul nivel de benchmark, cadru antrenează opt sarcini în antrenarea instrucțiunilor, incluzând traducere, capturarea audio și recunoașterea vorbirii. Celelalte două niveluri de benchmark sunt sarcini neantrenate, cu al doilea nivel de benchmark constând în cinci sarcini de Procesare a Limbajului Natural bazate pe vorbire, cum ar fi umplerea sloturilor și traducerea în limbi neantrenate, care se bazează pe alinieri multilingve de înaltă calitate între tokeni de text și de vorbire. Sarcinile de benchmark de nivel final încearcă să înțeleagă informații auditive și non-auditive pentru co-rezoningul vorbirii și al audio-ului și pentru povestirea bazată pe audio.

În rezumat, cadru SALMONN este

Primul model de limbaj mare multimodal capabil să înțeleagă și să perceapă intrări audio generice, incluzând evenimente audio, vorbire și muzică, la maximum din abilitățile sale.
O încercare de a analiza abilitățile emergente cross-modale oferite prin implementarea factorului de scară LoRA și utilizarea unei etape suplimentare de activare cu buget redus în timpul antrenării pentru a activa abilitățile emergente cross-modale ale cadru.

SALMONN: Arhitectură și Metodologie

În această secțiune, vom analiza arhitectura, metoda de antrenare și configurația experimentală pentru cadru SALMONN.

Arhitectură de Model

La baza arhitecturii sale, cadru SALMONN sincronizează și combină ieșirile de la doi codatori auditivi, după care implementează un Q-Former la nivel de fereastră ca modul de conectare. Secvența de ieșire generată de Q-Former este unită cu promturi de instrucțiune text și apoi este furnizată ca intrare pentru abordarea de adaptare LoRA pentru a genera răspunsul necesar.

Codatori Auditivi

Cadru SALMONN utilizează doi codatori auditivi: un codator audio BEATs non-vorbire și un codator de vorbire provenit de la cadru Whisper de la OpenAI. Codatorul audio BEATs este antrenat pentru a utiliza abordarea de învățare iterativă auto-supervizată pentru a extrage semantica audio de nivel înalt non-vorbire, în timp ce codatorul de vorbire este antrenat pe o cantitate mare de date slab supervizate pentru sarcinile de recunoaștere și traducere a vorbirii, cu caracteristicile de ieșire ale codatorului fiind potrivite pentru a include zgomot de fundal și informații de vorbire. Modelul tokenizează mai întâi intrarea audio și o urmează prin mascare și predicție în antrenare. Caracteristicile auditive rezultate ale acestor doi codatori se completează reciproc și sunt potrivite atât pentru informații de vorbire, cât și non-vorbire.

Q-Former la Nivel de Fereastră

Implementarea structurii Q-Former este o abordare comună utilizată în cadrele LLM pentru a converti ieșirea unui codator de imagine în tokeni de text, și necesită unele modificări atunci când se lucrează cu tokeni audio de lungimi variabile. Mai exact, cadru consideră ieșirea codatorului de imagine ca o secvență de ieșire a codatorului concatenat, și Q-Formerul utilizează un număr fix de interogări antrenabile pentru a transforma secvența de ieșire a codatorului în tokeni de text utilizând blocuri împănate de Q-Former. Un bloc Q-Former împănăt este asemănător cu un bloc decodator de Transformer, cu excepția eliminării măștilor de atenție cauzală în straturile de auto-atenție și utilizarea unui număr fix de interogări statice antrenabile în blocurile inițiale.

LoRA și LLM

Cadru SALMONN utilizează și un model de limbaj mare LLM Vicuna, care este un cadru LLaMA de model de limbaj mare finetunat pentru a urma instrucțiunile mai precis și mai eficient. Abordarea LoRA este o metodă comună utilizată pentru finetunarea parametrilor, și este inclusă în cadru SALMONN pentru a valoriza matricile de greutate și a adapta interogarea în straturile de auto-atenție.

Metodă de Antrenare

Cadru SALMONN utilizează o abordare de antrenare cross-modală în trei etape. Etapa de antrenare include o etapă de preantrenare și o etapă de ajustare a instrucțiunilor, care sunt incluse în majoritatea cadrelor LLM vizuale, și o etapă suplimentară de activare este implementată pentru a rezolva problemele de supra-ajustare întâlnite în timpul sarcinilor de capturare a audio și recunoaștere a vorbirii.

Etapa de Preantrenare

Pentru a limita decalajul observat între parametrii preantrenați, incluzând codatori și LLM, și parametrii inițializați aleator, incluzând adaptor și module de conectare, cadru SALMONN utilizează o cantitate mare de date de capturare a audio și recunoaștere a vorbirii pentru a preantrena componentele LoRA și Q-Former. Aceste sarcini conțin informații auditive vitale despre conținutul cheie al evenimentelor audio, atât de vorbire, cât și non-vorbire, și niciuna dintre ele nu necesită o înțelegere sau o raționament complex pentru a învăța alinierea dintre informații textuale și auditive.

Etapa de Ajustare a Instrucțiunilor

Etapa de ajustare a instrucțiunilor implementată în cadru SALMONN seamănă cu cea implementată în cadrele NLP și LLM vizuale, utilizând o listă de evenimente audio, sarcini de muzică și evenimente de vorbire pentru a ajusta instrucțiunile audio-text. Sarcinile sunt prioritizate pe baza importanței lor în diferite teste, incluzând recunoașterea telefonului, recunoașterea vorbirii suprapuse și capturarea muzicii. Mai mult, informațiile textuale asociate cu datele audio formează baza pentru generarea promptrilor de instrucțiune.

Supra-Ajustare a Sarcinilor

Chiar și atunci când se implementează doar primele două etape de antrenare, cadru SALMONN oferă rezultate competitive în sarcinile de ajustare a instrucțiunilor, deși performanța nu este la nivelul așteptat atunci când se efectuează sarcini cross-modale, în special în sarcini care necesită abilități de co-rezoning cross-modal. În mod specific, modelul încălcă adesea promptrile de instrucțiune, ceea ce duce la generarea de răspunsuri irelevante sau incorecte, și acest fenomen este numit supra-ajustare a sarcinilor în cadru SALMONN, și etapa de activare este implementată pentru a rezolva aceste probleme de supra-ajustare.

Etapa de Activare

O abordare eficientă pentru a rezolva problemele de supra-ajustare este de a regulariza modelele de limbaj condiționale intrinseci utilizând răspunsuri mai lungi și mai diverse, cum ar fi sarcinile de întrebări și răspunsuri bazate pe informații auditive sau sarcinile de povestire. Cadru generează apoi datele de antrenare pentru astfel de sarcini utilizând text asociat cu audio sau vorbire sau muzică.

Specificarea Sarcinilor

Pentru a evalua abilitățile emergente cross-modale ale lui SALMONN, dezvoltatorii au inclus 15 sarcini de vorbire, audio și muzică, împărțite în trei niveluri.

Nivelul 1

La primul nivel, sarcinile sunt utilizate pentru ajustarea instrucțiunilor și, prin urmare, sunt cele mai ușoare sarcini pe care cadru SALMONN trebuie să le efectueze.

Nivelul 2

Al doilea nivel constă în sarcini neantrenate, și nivelul de complexitate este mai ridicat în comparație cu sarcinile de nivel 1. La nivelul 2, sarcinile sunt sarcini de Procesare a Limbajului Natural, incluzând extragerea cheilor de vorbire, care este utilizată pentru a evalua acuratețea cadru în extragerea anumitor chei utilizând vorbirea. Alte sarcini includ SQQA sau Întrebări și Răspunsuri bazate pe Vorbire, care evaluează cunoștințele de bun simț pe care cadru le extrage utilizând întrebări de vorbire, o sarcină de umplere a sloturilor bazate pe Vorbire pentru a evalua acuratețea valorilor sloturilor, și în final, există două sarcini de traducere pentru conversii de la engleză la germană și de la engleză la japoneză.

Nivelul 3

Complexitatea sarcinilor de la nivelul 3 este maximă în comparație cu celelalte două niveluri și include sarcini de Co-Rezoning Audio-Vorbire și Povestire bazată pe Audio. Sarcina de Co-Rezoning Audio-Vorbire necesită ca cadru SALMONN să înțeleagă o întrebare inclusă în clipul audio furnizat modelului, să găsească dovezi susținătoare utilizând evenimente audio sau muzică în fundal și să genereze un motiv adecvat pentru a răspunde la întrebare. Sarcinile de Povestire bazată pe Audio necesită ca modelul să genereze o povestire semnificativă pe baza informațiilor auditive provenite din intrări audio generice.

Rezultate

Sarcinile de Nivel 1

Tabelul următor demonstrează rezultatele pe sarcinile de nivel 1, și cum se poate observa, cadru SALMONN oferă rezultate competitive pe sarcinile de nivel 1, cu sau fără activare.

Sarcinile de Nivel 2 și 3

Deși cadru SALMONN oferă rezultate competitive pe sarcinile de nivel 1, chiar și fără ajustare fină, același lucru nu se poate spune despre sarcinile de nivel 2 și 3, deoarece fără activare, cadru SALMONN suferă puternic de supra-ajustare pe sarcini, în special pe sarcini care pun accent pe interacțiuni multimodale, și cadru SALMONN se luptă să urmeze instrucțiunile fără activare. Cu toate acestea, cu activare, rezultatele se îmbunătățesc considerabil, și rezultatele sunt incluse în imaginea următoare.

Discountarea Factorului de Scară LoRA

Discountarea factorului de scară LoRA evaluează influența utilizării discountării în timp a factorului de scară LoRA pentru a minimiza problemele de supra-ajustare pe sarcini. Cum se poate observa în figura următoare, o scădere a factorului de scară LoRA la 2,0 ridică abilitatea de raționament cross-modal a cadru SALMONN pe sarcinile de recunoaștere a vorbirii și de procesare a limbajului.

Evaluarea Supra-Ajustării Sarcinilor

Pentru a sublinia importanța activării, cadru SALMONN analizează modificările perplexicității în timpul celor trei etape de antrenare, și cum se poate observa în imaginea următoare, modificările perplexicității pentru sarcinile de capturare a audio și recunoaștere a vorbirii au valori finale mici după prima etapă de antrenare, indicând învățarea alinierii cross-modale de către model.

Mai mult, perplexicitatea sarcinii de procesare a limbajului scade și după ajustarea instrucțiunilor, datorită dependenței sale de componenta LoRA pentru a învăța tokenii de ieșire. De asemenea, se observă că, deși ajustarea instrucțiunilor ajută la reducerea perplexicității pe sarcinile de povestire și co-rezoning, decalajul este încă suficient de mare pentru a efectua sarcinile cu succes, cu excepția cazului în care se adaugă o etapă suplimentară de activare sau se elimină componenta LoRA.

Activare

Cadru SALMONN explorează diferite metode de activare, incluzând antrenarea modelului pe sarcini de întrebări și răspunsuri textuale cu răspunsuri lungi, sau utilizarea poveștilor lungi audio pentru sarcinile de recunoaștere a vorbirii. Ambele componente Q-Former și LoRA sunt ajustate fin utilizând aceste trei metode. Mai mult, cadru ignoră intrările audio și Q-Former și ajustează fin componentele LoRA și Vicuna ca un model de limbaj mare adaptiv bazat pe text, și rezultatele sunt demonstrate în imaginea următoare.

Gânduri Finale

În acest articol, am discutat despre SALMONN sau Rețeaua Neurală Deschisă de Limbaj Audio Muzică și Vorbire, un cadru de model de limbaj mare multimodal audio-text capabil să perceapă și să înțeleagă trei tipuri de bază de sunete sau audio, incluzând vorbirea, evenimentele audio și muzica. Modelul SALMONN permite Modelelor Limbajului Mare să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și de vorbire.

Cadru SALMONN oferă performanțe competitive într-o gamă largă de sarcini antrenate, incluzând capturarea audio, traducerea și recunoașterea vorbirii, și se generalizează la o serie de sarcini de înțelegere neantrenate, incluzând traducerea vorbirii pentru extragerea cheilor și limbile neantrenate. Datorită abilităților sale, cadru SALMONN poate fi considerat ca următorul pas către îmbunătățirea abilităților generice de auz ale modelelor de limbaj mare.

Kunal Kejriwal

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.