Connect with us

Inteligență artificială

Salmonn: Înspre Abilități Generice De Auz Pentru Modelele Lingvistice Mari

mm

Auzul, care implică percepția și înțelegerea informațiilor auditive generice, este crucial pentru agenții inteligenți artificiali în medii reale. Aceste informații auditive cuprind trei tipuri principale de sunete: muzică, evenimente audio și vorbire. Recent, cadrele de modele lingvistice mari (LLM) bazate pe text au arătat abilități remarcabile, atingând performanțe la nivel uman într-o gamă largă de sarcini de procesare a limbajului natural (NLP). În plus, ajustarea instrucțiunilor, o metodă de antrenare utilizând perechi de răspunsuri de referință și prompturi de utilizator, a devenit populară. Acest abordaj antrenează modelele lingvistice mari pentru a urma mai eficient instrucțiunile deschise ale utilizatorului. Cu toate acestea, cercetarea actuală se concentrează din ce în ce mai mult pe îmbunătățirea modelelor lingvistice mari cu capacitatea de a percepe conținut multimodal.

Concentrându-ne pe același lucru, în acest articol, vom discuta despre SALMONN sau Rețeaua Neurală Deschisă De Vorbire Audio Limbă Muzică, o rețea neurală de ultimă generație, construită prin integrarea codificatorilor de vorbire și audio cu un model lingvistic mare preantrenat pe text într-un singur model multimodal audio-text. Modelul SALMONN permite Modelelor Lingvistice Mari să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și vorbire utilizate în antrenare, incluzând răspunsuri la întrebări bazate pe informații auditive, recunoaștere și traducere a vorbirii, verificare a vorbitorului, recunoaștere a emoțiilor, descrierea audio și muzicii și multe altele. Vom face o analiză mai profundă a cadrului SALMONN și vom explora funcționarea, arhitectura și rezultatele sale într-o gamă largă de sarcini NLP. Așadar, să începem.

SALMONN : O Introducere În Modelele Lingvistice Mari Multimodale Audio-Text

SALMONN înseamnă Rețeaua Neurală Deschisă De Vorbire Audio Limbă Muzică, și este un cadru de model lingvistic mare multimodal audio-text capabil să perceapă și să înțeleagă trei tipuri de bază de sunete sau audio, incluzând vorbirea, evenimentele audio și muzica. Modelul SALMONN permite Modelelor Lingvistice Mari să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și vorbire.

Pentru a-și îmbunătăți performanța atât pe sarcinile de vorbire, cât și pe cele de non-vorbire, cadrul SALMONN utilizează o structură de codificator dual, constând dintr-un codificator audio BEATs și un codificator de vorbire provenit de la modelul Whisper. În plus, cadrul SALMONN utilizează și un modul de conectare Q-Former la nivel de fereastră pentru a converti eficient o secvență de ieșire de lungime variabilă a codificatorului în tokeni audio augmentați de număr variabil, și în final pentru a atinge o înaltă rezoluție temporală pentru alinierea audio-text. Abordarea LoRA sau Adaptarea De Rang Scăzut este utilizată ca un adaptor cross-modal pentru cadrul Vicuna pentru a alinia spațiul său de ieșire cu spațiul său de intrare augmentat în încercarea de a-și îmbunătăți și mai mult performanța. În cadrul SALMONN, capacitatea de a efectua sarcini cross-modale nevizualizate în timpul fazei de antrenare, pierdute în timpul antrenării instructajelor ca abilități emergente cross-modale, este motivul principal pentru care cadrul SALMONN implementează o etapă suplimentară de activare pentru a-și recâștiga abilitățile emergente generale ale modelului.

Mai mult, cadrul utilizează o gamă largă de evenimente audio, benchmark-uri muzicale și benchmark-uri de vorbire pentru a evalua abilitățile sale cognitive de auz, și împarte benchmark-urile în trei niveluri. La primul nivel de benchmark, cadrul antrenează opt sarcini în antrenarea instructajelor, incluzând traducerea, descrierea audio și recunoașterea vorbirii. Celelalte două niveluri de benchmark sunt sarcini neantrenate, cu al doilea nivel de benchmark constând în cinci sarcini de procesare a limbajului natural bazate pe vorbire, cum ar fi extragerea cuvintelor cheie și traducerea în limbi neantrenate, care se bazează pe alinieri multilingve de înaltă calitate între tokeni de text și vorbire. Sarcinile finale de benchmark încearcă să înțeleagă informații auditive și non-auditive pentru raționamentul vorbirii-audio și pentru povestirea bazată pe audio.

Pentru a rezuma, cadrul SALMONN este

  1. Primul model lingvistic mare multimodal capabil să înțeleagă și să perceapă intrări audio generice, incluzând evenimente audio, vorbire și muzică, la maximum din capacitatea sa.
  2. O încercare de a analiza abilitățile emergente cross-modale oferite prin implementarea factorului de scară LoRA și utilizarea unei etape suplimentare de activare în timpul antrenării pentru a activa abilitățile emergente cross-modale ale cadrului.

SALMONN : Arhitectură și Metodologie

În această secțiune, vom analiza arhitectura, metoda de antrenare și configurația experimentală pentru cadrul SALMONN.

Arhitectură De Model

La baza arhitecturii sale, cadrul SALMONN sincronizează și combină ieșirile de la doi codificatori auditivi, urmată de implementarea unui Q-Former la nivel de fereastră ca modul de conectare. Secvența de ieșire generată de Q-Former este unită cu prompturi de instrucțiuni text și apoi este furnizată ca intrare pentru abordarea de adaptare LoRA pentru a genera răspunsul necesar.

Codificatori Auditivi

Cadrul SALMONN utilizează doi codificatori auditivi: un codificator audio BEATs non-vorbire și un codificator de vorbire provenit de la modelul Whisper al OpenAI. Codificatorul audio BEATs este antrenat pentru a utiliza abordarea de învățare iterativă auto-supervizată pentru a extrage semantica audio de nivel înalt non-vorbire, în timp ce codificatorul de vorbire este antrenat pe o cantitate mare de date slab supervizate pentru sarcinile de recunoaștere și traducere a vorbirii, cu caracteristicile de ieșire ale codificatorului adecvate pentru a include zgomot de fond și informații de vorbire. Modelul tokenizează mai întâi intrarea audio și o urmează prin mascare și predicție în antrenare. Caracteristicile auditive rezultate ale acestor doi codificatori se completează reciproc și sunt adecvate atât pentru vorbire, cât și pentru informații non-vorbire.

Q-Former La Nivel De Fereastră

Implementarea structurii Q-Former este o abordare comună utilizată în cadrul modelelor lingvistice mari pentru a converti ieșirea unui codificator de imagine în tokeni textuali, și necesită o anumită modificare atunci când se lucrează cu tokeni audio de lungimi variabile. Mai exact, cadrul consideră ieșirea codificatorului pentru intrarea imagine ca o secvență de ieșire a codificatorului concatenat, și Q-Formerul utilizează un număr fix de interogări antrenabile pentru a transforma secvența de ieșire a codificatorului în tokeni textuali utilizând blocuri împănate de Q-Former. Un bloc Q-Former împănăt este similar cu un bloc decodator al unui Transformer, cu excepția eliminării mascarilor cauzale în straturile de auto-atentie și utilizarea unui număr fix de interogări statice antrenabile în blocurile inițiale.

LoRA și LLM

Cadrul SALMONN utilizează și un model lingvistic mare Vicuna, care este un cadru de model lingvistic mare LLaMA ajustat pentru a urma instructajele mai precis și mai eficient. Abordarea LoRA este o metodă comună utilizată pentru ajustarea parametrilor eficient, și includerea sa în cadrul SALMONN pentru a valorifica matricile de greutate și a adapta interogarea în straturile de auto-atentie.

Metodă De Antrenare

Cadrul SALMONN utilizează o abordare de antrenare cross-modală în trei etape. Etapa de antrenare include o etapă de pre-antrenare și o etapă de ajustare a instructajelor, care sunt incluse în majoritatea cadrelor de modele lingvistice vizuale, și o etapă suplimentară de activare este implementată pentru a rezolva problemele de supra-ajustare întâlnite în sarcinile de descriere a audio și recunoaștere a vorbirii.

Etapa De Pre-Antrenare

Pentru a limita gap-ul observat între parametrii pre-antrenați, incluzând codificatori și LLM, și parametrii inițializați aleator, incluzând adaptorul și modulele de conectare, cadrul SALMONN utilizează o cantitate mare de date de descriere a audio și recunoaștere a vorbirii pentru a pre-antrena componentele LoRA și Q-Former. Aceste sarcini conțin informații auditive vitale despre conținutul cheie al evenimentelor audio, atât vorbire, cât și non-vorbire, și niciuna dintre ele nu necesită o înțelegere sau raționament complex pentru a învăța alinierea dintre informații textuale și auditive.

Etapa De Ajustare A Instructajelor

Etapa de ajustare a instructajelor implementată în cadrul SALMONN este similară cu cea implementată în cadrul modelelor lingvistice vizuale și NLP, utilizând o listă de evenimente audio, sarcini muzicale și evenimente de vorbire pentru a ajusta instructajele audio-text. Sarcinile sunt prioritizate pe baza importanței lor în diferite teste, incluzând recunoașterea telefonică, recunoașterea vorbirii suprapuse și descrierea muzicii. În plus, informațiile textuale asociate cu datele audio formează baza pentru generarea prompturilor de instructaj.

Supra-Ajustare A Sarcinii

Chiar și atunci când se implementează doar primele două etape de antrenare, cadrul SALMONN oferă rezultate competitive în sarcinile de ajustare a instructajelor, deși performanța nu este la nivelul așteptat atunci când se efectuează sarcini cross-modale, în special în sarcinile care necesită abilități de raționament cross-modal. În mod specific, modelul încălcă uneori prompturile de instructaj, ceea ce duce la generarea de răspunsuri irelevante sau incorecte, și acest fenomen este denumit supra-ajustare a sarcinii în cadrul SALMONN, și etapa de activare este implementată pentru a rezolva aceste probleme de supra-ajustare.

Etapa De Activare

O abordare eficientă pentru a rezolva problemele de supra-ajustare este de a regulariza modelele lingvistice condiționale intrinseci utilizând răspunsuri mai lungi și mai diverse, cum ar fi povestirile sau răspunsurile la întrebări bazate pe informații auditive. Cadrul generează apoi perechi de date de antrenare pentru astfel de sarcini utilizând text asociat cu audio sau vorbire sau descrieri muzicale.

Specificarea Sarcinilor

Pentru a evalua abilitățile emergente cross-modale zero-shot ale SALMONN, dezvoltatorii au inclus 15 sarcini de vorbire, audio și muzică, împărțite în trei niveluri.

Nivelul 1

La primul nivel, sarcinile sunt utilizate pentru ajustarea instructajelor și, prin urmare, sunt setul cel mai ușor de sarcini pe care cadrul SALMONN trebuie să le efectueze.

Nivelul 2

Al doilea nivel constă în sarcini neantrenate, și nivelul de complexitate este mai ridicat comparativ cu sarcinile de la nivelul 1. La nivelul 2, sarcinile sunt sarcini de procesare a limbajului natural, incluzând extragerea cuvintelor cheie din vorbire, care este utilizată pentru a evalua acuratețea cadrului în extragerea anumitor cuvinte cheie utilizând vorbirea. Alte sarcini incluzând SQQA sau Întrebări și Răspunsuri Bazate pe Vorbire, care evaluează cunoștințele de bun simț pe care cadrul le extrage utilizând întrebări de vorbire, o sarcină de umplere a sloturilor bazată pe vorbire pentru a evalua acuratețea valorilor sloturilor, și, în final, există două sarcini AST pentru conversia din engleză în germană și engleză în japoneză.

Nivelul 3

Complexitatea sarcinilor de la nivelul 3 este cea mai ridicată comparativ cu celelalte două niveluri și include sarcini de raționament audio-vorbire și povestire bazată pe audio. Sarcina de raționament audio-vorbire necesită ca cadrul SALMONN să înțeleagă o întrebare inclusă în clipul audio furnizat modelului, să găsească dovezi susținătoare utilizând evenimente audio sau muzică în fundal și, în final, să genereze un motiv adecvat pentru a răspunde la întrebare. Sarcinile de povestire bazată pe audio necesită ca modelul să genereze o povestire semnificativă pe baza informațiilor auditive provenite din intrări audio generice.

Rezultate

Sarcinile De La Nivelul 1

Tabelul următor prezintă rezultatele pe sarcinile de la nivelul 1, și, așa cum se poate observa, cadrul SALMONN oferă rezultate competitive pe sarcinile de la nivelul 1, cu sau fără activare.

Sarcinile De La Nivelul 2 și 3

Deși cadrul SALMONN oferă rezultate competitive pe sarcinile de la nivelul 1, chiar și fără ajustare, același lucru nu se poate spune despre sarcinile de la nivelul 2 și 3, deoarece, fără activare, cadrul SALMONN suferă puternic de supra-ajustare pe sarcini, în special în sarcinile care necesită abilități de raționament cross-modal, și cadrul SALMONN are dificultăți în a urma instructajele fără activare. Cu toate acestea, cu activare, rezultatele se îmbunătățesc considerabil, și rezultatele sunt incluse în imaginea următoare.

Discountarea Factorului De Scară LoRA

Discountarea factorului de scară LoRA evaluează influența utilizării discountării în timp a factorului de scară LoRA pentru a minimiza problemele de supra-ajustare pe sarcini. Așa cum se poate observa în figura următoare, o scădere a factorului de scară LoRA la 2,0 ridică abilitatea de raționament cross-modal a cadrului SALMONN pe sarcinile de recunoaștere a vorbirii și recunoaștere a sunetelor, sarcinile SQQA, sarcinile de povestire și sarcinile SAC, respectiv.

Evaluarea Supra-Ajustării Sarcinii

Pentru a sublinia importanța activării, cadrul SALMONN analizează schimbările în perplexitate în timpul celor trei etape de antrenare, și, așa cum se poate vedea în imaginea următoare, schimbările de perplexitate pentru sarcinile de descriere a audio și recunoaștere a vorbirii au valori finale mici după prima etapă de antrenare, indicând învățarea alinierii cross-modale de către model.

Mai mult, perplexitatea sarcinii de recunoaștere a sunetelor scade și ea după ajustarea instructajelor, datorită dependenței sale de componenta LoRA pentru a învăța tokenii de ieșire. De asemenea, se observă că, deși ajustarea instructajelor ajută la reducerea perplexității pe sarcinile de povestire și SAC, gap-ul este încă suficient de mare pentru a efectua sarcinile cu succes, cu excepția cazului în care se adaugă o etapă suplimentară de activare sau se elimină componenta LoRA.

Activarea

Cadrul SALMONN explorează diferite metode de activare, incluzând antrenarea modelului pe perechi de întrebări și răspunsuri textuale cu răspunsuri lungi, sau utilizarea unor povești lungi scrise pe baza audio, în timp ce utilizarea transcrierilor lungi de vorbire pentru sarcinile de recunoaștere a vorbirii. Atât componenta Q-Former, cât și componenta LoRA sunt ajustate utilizând aceste trei metode. Mai mult, cadrul ignoră intrările audio și Q-Former în încercarea de a ajusta componentele LoRA și Vicuna ca un model lingvistic mare text bazat adaptiv, și rezultatele sunt prezentate în imaginea următoare, și, așa cum se poate observa, modelul nu poate fi activat prin ASR (antrenarea recunoașterii vorbirii cu etichete lungi), nici prin Story sau Text, prin antrenarea componentei LoRA utilizând intrări de prompt text.

Gânduri Finale

În acest articol, am discutat despre SALMONN sau Rețeaua Neurală Deschisă De Vorbire Audio Limbă Muzică, un cadru de model lingvistic mare multimodal audio-text capabil să perceapă și să înțeleagă trei tipuri de bază de sunete sau audio, incluzând vorbirea, evenimentele audio și muzica. Modelul SALMONN permite Modelelor Lingvistice Mari să înțeleagă și să proceseze intrări audio generice direct, și să ofere performanțe competitive într-o gamă largă de sarcini audio și vorbire.

Cadrul SALMONN oferă performanțe competitive într-o gamă largă de sarcini antrenate, incluzând descrierea audio, traducerea și recunoașterea vorbirii, și generalizează la o serie de sarcini de înțelegere neantrenate, incluzând traducerea vorbirii pentru extragerea cuvintelor cheie și limbile neantrenate. Datorită abilităților sale, cadrul SALMONN poate fi considerat următorul pas către îmbunătățirea abilităților generice de auz ale modelelor lingvistice mari.

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.