Dirbtinis intelektas

Salmonn: Bendrųjų klausos gebėjimų link dideliems kalbiniams modeliams

Atnaujinta on Lapkritis 28, 2023

Klausa, apimanti bendrosios klausos informacijos suvokimą ir supratimą, yra labai svarbi AI agentams realioje aplinkoje. Ši klausos informacija apima tris pagrindinius garso tipus: muziką, garso įvykius ir kalbą. Neseniai teksto pagrindu sukurtos didelės kalbos modelio (LLM) sistemos parodė puikius gebėjimus ir pasiekė žmogaus lygio našumą įvairiose srityse. Gamtos kalbos apdorojimas (NLP) užduotis. Be to, išpopuliarėjo instrukcijų derinimas, mokymo metodas, naudojant nuorodas ir vartotojo raginimus. Šis metodas lavina didelius kalbų modelius, kad būtų galima veiksmingiau vykdyti atviras vartotojo instrukcijas. Tačiau dabartiniai tyrimai vis labiau orientuojami į didelių kalbų modelių, galinčių suvokti daugiarūšį turinį, tobulinimą.

Šiame straipsnyje mes kalbėsime apie tą patį SALMONN arba Speech Audio Language Music Open Neural Network, pažangiausias atviros kalbos garso kalbos muzikos neuroninis tinklas, sukurtas įtraukiant kalbos ir garso kodavimo įrenginius su iš anksto parengtu tekstu pagrįstu didelės kalbos modeliu į vienarūšį garso ir teksto daugiarūšį modelį. SALMONN modelis leidžia Dideli kalbų modeliai suprasti ir tiesiogiai apdoroti bendrąsias garso įvestis ir užtikrinti konkurencingą našumą atliekant daugybę garso ir kalbos užduočių, naudojamų mokymuose, įskaitant klausos informacija pagrįstą atsakymą į klausimus, kalbos atpažinimą ir vertimą, garsiakalbio patvirtinimą, emocijų atpažinimą, garso ir muzikos antraštes ir daug daugiau. Mes gilinsimės į SALMONN sistemą ir išnagrinėsime jos veikimą, architektūrą ir rezultatus, atlikdami daugybę NLP užduočių. Taigi pradėkime.

SALMONN: Įvadas į vieno garso ir teksto daugiarūšius didelių kalbų modelius

SALMONN reiškia Speech Audio Language Music Open Neural Network, ir tai yra viena garso ir teksto daugiarūšio didelio kalbinio modelio sistema, galinti suvokti ir suprasti tris pagrindinius garso ar garso tipus, įskaitant kalbą, garso įvykius ir muziką. SALMONN modelis leidžia didelių kalbų modeliams suprasti ir tiesiogiai apdoroti bendrąsias garso įvestis ir užtikrinti konkurencingą našumą atliekant įvairias garso ir kalbos užduotis.

Kad pagerintų kalbos ir nekalbinio garso užduočių našumą, SALMONN sistema naudoja dvigubą kodavimo struktūrą, kurią sudaro BEATs garso kodavimo įrenginys ir kalbos kodavimo įrenginys, gaunamas iš Whisper kalbos modelio. Be to, SALMONN sistema taip pat naudoja lango lygio Q-Former arba užklausos transformatorių kaip ryšio modulį, kad efektyviai konvertuotų kintamo ilgio koduotuvo išvesties seką į papildytus kintamo skaičiaus garso atpažinimo ženklus ir galiausiai pasiektų didelę garso skiriamąją gebą laiko atžvilgiu. teksto lygiavimas. The LoRA arba žemo rango adaptacija metodas naudojamas kaip įvairiarūšis Vicuna sistemos adapteris, siekiant suderinti jos išvesties erdvę su padidinta įvesties erdve, siekiant dar labiau padidinti jos našumą. SALMONN sistemoje gebėjimas atlikti įvairiarūšes užduotis, neregėtas mokymo fazėje, prarandamas mokant instrukcijas kaip kryžminio transporto iškylantys gebėjimai, o tai yra pagrindinė priežastis, kodėl SALMONN sistema įgyvendina papildomą kelių kadrų aktyvinimo etapą, kad atgautų LLM. sistemos bendrieji atsirandantys gebėjimai.

Be to, sistema naudoja daugybę garso įvykių, muzikos etalonų ir kalbos etalonų, kad įvertintų savo pažintinius klausos gebėjimus, ir suskirsto etalonus į tris lygius. Pirmajame etaloniniame lygmenyje sistema apmoko aštuonias mokymo užduotis, įskaitant vertimą, garso antraštes ir kalbos atpažinimą. Kiti du etaloniniai lygiai yra neapmokytos užduotys, o antrojo lygio etalonas susideda iš 5 kalbomis pagrįstų natūralios kalbos apdorojimo užduočių, pvz., tarpų užpildymo ir vertimo į neapmokytas kalbas, kurios priklauso nuo aukštos kokybės daugiakalbių teksto ir kalbos žetonų derinimo. Paskutinio lygio etaloninės užduotys bando suprasti kalbinę ir nekalbinę girdimąją informaciją, skirtą kalbos ir garso samprotavimui ir garsu pagrįstam pasakojimui.

Apibendrinant galima pasakyti, kad SALMONN sistema yra

Pirmasis daugiarūšis didelės kalbos modelis, galintis maksimaliai suprasti ir suvokti bendrąsias garso įvestis, įskaitant garso įvykius, kalbą ir muziką.
Bandymas išanalizuoti kelių transporto rūšių atsirandančius gebėjimus, siūlomus įdiegus LoRA mastelio koeficientą ir naudojant papildomą biudžetą tausojantį aktyvinimo etapą mokymo metu, kad būtų suaktyvinti kryžminio modalinio pobūdžio sistemos gebėjimai.

SALMONN: Architektūra ir metodika

Šiame skyriuje apžvelgsime SALMONN sistemos architektūrą, mokymo metodą ir eksperimentinę sąranką.

Modelio architektūra

Savo architektūros centre SALMONN sistema sinchronizuoja ir sujungia dviejų garsinių kodavimo įrenginių išvestis, o po to sistema įgyvendina Q-Former kadro lygyje kaip ryšio modulį. „Q-Former“ sugeneruota išvesties seka sujungiama su tekstinėmis instrukcijomis ir pateikiama kaip įvestis į LoRA pritaikymo metodą, kad būtų sukurtas reikiamas atsakas.

Klausos kodavimo įrenginiai

SALMONN sistemoje naudojami du garsiniai kodavimo įrenginiai: ne kalbos BEATs garso kodavimo įrenginys ir kalbos kodavimo įrenginys, gaunamas iš OpenAI Whisper sistemos. BEATs garso kodavimo įrenginys yra išmokytas naudoti savarankiškai prižiūrimą kartotinį mokymosi metodą, bandant išgauti aukšto lygio garso semantiką, nesusijusią su kalba, o kalbos kodavimo įrenginys yra išmokytas naudoti daug silpnai prižiūrimų duomenų kalbos atpažinimo ir kalbos vertimo užduotims su kodavimo įrenginio išvesties ypatybės, tinkamos įtraukti foninį triukšmą ir kalbos informaciją. Modelis pirmiausia sujungia įvesties garsą, o paskui jį užmaskuoja ir numatydamas treniruočių metu. Gautos šių dviejų kodavimo įrenginių klausos savybės papildo viena kitą ir yra tinkamos tiek kalbai, tiek nekalbinei informacijai.

Lango lygis Q-Former

„Q-Former“ struktūros įgyvendinimas yra įprastas metodas, naudojamas LLM sistemose, siekiant konvertuoti vaizdo kodavimo įrenginio išvestį į tekstinius įvesties prieigos raktus, todėl reikia atlikti tam tikrus pakeitimus, kai kalbama apie įvairaus ilgio garso prieigos raktus. Konkrečiau kalbant, sistemoje įvesties vaizdo koduotuvo išvestis laikoma sujungta koduotuvo išvesties seka, o Q-Former diegia fiksuotą skaičių mokomų užklausų, kad kodavimo priemonės išvesties seką paverstų tekstiniais prieigos raktais, naudojant sukrautus Q-Former blokus. . Sukrautas Q-Former blokas panašus į transformatoriaus dekoderio bloką, išskyrus atsitiktinių kaukių pašalinimą iš savęs dėmesio sluoksnių ir fiksuoto skaičiaus mokomų statinių užklausų naudojimą pradiniuose blokuose.

LoRA ir LLM

SALMONN sistemoje taip pat įdiegta Vicuna LLM, kuri yra LLaMA didelės kalbos modelio struktūra, tiksliai suderinta, kad būtų galima tiksliau ir efektyviau vykdyti instrukcijas. LoRA sistema yra įprastas metodas, naudojamas efektyviam parametrų koregavimui ir jo įtraukimui į SALMONN sistemą, siekiant įvertinti svorio matricas ir pritaikyti užklausą dėmesio sau lygiuose.

Mokymo metodas

SALMONN sistemoje naudojamas trijų pakopų įvairiarūšio mokymo metodas. Mokymo etapą sudaro išankstinis mokymas ir mokymo derinimo etapas, kurie yra įtraukti į daugumą vaizdinės LLM sistemos, ir įdiegtas papildomas aktyvinimo derinimo etapas, siekiant išspręsti per didelio pritaikymo problemas, iškilusias atliekant garso antraštes ir kalbos atpažinimo užduotis.

Išankstinis treniruočių etapas

Siekdama sumažinti atotrūkį tarp iš anksto paruoštų parametrų, įskaitant koduotuvus ir LLM, ir atsitiktinai inicijuotų parametrų, įskaitant adapterius ir jungties modulius, SALMONN sistema naudoja daug garso antraštės ir kalbos atpažinimo duomenų, kad iš anksto apmokytų LoRA ir Q-Former komponentus. . Šiose užduotyse yra gyvybiškai svarbios klausos informacijos apie pagrindinį garso įvykių turinį, tiek kalbos, tiek ne kalbos, ir nė vienai iš jų nereikia sudėtingo supratimo ar samprotavimų, kad būtų išmokta derinti tekstinę ir garsinę informaciją.

Instrukcijos Tikslaus derinimo etapas

Instrukcijų koregavimo etapas, įgyvendintas SALMONN sistemoje, panašus į tą, kuris įdiegtas NLP ir vaizdinėse LLM sistemose, naudojant garso įvykių, muzikos užduočių ir kalbos įvykių sąrašą, kad būtų galima tiksliai suderinti garso teksto instrukcijas. Užduotys suskirstytos pagal svarbą atliekant įvairius testus, įskaitant telefono atpažinimą, persidengiančios kalbos atpažinimą ir muzikos antraštes. Be to, tekstinė informacija, suporuota su garso duomenimis, yra instrukcijų nurodymų generavimo pagrindas.

Užduotis per daug pritaikyta

Net ir įgyvendinant tik pirmuosius du mokymo etapus, SALMONN sistema duoda konkurencingų rezultatų atliekant instrukcijų derinimo užduotis, nors atliekant įvairiarūšes užduotis, našumas nepasiekiamas, ypač atliekant užduotis, kurioms reikia įvairių rūšių bendro samprotavimo. Konkrečiai, modelis kartais pažeidžia instrukcijų raginimus, dėl kurių generuojami nesusiję arba neteisingi atsakymai, o šis reiškinys SALMONN sistemoje vadinamas užduočių pertekliumi, o aktyvinimo derinimo etapas įgyvendinamas siekiant išspręsti šias per didelio pritaikymo problemas.

Aktyvinimo derinimo etapas

Veiksmingas būdas išspręsti pernelyg tinkamas problemas yra sureguliuoti vidinius sąlyginės kalbos modelius naudojant ilgesnius ir įvairesnius atsakymus, pvz., pasakojimą ar klausos informacija pagrįstą atsakymą į klausimus. Tada sistema generuoja porų mokymo duomenis tokioms užduotims, naudodama tekstą, susietą su garso, kalbos ar muzikos antraštėmis.

Užduočių specifikacijos

Siekdami įvertinti SALMONN nulinius kryžminio transporto gebėjimus, kūrėjai įtraukė 15 kalbos, garso ir muzikos užduočių, suskirstytų į tris lygius.

Lygis 1

Pirmajame lygyje užduotys naudojamos instrukcijoms derinti, todėl tai yra lengviausias užduočių rinkinys, kurį SALMONN sistema turi atlikti.

Lygis 2

Antrasis lygis susideda iš neapmokytų užduočių, o sudėtingumo lygis yra didesnis, palyginti su 1 lygio užduotimis. 2 lygyje užduotys yra natūralios kalbos apdorojimu pagrįstos užduotys, įskaitant kalbos raktinių žodžių išskyrimą, kuris naudojamas sistemos tikslumui įvertinti, kai ištraukiami tam tikri raktiniai žodžiai naudojant kalbą. Kitos užduotys apima SQQA arba sakytine užklausa pagrįstą klausimų atsakymą, kuris įvertina sveiko proto žinias, kurias ištraukia sistema naudojant kalbos klausimus, SF arba kalba pagrįstą tarpų užpildymo užduotį, skirtą laiko tarpo reikšmių tikslumui įvertinti, ir galiausiai yra dvi AST užduotys Konversijos iš anglų į vokiečių ir iš anglų į japonus.

Lygis 3

3 lygio užduočių sudėtingumas yra didžiausias, palyginti su kitais dviem lygiais, ir tai apima SAC arba Speech Audio bendro samprotavimo ir garsu pagrįsto pasakojimo užduotis. SAC užduotis reikalauja, kad SALMONN sistema suprastų klausimą, įtrauktą į modeliui pateiktą garso klipą, surastų patvirtinančių įrodymų, naudojant garso įvykius ar muziką fone, ir galiausiai sugeneruotų tinkamą priežastį atsakyti į klausimą. Garso pasakojimo užduotys reikalauja, kad modelis generuotų prasmingą istoriją, pagrįstą klausos informacija, gaunama iš bendrųjų garso įvesties.

rezultatai

1 lygio užduotys

Toliau pateiktoje lentelėje parodyti 1 lygio užduočių rezultatai ir, kaip galima pastebėti, SALMONN sistema pateikia konkurencingus 1 lygio užduočių rezultatus su aktyvinimo derinimu arba be jo.

2 ir 3 lygio užduotys

Nors SALMONN sistema pateikia konkurencingus 1 lygio užduočių rezultatus net ir be tikslaus derinimo, to negalima pasakyti apie 2 ir 3 lygio užduotis, nes be aktyvinimo SALMONN sistema labai kenčia nuo per didelio užduočių pritaikymo. Atlikdami SQQA, SAC ir Storytelling užduotis, našumas dar labiau pablogėja, pabrėžiant multimodalinės sąveikos, o SALMONN sistema sunkiai seka instrukcijas be aktyvinimo derinimo. Tačiau suaktyvinus derinimą, rezultatai žymiai pagerėja, o rezultatai pateikiami kitame paveikslėlyje.

Diskontuojantis LoRA mastelio koeficientas

Diskontavimo LoRA mastelio koeficientas įvertina LoRA mastelio koeficiento laiko testo diskontavimo įtaką, kad būtų sumažintos per didelio užduočių pritaikymo problemos. Kaip galima pastebėti toliau pateiktame paveikslėlyje, LoRA mastelio koeficiento sumažinimas iki 2.0 padidina SALMONN sistemos kryžminio mąstymo gebėjimą atitinkamai ASR ir PR užduotims, SQQA užduotims, pasakojimų užduotims ir SAC užduotims.

Užduoties įvertinimas -Perteklinis

Siekiant pabrėžti aktyvinimo derinimą, SALMONN sistema analizuoja sumišimo pokyčius per tris treniruočių etapus ir, kaip matyti toliau pateiktame paveikslėlyje, AAC ir ASR užduočių sumišimo pokyčiai turi mažas galutines vertes po pirmojo mokymo etapo, o tai rodo modelio mokymasis apie kelių transporto rūšių derinimą.

Be to, PR užduoties sudėtingumas taip pat sumažėja po instrukcijų derinimo, nes jis priklauso nuo LoRA komponento, kad išmoktų išvesties žetonus. Taip pat pastebėta, kad nors instrukcijų derinimas padeda sumažinti istorijos pasakojimo ir SAC užduočių sudėtingumą, spraga vis tiek yra pakankamai didelė, kad būtų galima sėkmingai atlikti užduotis, nebent būtų pridėtas papildomas aktyvinimo etapas arba pašalintas LoRA komponentas.

Aktyvinimo derinimas

SALMONN sistema neria į įvairius aktyvinimo metodus, įskaitant modelio mokymą naudojant teksto kokybės užtikrinimo užduočių poras su ilgais atsakymais arba naudojant ilgas rašytines istorijas garsu, tuo tarpu naudojant ilgų kalbos transkripciją ASR užduotims. Tiek Q-Former, tiek LoRA komponentai yra tiksliai sureguliuoti naudojant šiuos tris metodus. Be to, sistema nepaiso garso ir Q-Former įvesties, bandydama tiksliai sureguliuoti LoRA ir Vicuna komponentus kaip adaptyvų tekstinį didelės kalbos modelį, o rezultatai parodyti kitame paveikslėlyje ir, kaip matyti. , modelio negalima suaktyvinti naudojant ASR (mokomąjį ASR su ilgomis etiketėmis), nei pagal istoriją ar tekstą mokant LoRA komponentą naudojant teksto raginimo įvestis.

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie SALMONN arba Speech Audio Language Music Open Neural Network – vieną garso ir teksto daugiarūšį didelės apimties kalbos modelio sistemą, galinčią suvokti ir suprasti tris pagrindinius garso ar garso tipus, įskaitant kalbą, garso įvykius ir muziką. SALMONN modelis leidžia didelių kalbų modeliams suprasti ir tiesiogiai apdoroti bendrąsias garso įvestis ir užtikrinti konkurencingą našumą atliekant įvairias garso ir kalbos užduotis.

SALMONN sistema užtikrina konkurencingą našumą atliekant daugybę mokomų užduočių, įskaitant garso antraštes, kalbos vertimą ir atpažinimą ir dar daugiau, tuo pačiu apibendrindama daugybę neapmokytų supratimo užduočių, įskaitant kalbos vertimą raktinių žodžių ištraukimui ir neapmokytas kalbas. Dėl savo gebėjimų SALMONN sistema gali būti laikoma kitu žingsniu gerinant bendruosius didelių kalbų modelių klausos gebėjimus.

Susijusios temos:klausa LLM Salmonn

Kitas

„Amazon“ skelbia „Amazon Q“, bendrovės generatyvųjį AI asistentą

Nepraleiskite

DIRFA garso klipus paverčia tikroviškais skaitmeniniais veidais

Kunal Kejriwal

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.

Susivienyti.AI

Salmonn: Bendrųjų klausos gebėjimų link dideliems kalbiniams modeliams

Dirbtinis intelektas

Salmonn: Bendrųjų klausos gebėjimų link dideliems kalbiniams modeliams

Turinys

SALMONN: Įvadas į vieno garso ir teksto daugiarūšius didelių kalbų modelius