Artificiell intelligens
Salmonn: Mot generiska hörselförmÄgor för stora sprÄkmodeller

Hörsel, som involverar uppfattning och förstÄelse av generisk hörselinformation, Àr avgörande för AI-agenter i verkliga miljöer. Denna hörselinformation omfattar tre primÀra ljudtyper: musik, ljudhÀndelser och tal. Nyligen har textbaserade ramverk för stora sprÄkmodeller (LLM) visat anmÀrkningsvÀrda förmÄgor och uppnÄtt prestanda pÄ mÀnsklig nivÄ i ett brett spektrum av NLP-uppgifter (Natural Language Processing). Dessutom har instruktionsinstÀllning, en trÀningsmetod som anvÀnder par av referenssvar och anvÀndaruppmaningar, blivit populÀr. Detta tillvÀgagÄngssÀtt trÀnar stora sprÄkmodeller för att mer effektivt följa öppna anvÀndarinstruktioner. Nuvarande forskning fokuseras dock alltmer pÄ att förbÀttra stora sprÄkmodeller med förmÄgan att uppfatta multimodalt innehÄll.
Fokusera pÄ detsamma, i den hÀr artikeln kommer vi att prata om SALMONN eller Speech Audio Language Music Open Neural Network, ett toppmodernt öppet tal ljudsprÄk musik neurala nÀtverk byggt genom att införliva tal- och ljudkodare med en förtrÀnad textbaserad stor sprÄkmodell i en singulÀr audio-text multimodal modell. SALMONN-modellen möjliggör Stora sprÄkmodeller att förstÄ och bearbeta generiska ljudingÄngar direkt, och leverera konkurrenskraftiga prestanda pÄ ett brett utbud av ljud- och taluppgifter som anvÀnds i utbildningen, inklusive auditiv informationsbaserad frÄgesvar, taligenkÀnning och översÀttning, högtalarverifiering, kÀnsloigenkÀnning, ljud- och musiktextning, och mycket mer. Vi kommer att ta en djupare dykning i SALMONN-ramverket och utforska dess funktion, arkitektur och resultat inom ett brett spektrum av NLP-uppgifter. SÄ lÄt oss börja.
SALMONN: En introduktion till multimodala stora sprÄkmodeller med en ljud-text
SALMONN stÄr för Speech Audio Language Music Open Neural Network, och det Àr en enkel audio-text multimodal stor sprÄkmodell ram som kan uppfatta och förstÄ tre grundlÀggande ljud- eller ljudtyper inklusive tal, ljudhÀndelser och musik. SALMONN-modellen gör det möjligt för stora sprÄkmodeller att förstÄ och bearbeta generiska ljudingÄngar direkt och leverera konkurrenskraftiga prestanda pÄ ett brett utbud av ljud- och taluppgifter.
För att öka dess prestanda pÄ bÄde tal- och icke-talljuduppgifter, anvÀnder SALMONN-ramverket en dubbel kodarstruktur som bestÄr av en BEATs ljudkodare och en talkodare som kommer frÄn Whisper-talmodellen. Dessutom anvÀnder SALMONN-ramverket ocksÄ en Q-Former pÄ fönsternivÄ eller frÄgetransformator som en anslutningsmodul för att effektivt konvertera en utdatasekvens av kodare med variabel lÀngd till förstÀrkta ljudtokens med ett variabelt antal, och i slutÀndan uppnÄ hög tidsupplösning för ljud- textjustering. De LoRA eller Low Rank Adaptation tillvÀgagÄngssÀttet anvÀnds som en tvÀrmodal adapter till Vicuna-ramverket för att anpassa dess utdatautrymme med dess utökade inmatningsutrymme i ett försök att ytterligare öka dess prestanda. I SALMONN-ramverket förloras förmÄgan att utföra tvÀrmodala uppgifter osynliga under trÀningsfasen under trÀning av instruktioner som korsmodala framvÀxande förmÄgor, vilket Àr den primÀra anledningen till att SALMONN-ramverket implementerar ytterligare ett fÄstegsaktiveringssteg för att Äterta LLM ramverkets allmÀnna framvÀxande förmÄgor.
Dessutom anvÀnder ramverket ett brett utbud av ljudhÀndelser, musikriktmÀrken och talriktmÀrken för att utvÀrdera dess kognitiva hörselförmÄgor, och delar upp riktmÀrkena i tre nivÄer. PÄ den första benchmarknivÄn trÀnar ramverket Ätta uppgifter i instruktionstrÀning inklusive översÀttning, ljudtextning och taligenkÀnning. De andra tvÄ benchmarknivÄerna Àr otrÀnade uppgifter med den andra nivÄn benchmark bestÄende av 5 talbaserade Natural Language Processing-uppgifter som luckfyllning och översÀttning till otrÀnade sprÄk som förlitar sig pÄ flersprÄkiga anpassningar av hög kvalitet mellan text och taltokens. Den sista nivÄn benchmark uppgifter försöker förstÄ tal och icke-tal auditiv information för tal-ljud samresonemang och ljudbaserat berÀttande.
För att sammanfatta det Àr LAX-ramverket
- Den första multimodala stora sprÄkmodellen som kan förstÄ och uppfatta allmÀnna ljudingÄngar inklusive ljudhÀndelser, tal och musik till det maximala av sin förmÄga.
- Ett försök att analysera cross-modala emergent förmÄgor som erbjuds genom att implementera LoRA-skalningsfaktorn och anvÀnda ett extra budgetvÀnligt aktiveringssteg under trÀning för att aktivera cross-modala emergent förmÄgor i ramverket.
SALMONN: Arkitektur och metodik
I det hÀr avsnittet kommer vi att ta en titt pÄ arkitekturen, trÀningsmetoden och experimentella instÀllningarna för SALMONN-ramverket.
Modellarkitektur
I kÀrnan av sin arkitektur synkroniserar och kombinerar SALMONN-ramverket utsignalerna frÄn tvÄ auditiva kodare, varefter ramverket implementerar en Q-Former pÄ ramnivÄ som en anslutningsmodul. Utdatasekvensen som genereras av Q-Former slÄs samman med textinstruktionsuppmaningar och den tillhandahÄlls sedan som en input till LoRA-anpassningsmetoden för att generera det erforderliga svaret.
Auditiva kodare
SALMONN-ramverket anvÀnder sig av tvÄ auditiva kodare: en BEATs-ljudkodare utan tal och en talkodare som kommer frÄn OpenAI:s Whisper-ramverk. BEATs ljudkodare Àr trÀnad att anvÀnda den sjÀlvövervakade iterativa inlÀrningsmetoden i ett försök att extrahera icke-tal högnivÄljudsemantik medan talkodaren trÀnas pÄ en stor mÀngd svagt övervakad data för taligenkÀnning och talöversÀttningsuppgifter med utmatningsegenskaper hos kodaren lÀmpliga att inkludera bakgrundsbrus och talinformation. Modellen tokeniserar först ingÄngsljudet och följer upp det genom att maskera och förutsÀga det under trÀning. De resulterande hörselegenskaperna hos dessa tvÄ kodare kompletterar varandra och Àr lÀmpliga för bÄde tal- och icke-talinformation.
FönsternivÄ Q-Former
Implementering av Q-Former-strukturen Àr ett vanligt tillvÀgagÄngssÀtt som anvÀnds i LLM-ramverken för att konvertera utdata frÄn en bildkodare till textinmatningstokens, och viss modifiering behövs nÀr man hanterar ljudtokens av varierande lÀngd. För att vara mer specifik betraktar ramverket kodarutdata frÄn ingÄngsbilden som en sammanlÀnkade kodarutgÄngssekvens, och Q-Former distribuerar ett fast antal trÀningsbara frÄgor för att omvandla kodarens utdatasekvens till textsymboler med hjÀlp av staplade block av Q-Former . Ett staplat Q-Former-block liknar ett Transformer-avkodarblock med undantagen att ta bort tillfÀlliga masker i sjÀlvuppmÀrksamhetslagren och anvÀndningen av ett fast antal trÀnarbara statiska frÄgor i de initiala blocken.
LoRA och LLM
SALMONN-ramverket distribuerar ocksÄ ett Vicuna LLM som Àr ett LLaMA-ramverk för stora sprÄkmodeller som Àr finjusterat för att följa instruktionerna mer exakt och effektivt. LoRA-ramverket Àr en vanlig metod som anvÀnds för parametereffektiv finjustering och dess inkludering i SALMONN-ramverket för att vÀrdera viktmatriser och anpassa frÄgan i sjÀlvuppmÀrksamhetslagren.
TrÀningsmetod
SALMONN-ramverket anvÀnder sig av en tvÀrmodal utbildning i tre steg. Utbildningsstadiet bestÄr av ett förtrÀningssteg och ett instruktionssteg som ingÄr i de flesta visuella LLM-ramverk, och ett ytterligare aktiveringsavstÀmningssteg implementeras för att lösa överanpassningsproblem som uppstÄr under ljudtextning och taligenkÀnningsuppgifter.
FörtrÀningsstadiet
För att begrÀnsa gapet som observeras mellan förtrÀnade parametrar inklusive kodare och LLM, och slumpmÀssigt initierade parametrar inklusive adapter- och anslutningsmoduler, anvÀnder SALMONN-ramverket en stor mÀngd ljudtextnings- och taligenkÀnningsdata för att förtrÀna LoRA- och Q-Former-komponenterna . Dessa uppgifter innehÄller viktig auditiv information om nyckelinnehÄllet i ljudhÀndelser, bÄde tal och icke-tal, och ingen av dem krÀver komplex förstÄelse eller resonemang för att lÀra sig anpassning mellan text- och auditiv information.
Instruktionsfinjusteringsstadiet
Instruktionsfinjusteringssteget implementerat i SALMONN-ramverket liknar det som implementerats i NLP- och visuella LLM-ramverk genom att anvÀnda en lista över ljudhÀndelser, musikuppgifter och talhÀndelser för att finjustera audi-textinstruktioner. Uppgifterna prioriteras utifrÄn deras betydelse i olika tester inklusive telefonigenkÀnning, överlappande taligenkÀnning och musiktexter. Dessutom utgör textinformation parad med ljuddata basen för att generera instruktionsmeddelanden.
Uppgift Ăverpassning
Ăven nĂ€r man implementerar endast de tvĂ„ första utbildningsstadierna, ger SALMONN-ramverket konkurrenskraftiga resultat pĂ„ instruktionsjusteringsuppgifter, Ă€ven om prestandan inte Ă€r upp till mĂ€rket nĂ€r man utför cross-modala uppgifter, sĂ€rskilt pĂ„ uppgifter som krĂ€ver cross-modal co-resoning-förmĂ„ga. Specifikt bryter modellen ibland mot instruktionsmeddelanden som resulterar i generering av irrelevanta eller felaktiga svar, och detta fenomen hĂ€nvisas till som task overfitting i SALMONN-ramverket, och Activation Tuning-steget implementeras för att lösa dessa överanpassningsproblem.
Aktivering Tuning Stage
Ett effektivt tillvÀgagÄngssÀtt för att lösa överanpassningsproblem Àr att reglera inneboende villkorade sprÄkmodeller med hjÀlp av lÀngre och mer varierande svar som berÀttande eller auditiv informationsbaserad frÄgesvar. Ramverket genererar sedan parets trÀningsdata för sÄdana uppgifter med hjÀlp av text parad med ljud eller tal eller musiktexter.
Uppgiftsspecifikationer
För att utvÀrdera SALMONN:s noll-shot cross-modala emergent-förmÄgor har utvecklare inkluderat 15 tal-, ljud- och musikuppgifter uppdelade pÄ tre nivÄer.
NivÄ 1
PÄ den första nivÄn anvÀnds uppgifter för instruktionsinstÀllning, och dÀrför Àr de den enklaste uppsÀttningen uppgifter som SALMONN-ramverket mÄste utföra.
NivÄ 2
Den andra nivÄn bestÄr av otrÀnade uppgifter, och komplexitetsnivÄn Àr högre jÀmfört med nivÄ 1-uppgifter. PÄ nivÄ 2 Àr uppgifterna Natural Language Processing-baserade uppgifter inklusive extrahering av tal nyckelord som anvÀnds för att utvÀrdera ramverkets noggrannhet nÀr man extraherar vissa nyckelord med hjÀlp av tal. Andra uppgifter inkluderar SQQA eller Spoken Query-based Question Answering som utvÀrderar kunskapen om sunt förnuft som ramverket extraherar med hjÀlp av talfrÄgor, en SF- eller Speech-based Slot Filling-uppgift för att utvÀrdera noggrannheten av slotvÀrden, och slutligen finns det tvÄ AST-uppgifter för Engelska till tyska och engelska till japanska konverteringar.
NivÄ 3
Komplexiteten för uppgifter i nivÄ 3 Àr den maximala jÀmfört med andra tvÄ nivÄer, och den inkluderar SAC eller Speech Audio Co-Reasoning och ljudbaserade storytelling-uppgifter. SAC-uppgiften krÀver att SALMONN-ramverket förstÄr en frÄga som ingÄr i ljudklippet som matas till modellen, hittar stödjande bevis med hjÀlp av ljudhÀndelser eller musik i bakgrunden och slutligen genererar en lÀmplig anledning att svara pÄ frÄgan. De ljudbaserade berÀttaruppgifterna krÀver att modellen genererar en meningsfull berÀttelse baserad pÄ den auditiva informationen som kommer frÄn allmÀnna ljudingÄngar.
Resultat
NivÄ 1 uppgifter
Följande tabell visar resultaten pÄ nivÄ 1-uppgifter, och som det kan observeras, returnerar SALMONN-ramverket konkurrenskraftiga resultat pÄ nivÄ 1-uppgifter med eller utan aktiveringsjustering.
NivÄ 2 och 3 Uppgifter
Ăven om SALMONN-ramverket ger konkurrenskraftiga resultat pĂ„ nivĂ„ 1-uppgifter Ă€ven utan finjustering, kan samma sak inte sĂ€gas för nivĂ„ 2- och nivĂ„ 3-uppgifter som utan aktivering, SALMONN-ramverket lider kraftigt av överanpassning av uppgifter. Prestandan sjunker ytterligare pĂ„ SQQA-, SAC- och Storytelling-uppgifter med tonvikt pĂ„ multimodala interaktioner, och SALMONN-ramverket kĂ€mpar för att följa instruktionerna utan aktiveringsjustering. Men med aktiveringsinstĂ€llning förbĂ€ttras resultaten avsevĂ€rt, och resultaten ingĂ„r i följande bild.
Rabatterande LoRA-skalningsfaktor
Discounting LoRA Scaling Factor utvÀrderar inflytandet av att anvÀnda tidstestdiskontering av LoRA-skalningsfaktorn för att minimera överanpassningsproblem pÄ uppgifter. Som det kan observeras i följande figur, höjer en minskning av LoRA-skalfaktorn till 2.0 den tvÀrmodala resonemangsförmÄgan hos SALMONN-ramverket för ASR- och PR-uppgifter, SQQA-uppgifter, Storytelling-uppgifter respektive SAC-uppgifter.
UtvÀrdera Task-Overfitting
För att betona aktiveringsinstÀllningen analyserar SALMONN-ramverket förÀndringarna i förvirring under de tre trÀningsstadierna, och som det kan ses i följande bild har förvirringsförÀndringar för AAC- och ASR-uppgifter smÄ slutvÀrden efter det första trÀningsstadiet, vilket indikerar modellens inlÀrning av tvÀrmodala anpassningar.
Dessutom sjunker förvirringen i PR-uppgiften ocksÄ efter instruktionsinstÀllning pÄ grund av dess beroende av LoRA-komponenten för att lÀra sig utdatatoken. Det har ocksÄ observerats att Àven om instruktionsinstÀllning hjÀlper till att minska förvirringen kring Storytelling och SAC-uppgifter, Àr gapet fortfarande tillrÀckligt stort för att utföra uppgifterna framgÄngsrikt om inte ett extra aktiveringssteg lÀggs till eller LoRA-komponenten tas bort.
AktiveringsinstÀllning
SALMONN-ramverket dyker ner i olika aktiveringsmetoder, inklusive att trÀna modellen pÄ textbaserade QA-uppgiftspar med lÄnga svar, eller att anvÀnda ljudbaserade lÄnga skrivna berÀttelser, medan man anvÀnder lÄnga taltranskriptioner för ASR-uppgifter. BÄde Q-Former- och LoRA-komponenterna finjusteras med dessa tre metoder. Dessutom ignorerar ramverket ljud- och Q-Former-ingÄngarna i ett försök att finjustera LoRA- och Vicuna-komponenterna som en adaptiv textbaserad storsprÄksmodell, och resultaten visas i följande bild, och som det kan ses , kan modellen inte aktiveras av ASR (trÀning av ASR med lÄnga etiketter), inte heller Story eller Text-baserad genom att trÀna LoRA-komponenten med hjÀlp av textprompt-inmatningar.
Avslutande tankar
I den hÀr artikeln har vi pratat om SALMONN eller Speech Audio Language Music Open Neural Network, ett enda ljud-text multimodalt ramverk för stora sprÄkmodeller som kan uppfatta och förstÄ tre grundlÀggande ljud- eller ljudtyper inklusive tal, ljudhÀndelser och musik. SALMONN-modellen gör det möjligt för stora sprÄkmodeller att förstÄ och bearbeta generiska ljudingÄngar direkt och leverera konkurrenskraftiga prestanda pÄ ett brett utbud av ljud- och taluppgifter.
SALMONN-ramverket levererar konkurrenskraftiga prestanda för ett brett utbud av trÀnade uppgifter inklusive ljudtextning, talöversÀttning och igenkÀnning och mer samtidigt som den generaliserar till en mÀngd otrÀnade förstÄelseuppgifter inklusive talöversÀttning för att extrahera nyckelord och otrÀnade sprÄk. PÄ grund av sin förmÄga kan SALMONN-ramverket ses som nÀsta steg mot att förbÀttra den generiska hörselförmÄgan hos stora sprÄkmodeller.