Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Salmonn: Mot generiska hörselförmÄgor för stora sprÄkmodeller

mm

Hörsel, som involverar uppfattning och förstÄelse av generisk hörselinformation, Àr avgörande för AI-agenter i verkliga miljöer. Denna hörselinformation omfattar tre primÀra ljudtyper: musik, ljudhÀndelser och tal. Nyligen har textbaserade ramverk för stora sprÄkmodeller (LLM) visat anmÀrkningsvÀrda förmÄgor och uppnÄtt prestanda pÄ mÀnsklig nivÄ i ett brett spektrum av NLP-uppgifter (Natural Language Processing). Dessutom har instruktionsinstÀllning, en trÀningsmetod som anvÀnder par av referenssvar och anvÀndaruppmaningar, blivit populÀr. Detta tillvÀgagÄngssÀtt trÀnar stora sprÄkmodeller för att mer effektivt följa öppna anvÀndarinstruktioner. Nuvarande forskning fokuseras dock alltmer pÄ att förbÀttra stora sprÄkmodeller med förmÄgan att uppfatta multimodalt innehÄll.

Fokusera pĂ„ detsamma, i den hĂ€r artikeln kommer vi att prata om SALMONN eller Speech Audio Language Music Open Neural Network, ett toppmodernt öppet tal ljudsprĂ„k musik neurala nĂ€tverk byggt genom att införliva tal- och ljudkodare med en förtrĂ€nad textbaserad stor sprĂ„kmodell i en singulĂ€r audio-text multimodal modell. SALMONN-modellen möjliggör Stora sprĂ„kmodeller att förstĂ„ och bearbeta generiska ljudingĂ„ngar direkt, och leverera konkurrenskraftiga prestanda pĂ„ ett brett utbud av ljud- och taluppgifter som anvĂ€nds i utbildningen, inklusive auditiv informationsbaserad frĂ„gesvar, taligenkĂ€nning och översĂ€ttning, högtalarverifiering, kĂ€nsloigenkĂ€nning, ljud- och musiktextning, och mycket mer. Vi kommer att ta en djupare dykning i SALMONN-ramverket och utforska dess funktion, arkitektur och resultat inom ett brett spektrum av NLP-uppgifter. SĂ„ lĂ„t oss börja. 

SALMONN: En introduktion till multimodala stora sprÄkmodeller med en ljud-text

SALMONN stĂ„r för Speech Audio Language Music Open Neural Network, och det Ă€r en enkel audio-text multimodal stor sprĂ„kmodell ram som kan uppfatta och förstĂ„ tre grundlĂ€ggande ljud- eller ljudtyper inklusive tal, ljudhĂ€ndelser och musik. SALMONN-modellen gör det möjligt för stora sprĂ„kmodeller att förstĂ„ och bearbeta generiska ljudingĂ„ngar direkt och leverera konkurrenskraftiga prestanda pĂ„ ett brett utbud av ljud- och taluppgifter. 

För att öka dess prestanda pĂ„ bĂ„de tal- och icke-talljuduppgifter, anvĂ€nder SALMONN-ramverket en dubbel kodarstruktur som bestĂ„r av en BEATs ljudkodare och en talkodare som kommer frĂ„n Whisper-talmodellen. Dessutom anvĂ€nder SALMONN-ramverket ocksĂ„ en Q-Former pĂ„ fönsternivĂ„ eller frĂ„getransformator som en anslutningsmodul för att effektivt konvertera en utdatasekvens av kodare med variabel lĂ€ngd till förstĂ€rkta ljudtokens med ett variabelt antal, och i slutĂ€ndan uppnĂ„ hög tidsupplösning för ljud- textjustering. De LoRA eller Low Rank Adaptation tillvĂ€gagĂ„ngssĂ€ttet anvĂ€nds som en tvĂ€rmodal adapter till Vicuna-ramverket för att anpassa dess utdatautrymme med dess utökade inmatningsutrymme i ett försök att ytterligare öka dess prestanda. I SALMONN-ramverket förloras förmĂ„gan att utföra tvĂ€rmodala uppgifter osynliga under trĂ€ningsfasen under trĂ€ning av instruktioner som korsmodala framvĂ€xande förmĂ„gor, vilket Ă€r den primĂ€ra anledningen till att SALMONN-ramverket implementerar ytterligare ett fĂ„stegsaktiveringssteg för att Ă„terta LLM ramverkets allmĂ€nna framvĂ€xande förmĂ„gor. 

Dessutom anvĂ€nder ramverket ett brett utbud av ljudhĂ€ndelser, musikriktmĂ€rken och talriktmĂ€rken för att utvĂ€rdera dess kognitiva hörselförmĂ„gor, och delar upp riktmĂ€rkena i tre nivĂ„er. PĂ„ den första benchmarknivĂ„n trĂ€nar ramverket Ă„tta uppgifter i instruktionstrĂ€ning inklusive översĂ€ttning, ljudtextning och taligenkĂ€nning. De andra tvĂ„ benchmarknivĂ„erna Ă€r otrĂ€nade uppgifter med den andra nivĂ„n benchmark bestĂ„ende av 5 talbaserade Natural Language Processing-uppgifter som luckfyllning och översĂ€ttning till otrĂ€nade sprĂ„k som förlitar sig pĂ„ flersprĂ„kiga anpassningar av hög kvalitet mellan text och taltokens. Den sista nivĂ„n benchmark uppgifter försöker förstĂ„ tal och icke-tal auditiv information för tal-ljud samresonemang och ljudbaserat berĂ€ttande. 

För att sammanfatta det Àr LAX-ramverket

  1. Den första multimodala stora sprĂ„kmodellen som kan förstĂ„ och uppfatta allmĂ€nna ljudingĂ„ngar inklusive ljudhĂ€ndelser, tal och musik till det maximala av sin förmĂ„ga. 
  2. Ett försök att analysera cross-modala emergent förmĂ„gor som erbjuds genom att implementera LoRA-skalningsfaktorn och anvĂ€nda ett extra budgetvĂ€nligt aktiveringssteg under trĂ€ning för att aktivera cross-modala emergent förmĂ„gor i ramverket. 

SALMONN: Arkitektur och metodik

I det hĂ€r avsnittet kommer vi att ta en titt pĂ„ arkitekturen, trĂ€ningsmetoden och experimentella instĂ€llningarna för SALMONN-ramverket. 

Modellarkitektur

I kĂ€rnan av sin arkitektur synkroniserar och kombinerar SALMONN-ramverket utsignalerna frĂ„n tvĂ„ auditiva kodare, varefter ramverket implementerar en Q-Former pĂ„ ramnivĂ„ som en anslutningsmodul. Utdatasekvensen som genereras av Q-Former slĂ„s samman med textinstruktionsuppmaningar och den tillhandahĂ„lls sedan som en input till LoRA-anpassningsmetoden för att generera det erforderliga svaret. 

Auditiva kodare

SALMONN-ramverket anvĂ€nder sig av tvĂ„ auditiva kodare: en BEATs-ljudkodare utan tal och en talkodare som kommer frĂ„n OpenAI:s Whisper-ramverk. BEATs ljudkodare Ă€r trĂ€nad att anvĂ€nda den sjĂ€lvövervakade iterativa inlĂ€rningsmetoden i ett försök att extrahera icke-tal högnivĂ„ljudsemantik medan talkodaren trĂ€nas pĂ„ en stor mĂ€ngd svagt övervakad data för taligenkĂ€nning och talöversĂ€ttningsuppgifter med utmatningsegenskaper hos kodaren lĂ€mpliga att inkludera bakgrundsbrus och talinformation. Modellen tokeniserar först ingĂ„ngsljudet och följer upp det genom att maskera och förutsĂ€ga det under trĂ€ning. De resulterande hörselegenskaperna hos dessa tvĂ„ kodare kompletterar varandra och Ă€r lĂ€mpliga för bĂ„de tal- och icke-talinformation. 

FönsternivÄ Q-Former

Implementering av Q-Former-strukturen Ă€r ett vanligt tillvĂ€gagĂ„ngssĂ€tt som anvĂ€nds i LLM-ramverken för att konvertera utdata frĂ„n en bildkodare till textinmatningstokens, och viss modifiering behövs nĂ€r man hanterar ljudtokens av varierande lĂ€ngd. För att vara mer specifik betraktar ramverket kodarutdata frĂ„n ingĂ„ngsbilden som en sammanlĂ€nkade kodarutgĂ„ngssekvens, och Q-Former distribuerar ett fast antal trĂ€ningsbara frĂ„gor för att omvandla kodarens utdatasekvens till textsymboler med hjĂ€lp av staplade block av Q-Former . Ett staplat Q-Former-block liknar ett Transformer-avkodarblock med undantagen att ta bort tillfĂ€lliga masker i sjĂ€lvuppmĂ€rksamhetslagren och anvĂ€ndningen av ett fast antal trĂ€narbara statiska frĂ„gor i de initiala blocken. 

LoRA och LLM

SALMONN-ramverket distribuerar ocksĂ„ ett Vicuna LLM som Ă€r ett LLaMA-ramverk för stora sprĂ„kmodeller som Ă€r finjusterat för att följa instruktionerna mer exakt och effektivt. LoRA-ramverket Ă€r en vanlig metod som anvĂ€nds för parametereffektiv finjustering och dess inkludering i SALMONN-ramverket för att vĂ€rdera viktmatriser och anpassa frĂ„gan i sjĂ€lvuppmĂ€rksamhetslagren. 

TrÀningsmetod

SALMONN-ramverket anvĂ€nder sig av en tvĂ€rmodal utbildning i tre steg. Utbildningsstadiet bestĂ„r av ett förtrĂ€ningssteg och ett instruktionssteg som ingĂ„r i de flesta visuella LLM-ramverk, och ett ytterligare aktiveringsavstĂ€mningssteg implementeras för att lösa överanpassningsproblem som uppstĂ„r under ljudtextning och taligenkĂ€nningsuppgifter. 

FörtrÀningsstadiet

För att begrĂ€nsa gapet som observeras mellan förtrĂ€nade parametrar inklusive kodare och LLM, och slumpmĂ€ssigt initierade parametrar inklusive adapter- och anslutningsmoduler, anvĂ€nder SALMONN-ramverket en stor mĂ€ngd ljudtextnings- och taligenkĂ€nningsdata för att förtrĂ€na LoRA- och Q-Former-komponenterna . Dessa uppgifter innehĂ„ller viktig auditiv information om nyckelinnehĂ„llet i ljudhĂ€ndelser, bĂ„de tal och icke-tal, och ingen av dem krĂ€ver komplex förstĂ„else eller resonemang för att lĂ€ra sig anpassning mellan text- och auditiv information. 

Instruktionsfinjusteringsstadiet

Instruktionsfinjusteringssteget implementerat i SALMONN-ramverket liknar det som implementerats i NLP- och visuella LLM-ramverk genom att anvĂ€nda en lista över ljudhĂ€ndelser, musikuppgifter och talhĂ€ndelser för att finjustera audi-textinstruktioner. Uppgifterna prioriteras utifrĂ„n deras betydelse i olika tester inklusive telefonigenkĂ€nning, överlappande taligenkĂ€nning och musiktexter. Dessutom utgör textinformation parad med ljuddata basen för att generera instruktionsmeddelanden. 

Uppgift Överpassning

Även nĂ€r man implementerar endast de tvĂ„ första utbildningsstadierna, ger SALMONN-ramverket konkurrenskraftiga resultat pĂ„ instruktionsjusteringsuppgifter, Ă€ven om prestandan inte Ă€r upp till mĂ€rket nĂ€r man utför cross-modala uppgifter, sĂ€rskilt pĂ„ uppgifter som krĂ€ver cross-modal co-resoning-förmĂ„ga. Specifikt bryter modellen ibland mot instruktionsmeddelanden som resulterar i generering av irrelevanta eller felaktiga svar, och detta fenomen hĂ€nvisas till som task overfitting i SALMONN-ramverket, och Activation Tuning-steget implementeras för att lösa dessa överanpassningsproblem. 

Aktivering Tuning Stage

Ett effektivt tillvĂ€gagĂ„ngssĂ€tt för att lösa överanpassningsproblem Ă€r att reglera inneboende villkorade sprĂ„kmodeller med hjĂ€lp av lĂ€ngre och mer varierande svar som berĂ€ttande eller auditiv informationsbaserad frĂ„gesvar. Ramverket genererar sedan parets trĂ€ningsdata för sĂ„dana uppgifter med hjĂ€lp av text parad med ljud eller tal eller musiktexter. 

Uppgiftsspecifikationer

För att utvĂ€rdera SALMONN:s noll-shot cross-modala emergent-förmĂ„gor har utvecklare inkluderat 15 tal-, ljud- och musikuppgifter uppdelade pĂ„ tre nivĂ„er. 

NivÄ 1

PĂ„ den första nivĂ„n anvĂ€nds uppgifter för instruktionsinstĂ€llning, och dĂ€rför Ă€r de den enklaste uppsĂ€ttningen uppgifter som SALMONN-ramverket mĂ„ste utföra. 

NivÄ 2

Den andra nivĂ„n bestĂ„r av otrĂ€nade uppgifter, och komplexitetsnivĂ„n Ă€r högre jĂ€mfört med nivĂ„ 1-uppgifter. PĂ„ nivĂ„ 2 Ă€r uppgifterna Natural Language Processing-baserade uppgifter inklusive extrahering av tal nyckelord som anvĂ€nds för att utvĂ€rdera ramverkets noggrannhet nĂ€r man extraherar vissa nyckelord med hjĂ€lp av tal. Andra uppgifter inkluderar SQQA eller Spoken Query-based Question Answering som utvĂ€rderar kunskapen om sunt förnuft som ramverket extraherar med hjĂ€lp av talfrĂ„gor, en SF- eller Speech-based Slot Filling-uppgift för att utvĂ€rdera noggrannheten av slotvĂ€rden, och slutligen finns det tvĂ„ AST-uppgifter för Engelska till tyska och engelska till japanska konverteringar. 

NivÄ 3

Komplexiteten för uppgifter i nivÄ 3 Àr den maximala jÀmfört med andra tvÄ nivÄer, och den inkluderar SAC eller Speech Audio Co-Reasoning och ljudbaserade storytelling-uppgifter. SAC-uppgiften krÀver att SALMONN-ramverket förstÄr en frÄga som ingÄr i ljudklippet som matas till modellen, hittar stödjande bevis med hjÀlp av ljudhÀndelser eller musik i bakgrunden och slutligen genererar en lÀmplig anledning att svara pÄ frÄgan. De ljudbaserade berÀttaruppgifterna krÀver att modellen genererar en meningsfull berÀttelse baserad pÄ den auditiva informationen som kommer frÄn allmÀnna ljudingÄngar.

Resultat

NivÄ 1 uppgifter

Följande tabell visar resultaten pĂ„ nivĂ„ 1-uppgifter, och som det kan observeras, returnerar SALMONN-ramverket konkurrenskraftiga resultat pĂ„ nivĂ„ 1-uppgifter med eller utan aktiveringsjustering. 

NivÄ 2 och 3 Uppgifter

Även om SALMONN-ramverket ger konkurrenskraftiga resultat pĂ„ nivĂ„ 1-uppgifter Ă€ven utan finjustering, kan samma sak inte sĂ€gas för nivĂ„ 2- och nivĂ„ 3-uppgifter som utan aktivering, SALMONN-ramverket lider kraftigt av överanpassning av uppgifter. Prestandan sjunker ytterligare pĂ„ SQQA-, SAC- och Storytelling-uppgifter med tonvikt pĂ„ multimodala interaktioner, och SALMONN-ramverket kĂ€mpar för att följa instruktionerna utan aktiveringsjustering. Men med aktiveringsinstĂ€llning förbĂ€ttras resultaten avsevĂ€rt, och resultaten ingĂ„r i följande bild. 

Rabatterande LoRA-skalningsfaktor

Discounting LoRA Scaling Factor utvĂ€rderar inflytandet av att anvĂ€nda tidstestdiskontering av LoRA-skalningsfaktorn för att minimera överanpassningsproblem pĂ„ uppgifter. Som det kan observeras i följande figur, höjer en minskning av LoRA-skalfaktorn till 2.0 den tvĂ€rmodala resonemangsförmĂ„gan hos SALMONN-ramverket för ASR- och PR-uppgifter, SQQA-uppgifter, Storytelling-uppgifter respektive SAC-uppgifter. 

UtvÀrdera Task-Overfitting

För att betona aktiveringsinstĂ€llningen analyserar SALMONN-ramverket förĂ€ndringarna i förvirring under de tre trĂ€ningsstadierna, och som det kan ses i följande bild har förvirringsförĂ€ndringar för AAC- och ASR-uppgifter smĂ„ slutvĂ€rden efter det första trĂ€ningsstadiet, vilket indikerar modellens inlĂ€rning av tvĂ€rmodala anpassningar. 

Dessutom sjunker förvirringen i PR-uppgiften ocksĂ„ efter instruktionsinstĂ€llning pĂ„ grund av dess beroende av LoRA-komponenten för att lĂ€ra sig utdatatoken. Det har ocksĂ„ observerats att Ă€ven om instruktionsinstĂ€llning hjĂ€lper till att minska förvirringen kring Storytelling och SAC-uppgifter, Ă€r gapet fortfarande tillrĂ€ckligt stort för att utföra uppgifterna framgĂ„ngsrikt om inte ett extra aktiveringssteg lĂ€ggs till eller LoRA-komponenten tas bort. 

AktiveringsinstÀllning

SALMONN-ramverket dyker ner i olika aktiveringsmetoder, inklusive att trĂ€na modellen pĂ„ textbaserade QA-uppgiftspar med lĂ„nga svar, eller att anvĂ€nda ljudbaserade lĂ„nga skrivna berĂ€ttelser, medan man anvĂ€nder lĂ„nga taltranskriptioner för ASR-uppgifter. BĂ„de Q-Former- och LoRA-komponenterna finjusteras med dessa tre metoder. Dessutom ignorerar ramverket ljud- och Q-Former-ingĂ„ngarna i ett försök att finjustera LoRA- och Vicuna-komponenterna som en adaptiv textbaserad storsprĂ„ksmodell, och resultaten visas i följande bild, och som det kan ses , kan modellen inte aktiveras av ASR (trĂ€ning av ASR med lĂ„nga etiketter), inte heller Story eller Text-baserad genom att trĂ€na LoRA-komponenten med hjĂ€lp av textprompt-inmatningar. 

Avslutande tankar

I den hĂ€r artikeln har vi pratat om SALMONN eller Speech Audio Language Music Open Neural Network, ett enda ljud-text multimodalt ramverk för stora sprĂ„kmodeller som kan uppfatta och förstĂ„ tre grundlĂ€ggande ljud- eller ljudtyper inklusive tal, ljudhĂ€ndelser och musik. SALMONN-modellen gör det möjligt för stora sprĂ„kmodeller att förstĂ„ och bearbeta generiska ljudingĂ„ngar direkt och leverera konkurrenskraftiga prestanda pĂ„ ett brett utbud av ljud- och taluppgifter. 

SALMONN-ramverket levererar konkurrenskraftiga prestanda för ett brett utbud av trÀnade uppgifter inklusive ljudtextning, talöversÀttning och igenkÀnning och mer samtidigt som den generaliserar till en mÀngd otrÀnade förstÄelseuppgifter inklusive talöversÀttning för att extrahera nyckelord och otrÀnade sprÄk. PÄ grund av sin förmÄga kan SALMONN-ramverket ses som nÀsta steg mot att förbÀttra den generiska hörselförmÄgan hos stora sprÄkmodeller.

"En ingenjör till yrket, en författare utantill". Kunal Àr en teknisk skribent med en djup kÀrlek och förstÄelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa omrÄden genom sin engagerande och informativa dokumentation.