Kunstig intelligens

Salmonn: Mot Generic HørselsEvner For Store Språkmodeller

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Hørsel, som innebærer persepsjon og forståelse av generisk auditiv informasjon, er avgjørende for AI-agenter i sanntidsmiljøer. Denne auditiv informasjonen omfatter tre primære lydtyper: musikk, lydhendelser og tale. Nylig har tekstbaserte store språkmodell-rammer (LLM) vist bemerkelsesverdige evner, med menneske-lignende ytelse i et bredt spekter av naturlig språkbehandling (NLP)-oppgaver. I tillegg har instruksjonstuning, en treningsmetode som bruker par av referanse-svar og bruker-forespørsler, blitt populær. Denne tilnærmingen trener store språkmodeller til å følge åpne bruker-instruksjoner mer effektivt. Imidlertid fokuserer nåværende forskning på å forbedre store språkmodeller med evnen til å percipere multimodale innhold.

Fokuserer på det samme, i denne artikkelen, vil vi snakke om SALMONN eller Speech Audio Language Music Open Neural Network, en state of the art åpen tale-lyd-språk-musikk neuralt nettverk bygget ved å inkorporere tale- og lyd-encodere med en forhånds-trent tekstbasert stor språkmodell inn i en enkelt audio-tekst multimodal modell. SALMONN-modellen gjør det mulig for Store Språkmodeller å forstå og prosessere generiske lyd-inndata direkte, og levere konkurrerende ytelse på et bredt spekter av lyd- og tale-oppgaver som brukes i treningsfasen, inkludert auditiv informasjon-basert spørsmål-svar, tale-gjenkjenning og oversettelse, tale-verifikasjon, emosjon-gjenkjenning, lyd- og musikk-tekst, og mye mer. Vi vil dykke dyptere inn i SALMONN-rammen, og utforske dens funksjon, arkitektur og resultater over et bredt spekter av NLP-oppgaver. Så la oss begynne.

SALMONN : En Innføring I Enkelt Audio-tekst Multimodal Store Språkmodeller

SALMONN står for Speech Audio Language Music Open Neural Network, og det er en enkelt audio-tekst multimodal stor språkmodell-ramme i stand til å percipere og forstå tre grunnleggende lyd- eller lydtyper, inkludert tale, lydhendelser og musikk. SALMONN-modellen gjør det mulig for Store Språkmodeller å forstå og prosessere generiske lyd-inndata direkte, og levere konkurrerende ytelse på et bredt spekter av lyd- og tale-oppgaver.

For å forbedre ytelsen på både tale- og ikke-tale lyd-oppgaver, bruker SALMONN-rammen en dobbel encoder-struktur bestående av en BEATs lyd-encoder og en tale-encoder hentet fra Whisper tale-modellen. I tillegg bruker SALMONN-rammen også en vindu-nivå Q-Former eller spørsmål-Transformer som en koblingsmodul for å effektivt konvertere en utgangssekvens av variabel lengde encoder til forbedrede lyd-tekst-token av en variabel mengde, og til slutt oppnå høy tidsoppløsning for audio-tekst-justering. Den LoRA eller Low Rank Adaptation-tilnærmingen brukes som en kryss-modus adapter til Vicuna-rammen for å justere utgangsrommet med det forbedrede inngangsrommet i et forsøk på å ytterligere forbedre ytelsen. I SALMONN-rammen, evnen til å utføre kryss-modus-oppgaver som ikke er sett under treningsfasen, som går tapt under instruksjonstreningsfasen, som kryss-modus-emergente evner, som er den primære grunnen til at SALMONN-rammen implementerer en ekstra few-shot-aktiveringsfase for å gjenopprette LLM-rammens generelle emergente evner.

Videre, gjør rammen bruk av et bredt spekter av lydhendelser, musikk-benchmark og tale-benchmark for å evaluere dens kognitive hørsels-evner, og deler benchmarkene i tre nivåer. På det første benchmark-nivået, trener rammen åtte oppgaver i instruksjonstreningsfasen, inkludert oversettelse, lyd-tekst og tale-gjenkjenning. De to andre benchmark-nivåene er u-trente oppgaver, og det andre nivået består av fem tale-baserte NLP-oppgaver som inkluderer nøkkelord-ekstraksjon og oversettelse til u-trente språk som avhenger av høykvalitets multilinguale justeringer mellom tekst- og tale-token. Den siste nivået oppgaver forsøker å forstå tale- og ikke-tale auditiv informasjon for tale-lyd-sam-reasoning og lyd-basert fortelling.

For å summere det opp, er SALMONN-rammen

Den første multimodale store språkmodellen i stand til å forstå og percipere generiske lyd-inndata, inkludert lydhendelser, tale og musikk, til maksimum av dens evne.
Et forsøk på å analysere kryss-modus-emergente evner som tilbys ved å implementere LoRA-skaleringsfaktoren, og bruke en ekstra budsjett-vennlig aktiveringsfase under treningsfasen for å aktivere kryss-modus-emergente evner i rammen.

SALMONN : Arkitektur Og Metodologi

I denne seksjonen, vil vi se på arkitekturen, treningsmetoden og eksperimentelle oppsettet for SALMONN-rammen.

Modell-Arkitektur

Ved kjernen av dens arkitektur, synkroniserer og kombinerer SALMONN-rammen utgangene fra to auditiv-encodere, og implementerer en Q-Former på ramme-nivå som en koblingsmodul. Utgangssekvensen generert av Q-Formeren kombineres med tekst-instruksjons-forespørsler og det blir deretter gitt som inndata til LoRA-tilpasnings-tilnærmingen for å generere det nødvendige svaret.

Auditiv-Encodere

SALMONN-rammen bruker to auditiv-encodere: en ikke-tale BEATs lyd-encoder og en tale-encoder hentet fra OpenAI sin Whisper-ramme. BEATs lyd-encoder er trent for å bruke den selv-overvåkede iterative lærings-tilnærmingen i et forsøk på å trekke ut ikke-tale høy-nivå lyd-semantikk, mens tale-encoderen er trent på en stor mengde svak-trent data for tale-gjenkjenning og tale-oversettelse-oppgaver med utgangs-egenskapene til encoderen som inkluderer bakgrunns-støy og tale-informasjon. Modellen tokeniserer først inngangs-lyden, og følger det opp med å maskere og forutsi det i treningsfasen. De resulterende auditiv-egenskapene til disse to encoderne komplementerer hverandre, og er egnet for både tale- og ikke-tale informasjon.

Vindu-Nivå Q-Former

Å implementere Q-Former-strukturen er en vanlig tilnærming brukt i LLM-rammene for å konvertere utgangen av en bilde-encoder til tekst-inndata-token, og noen modifikasjoner er nødvendige når det gjelder lyd-token av variabel lengde. For å være mer spesifik, regner rammen utgangen av inngangs-bildet som en konkatenering av encoder-utgangssekvensen, og Q-Formeren deployer en fast mengde trening-forespørsler for å transformere encoder-utgangssekvensen til tekst-token ved hjelp av stablede Q-Former-blokker. En stablet Q-Former-blokk ligner en Transformer-dekoder-blokk med unntakene være fjerning av kausale masker i selv-oppmerksomhets-lagene, og bruk av en fast mengde trening-forespørsler i de første blokkene.

LoRA Og LLM

SALMONN-rammen deployer også en Vicuna LLM som er en LLaMA stor språkmodell-ramme fin-justert for å følge instruksjoner mer nøyaktig og effektivt. LoRA-rammen er en vanlig metode brukt for parameter-effektiv fin-justering, og dens inklusjon i SALMONN-rammen til å verdsette vekt-matriser og tilpasse spørsmålet i selv-oppmerksomhets-lagene.

Treningsmetode

SALMONN-rammen bruker en tre-stegs kryss-modus-trenings-tilnærming. Treningsfasen består av en forhånds-treningsfase og en instruksjonstreningsfase som er inkludert i de fleste visuelle LLM-rammer, og en ekstra budsjett-vennlig aktiveringsfase er implementert for å løse over-justerings-problemer møtt under lyd-tekst og tale-gjenkjenning-oppgaver.

Forhånds-Treningsfase

For å begrense gapet observert mellom forhånds-trente parametre, inkludert encodere og LLM, og tilfeldig initialiserte parametre, inkludert adapter og koblings-moduler, bruker SALMONN-rammen en stor mengde lyd-tekst og tale-gjenkjenning-data for å forhånds-trene LoRA- og Q-Former-komponentene. Disse oppgavene inneholder viktig auditiv informasjon om nøkkel-innholdet av lydhendelser, både tale og ikke-tale, og ingen av dem krever kompleks forståelse eller resonnering for å lære justering mellom tekst og auditiv informasjon.

Instruksjon Fine-Justering Fase

Instruksjon fine-justering fasen implementert i SALMONN-rammen ligner den implementert i NLP- og visuelle LLM-rammer ved å bruke en liste av lydhendelser, musikk-oppgaver og tale-hendelser for å fine-justere audio-tekst-instruksjoner. Oppgavene prioriteres basert på deres viktighet over forskjellige tester, inkludert telefon-gjenkjenning, overlappende tale-gjenkjenning og musikk-tekst. Videre, tekst-informasjon parret med audio-data danner grunnlaget for å generere instruksjons-forespørsler.

Oppgave Over-Justering

Selv om kun de to første treningsfasene implementeres, returnerer SALMONN-rammen konkurrerende resultater på instruksjonstrenings-oppgaver, selv om ytelsen ikke er på merket når det gjelder kryss-modus-oppgaver, spesielt på oppgaver som krever kryss-modus-sam-reasoning-evner. Spesifikt, modellen overtredelse av instruksjons-forespørsler som resulterer i generering av irrelevante eller ugyldige svar, og dette fenomenet kalles oppgave over-justering i SALMONN-rammen, og aktiveringsfasen er implementert for å løse disse over-justerings-problemene.

Aktiveringsfase

En effektiv tilnærming for å løse over-justerings-problemer er å regularisere intrinsiske betingede språk-modeller ved hjelp av lengre og mer varierte svar, som fortelling eller auditiv-informasjon-basert spørsmål-svar. Rammen genererer deretter par-trenings-data for slike oppgaver ved hjelp av tekst parret med audio eller tale eller musikk-tekst.

Oppgave-Spesifikasjoner

For å evaluere SALMONN sin null-skots kryss-modus-emergente evner, har utviklerne inkludert 15 tale, lyd og musikk-oppgaver fordelt over tre nivåer.

Nivå 1

På det første nivået, brukes oppgavene for instruksjonstreningsfasen, og derfor er de den enkleste mengden av oppgaver som SALMONN-rammen må utføre.

Nivå 2

Det andre nivået består av u-trente oppgaver, og kompleksitetsnivået er høyere sammenlignet med nivå 1-oppgaver. På nivå 2, er oppgavene NLP-baserte oppgaver, inkludert tale-nøkkelord-ekstraksjon som brukes for å evaluere rammenes nøyaktighet når det gjelder å trekke ut bestemte nøkkelord ved hjelp av tale. Andre oppgaver inkluderer SQQA eller Snakket Spørsmål-basert Spørsmål-svar som evaluerer den vanlige forstand som rammen trekker ut ved hjelp av tale-spørsmål, en SF eller Tale-basert Slot-fylling-oppgave for å evaluere nøyaktigheten av slot-verdier, og til slutt, er det to AST-oppgaver for engelsk-tysk og engelsk-japansk konverteringer.

Nivå 3

Kompleksiteten av oppgavene på nivå 3 er maksimum sammenlignet med de to andre nivåene, og det inkluderer SAC eller Tale-Lyd-Sam-reasoning, og Lyd-basert Fortelling-oppgaver. SAC-oppgaven krever at SALMONN-rammen forstår et spørsmål inkludert i lyd-klippet som mates til modellen, finner støttende bevis ved hjelp av lydhendelser eller musikk i bakgrunnen, og til slutt genererer en passende grunn til å svare på spørsmålet. Lyd-basert fortelling-oppgavene krever at modellen genererer en meningsfull historie basert på auditiv informasjon hentet fra generiske lyd-inndata.

Resultater

Nivå 1 Oppgaver

Følgende tabell demonstrerer resultater på nivå 1-oppgaver, og som det kan observeres, returnerer SALMONN-rammen konkurrerende resultater på nivå 1-oppgaver med eller uten aktiverings-justering.

Nivå 2 Og 3 Oppgaver

Selv om SALMONN-rammen returnerer konkurrerende resultater på nivå 1-oppgaver selv uten fin-justering, kan det samme ikke sies for nivå 2 og nivå 3-oppgaver, da uten aktiverings-justering, lider SALMONN-rammen tungt under over-justering på oppgaver, spesielt på oppgaver som krever kryss-modus-sam-reasoning-evner. Spesifikt, modellen overtredelse av instruksjons-forespørsler som resulterer i generering av irrelevante eller ugyldige svar, og dette fenomenet kalles oppgave over-justering i SALMONN-rammen, og aktiveringsfasen er implementert for å løse disse over-justerings-problemene. Imidlertid, med aktiverings-justering, forbedres resultater betraktelig, og resultater er inkludert i følgende bilde.

LoRA Skaleringsfaktor

LoRA Skaleringsfaktor evaluerer innflytelsen av å bruke tid-test-discounting av LoRA skaleringsfaktoren for å minimere over-justerings-problemer på oppgaver. Som det kan observeres i følgende figur, en reduksjon i LoRA skaleringsfaktoren til 2,0 hever kryss-modus-reasoning-evnen til SALMONN-rammen på ASR og PR-oppgaver, SQQA-oppgaver, Fortelling-oppgaver og SAC-oppgaver.

Evaluering Av Oppgave-Over-Justering

For å understreke aktiverings-justering, analyserer SALMONN-rammen endringene i forvirring under de tre treningsfasene, og som det kan sees i følgende bilde, forvirrings-endringer for AAC og ASR-oppgaver har små sluttværdier etter den første treningsfasen, indikerer modellens læring av kryss-modus-justeringer.

Videre, forvirringen av PR-oppgaven daler også etter instruksjonstreningsfasen på grunn av dens avhengighet av LoRA-komponenten for å lære utgangs-token. Det er også observert at selv om instruksjonstreningsfasen hjelper med å redusere forvirringen på Fortelling og SAC-oppgaver, er gapet fortsatt stort nok til å utføre oppgavene suksessfullt med mindre en ekstra aktiveringsfase er lagt til eller LoRA-komponenten er fjernet.

Aktiverings-Justering

SALMONN-rammen dykker ned i forskjellige aktiverings-metoder, inkludert å trene modellen på tekst-basert QA-oppgave-par med lange svar, eller å bruke lyd-basert lange skrevne historier, mens å bruke lange tale-transkripsjoner for ASR-oppgaver. Begge Q-Former- og LoRA-komponentene er fin-justert ved hjelp av disse tre metodene. Videre, ignorerer rammen audio- og Q-Former-inndata i et forsøk på å fin-justere LoRA- og Vicuna-komponentene som en adaptiv tekst-basert stor språkmodell, og resultater er demonstrert i følgende bilde, og som det kan sees, kan modellen ikke aktiveres av ASR (trening ASR med lange etiketter), eller Fortelling eller Tekst-basert ved å trene LoRA-komponenten ved hjelp av tekst-forespørsler-inndata.

Slutt Tanker

I denne artikkelen, har vi snakket om SALMONN eller Speech Audio Language Music Open Neural Network, en enkelt audio-tekst multimodal stor språkmodell-ramme i stand til å percipere og forstå tre grunnleggende lyd- eller lydtyper, inkludert tale, lydhendelser og musikk. SALMONN-modellen gjør det mulig for Store Språkmodeller å forstå og prosessere generiske lyd-inndata direkte, og levere konkurrerende ytelse på et bredt spekter av lyd- og tale-oppgaver.

SALMONN-rammen leverer konkurrerende ytelse på et bredt spekter av trenings-oppgaver, inkludert lyd-tekst, tale-oversettelse og -gjenkjenning, og mer, mens den generaliserer til en mengde u-trente forståelses-oppgaver, inkludert tale-oversettelse for nøkkelord-ekstraksjon og u-trente språk. På grunn av dens evner, kan SALMONN-rammen regnes som det neste skrittet mot å forbedre de generiske hørsels-evnene til store språkmodeller.