Kunstig intelligens

Salmonn: Mod til generiske høreevner for store sprogmodeller

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Hørelse, der indebærer perception og forståelse af generisk auditiv information, er afgørende for AI-agenter i virkelige miljøer. Denne auditiv information omfatter tre primære lydtyper: musik, lydevents og tale. Nyligt har tekstbaserede store sprogmodeller (LLM) vist bemærkelsesværdige evner, opnået menneskeagtig præstation på en bred vifte af naturligsproglige behandlingstasks. Derudover er instruktionsafstemning, en træningsmetode, der bruger par af referencebesvarelser og brugerprompts, blevet populær. Denne tilgang træner store sprogmodeller til mere effektivt at følge åbne brugerinstruktioner. Imidlertid er nuværende forskning mere og mere fokuseret på at forbedre store sprogmodeller med evnen til at percipere multimodal indhold.

Fokuserer på det samme, i denne artikel, vil vi tale om SALMONN eller Speech Audio Language Music Open Neural Network, en state of the art åben tale-lyd-sprog-musik neuralt netværk bygget ved at inkorporere tale- og lyd-encodere med en pre-trænet tekstbaseret stor sprogmodel i en enkelt audio-tekst multimodal model. SALMONN-modellen giver store sprogmodeller mulighed for at forstå og behandle generiske lydindgange direkte og leverer konkurrencedygtig præstation på en bred vifte af lyd- og taleopgaver, der bruges i træning, herunder lydinformation-baseret spørgsmålbesvarelse, talegenkendelse og oversættelse, taleverifikation, følelsesgenkendelse, lyd- og musikbeskrivelse og meget mere. Vi vil dykke dybere i SALMONN-rammen og udforske dens virke, arkitektur og resultater på en bred vifte af naturligsproglige behandlingstasks. Så lad os komme i gang.

SALMONN : En introduktion til enkelt audio-tekst multimodale store sprogmodeller

SALMONN står for Speech Audio Language Music Open Neural Network, og det er en enkelt audio-tekst multimodal stor sprogmodelramme, der kan percipere og forstå tre grundlæggende lyd- eller lydtyper, herunder tale, lydevents og musik. SALMONN-modellen giver store sprogmodeller mulighed for at forstå og behandle generiske lydindgange direkte og leverer konkurrencedygtig præstation på en bred vifte af lyd- og taleopgaver.

For at forbedre sin præstation på både tale- og ikke-tale lydopgaver, bruger SALMONN-rammen en dual encoder-struktur, der består af en BEATs lyd-encoder og en tale-encoder fra Whisper tale-modellen. Derudover bruger SALMONN-rammen også en vindue-niveau Q-Former eller forespørgselstransformer som en forbindelsesmodul til at effektivt konvertere en outputsekvens af variabel længde encoder til forstærkede lydtokens af en variabel antal, og ultimativt opnå høj tidsmæssig opløsning for audio-tekst-alignment. Den LoRA eller Low Rank Adaptation-tilgang bruges som en cross-modal adapter til Vicuna-rammen til at alignere dens output-rum med dens forstærkede input-rum i et forsøg på at yderligere forbedre dens præstation. I SALMONN-rammen, evnen til at udføre cross-modale opgaver, der ikke er set under træningsfasen, tabes under træning af instruktioner som cross-modale emergente evner, og det er derfor, at SALMONN-rammen implementerer en ekstra few-shot aktiveringsstage for at genskabe LLM-rammens generelle emergente evner.

Derudover bruger rammen en bred vifte af lydevents, musikbenchmarks og talebenchmarks til at evaluere dens kognitive høreevner og dividerer benchmarks i tre niveauer. På det første benchmarkniveau træner rammen otte opgaver i instruktions-træning, herunder oversættelse, lydbeskrivelse og talegenkendelse. De to andre benchmarkniveauer er ube-trænede opgaver, og det andet niveau består af fem talebaserede naturligsproglige behandlingstasks, herunder slot-fyldning og oversættelse til ube-trænede sprog, der afhænger af højkvalitets multilinguale alignment mellem tekst- og tale-tokens. Det sidste niveau opgaver forsøger at forstå tale- og ikke-tale auditiv information til tale-lyd-co-reasoning og lydbaseret fortælling.

For at samme det op, er SALMONN-rammen

Den første multimodale store sprogmodel, der kan forstå og percipere generiske lydindgange, herunder lydevents, tale og musik, til det maksimale af dens evne.
Et forsøg på at analysere cross-modale emergente evner, der tilbydes ved at implementere LoRA-skala-faktoren og bruge en ekstra budget-venlig aktiveringsstage under træning til at aktivere cross-modale emergente evner i rammen.

SALMONN : Arkitektur og Metodik

I dette afsnit, vil vi have et kig på arkitekturen, træningsmetoden og eksperimentelle opsætning for SALMONN-rammen.

Model Arkitektur

I kernen af sin arkitektur, synkroniserer og kombinerer SALMONN-rammen output fra to auditiv-encodere, og derefter implementerer rammen en Q-Former på vindue-niveau som en forbindelsesmodul. Output-sekvensen genereret af Q-Former bliver kombineret med tekst-instruktionsprompts, og det bliver derefter givet som input til LoRA-tilpasnings-tilgangen til at generere den nødvendige respons.

Auditiv Encodere

SALMONN-rammen bruger to auditiv-encodere: en ikke-tale BEATs lyd-encoder og en tale-encoder fra OpenAI’s Whisper-ramme. BEATs lyd-encoder er trænet til at bruge selv-superviseret iterativ læring-tilgang i et forsøg på at trække ikke-tale høj-niveau lyd-semantik, mens tale-encoder er trænet på en stor mængde svagt-superviseret data til tale-genkendelse og tale-oversættelse-opgaver, og output-funktionerne af encoderen er egnet til at inkludere baggrunds-støj og tale-information. Modellen tokeniserer først input-lyden og følger det op med at maskere og forudsige det i træning. De resulterende auditiv-funktioner af disse to encodere komplementerer hinanden og er egnet til både tale- og ikke-tale information.

Vindue-Niveau Q-Former

Implementering af Q-Former-struktur er en almindelig tilgang, der bruges i LLM-rammer til at konvertere output af en billed-encoder til tekstuelle input-tokens, og nogen modifikation er nødvendig, når man har med lyd-tokens af variabel længde at gøre. For at være mere specifik, regner rammen encoder-output af input-billedet som en konkateneret encoder-output-sekvens, og Q-Former deployer en fast antal trænede forespørgsler til at transformere encoder-output-sekvensen til tekstuelle tokens ved hjælp af stablede Q-Former-blokke. En stablet Q-Former-blok ligner en Transformer-decoder-blok med undtagelsen af, at man fjerner casual-masks i selv-opmærksomheds-lagene og bruger en fast antal trænede statiske forespørgsler i de første blokke.

LoRA og LLM

SALMONN-rammen deployer også en Vicuna LLM, der er en LLaMA stor sprogmodel-ramme, der er fin-justeret til at følge instruktioner mere nøjagtigt og effektivt. LoRA-rammen er en almindelig metode, der bruges til parameter-effektiv fin-justering, og dens inklusion i SALMONN-rammen til at værdsætte vægt-matricer og tilpasse forespørgslen i selv-opmærksomheds-lagene.

Træningsmetode

SALMONN-rammen bruger en tre-stages cross-modale trænings-tilgang. Trænings-stadiet består af en pre-trænings-stadium og en instruktions-afstemnings-stadium, der er inkluderet i de fleste visuelle LLM-rammer, og en ekstra aktiverings-stadium implementeres for at løse over-tilpasnings-problemer, der opstår under lyd-beskrivelse og tale-genkendelse-opgaver.

Pre-Trænings-Stadium

For at begrænse gapet observeret mellem pre-trænede parametre, herunder encodere og LLM, og tilfældigt initialiserede parametre, herunder adapter og forbindelses-moduler, bruger SALMONN-rammen en stor mængde lyd-beskrivelse og tale-genkendelse-data til at pre-træne LoRA- og Q-Former-komponenterne. Disse opgaver indeholder vital auditiv information om de vigtigste indhold af lydevents, både tale og ikke-tale, og ingen af dem kræver kompleks forståelse eller resonnering for at lære alignment mellem tekstuelle og auditiv information.

Instruktions-Fine-Justering-Stadium

Instruktions-fine-justering-stadiet, der er implementeret i SALMONN-rammen, ligner det, der er implementeret i NLP- og visuelle LLM-rammer, ved at bruge en liste af lydevents, musik-opgaver og tale-opgaver til at fine-justere audio-tekst-instruktioner. Opgaverne prioriteres på baggrund af deres vigtighed på tværs af forskellige tests, herunder telefon-genkendelse, overlappende tale-genkendelse og musik-beskrivelse. Derudover danner tekstuelle informationer, der er parret med lyd-data, grundlag for at generere instruktions-prompts.

Opgave-Over-Tilpasning

Selv når kun de første to trænings-stadier implementeres, returnerer SALMONN-rammen konkurrencedygtige resultater på instruktions-afstemnings-opgaver, selv om præstationen ikke er op til mærket, når det gælder cross-modale opgaver, især på opgaver, der kræver cross-modale co-reasoning-evner. Specifikt, modellen krænker af og til instruktions-prompts, der resulterer i generering af irrelevante eller forkerte responser, og dette fænomen kaldes opgave-over-tilpasning i SALMONN-rammen, og aktiverings-stadiet implementeres for at løse disse over-tilpasnings-problemer.

Aktiverings-Stadium

En effektiv tilgang til at løse over-tilpasnings-problemer er at regulere intrinsiske betingede sprogmodeller ved hjælp af længere og mere diverse responser, som f.eks. storytelling eller auditiv-information-baseret spørgsmålbesvarelse. Rammen genererer derefter par-træningsdata for sådanne opgaver ved hjælp af tekst, der er parret med lyd eller tale eller musik-beskrivelse.

Opgave-Specifikationer

For at evaluere SALMONN’s zero-shot cross-modale emergente evner, har udviklerne inkluderet 15 tale-, lyd- og musik-opgaver, der er fordelt på tre niveauer.

Niveau 1

På det første niveau, bruges opgaverne til instruktions-afstemning, og derfor er de den letteste sæt af opgaver, som SALMONN-rammen har at udføre.

Niveau 2

Det andet niveau består af ube-trænede opgaver, og kompleksitetsniveauet er højere, når det sammenlignes med niveau 1-opgaver. På niveau 2, er opgaverne naturligsproglige behandlingstasks, herunder tale-nøgleord-ekstraktion, der bruges til at evaluere rammenes nøjagtighed, når det gælder at ekstrahere bestemte nøgleord ved hjælp af tale. Andre opgaver inkluderer SQQA eller Spoken Query-baseret Spørgsmålbesvarelse, der evaluerer den almindelige viden, rammen ekstraherer ved hjælp af tale-spørgsmål, en SF eller tale-baseret Slot-Fyldning-opgave til at evaluere nøjagtigheden af slot-værdier, og endelig, er der to AST-opgaver for engelsk til tysk og engelsk til japansk konvertering.

Niveau 3

Kompleksiteten af opgaver på niveau 3 er den maksimale, når det sammenlignes med de to andre niveauer, og det inkluderer SAC eller Tale-Lyd-Co-Reasoning og Lyd-baseret Storytelling-opgaver. SAC-opgaven kræver, at SALMONN-rammen forstår et spørgsmål, der er inkluderet i lyd-klippet, der er fødet til modellen, finder støttende bevis ved hjælp af lydevents eller musik i baggrunden og derefter genererer en passende grund til at besvare spørgsmålet. Lyd-baseret Storytelling-opgaver kræver, at modellen genererer en meningsfuld historie baseret på den auditiv information, der stammer fra generiske lydindgange.

Resultater

Niveau 1 Opgaver

Følgende tabel demonstrerer resultaterne på niveau 1 opgaver, og som det kan ses, returnerer SALMONN-rammen konkurrencedygtige resultater på niveau 1 opgaver med eller uden aktiverings-tilpasning.

Niveau 2 og 3 Opgaver

Selv om SALMONN-rammen returnerer konkurrencedygtige resultater på niveau 1 opgaver, selv uden fine-justering, kan det samme ikke siges for niveau 2 og 3 opgaver, da rammen lider under over-tilpasning på opgaver, især på opgaver, der kræver cross-modale co-reasoning-evner. Specifikt, modellen krænker af og til instruktions-prompts, der resulterer i generering af irrelevante eller forkerte responser, og dette fænomen kaldes opgave-over-tilpasning i SALMONN-rammen, og aktiverings-stadiet implementeres for at løse disse over-tilpasnings-problemer. Imidlertid, med aktiverings-tilpasning, forbedres resultaterne betydeligt, og resultaterne er inkluderet i følgende billed.

LoRA Skala-Faktor

LoRA Skala-Faktor evaluerer indflydelsen af at bruge tid-test-discountring af LoRA-skala-faktoren til at minimere over-tilpasnings-problemer på opgaver. Som det kan ses i følgende figur, en reduktion af LoRA-skala-faktoren til 2,0 forbedrer cross-modale resonans-evnerne i SALMONN-rammen på ASR og PR-opgaver, SQQA-opgaver, Storytelling-opgaver og SAC-opgaver.

Evaluering af Opgave-Over-Tilpasning

For at understrege aktiverings-tilpasning, analyserer SALMONN-rammen ændringerne i forvirring under de tre trænings-stadier, og som det kan ses i følgende billed, ændringerne i forvirring for AAC og ASR-opgaver har små slutværdier efter det første trænings-stadium, hvilket indikerer modellens læring af cross-modale alignment.

Derudover, forvirringen for PR-opgaven falder også efter instruktions-afstemning på grund af dens afhængighed af LoRA-komponenten til at lære output-tokens. Det er også observeret, at selv om instruktions-afstemning hjælper med at reducere forvirringen på Storytelling og SAC-opgaver, er gapet stadig stort nok til at udføre opgaverne succesfuldt, medmindre en ekstra aktiverings-stadium tilføjes eller LoRA-komponenten fjernes.

Aktiverings-Tilpasning

SALMONN-rammen dykker dybere i forskellige aktiverings-metoder, herunder træning af modellen på tekst-baseret QA-opgave-par med lange svar, eller brug af lyd-baseret lange skrevne historier, mens brug af lange tale-transkriptioner til ASR-opgaver. Begge Q-Former- og LoRA-komponenterne justeres ved hjælp af disse tre metoder. Derudover, ignorerer rammen lyd- og Q-Former-input i et forsøg på at justere LoRA- og Vicuna-komponenterne som en adaptiv tekst-baseret stor sprogmodel, og resultaterne er demonstreret i følgende billed, og som det kan ses, kan modellen ikke aktiveres af ASR (træning ASR med lange mærker), eller Story eller Tekst-baseret ved at træne LoRA-komponenten ved hjælp af tekst-prompts.

Endelige Tanker

I denne artikel, har vi talt om SALMONN eller Speech Audio Language Music Open Neural Network, en enkelt audio-tekst multimodal stor sprogmodel-ramme, der kan percipere og forstå tre grundlæggende lyd- eller lydtyper, herunder tale, lydevents og musik. SALMONN-modellen giver store sprogmodeller mulighed for at forstå og behandle generiske lydindgange direkte og leverer konkurrencedygtig præstation på en bred vifte af lyd- og taleopgaver.

SALMONN-rammen leverer konkurrencedygtig præstation på en bred vifte af trænede opgaver, herunder lyd-beskrivelse, tale-oversættelse og -genkendelse og mere, mens den generaliserer til en række ube-trænede forståelsesopgaver, herunder tale-oversættelse til nøgleord-ekstraktion og ube-trænede sprog. På grund af dens evner, kan SALMONN-rammen betragtes som det næste skridt mod at forbedre de generiske høreevner for store sprogmodeller.