Artificiell intelligens

AudioSep : Separera allt du beskriver

publicerade

7 månader sedan

Oktober 17, 2023

LASS eller Language-queried Audio Source Separation är det nya paradigmet för CASA eller Computational Auditory Scene Analysis som syftar till att separera ett målljud från en given blandning av ljud med hjälp av en naturlig språkfråga som ger det naturliga men skalbara gränssnittet för digitala ljuduppgifter och applikationer . Även om LASS-ramverken har avancerat avsevärt under de senaste åren när det gäller att uppnå önskad prestanda på specifika ljudkällor som musikinstrument, kan de inte separera målljudet i den öppna domänen.

AudioSep, är en grundläggande modell som syftar till att lösa de nuvarande begränsningarna för LASS-ramverk genom att möjliggöra målljudseparation med hjälp av naturliga språkfrågor. Utvecklarna av AudioSep-ramverket har tränat modellen i stor omfattning på ett brett utbud av storskaliga multimodala datauppsättningar och har utvärderat ramverkets prestanda på ett brett spektrum av ljuduppgifter, inklusive separation av musikinstrument, separation av ljudhändelser och förbättring av talet. bland många andra. Den initiala prestandan för AudioSep uppfyller riktmärkena eftersom den visar imponerande inlärningsförmåga och ger en stark ljudseparationsprestanda.

I den här artikeln kommer vi att ta en djupare dykning i hur AudioSep-ramverket fungerar eftersom vi kommer att utvärdera modellens arkitektur, de datauppsättningar som används för utbildning och utvärdering och de väsentliga begreppen som är involverade i arbetet med AudioSep-modellen. Så låt oss börja med en grundläggande introduktion till CASA-ramverket.

CASA, USS, QSS, LASS Frameworks: The Foundation for AudioSep

CASA eller Computational Auditory Scene Analysis-ramverket är ett ramverk som används av utvecklare för att designa maskinlyssningssystem som har förmågan att uppfatta komplexa ljudmiljöer på ett sätt som liknar hur människor uppfattar ljud med sina hörselsystem. Ljudseparation, med särskilt fokus på målljudseparation, är ett grundläggande forskningsområde inom CASA:s ramverk och syftar till att lösa "cocktailpartyproblem” eller separera verkliga ljudinspelningar från enskilda ljudkällors inspelningar eller filer. Vikten av ljudseparation kan främst tillskrivas dess utbredda tillämpningar inklusive musikkällaseparation, ljudkällaseparation, talförbättring, målljudidentifiering och mycket mer.

Det mesta av arbetet med ljudseparation som gjorts tidigare kretsar huvudsakligen kring separationen av en eller flera ljudkällor som musikseparation eller talseparation. En ny modell som går under namnet USS eller Universal Sound Separation syftar till att separera godtyckliga ljud i verkliga ljudinspelningar. Det är dock en utmanande och restriktiv uppgift att separera varje ljudkälla från en ljudblandning främst på grund av det breda utbudet av olika ljudkällor som finns i världen, vilket är huvudorsaken till att USS-metoden inte är genomförbar för verkliga applikationer som fungerar i realtid.

Ett möjligt alternativ till USS-metoden är QSS eller den frågebaserade ljudseparationsmetoden som syftar till att separera en individuell eller målljudkälla från ljudblandningen baserat på en viss uppsättning frågor. Tack vare detta tillåter QSS-ramverket utvecklare och användare att extrahera de önskade ljudkällorna från blandningen baserat på deras krav, vilket gör QSS-metoden till en mer praktisk lösning för digitala verkliga applikationer som redigering av multimediainnehåll eller ljudredigering.

Dessutom har utvecklare nyligen föreslagit en utvidgning av QSS-ramverket, LASS-ramverket eller språkfrågade ljudkällaseparationsramverket som syftar till att separera godtyckliga ljudkällor från en ljudblandning genom att använda de naturliga språkbeskrivningarna för målljudkällan . Eftersom LASS-ramverket tillåter användare att extrahera målljudkällorna med hjälp av en uppsättning instruktioner för naturligt språk, kan det bli ett kraftfullt verktyg med utbredda applikationer i digitala ljudapplikationer. Jämfört med traditionella audio-förfrågade eller vision-förfrågade metoder ger användning av naturliga språkinstruktioner för ljudseparering en större grad av fördel eftersom det ger flexibilitet och gör inhämtningen av frågeinformation mycket enklare och bekvämare. Jämfört med etikettförfrågebaserade ljudseparationsramverk som använder en fördefinierad uppsättning instruktioner eller frågor, begränsar LASS-ramverket inte antalet inmatningsfrågor och har flexibiliteten att generaliseras för att öppna domänen sömlöst.

Ursprungligen bygger LASS-ramverket på övervakat lärande där modellen tränas på en uppsättning märkta ljud-text-parade data. Men huvudproblemet med detta tillvägagångssätt är den begränsade tillgängligheten av kommenterade och märkta ljudtextdata. För att minska tillförlitligheten hos LASS-ramverket på annoterade ljudtextmärkta data, är modellerna tränade med hjälp av den multimodala handledningsinlärningsmetoden. Det primära syftet med att använda en multimodal övervakningsmetod är att använda multimodala kontrastiva förträningsmodeller som CLIP eller Contrastive Language Image Pre Training-modellen som frågekodare för ramverket. Eftersom CLIP-ramverket har förmågan att anpassa textinbäddningar med andra modaliteter som ljud eller bild, tillåter det utvecklare att träna LASS-modellerna med hjälp av datarika modaliteter och tillåter störning av textdata i en nollbildsmiljö. De nuvarande LASS-ramverken använder dock småskaliga datauppsättningar för utbildning, och tillämpningar av LASS-ramverket över hundratals potentiella domäner har ännu inte utforskats.

För att lösa de nuvarande begränsningarna som LASS-ramverken möter, har utvecklare introducerat AudioSep, en grundmodell som syftar till att separera ljud från en ljudblandning med hjälp av naturliga språkbeskrivningar. Det nuvarande fokuset för AudioSep är att utveckla en förutbildad ljudseparationsmodell som utnyttjar befintliga storskaliga multimodala datauppsättningar för att möjliggöra generalisering av LASS-modeller i applikationer med öppen domän. För att sammanfatta är AudioSep-modellen: "En grundmodell för universell ljudseparation i öppen domän med hjälp av naturliga språkfrågor eller beskrivningar tränade på storskaliga ljud- och multimodala datauppsättningar".

AudioSep : Nyckelkomponenter och arkitektur

AudioSep-ramverkets arkitektur består av två nyckelkomponenter: en textkodare och en separationsmodell.

Textkodaren

AudioSep-ramverket använder en textkodare av CLIP- eller Contrastive Language Image Pre Training-modellen eller CLAP- eller Contrastive Language Audio Pre Training-modellen för att extrahera textinbäddningar i en naturlig språkfråga. Inmatningstextfrågan består av en sekvens av "N”-tokens som sedan bearbetas av textkodaren för att extrahera textinbäddningarna för den givna inmatningsspråksfrågan. Textkodaren använder sig av en stapel transformatorblock för att koda de ingående textsymbolerna, och utdatarepresentationerna aggregeras efter att de har passerat genom transformatorlagren vilket resulterar i utvecklingen av en D-dimensionell vektorrepresentation med fast längd där D motsvarar till dimensionerna för CLAP eller CLIP-modellerna medan textkodaren är fryst under träningsperioden.

CLIP-modellen är förtränad på en storskalig datauppsättning av bild-textparad data med hjälp av kontrastiv inlärning, vilket är den primära anledningen till att dess textkodare lär sig att kartlägga textbeskrivningar på det semantiska utrymmet som också delas av de visuella representationerna. Fördelen som AudioSep vinner genom att använda CLIPs textkodare är att den nu kan skala upp eller träna LASS-modellen från omärkta audiovisuella data med hjälp av visuella inbäddningar som ett alternativ, vilket möjliggör träning av LASS-modeller utan krav på annoterade eller märkta ljud-textdata.

CLAP-modellen fungerar på samma sätt som CLIP-modellen och använder sig av kontrastiva inlärningsmål eftersom den använder en text- och en ljudkodare för att koppla ihop ljud och språk, och på så sätt föra text- och ljudbeskrivningar på ett latent utrymme för ljud-text som sammanfogats.

Separationsmodell

AudioSep-ramverket använder sig av en frekvensdomän ResUNet-modell som matas med en blandning av ljudklipp som separationsryggraden för ramverket. Ramverket fungerar genom att först applicera en STFT eller en Short-Time Fourier Transform på vågformen för att extrahera ett komplext spektrogram, magnitudspektrogrammet och Phase of X. Modellen följer sedan samma inställning och konstruerar ett kodare-avkodarnätverk att bearbeta magnitudspektrogrammet.

ResUNet-kodar-avkodarnätverket består av 6 restblock, 6 avkodarblock och 4 flaskhalsblock. Spektrogrammet i varje kodarblock använder 4 kvarvarande konventionella block för att nedsampla sig själv till en flaskhalsfunktion medan avkodarblocken använder 4 kvarvarande dekonvolutionsblock för att erhålla separationskomponenterna genom uppsampling av egenskaperna. Efter detta upprättar vart och ett av kodarblocken och dess motsvarande avkodarblock en överhoppningsförbindelse som arbetar med samma uppsamplings- eller nedsamplingshastighet. Ramverkets restblock består av 2 Leaky-ReLU-aktiveringslager, 2 batch-normaliseringsskikt och 2 CNN-lager, och dessutom introducerar ramverket också en extra restgenväg som kopplar samman ingången och utgången för varje enskilt restblock. ResUNet-modellen tar det komplexa spektrogrammet X som indata, och producerar magnitudmasken M som utdata med fasresten som betingas av textinbäddningar som styr storleken på skalningen och rotationen av spektrogrammets vinkel. Det separerade komplexa spektrogrammet kan sedan extraheras genom att multiplicera den förutsagda magnitudmasken och fasresten med STFT (Short-Time Fourier Transform) av blandningen.

I sitt ramverk använder AudioSep ett film- eller funktionsmässigt linjärt modulerat lager för att överbrygga separationsmodellen och textkodaren efter utplaceringen av faltningsblocken i ResUNet.

Träning och förlust

Under utbildningen av AudioSep-modellen använder utvecklare metoden loudness augmentation och tränar AudioSep-ramverket från början genom att använda en L1-förlustfunktion mellan marksanningen och förutsagda vågformer.

Datauppsättningar och benchmarks

Som nämnts i tidigare avsnitt är AudioSep en grundmodell som syftar till att lösa LASS-modellernas nuvarande beroende av annoterade ljud-textparade datamängder. AudioSep-modellen är tränad på ett brett utbud av datauppsättningar för att utrusta den med multimodala inlärningsmöjligheter, och här är en detaljerad beskrivning av datauppsättningen och riktmärken som används av utvecklare för att träna AudioSep-ramverket.

AudioSet

AudioSet är en svagt märkt storskalig ljuddataset som består av över 2 miljoner 10-sekunders ljudsnuttar extraherade direkt från YouTube. Varje ljudfragment i AudioSet-datauppsättningen kategoriseras efter frånvaron eller närvaron av ljudklasser utan de specifika timingdetaljerna för ljudhändelserna. Datasetet AudioSet har över 500 distinkta ljudklasser inklusive naturliga ljud, mänskliga ljud, fordonsljud och mycket mer.

VGGSound

VGGSound-datauppsättningen är en storskalig datauppsättning för visuellt ljud som precis som AudioSet har hämtats direkt från YouTube, och den innehåller över 2,00,000 10 300 videoklipp, var och en av dem har en längd på XNUMX sekunder. VGGSound-dataset är kategoriserat i över XNUMX ljudklasser inklusive mänskliga ljud, naturliga ljud, fågelljud och mer. Användningen av VGGSound-datauppsättningen säkerställer att objektet som är ansvarigt för att producera målljudet också kan beskrivas i motsvarande visuella klipp.

AudioCaps

AudioCaps är den största datauppsättningen för ljudtextning som är tillgänglig för allmänheten, och den omfattar över 50,000 10 5-sekunders ljudklipp som extraheras från AudioSets dataset. Datan i AudioCaps är uppdelad i tre kategorier: träningsdata, testdata och valideringsdata, och ljudklippen är mänskligt kommenterade med naturliga språkbeskrivningar med hjälp av Amazon Mechanical Turk-plattformen. Det är värt att notera att varje ljudklipp i träningsdatauppsättningen har en enda bildtext, medan data i test- och valideringsuppsättningarna vardera har XNUMX marktexter.

ClothoV2

ClothoV2 är en datauppsättning för ljudtextning som består av klipp hämtade från FreeSound-plattformen, och precis som AudioCaps är varje ljudklipp mänskligt kommenterat med naturliga språkbeskrivningar med hjälp av Amazon Mechanical Turk-plattformen.

WavCaps

Precis som AudioSet är WavCaps en svagt märkt storskalig ljuddataset som består av över 400,000 7568 ljudklipp med bildtexter och en total körtid på ungefär XNUMX timmars träningsdata. Ljudklippen i WavCaps-datauppsättningen kommer från ett brett utbud av ljudkällor, inklusive BBC Sound Effects, AudioSet, FreeSound, SoundBible och mer.

Utbildningsdetaljer

Under träningsfasen samplar AudioSep-modellen slumpmässigt två ljudsegment hämtade från två olika ljudklipp från träningsdatauppsättningen och blandar dem sedan ihop för att skapa en träningsblandning där längden på varje ljudsegment är cirka 5 sekunder. Modellen extraherar sedan det komplexa spektrogrammet från vågformssignalen med hjälp av ett Hann-fönster med storleken 1024 med en storlek på 320 hopp.

Modellen använder sedan textkodaren för CLIP/CLAP-modellerna för att extrahera textinbäddningarna med textövervakning som standardkonfiguration för AudioSep. För separationsmodellen använder AudioSep-ramverket ett ResUNet-lager bestående av 30 lager, 6 kodarblock och 6 avkodarblock som liknar arkitekturen som följs i det universella ljudseparationsramverket. Dessutom har varje kodarblock två faltningslager med en 3×3 kärnstorlek, varvid antalet utdatakartor för kodarblock är 32, 64, 128, 256, 512 respektive 1024. Avkodarblocken delar symmetri med kodarblocken, och utvecklarna använder Adam-optimeraren för att träna AudioSep-modellen med en batchstorlek på 96.

Utvärderingsresultat

På sett datauppsättningar

Följande figur jämför prestandan för AudioSep-ramverket på sett datauppsättningar under träningsfasen inklusive träningsdatauppsättningarna. Bilden nedan representerar benchmark-utvärderingsresultaten för AudioSep-ramverket jämfört med baslinjesystem inklusive tal Förbättringsmodeller, LASS och CLIP. AudioSep-modellen med CLIP-textkodare representeras som AudioSep-CLIP, medan AudioSep-modellen med CLAP-textkodare representeras som AudioSep-CLAP.

Som det kan ses i figuren presterar AudioSep-ramverket bra när man använder ljudtexter eller textetiketter som inmatningsfrågor, och resultaten indikerar den överlägsna prestandan för AudioSep-ramverket jämfört med tidigare benchmark LASS och ljudseparerade ljudseparationsmodeller.

På osynliga datamängder

För att bedöma prestandan för AudioSep i en nollbildsmiljö fortsatte utvecklarna att utvärdera prestandan på osynliga datauppsättningar, och AudioSep-ramverket levererar imponerande separationsprestanda i en nollbildsmiljö, och resultaten visas i figuren nedan.

Dessutom visar bilden nedan resultaten av att utvärdera AudioSep-modellen mot Voicebank-Demand-talförbättring.

Utvärderingen av AudioSep-ramverket indikerar en stark och önskad prestanda på osynliga datauppsättningar i en noll-shot-inställning, och gör därmed plats för att utföra ljudoperationsuppgifter på nya datadistributioner.

Visualisering av separationsresultat

Bilden nedan visar resultaten som erhölls när utvecklarna använde AudioSep-CLAP-ramverket för att utföra visualiseringar av spektrogram för målljudkällor från marken, och ljudblandningar och separerade ljudkällor med hjälp av textfrågor av olika ljud eller ljud. Resultaten gjorde det möjligt för utvecklare att observera att spektrogrammets separerade källmönster ligger nära källan till grundsanningen som ytterligare stödjer de objektiva resultaten som erhölls under experimenten.

Jämförelse av textfrågor

Utvecklarna utvärderar prestandan för AudioSep-CLAP och AudioSep-CLIP på AudioCaps Mini, och utvecklarna använder AudioSet-händelseetiketterna, AudioCaps-texterna och återkommenterade beskrivningar av naturligt språk för att undersöka effekterna av olika frågor, och följande figuren visar ett exempel på AudioCaps Mini i aktion.

Slutsats

AudioSep är en grundmodell som är utvecklad med syftet att vara ett universellt ljudseparationsramverk med öppen domän som använder naturliga språkbeskrivningar för ljudseparering. Som observerades under utvärderingen kan AudioSep-ramverket utföra noll-shot och oövervakad inlärning sömlöst genom att använda ljudtexter eller textetiketter som frågor. Resultaten och utvärderingsprestandan för AudioSep indikerar en stark prestanda som överträffar nuvarande ljudseparationsramverk som LASS, och det kan vara tillräckligt kapabelt för att lösa de nuvarande begränsningarna hos populära ljudseparationsramverk.

Relaterade ämnen:audio audiosep APPLÅDERA KLÄMMA

Strax

AutoGen: Drivs av nästa generations stora språkmodellapplikationer

Missa inte

Att överbrygga stora språkmodeller och affärer: LLMops

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.

Unite.AI

AudioSep : Separera allt du beskriver

Artificiell intelligens

AudioSep : Separera allt du beskriver

Innehållsförteckning

CASA, USS, QSS, LASS Frameworks: The Foundation for AudioSep