tynkä AudioSep : Erota kaikki kuvailemasi - Unite.AI
Liity verkostomme!

Tekoäly

AudioSep: Erota kaikki kuvailemasi

mm

Julkaistu

 on

LASS tai kielikyselyinen äänilähteiden erottelu on CASA- tai laskennallisen kuulokohtauksen analyysin uusi paradigma, jonka tarkoituksena on erottaa kohdeääni tietystä äänen sekoituksesta käyttämällä luonnollisen kielen kyselyä, joka tarjoaa luonnollisen mutta skaalautuvan käyttöliittymän digitaalisiin äänitehtäviin ja sovelluksiin. . Vaikka LASS-kehykset ovat kehittyneet merkittävästi viime vuosina halutun suorituskyvyn saavuttamisessa tietyissä äänilähteissä, kuten musiikki-instrumenteissa, ne eivät pysty erottamaan kohdeääntä avoimessa toimialueessa. 

AudioSep, on perusmalli, jonka tarkoituksena on ratkaista LASS-kehysten nykyiset rajoitukset mahdollistamalla kohdeäänen erottelu luonnollisen kielen kyselyillä. AudioSep-kehyksen kehittäjät ovat kouluttaneet mallia laajasti monenlaisissa laajamittaisissa multimodaalisissa tietojoukoissa ja arvioineet viitekehyksen suorituskykyä useissa eri äänitehtävissä, mukaan lukien soittimien erottelu, äänitapahtumien erottaminen ja puheen parantaminen. monien muiden joukossa. AudioSepin alkusuorituskyky täyttää vertailuarvot, koska se osoittaa vaikuttavat nolla-shot-oppimisominaisuudet ja tarjoaa vahvan äänen erottelukyvyn. 

Tässä artikkelissa sukeltamme syvemmälle AudioSep-kehyksen toimintaan, kun arvioimme mallin arkkitehtuuria, koulutukseen ja arviointiin käytettyjä tietojoukkoja sekä AudioSep-mallin toimintaan liittyviä olennaisia ​​käsitteitä. Aloitetaan siis CASA-kehyksen perusesittelystä. 

CASA, USS, QSS, LASS Frameworks: The Foundation for AudioSep

CASA tai Computational Auditory Scene Analysis -kehys on kehys, jota kehittäjät käyttävät suunnitellakseen konekuuntelujärjestelmiä, jotka pystyvät havaitsemaan monimutkaisia ​​ääniympäristöjä samalla tavalla kuin ihmiset havaitsevat äänen kuulojärjestelmiään käyttämällä. Äänenerotus, joka keskittyy erityisesti kohteen äänen erotteluun, on perustutkimusalue CASA:n puitteissa, ja sen tavoitteena on ratkaista "cocktailjuhlien ongelma” tai erottamalla todelliset äänitallenteet yksittäisistä äänilähteistä tai tiedostoista. Äänen erottamisen tärkeys johtuu pääasiassa sen laajalle levinneistä sovelluksista, mukaan lukien musiikin lähteiden erottaminen, äänilähteiden erottelu, puheen tehostaminen, kohteen äänen tunnistaminen ja paljon muuta. 

Suurin osa aiemmin tehdystä äänen erottelutyöstä keskittyy pääasiassa yhden tai useamman äänilähteen, kuten musiikin tai puheen erottamisen, erottamiseen. Uusi malli, joka tunnetaan nimellä USS tai Universal Sound Separation, pyrkii erottamaan mielivaltaiset äänet todellisen maailman äänitallenteissa. Jokaisen äänilähteen erottaminen audiosekoituksesta on kuitenkin haastava ja rajoittava tehtävä ensisijaisesti siksi, että maailmassa on laaja valikoima erilaisia ​​äänilähteitä, mikä on suurin syy siihen, miksi USS-menetelmä ei ole toteutettavissa todellisissa sovelluksissa. oikeassa ajassa. 

Yksi toteuttamiskelpoinen vaihtoehto USS-menetelmälle on QSS tai kyselypohjainen äänenerottelumenetelmä, jonka tarkoituksena on erottaa yksittäinen tai kohdeäänilähde äänisekoituksesta tietyn kyselyjoukon perusteella. Tämän ansiosta QSS-kehys antaa kehittäjille ja käyttäjille mahdollisuuden poimia haluttuja äänilähteitä seoksesta omien vaatimustensa perusteella, mikä tekee QSS-menetelmästä käytännöllisemmän ratkaisun digitaalisiin tosielämän sovelluksiin, kuten multimediasisällön editointiin tai äänen editointiin. 

Lisäksi kehittäjät ovat äskettäin ehdottaneet QSS-kehyksen, LASS-kehyksen tai Language-queried Audio Source Separation -kehyksen laajennusta, jonka tarkoituksena on erottaa mielivaltaiset äänilähteet äänisekoituksesta käyttämällä kohdeäänilähteen luonnollisen kielen kuvauksia. . Koska LASS-kehyksen avulla käyttäjät voivat poimia kohdeäänilähteitä käyttämällä luonnollisen kielen ohjeita, siitä voi tulla tehokas työkalu laajalle levinneille sovelluksille digitaalisissa äänisovelluksissa. Verrattuna perinteisiin ääni- tai näkökyselymenetelmiin, luonnollisen kielen ohjeiden käyttäminen äänen erottelussa tarjoaa suuremman edun, koska se lisää joustavuutta ja tekee kyselytietojen hankkimisesta paljon helpompaa ja kätevämpää. Lisäksi, kun verrataan etikettikyselyyn perustuviin äänen erottelukehyksiin, jotka käyttävät ennalta määritettyä käsky- tai kyselyjoukkoa, LASS-kehys ei rajoita syöttökyselyiden määrää, ja se on joustavuus yleistettävissä avatakseen toimialueen saumattomasti. 

Alun perin LASS-kehys perustuu ohjattuun oppimiseen, jossa mallia koulutetaan joukolla merkittyjä ääniteksti-paritietoja. Tämän lähestymistavan pääasiallinen ongelma on kuitenkin selostettujen ja merkittyjen äänitekstidatan rajallinen saatavuus. LASS-kehyksen luotettavuuden vähentämiseksi huomautuksilla äänitekstimerkityt tiedot, mallit koulutetaan käyttämällä multimodaalista ohjauksen oppimista. Ensisijainen tavoite multimodaalisen valvontamenetelmän käytön takana on käyttää multimodaalisia kontrastiivisia esikoulutusmalleja, kuten CLIP- tai Contrastive Language Image Pre Training -mallia, viitekehyksen kyselykooderina. Koska CLIP-kehys pystyy kohdistamaan tekstin upotukset muihin modaliteeteihin, kuten äänen tai näkemiseen, sen avulla kehittäjät voivat kouluttaa LASS-malleja käyttämällä runsaasti dataa ja mahdollistaa tekstitietojen häiriön nolla-asetuksella. Nykyiset LASS-kehykset käyttävät kuitenkin pienimuotoisia tietojoukkoja koulutukseen, ja LASS-kehyksen sovelluksia sadoille mahdollisille aloille ei ole vielä tutkittu. 

LASS-kehysten nykyisten rajoitusten ratkaisemiseksi kehittäjät ovat ottaneet käyttöön AudioSepin, perusmallin, jonka tarkoituksena on erottaa ääni äänisekoituksesta käyttämällä luonnollisen kielen kuvauksia. Nykyinen AudioSepin painopiste on kehittää valmiiksi koulutettu äänenerottelumalli, joka hyödyntää olemassa olevia laajamittaisia ​​multimodaalisia tietojoukkoja mahdollistaakseen LASS-mallien yleistämisen avoimissa verkkotunnuksissa. Yhteenvetona AudioSep-malli on: "Perusmalli yleiseen äänen erotteluun avoimessa verkkotunnuksessa käyttämällä luonnollisen kielen kyselyitä tai kuvauksia, jotka on koulutettu laajamittaisilla ääni- ja multimodaalisilla tietojoukoilla". 

AudioSep: avainkomponentit ja arkkitehtuuri

AudioSep-kehyksen arkkitehtuuri koostuu kahdesta avainkomponentista: tekstikooderista ja erottelumallista. 

Tekstienkooderi

AudioSep-kehys käyttää CLIP- tai Contrastive Language Image Pre Training -mallin tai CLAP- tai Contrastive Language Audio Pre Training -mallin tekstikooderia poimimaan tekstin upotukset luonnollisen kielen kyselyyn. Syötetekstikysely koostuu sekvenssistä "N”-tunnisteet, jotka tekstienkooderi käsittelee tekstin upotuksen poimimiseksi tietylle syöttökielen kyselylle. Tekstienkooderi käyttää pinoa muuntajalohkoja koodaamaan syöttötekstitunnisteita, ja lähtöesitykset kootaan sen jälkeen, kun ne on kuljetettu muuntajakerrosten läpi, mikä johtaa D-ulotteisen vektoriesityksen kehittämiseen, jolla on kiinteä pituus, jossa D vastaa. CLAP- tai CLIP-mallien mittoihin, kun tekstienkooderi on jähmettynyt harjoitusjakson aikana. 

CLIP-malli on esikoulutettu laajamittaiseen kuva-teksti-paritietoaineistoon kontrastiivisen oppimisen avulla, mikä on ensisijainen syy siihen, miksi sen tekstikooderi oppii kartoittamaan tekstin kuvauksia semanttisessa avaruudessa, jota myös visuaaliset esitykset jakavat. AudioSepin etuna CLIP:n tekstienkooderin avulla on se, että se voi nyt skaalata tai kouluttaa LASS-mallia nimeämättömästä audiovisuaalisesta tiedosta käyttämällä vaihtoehtona visuaalisia upotuksia, mikä mahdollistaa LASS-mallien koulutuksen ilman huomautuksia tai merkittyjä vaatimuksia. äänitekstidataa. 

CLAP-malli toimii samalla tavalla kuin CLIP-malli ja käyttää kontrastiivista oppimistavoitteita, koska se käyttää teksti- ja äänikooderia yhdistämään äänen ja kielen, mikä tuo tekstin ja äänikuvaukset piilevään äänitekstitilaan yhdistettynä. 

Erottelumalli

AudioSep-kehys käyttää taajuusalueen ResUNet-mallia, jolle syötetään sekoitus äänileikkeitä kehyksen erotusrungona. Kehys toimii soveltamalla ensin STFT- tai lyhytaikaista Fourier-muunnosta aaltomuotoon monimutkaisen spektrogrammin, magnitudispektrogrammin ja X:n vaiheen poimimiseksi. Malli noudattaa sitten samaa asetusta ja rakentaa kooderi-dekooderiverkon prosessoitavaksi. suuruusspektrogrammi. 

ResUNet-enkooderi-dekooderiverkko koostuu 6 jäännöslohkosta, 6 dekooderilohkosta ja 4 pullonkaulalohkosta. Jokaisen enkooderilohkon spektrogrammi käyttää neljää tavanomaista jäännöslohkoa pienentämään itsensä pullonkaulaominaisuudeksi, kun taas dekooderilohkot käyttävät neljää jäännösdekonvoluutiolohkoa erottelukomponenttien saamiseksi näytteistämällä ominaisuuksia. Tämän jälkeen jokainen enkooderilohko ja sitä vastaavat dekooderilohkot muodostavat ohitusyhteyden, joka toimii samalla ylös- tai alanäytteistystaajuudella. Kehyksen jäännöslohko koostuu 4 Leaky-ReLU-aktivointikerroksesta, 4 eränormalisointikerroksesta ja 2 CNN-kerroksesta, ja lisäksi kehys sisältää myös ylimääräisen jäännöspikakuvakkeen, joka yhdistää jokaisen yksittäisen jäännöslohkon tulon ja lähdön. ResUNet-malli ottaa monimutkaisen spektrogrammin X syötteenä ja tuottaa suuruusmaskin M ulostulona, ​​jossa vaihejäännös on ehdollinen tekstin upotuksille, jotka ohjaavat skaalauksen suuruutta ja spektrogrammin kulman kiertoa. Erotettu kompleksispektrogrammi voidaan sitten erottaa kertomalla ennustettu suuruusmaski ja faasijäännös seoksen STFT:llä (Short-Time Fourier Transform). 

AudioSep käyttää kehyksessään FiLm- tai Feature-wise Lineaarisesti moduloitua kerrosta erottelumallin ja tekstienkooderin silloittamiseksi sen jälkeen, kun konvoluutiolohkot on otettu käyttöön ResUNetissa. 

Harjoittelu ja menetys

AudioSep-mallin koulutuksen aikana kehittäjät käyttävät äänenvoimakkuuden lisäysmenetelmää ja harjoittelevat AudioSep-kehystä päästä päähän käyttämällä L1-häviöfunktiota maan totuuden ja ennustettujen aaltomuotojen välillä. 

Tietojoukot ja vertailuarvot

Kuten aiemmissa osissa mainittiin, AudioSep on perustavanlaatuinen malli, jonka tarkoituksena on ratkaista LASS-mallien nykyinen riippuvuus huomautuksilla varustetuista äänitekstiparitietosarjoista. AudioSep-malli on koulutettu useille tietojoukoille, jotta se voidaan varustaa multimodaalisilla oppimisominaisuuksilla, ja tässä on yksityiskohtainen kuvaus tietojoukosta ja vertailuarvoista, joita kehittäjät käyttävät AudioSep-kehyksen kouluttamiseen. 

AudioSet

AudioSet on heikosti merkitty laajamittainen äänitiedosto, joka sisältää yli 2 miljoonaa 10 sekunnin äänikatkelmaa suoraan YouTubesta. Jokainen AudioSet-tietojoukon äänikatkelma luokitellaan ääniluokkien puuttumisen tai olemassaolon mukaan ilman äänitapahtumien tarkkoja ajoitustietoja. AudioSet-tietojoukossa on yli 500 erillistä ääniluokkaa, mukaan lukien luonnonäänet, ihmisäänet, ajoneuvojen äänet ja paljon muuta. 

VGGSääni

VGGSound-tietojoukko on laajamittainen visuaalinen-audio-aineisto, joka aivan kuten AudioSet on hankittu suoraan YouTubesta, ja se sisältää yli 2,00,000 10 300 videoleikettä, joista jokainen on XNUMX sekunnin pituinen. VGGSound-tietojoukko on luokiteltu yli XNUMX ääniluokkaan, mukaan lukien ihmisen äänet, luonnon äänet, lintuäänet ja paljon muuta. VGGSound-tietojoukon käyttö varmistaa, että kohdeäänen tuottamisesta vastaava kohde on myös kuvattavissa vastaavassa visuaalisessa leikeessä. 

AudioCaps

AudioCaps on suurin julkisesti saatavilla oleva äänitekstitystietojoukko, ja se sisältää yli 50,000 10 5 sekunnin äänileikettä, jotka on poimittu AudioSet-tietojoukosta. AudioCapsien tiedot on jaettu kolmeen luokkaan: harjoitustiedot, testaustiedot ja validointitiedot, ja äänileikkeet on inhimillisesti merkitty luonnollisen kielen kuvauksilla Amazon Mechanical Turk -alustan avulla. On syytä huomata, että jokaisella harjoitustietojoukon äänileikkeellä on yksi kuvateksti, kun taas testaus- ja validointijoukkojen tiedoissa on kullakin viisi totuudenmukaista tekstitystä. 

ClothoV2

ClothoV2 on äänitekstitystietojoukko, joka koostuu FreeSound-alustalta hankituista leikkeistä, ja aivan kuten AudioCaps, jokainen äänileike on inhimillisesti merkitty luonnollisella kielellä Amazon Mechanical Turk -alustan avulla. 

WavCaps

Aivan kuten AudioSet, WavCaps on heikosti merkitty laajamittainen äänitietojoukko, joka sisältää yli 400,000 7568 äänileikkeen tekstitetyllä kokonaisuudella, joka on noin XNUMX tuntia harjoitusdataa. WavCaps-tietojoukon äänileikkeet ovat peräisin useista äänilähteistä, kuten BBC Sound Effects, AudioSet, FreeSound, SoundBible ja paljon muuta.

Koulutuksen tiedot

Harjoitusvaiheen aikana AudioSep-malli ottaa satunnaisesti näytteitä kahdesta äänisegmentistä, jotka on peräisin harjoitustietojoukon kahdesta eri äänileikkeestä, ja sekoittaa ne sitten yhteen harjoitussekoitukseksi, jossa kunkin äänisegmentin pituus on noin 5 sekuntia. Malli poimii sitten kompleksisen spektrogrammin aaltomuotosignaalista käyttämällä Hann-ikkunaa, jonka koko on 1024 ja jonka koko on 320 hyppyä. 

Malli käyttää sitten CLIP/CLAP-mallien tekstikooderia purkaakseen teksti upotukset tekstinvalvonnan ollessa AudioSepin oletuskokoonpano. Erotusmallissa AudioSep-kehys käyttää ResUNet-kerrosta, joka koostuu 30 kerroksesta, 6 enkooderilohkosta ja 6 dekooderilohkosta, jotka muistuttavat yleisessä äänenerottelukehyksessä noudatettua arkkitehtuuria. Lisäksi jokaisessa enkooderilohkossa on kaksi konvoluutiokerrosta, joiden ydin on kooltaan 3 × 3, ja kooderilohkojen lähtöominaisuuskarttojen lukumäärä on vastaavasti 32, 64, 128, 256, 512 ja 1024. Dekooderilohkot jakavat symmetrian enkooderilohkojen kanssa, ja kehittäjät käyttävät Adam-optimointiohjelmaa AudioSep-mallin opettamiseen 96:n eräkoolla. 

Arvioinnin tulokset

Nähdyissä tietojoukoissa

Seuraavassa kuvassa verrataan AudioSep-kehyksen suorituskykyä nähdyissä tietojoukoissa koulutusvaiheen aikana, mukaan lukien koulutustietojoukot. Alla oleva kuva esittää AudioSep-kehyksen vertailuarvojen arviointituloksia verrattuna perusjärjestelmiin, mukaan lukien Speech. Lisävarusteet mallit, LASS ja CLIP. CLIP-tekstikooderilla varustettu AudioSep-malli esitetään nimellä AudioSep-CLIP, kun taas CLAP-tekstikooderilla varustettu AudioSep-malli esitetään nimellä AudioSep-CLAP.

Kuten kuvasta näkyy, AudioSep-kehys toimii hyvin käytettäessä äänitekstejä tai tekstitunnisteita syöttökyselyinä, ja tulokset osoittavat AudioSep-kehyksen ylivoimaisen suorituskyvyn verrattuna aikaisempiin LASS- ja äänikyselyihin perustuviin äänenerottelumalleihin. 

Näkymättömät tietojoukot

Arvioidakseen AudioSepin suorituskykyä nollakuva-asetuksella kehittäjät jatkoivat suorituskyvyn arviointia näkymättömissä tietojoukkoissa, ja AudioSep-kehys tarjoaa vaikuttavan erottelusuorituskyvyn nollakuva-asetuksella, ja tulokset näkyvät alla olevassa kuvassa. 

Lisäksi alla oleva kuva näyttää tulokset AudioSep-mallin arvioinnista Voicebank-Demand-puheenparannusta vastaan. 

AudioSep-kehyksen arviointi osoittaa vahvan ja toivotun suorituskyvyn näkymättömissä tietojoukkoissa nolla-asetuksella ja mahdollistaa siten tavan suorittaa moitteettomia toimintatehtäviä uusissa datajakeluissa. 

Erotustulosten visualisointi

Alla oleva kuva näyttää tulokset, jotka saatiin, kun kehittäjät käyttivät AudioSep-CLAP-kehystä spektrogrammien visualisoimiseen maan totuuden kohdeäänilähteille sekä äänisekoituksille ja erotetuille äänilähteille käyttämällä tekstikyselyitä eri äänistä tai äänistä. Tulokset antoivat kehittäjille mahdollisuuden havaita, että spektrogrammin erotettu lähdekuvio on lähellä totuuden lähdettä, mikä edelleen tukee kokeiden aikana saatuja objektiivisia tuloksia. 

Tekstikyselyiden vertailu

Kehittäjät arvioivat AudioSep-CLAP- ja AudioSep-CLIP-suorituskykyä AudioCaps Minissä, ja kehittäjät käyttävät AudioSet-tapahtumatunnisteita , AudioCaps-tekstityksiä ja uudelleen huomautettuja luonnollisen kielen kuvauksia tutkiakseen eri kyselyiden vaikutuksia ja seuraavia asioita. kuvassa on esimerkki AudioCaps Ministä toiminnassa. 

Yhteenveto

AudioSep on perustavanlaatuinen malli, joka on kehitetty tavoitteena olla avoin yleismaailmallinen äänenerottelukehys, joka käyttää luonnollisen kielen kuvauksia äänen erottamiseen. Kuten arvioinnin aikana havaittiin, AudioSep-kehys pystyy suorittamaan saumattomasti nollakuvan ja valvomattoman oppimisen käyttämällä äänitekstejä tai tekstitunnisteita kyselyinä. AudioSepin tulokset ja arviointisuorituskyky osoittavat vahvan suorituskyvyn, joka ylittää nykyiset huippuluokan äänenerottelukehykset, kuten LASS, ja se saattaa riittää ratkaisemaan suosittujen äänenerottelukehysten nykyiset rajoitukset. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.