Tekoäly

Salmonn: Kohti yleisiä kuulemisen kykyjä suurille kielimalleille

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Kuuleminen, joka sisältää yleisen äänitiedon havainnoinnin ja ymmärtämisen, on tärkeää tekoälyagentteja varten todellisissa ympäristöissä. Tämä äänitieto kattaa kolme pääasiallista äänityyppiä: musiikin, äänitapahtumat ja puheen. Viime aikoina tekstipohjaiset suuret kielimallirunkoiset (LLM) ovat osoittaneet merkittäviä kykyjä saavuttaen ihmisen tason suorituskyvyn laajalla valikoimalla luonnollisen kielen prosessoinnin (NLP) tehtävistä. Lisäksi ohjeistuksen säätö, koulutusmenetelmä, joka käyttää viitevastauksia ja käyttäjän ohjeita, on tullut suosituksi. Tämä lähestymistapa kouluttaa suuria kielimalleja seuraamaan avoimia käyttäjän ohjeita tehokkaammin. Nykyinen tutkimus on kuitenkin yhä enemmän keskittynyt suurten kielimallien parantamiseen monimodaalisen sisällön havaitsemiskyvyn kanssa.

Keskittyen samaan, tässä artikkelissa puhumme SALMONNista tai Puhetta Äänikieltä Musiikkia Avoin Neuroverkko, joka on nykyaikainen avoin puhetta äänikieltä musiikkia neuroverkko, joka on rakennettu yhdistämällä puhetta ja äänikoodekkeja esikoulutetun tekstipohjaisen suuren kielimallin yhteen ääni-teksti monimodaaliseen malliin. SALMONN-malli mahdollistaa suurten kielimallien ymmärtämisen ja prosessoinnin yleisiä äänisyötteitä suoraan, ja tarjoaa kilpailukykyisen suorituskyvyn laajalla valikoimalla ääni- ja puheen tehtävistä, joita käytetään koulutuksessa, mukaan lukien äänitiedon perusteella kysymys-vastaus, puheentunnistus ja käännös, puhujan todennus, tunne-tunnistus, ääni- ja musiikkikuvaukset ja paljon muuta. Puhumme SALMONN-kehyksestä, ja tutkimme sen toimintaa, arkkitehtuuria ja tuloksia laajalla valikoimalla NLP-tehtävistä. Joten aloitetaan.

SALMONN: Johdanto yhteen ääni-teksti monimodaaliseen suureen kielimalliin

SALMONN on lyhenne sanoista Speech Audio Language Music Open Neural Network, ja se on yksittäinen ääni-teksti monimodaalinen suuri kielimalli, joka pystyy havainnoimaan ja ymmärtämään kolmea perusta ääntyyppiä, mukaan lukien puhe, äänitapahtumat ja musiikki. SALMONN-malli mahdollistaa suurten kielimallien ymmärtämisen ja prosessoinnin yleisiä äänisyötteitä suoraan, ja tarjoaa kilpailukykyisen suorituskyvyn laajalla valikoimalla ääni- ja puheen tehtävistä.

Parantamaan suorituskykyään sekä puhe- ja ei-puhe äänitehtävissä, SALMONN-kehyksessä käytetään kaksinkertaista koodekkirakennetta, joka koostuu BEATs-ääni koodekista ja puhetta koodekista, joka on peräisin OpenAI:n Whisper-kehyksestä. Lisäksi SALMONN-kehyksessä käytetään myös ikkuna-tasolla Q-Formeria tai kysely-Transformeria yhtenäisyysmoduulina muuttaa muuttuvan pituisen koodekin tulostusjonon muuttuvan määrän äänitokeneiksi, ja lopulta saavuttaa korkean aikaresoluution ääni-teksti -linjalle. LoRA tai matalan sijan sopeutus -lähestymistapa käytetään ristimodaaliseen sovittimeen Vicuna-kehykseen linjata sen tulostusavaruuden sen lisätyn syöteavaruuden kanssa pyrkimyksenä parantaa sen suorituskykyä. SALMONN-kehyksessä, kyky suorittaa ristimodaalisia tehtäviä, joita ei nähty koulutusvaiheessa, menetetään koulutuksen aikana, ja SALMONN-kehyksessä toteutetaan lisäksi muutamia aktivointivaiheita palauttaa LLM-kehyksen yleiset emergentit kyvyt.

Lisäksi kehyksessä käytetään laajaa valikoimaa äänitapahtumia, musiikkibenchmarkkeja ja puheen benchmarkkeja arvioida sen kognitiivisia kuulemiskykyjä, ja benchmarkit on jaettu kolmeen tasoon. Ensimmäisellä benchmark-tasolla kehyksessä koulutetaan kahdeksan tehtävää ohjeistuksessa, mukaan lukien käännös, äänikuvaukset ja puheentunnistus. Kaksi muuta benchmark-tasoa ovat koulutusvaiheen ulkopuolella olevia tehtäviä, ja toisella benchmark-tasolla on viisi puheen perustuvaa luonnollisen kielen prosessoinnin tehtävää, kuten paikan täyttäminen ja käännös koulutettuihin kieliin, jotka perustuvat korkealaatuiseen monikieliseen linjaukseen tekstin ja puheen tokenien välillä. Kolmannen tason benchmark-tehtävät pyrkivät ymmärtämään puheen ja ei-puheen äänitietoa puhe-ääni -yhteistyössä ja äänipohjaisessa kerronnassa.

Yhteenvetona, SALMONN-kehyksessä on

Ensimmäinen monimodaalinen suuri kielimalli, joka pystyy ymmärtämään ja havainnoimaan yleisiä äänisyötteitä, mukaan lukien äänitapahtumat, puhe ja musiikki, sen kykyjen mukaisesti.
Yritys analyysoida ristimodaalisia emergenttejä kykyjä, jotka tarjoavat LoRA skaalauksen tekijän ja käyttäen lisäksi budjettiedullista aktivointivaihetta koulutuksen aikana aktivoida kehyksen ristimodaaliset emergentit kyvyt.

SALMONN: Arkkitehtuuri ja Menetelmä

Tässä osiossa tarkastelemme SALMONN-kehyksen arkkitehtuuria, koulutusmenetelmää ja kokeellista asetelmaa.

Mallin Arkkitehtuuri

SALMONN-kehyksen ytimessä yhdistetään ja yhdistetään kahden äänikoodekin tulokset, minkä jälkeen kehyksessä toteutetaan Q-Former ikkuna-tasolla yhtenäisyysmoduulina. Q-Formerin tuottama tulostusjono yhdistetään teksti-ohjeistuksiin ja se annetaan syötteenä LoRA-sopeutuslähestymistavalle tuottamaan vaadittu vastaus.

Äänikoodekit

SALMONN-kehyksessä käytetään kahta äänikoodekia: ei-puhe BEATs-ääni koodekia ja puhetta koodekia, joka on peräisin OpenAI:n Whisper-kehyksestä. BEATs-ääni koodekki on koulutettu käyttämään itseohjautuvaa iteratiivista oppimismenetelmää poistamaan ei-puheen ääni semantiikkaa, kun taas puhetta koodekki on koulutettu suurella määrällä heikosti valvottua dataa puheentunnistus- ja puheen käännöstehtävissä, ja koodekin tulostusominaisuudet ovat soveltuvia sisältämään taustamusiikkia ja puheen tietoa. Malli tokenisoi syötteen äänen ja jatkaa sitä maskien ja ennustamisen koulutuksessa. Näiden kahden koodekin ääniohjaimet täydentävät toisiaan, ja ne soveltuvat sekä puheen että ei-puheen tietojen käsittelyyn.

Ikkuuna-tason Q-Former

Q-Former-rakenteen toteuttaminen on yleinen lähestymistapa, jota käytetään LLM-kehyksissä muuttaa kuvan koodekin tulostusta teksti-syötteiksi, ja joitakin muutoksia tarvitaan, kun käsitellään äänitokeneja, joilla on muuttuva pituus. Tarkemmin sanottuna, kehyksessä pidetään koodekin tulostusta syötteenä yhdistettyä koodekin tulostusjonona, ja Q-Former käyttää kiinteää määrää koulutettavia kyselyjä muuttaa koodekin tulostusjonon teksti-tokeneiksi pinottujen Q-Former-lohkareiden avulla. Pinottu Q-Former-lohkare muistuttaa Transformer-dekooderilohkaria, poikkeuksena on, että poistetaan casual-maskit itsehuomioimisessa kerroksissa, ja käytetään kiinteää määrää koulutettavia staattisia kyselyjä alkupuolissa.

LoRA ja LLM

SALMONN-kehyksessä käytetään myös Vicuna LLM:ää, joka on LLaMA-suuri kielimalli, joka on hienosäädetty seuraamaan ohjeita tarkemmin ja tehokkaammin. LoRA-kehyksessä on yleinen menetelmä, jota käytetään parametrin tehokkaaseen hienosäätöön, ja sen sisällyttäminen SALMONN-kehykseen arvostaa painopistematriiseja ja sovittaa kyselyä itsehuomioimisessa kerroksissa.

Koulutusmenetelmä

SALMONN-kehyksessä käytetään kolmitasoisella ristimodaalisella koulutuslähestymistavalla. Koulutusvaihe koostuu esikoulutusvaiheesta ja ohjeistuksen hienosäätövaiheesta, jotka ovat mukana useimmissa visuaalisissa LLM-kehyksissä, ja lisäksi toteutetaan lisäksi aktivointivaihe ratkaistaaksesi ylikoulutusongelmat, joita havaitaan äänikuvauksissa ja puheentunnistustehtävissä.

Esikoulutusvaihe

Rajoittaakseen eroa, joka havaitaan esikoulutetuissa parametreissa, mukaan lukien koodekit ja LLM, ja satunnaisesti alustetuissa parametreissa, mukaan lukien sovittimet ja yhtenäisyysmoduulit, SALMONN-kehyksessä käytetään suurta määrää äänikuvauksia ja puheentunnistusdataa LoRA- ja Q-Former-komponenttien esikoulutukseen. Nämä tehtävät sisältävät tärkeitä äänitietoja äänitapahtumien avainsisällöstä, sekä puheen että ei-puheen, eikä niitä vaadita monimutkaisia ymmärtämistä tai päättelyä oppiakseen linjauksen tekstin ja äänen välillä.

Ohjeistuksen Hienosäätövaihe

Ohjeistuksen hienosäätövaihe, jota toteutetaan SALMONN-kehyksessä, muistuttaa sitä, jota toteutetaan NLP- ja visuaalisissa LLM-kehyksissä, käyttämällä listaa äänitapahtumia, musiikkitehtäviä ja puheen tehtäviä hienosäätääksesi ääni-teksti ohjeita. Tehtävät priorisoidaan niiden tärkeyden perusteella eri testeissä, mukaan lukien puhelintunnistus, puheen tunnistus ja musiikkikuvaukset. Lisäksi tekstiä, joka on pariskunnutettu äänidataan, muodostaa pohjan ohjeistusohjeiden luomiselle.

Tehtävän Ylikoulutus

Vaikka vain kahden ensimmäisen koulutusvaiheen toteuttaminen, SALMONN-kehyksessä saavuttaa kilpailukykyisiä tuloksia ohjeistuksen tehtävissä, vaikka suorituskyky ei olekaan merkittävää, kun suoritetaan ristimodaalisia tehtäviä, erityisesti tehtävissä, jotka vaativat ristimodaalista yhteistyökykyä. Nimenomaan, malli voi rikkoa ohjeistuksia, mikä johtaa epäolennaisiin tai virheellisiin vastauksiin, ja tämä ilmiö on nimetty tehtävän ylikoulutukseksi SALMONN-kehyksessä, ja aktivointivaihe toteutetaan ratkaistaksesi nämä ylikoulutusongelmat.

Aktivointivaihe

Tehokas lähestymistapa ratkaistaaksesi ylikoulutusongelmat on säännellä intrinsic conditional kielen mallit käyttämällä pidempiä ja monipuolisempia vastauksia, kuten tarinankerrontaa tai äänitiedon perusteella kysymys-vastaus. Kehyksessä sitten generoidaan parivertaiset koulutusdata näille tehtäville käyttämällä tekstiä, joka on pariskunnutettu äänidataan tai puheen tai musiikkikuvauksiin.

Tehtävän Määritykset

Arvioidaksesi SALMONN:n nollasoitteisen ristimodaalisen emergenttisen kyvyn, kehittäjät ovat sisällyttäneet 15 puheen, äänen ja musiikin tehtävää, jotka on jaettu kolmeen tasoon.

Taso 1

Ensimmäisellä tasolla tehtävät käytetään ohjeistuksessa, ja siksi ne ovat helpoimmat tehtävät, joita SALMONN-kehyksessä on suoritettava.

Taso 2

Toisella tasolla tehtävät ovat koulutusvaiheen ulkopuolella, ja niiden monimutkaisuustaso on korkeampi verrattuna taso 1 tehtäviin. Toisella tasolla tehtävät ovat luonnollisen kielen prosessoinnin tehtäviä, mukaan lukien puheen avainsanat, jotka käytetään arvioimaan kehyksen tarkkuutta tietyiden avainsanien poistamisessa puheesta. Muita tehtäviä ovat SQQA tai puhetta perustuva kysymys-vastaus, joka arvioi yleistä tietoa, jonka kehyksessä poistetaan puheen kysymyksistä, SF tai puheen perustuva paikan täyttäminen arvioidaaksesi kehyksen tarkkuutta paikan arvojen täyttämisessä, ja lopulta kaksi AST-tehtävää englannin ja saksan ja englannin ja japanin käännöksiä.

Taso 3

Kolmannen tason tehtävien monimutkaisuus on enimmillään verrattuna muihin kahteen tasoon, ja se sisältää SAC tai puhe-ääni -yhteistyön ja äänipohjaisen tarinankerronnan tehtäviä. SAC-tehtävä vaatii SALMONN-kehyksestä ymmärtämään kysymyksen, joka on sisällytetty ääniin, löytämään tukevia todisteita äänitapahtumista tai musiikista taustalla, ja lopulta generoimaan sopivan syyn vastata kysymykseen. Äänipohjaiset tarinankerronnan tehtävät vaativat mallilta generoimaan merkityksellisen tarinan äänitiedosta yleisistä äänisyötteistä.

Tulokset

Taso 1 Tehtävät

Seuraava taulukko osoittaa tulokset taso 1 tehtävistä, ja kuten voidaan havaita, SALMONN-kehyksessä saavuttaa kilpailukykyisiä tuloksia taso 1 tehtävissä aktivointivaiheen kanssa tai ilman.

Taso 2 ja 3 Tehtävät

Vaikka SALMONN-kehyksessä saavuttaa kilpailukykyisiä tuloksia taso 1 tehtävissä ilman hienosäätöä, samaa ei voida sanoa taso 2 ja 3 tehtävistä, sillä ilman aktivointivaihetta SALMONN-kehyksessä kärsii vakavasti ylikoulutuksesta tehtävissä. Suorituskyky heikkenee edelleen SQQA-, SAC- ja tarinankerronnan tehtävissä, joissa korostetaan monimodaalista vuorovaikutusta, ja SALMONN-kehyksessä kamppailee seuraamasta ohjeita ilman aktivointivaihetta. Kuitenkin aktivointivaiheen kanssa tulokset paranevat merkittävästi, ja tulokset on sisällytetty seuraavaan kuvaan.

LoRA Skaalauksen Tekijän Alentaminen

LoRA skaalauksen tekijän alentaminen arvioi LoRA skaalauksen tekijän ajan myötäiseen alentamisen vaikutusta vähentääksesi ylikoulutusongelmia tehtävissä. Kuten voidaan havaita seuraavasta kuvasta, LoRA skaalauksen tekijän laskeminen 2.0 korottaa SALMONN-kehyksen ristimodaalisen päättelykyvyn ASR- ja PR-tehtävissä, SQQA-tehtävissä, tarinankerronnan tehtävissä ja SAC-tehtävissä.

Tehtävän Ylikoulutuksen Arviointi

Korostamaan aktivointivaihetta, SALMONN-kehyksessä analyysi epäilyksen muutoksia kolmen koulutusvaiheen aikana, ja kuten voidaan havaita seuraavasta kuvasta, epäilyksen muutokset AAC- ja ASR-tehtävissä ovat pienet lopulliset arvot ensimmäisen koulutusvaiheen jälkeen, osoittaen mallin oppimista ristimodaalisten linjausten.

Lisäksi PR-tehtävän epäilyksellisyys laskee ohjeistuksen jälkeen sen riippuvuuden LoRA-komponentista oppiakseen tulostus tokenit. On myös havaittu, että vaikka ohjeistus auttaa vähentämään epäilyksellisyyttä tarinankerronnan ja SAC-tehtävissä, ero on edelleen suuri suorittaa tehtäviä onnistuneesti, ellei lisäksi aktivointivaihetta lisätä tai LoRA-komponenttia poisteta.

Aktivointivaihe

SALMONN-kehyksessä tutkitaan erilaisia aktivointimenetelmiä, mukaan lukien koulutus mallia tekstipohjaisilla QA-tehtävillä, joissa on pitkät vastaukset, tai käyttämällä äänipohjaisia pitkiä kirjoitettuja tarinoita, kun taas käyttämällä pitkiä puheen transkriptioita ASR-tehtävissä. Sekä Q-Former- että LoRA-komponentit ovat hienosäätössä näillä kolmella menetelmällä. Lisäksi kehyksessä jätetään ääni- ja Q-Former-syötteet huomiotta hienosäätääksesi LoRA- ja Vicuna-komponentteja sopeutuvaksi tekstipohjaiseksi suureksi kielimalliksi, ja tulokset on esitetty seuraavassa kuvassa, ja kuten voidaan havaita, malli ei voida aktivoida ASR:llä (kouluttamalla ASR:ää pitkillä merkinnöillä), eikä tarinalla tai tekstipohjaisella kouluttamalla LoRA-komponenttia teksti-ohjeistuksilla.

Lopputajat

Tässä artikkelissa olemme puhuneet SALMONNista tai Puhetta Äänikieltä Musiikkia Avoin Neuroverkko, joka on yksittäinen ääni-teksti monimodaalinen suuri kielimalli, joka pystyy havainnoimaan ja ymmärtämään kolmea perusta ääntyyppiä, mukaan lukien puhe, äänitapahtumat ja musiikki. SALMONN-malli mahdollistaa suurten kielimallien ymmärtämisen ja prosessoinnin yleisiä äänisyötteitä suoraan, ja tarjoaa kilpailukykyisen suorituskyvyn laajalla valikoimalla ääni- ja puheen tehtävistä.

SALMONN-kehyksessä saavuttaa kilpailukykyisen suorituskyvyn laajalla valikoimalla koulutettuja tehtävistä, mukaan lukien äänikuvaukset, puheen käännös ja tunnistus, ja muuta, ja se yleistää joukkoon koulutettuja ymmärtämistehtäviä, mukaan lukien puheen käännös avainsanastoa ja kouluttamattomiin kieliin. SALMONN-kehyksen kykyjen vuoksi se voidaan pitää seuraavana askeleena parantamaan suurten kielimallien yleisiä kuulemisen kykyjä.