Tekoäly

Teksti-musiikki generoiva AI: Stabiili ääni, Google’n MusicLM ja lisää

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Musiikki, joka on taide muoto joka resonoi ihmisen sielun kanssa, on ollut meidän kaikkien vakituinen seuralainen. Musiikin luominen käyttäen tekoälyä alkoi useita vuosikymmeniä sitten. Aluksi yritykset olivat yksinkertaisia ja intuitiivisia, perus algoritmien luodessa yksinkertaisia melodioita. Kuitenkin, kun teknologia kehittyi, niin myös tekoäly musiikin generoijien monimutkaisuus ja kyky kasvoi, luoden tien syvälle oppimiselle ja luonnollisen kielen prosessoinnille (NLP) tässä tekniikassa.

Tänään alustat kuten Spotify käyttävät tekoälyä viimeistelläkseen käyttäjien kuuntelukokemuksia. Nämä syvälle oppivat algoritmit analysoivat yksilöllisiä mieltymyksiä perustuen eri musiikillisiin elementteihin, kuten tempo ja mood, luodakseen räätälöityjä lauluesityksiä. Ne myös analysoivat laajempia kuuntelumalleja ja etsivät internetistä lauluun liittyviä keskusteluja luodakseen yksityiskohtaiset laulu profiilit.

Teon äly n synty musiikissa: Matka algoritmisen sävellyksestä generoivaan malliin

Teon äly n sekaantumisessa musiikin maailmaan, joka kesti 1950-luvulta 1970-luvulle, painopiste oli pääasiassa algoritmisen sävellyksessä. Tämä oli menetelmä, jossa tietokoneet käyttivät määriteltyjä sääntöjä luodakseen musiikkia. Ensimmäinen merkittävä luomus tämän aikakauden aikana oli Illiac Suite for String Quartet vuonna 1957. Se käytti Monte Carlo algoritmia, prosessia, joka käytti satunnaisia numeroita määrätäkseen sävelkorkeuden ja rytmin perinteisen musiikin teorian ja tilastollisten todennäköisyyksien puitteissa.

Kuva luotu tekijän toimesta Midjourneyn avulla

Tänä aikana toinen uranuurtaja, Iannis Xenakis, käytti stokastisia prosesseja, käsitettä, joka liittyy satunnaisiin todennäköisyyksiin, luodakseen musiikkia. Hän käytti tietokoneita ja FORTRAN kieltä yhdistääkseen useita todennäköisyyden funktioita, luodakseen mallin, jossa eri graafiset edustukset vastasivat erilaisia äänitiloja.

Tekstin kääntäminen musiikiksi

Musiikki tallennetaan rikkaassa ja moniulotteisessa data muodossa, joka käsittää elementtejä kuten melodia, harmonia, rytmi ja tempo, mikä tekee tehtävästä kääntää tekstiä musiikiksi erittäin monimutkaiseksi. Standardi biisi edustetaan lähes miljoonalla numerolla tietokoneessa, luku joka on merkittävästi suurempi kuin muissa data muodoissa kuten kuvat, teksti jne.

Äänen generoinnin ala on todistamassa innovatiivisia lähestymistapoja haasteiden voittamiseksi luodakseen realistisen äänen. Yksi menetelmä käyttää spektrogrammin generointia ja sen muuttamista takaisin ääneksi.

Toinen strategia hyödyntää musiikin symbolista edustusta, kuten nuottien lukemista, jota muusikot voivat tulkita ja esittää. Tämä menetelmä on digitalisoitu onnistuneesti, työkaluilla kuten Magentan Chamber Ensemble Generator luodessa musiikkia MIDI muodossa, protokollalla, joka mahdollistaa viestinnän tietokoneiden ja musiikki soittimien välillä.

Vaikka nämä lähestymistavat ovat edistäneet alaa, ne tulevat omilla rajoituksillaan, korostaa äänen generoinnin monimutkaisuuden.

Transformer perustuvat autoregressiiviset mallit ja U-Net perustuvat diffusio mallit, ovat teknologian eturintamassa, tuottaen valtavan osan (SOTA) tuloksia äänen, tekstin, musiikin ja paljon muun generoimisessa. OpenAI:n GPT sarja ja lähes kaikki muut LLM:t ovat nykyään voimassa transformatoreiden avulla, jotka käyttävät joko encoder, decoder tai molempia arkkitehtuureja. Taiteen/kuva puolella, MidJourney, Stability AI ja DALL-E 2 kaikki käyttävät diffusio kehyksiä. Nämä kaksi ydinteknologiaa ovat olleet avainasemassa saavuttamassa SOTA tuloksia äänen alalla myös. Tässä artikkelissa, tullaan perehtymään Google’n MusicLM ja Stable Audio, jotka ovat todisteena näiden teknologioiden hämmästyttävistä kyvyistä.

Google’n MusicLM

Google’n MusicLM julkaistiin toukokuussa tänä vuonna. MusicLM voi generoida korkealaatuisia musiikkikappaleita, jotka resonoi tarkalleen sentimentin, joka on kuvattu tekstissä. Käyttäen hierarkkista sekvenssi-sekvenssi mallia, MusicLM:lla on kyky muuttaa tekstikuvauksia musiikiksi, joka resonoi 24 kHz yli laajat kestot.

Malli toimii moniulotteisella tasolla, ei ainoastaan noudattaen teksti syötteitä, vaan myös osoittamalla kykyä olla ehdollistettu melodioiden mukaan. Tämä tarkoittaa, että se voi ottaa humatun tai viheltämän melodian ja muuttaa sen mukaan tyyliä, joka on määritelty teksti kuvauksessa.

Teknisiä näkemyksiä

MusicLM hyödyntää AudioLM periaatteita, kehyksistä, joka esiteltiin vuonna 2022 äänen generoimiseksi. AudioLM syntetisoi ääntä kuin kielen mallinnus tehtävässä diskreetin edustus avaruudessa, käyttäen hierarkiaa karkeasta hienoon äänen diskreeteihin yksiköihin, jotka voidaan kutsua tokeneiksi. Tämä lähestymistapa takaa korkealaatuisen ja pitkäaikaisen koherenssin merkittävien kestojen aikana.

Generoinnin prosessin helpottamiseksi, MusicLM laajentaa AudioLM:n kykyjä sisällyttämällä teksti ehdollistamisen, tekniikan, joka linjaa generoidun äänen yksityiskohtien kanssa syötteen tekstiä. Tämä saavutetaan jaetun upottamis avaruuden luomisella, jota käytetään yhteisessä musiikki-teksti mallissa, joka on koulutettu projisoimaan musiikkia ja sen vastaavia teksti kuvauksia lähelle toisiaan upottamis avaruudessa. Tämä strategia poistaa tehokkaasti tarpeen kuvauksille koulutuksen aikana, sallien mallin koulutuksen massiivisilla ääni ainoastaan korpusilla.

MusicLM malli käyttää myös SoundStream äänen tokenoijana, joka voi rakentaa 24 kHz musiikkia 6 kbps:lla vaikuttavalla uskollisuudella, hyödyntäen residuaalisen vektorikvantifiointi (RVQ) tehokkaan ja korkealaatuisen äänen pakkaamiseen.

Kuvan esittäminen riippumattomasta esikoulutuksesta MusicLM:n perusmallien: SoundStream, w2v-BERT ja MuLan,

Kuvan esittäminen MusicLM:n esikoulutuksesta: SoundStream, w2v-BERT ja Mulan | Kuva lähde: täältä

Lisäksi, MusicLM laajentaa kykyjään sallimalla melodian ehdollistamisen. Tämä lähestymistapa takaa, että jopa yksinkertainen humatun sävel voi muodostaa perustan upealle kuulokokemukseen, viimeistelty tarkalleen teksti tyylin kuvauksiin.

MusicLM:n kehittäjät ovat myös avoimet MusicCaps, tieto kokoelma, joka sisältää 5,5k musiikki-teksti paria, kunkin saattaa rikkaat teksti kuvaukset, joita on luonut ihmisasiantuntijat. Voit tarkastella sitä täältä: MusicCaps Hugging Facessa.

Valmis luomaan AI ääniraidat Google’n MusicLM:llä? Tässä on, miten aloittaa:

Mene viralliseen MusicLM verkkosivustolle ja napsauta “Aloita.”
Liity odotuslistalle valitsemalla “Rekisteröi mielenkiintosi.”
Kirjaudu sisään Google tililläsi.
Kun pääset pääsyyn, napsauta “Kokeile nyt” aloittaaksesi.

Tässä on muutamia esimerkkipromptteja, joita kokeilin:

“Meditatiivinen laulu, rauhallinen ja hellä, huiluilla ja kitaroilla. Musiikki on hidas, keskittyen luomaan rauhallisuuden ja tyynen tunteen.”

“jazz saksofonilla”

Vertaillessa edellisiin SOTA malleihin, kuten Riffusion ja Mubert, laadullisessa arvioinnissa, MusicLM oli enemmän suosittu kuin muut, osallistujat arvostivat myönteisesti teksti kuvauksen yhdenmukaisuutta 10 sekunnin ääni klippejä.

MusicLM suorituskyky, Kuva lähde: täältä

Stabiili ääni

Stability AI esitteli viime viikolla ” Stable Audio ” latent diffusio malli arkkitehtuuri, joka on ehdollistettu teksti metadataa, ääni tiedoston kestoa ja aloitus aikaa. Tämä lähestymistapa, kuten Google’n MusicLM, antaa hallinnan sisällön ja pituuden generoidusta äänestä, sallien ääni klippien luomisen määrättyjen pituuksien kanssa, jopa koulutusikkunan koko.

Stable Audio

Teknisiä näkemyksiä

Stable Audio koostuu useista komponenteista, mukaan lukien Variational Autoencoder (VAE) ja U-Net perustuva ehdollistettu diffusio malli, jotka työskentelevät yhdessä teksti koodarin kanssa.

Kuvan esittäminen variational autoencoder (VAE), teksti koodari ja U-Net perustuva ehdollistettu diffusio malli

Stable Audio arkkitehtuuri, Kuva lähde: täältä

VAE mahdollistaa nopeamman generoinnin ja koulutuksen pakkaamalla stereo äänen data-pakattuun, melunkestävään ja kääntävään häviölliseen latenttiin koodaukseen, ohittamalla tarpeen työskennellä raaojen ääni näytteiden kanssa.

Teksti koodari, joka on johdettu CLAP mallista, on avainasemassa ymmärtäessä monimutkaisia suhteita sanojen ja äänien välillä, tarjoamalla tietoisen edustuksen tokenoidusta syötteestä tekstistä. Tämä saavutetaan käyttämällä teksti ominaisuuksia CLAP teksti koodarin toiseksi viimeiseltä tasolta, jotka yhdistetään diffusio U-Net:iin cross-attention kerrosten kautta.

Tärkeä näkökohta on ajan upottamisten sisällyttäminen, jotka lasketaan kahden ominaisuuden perusteella: ääni palan aloitus sekunti ja alkuperäisen ääni tiedoston kesto. Nämä arvot, käännettyinä sekunnin kohtaisiksi diskreeteiksi oppimien upottamisiksi, yhdistetään kehotekstin tokenien kanssa ja syötetään U-Net:iin cross-attention kerroksiin, antaen käyttäjille mahdollisuuden määrätä tulosteen äänen kokonaiskesto.

Stable Audio malli on koulutettu laajalla tieto kokoelmalla yli 800 000 ääni tiedostoa, yhteistyössä stock musiikki toimittajan AudioSparx:n kanssa.

Stable audio mainokset

Stable Audio tarjoaa ilmaisen version, joka sallii 20 generointia, enintään 20 sekunnin pituisia raitoja kuukaudessa, ja 12 dollarin kuukausimaksun Pro suunnitelman, joka sallii 500 generointia, enintään 90 sekunnin pituisia raitoja.

Tässä on ääni klippi, jonka loin Stable Audion avulla.

Kuva luotu tekijän toimesta Midjourneyn avulla

“Elokuvallinen, soundtrack Hellä sade, ambient, rauhallinen, kaukaiset koirat haukkuvat, rauhallinen lehtien kahina, hienoinen tuuli, 40 BPM”

Tällaisia hienosti luotujen ääni kappaleiden soveltamismahdollisuuksia on rajaton. Elokuvantekijät voivat hyödyntää tätä teknologiaa luodakseen rikkaat ja immersiiviset äänimaisemat. Kaupallisessa sektorissa mainostajat voivat käyttää näitä räätälöityjä ääni raitoja. Lisäksi, tämä työkalu avaa mahdollisuuksia yksittäisille luojille ja taiteilijoille kokeilla ja innovoida, tarjoten valtavan potentiaalin luoda ääni kappaleita, jotka kertovat tarinoita, herättävät tunteita ja luovat ilmapiiriä syvyydellä, jota oli aiemmin vaikea saavuttaa ilman merkittävää budjettia tai teknistä asiantuntemusta.

Promptin vinkit

Luo täydellinen ääni teksti promptein. Tässä on nopea opas aloittamiseen:

Ole yksityiskohtainen: Määrittele genret, mielentilat ja soittimet. Esim: Elokuvallinen, Villi Länsi, lyömäsoittimet, jännittävä, atmosferinen
Mielentilan asettaminen: Yhdistä musiikillisia ja emotionaalisia termejä välittämään haluttua mielentilaa.
Soittimen valinta: Paranna soittimen nimiä adjektiiveilla, kuten “Reverberated kitara” tai “Voimakas kuoro”.
BPM: Tasaa tempo genren kanssa saadaksesi harmonisen tuloksen, kuten “170 BPM” Drum and Bass kappaleessa.

Päätössanat

Kuva luotu tekijän toimesta Midjourneyn avulla

Tässä artikkelissa, olemme tutkineet AI-generoitu musiikkia/ääntä, algoritmisen sävellyksestä nykyään sofistikoituneisiin generoivaan AI kehyksiin, kuten Google’n MusicLM ja Stability Audio. Nämä teknologiat, jotka hyödyntävät syvää oppimista ja SOTA pakkaus malleja, eivät ainoastaan paranna musiikin generointia, vaan myös viimeistelevät kuuntelijoiden kokemuksia.

Kuitenkin, se on ala jatkuvassa kehityksessä, haasteilla kuten pitkäaikaisen koherenssin ylläpitäminen ja jatkuva keskustelu AI-luotujen musiikin aitoutta teollisuudessa haastaa uranuurtajat tässä alalla. Vaikka vasta viime viikolla, kohu oli kaiken kaikkiaan AI-luotu laulu, joka kanavoitiin Draken ja The Weekndin tyyliin, joka oli aluksi saanut tulen online aiemmin tänä vuonna. Kuitenkin, se poistettiin Grammy ehdokas listalta, osoittaen jatkuvaan keskusteluun AI-generoitu musiikin legitimiyttiä teollisuudessa (lähde). Kun AI jatkaa siltojen rakentamista musiikin ja kuuntelijoiden välille, se on varmasti edistävä ympäristöä, jossa teknologia elää yhdessä taiteen kanssa, edistäen innovaatiota kunnioittaen perinnettä.

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.

Unite.AI

Teksti-musiikki generoiva AI: Stabiili ääni, Google’n MusicLM ja lisää

Teon äly n synty musiikissa: Matka algoritmisen sävellyksestä generoivaan malliin

Tekstin kääntäminen musiikiksi

Google’n MusicLM

Teknisiä näkemyksiä

Stabiili ääni

Teknisiä näkemyksiä

Promptin vinkit

Päätössanat

You may like