Kunstig intelligens

Tekst-til-Musikk Generativ AI : Stability Audio, Google’s MusicLM og mer

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Musikk, en kunstform som resonrerer med den menneskelige sjelen, har vært en konstant følgesvenn for oss alle. Å lage musikk ved hjelp av kunstig intelligens begynte flere tiår siden. I begynnelsen var forsøkene enkle og intuitive, med grunnleggende algoritmer som skapte monotone melodier. Imidlertid, som teknologien ble bedre, økte også kompleksiteten og evnene til AI-musikkgenerering, og banet vei for dypt læring og naturlig språkbehandling (NLP) å spille nøkkelroller i denne teknologien.

I dag utnytter plattformer som Spotify AI til å finjustere brukerens lytteropplevelser. Disse dyptlæringsalgoritmene analyserer individuelle preferanser basert på ulike musikalelementer som tempo og humør for å skape personlige sangforslag. De analyserer også bredere lyttermønster og søker på internett etter sangrelaterte diskusjoner for å bygge detaljerte sangprofiler.

Opphavet til AI i musikk: En reise fra algoritmisk komposisjon til generativ modellering

I de tidlige stadiene av AI-blanding i musikkverdenen, fra 1950- til 1970-årene, var fokuset primært på algoritmisk komposisjon. Dette var en metode der datamaskiner brukte en definert sett med regler for å skape musikk. Den første bemerkelsesverdige skapelsen i denne perioden var Illiac Suite for String Quartet i 1957. Den brukte Monte Carlo-algoritmen, en prosess som involverte tilfeldige tall for å diktere tonehøyde og rytme innenfor grensene av tradisjonell musikkteori og statistiske sannsynligheter.

Bilde generert av forfatteren using Midjourney

Under denne perioden var en annen pioner, Iannis Xenakis, som brukte stokastiske prosesser, et konsept som involverte tilfeldige sannsynlighetsfordelinger, for å skape musikk. Han brukte datamaskiner og FORTRAN-språket for å koble sammen flere sannsynlighetsfunksjoner, og skapte et mønster der ulike grafiske representasjoner korresponderte med ulike lydrom.

Kompleksiteten ved å oversette tekst til musikk

Musikk lagres i en rik og flerdimensjonal dataformat som omfatter elementer som melodi, harmoni, rytme og tempo, og gjør oppgaven med å oversette tekst til musikk svært kompleks. En standard sang er representert av nesten en million tall i en datamaskin, et tall som er betydelig høyere enn andre dataformat som bilde, tekst osv.

Feltet for audio-generering er vitne til innovative tilnærminger for å overvinne utfordringene med å skape realistisk lyd. En metode innebærer å generere et spektrogram, og deretter konvertere det tilbake til audio.

En annen strategi utnytter den symbolske representasjonen av musikk, som notasjon, som kan tolkes og spilles av musikere. Denne metoden er blitt digitalisert med suksess, med verktøy som Magentas Chamber Ensemble Generator som skaper musikk i MIDI-format, et protokoll som muliggjør kommunikasjon mellom datamaskiner og musikkinstrumenter.

Men disse tilnærmingene har sine egne begrensninger, og understreker den komplekse naturen til audio-generering.

Transformer-baserte autoregressive modeller og U-Net-baserte diffusjonsmodeller er i fremste rekke av teknologien, og produserer state-of-the-art (SOTA) resultater i generering av audio, tekst, musikk og mye mer. OpenAIs GPT-serie og nesten alle andre LLMer er i dag drevet av transformatorer som utnytter enten encoder, decoder eller begge arkitekturer. På kunst/bilde-siden utnytter MidJourney, Stability AI og DALL-E 2 alle diffusjonsrammeverk. Disse to kjerne-teknologiene har vært avgjørende for å oppnå SOTA-resultater i audio-sektoren også. I denne artikkelen skal vi dykke ned i Googles MusicLM og Stable Audio, som står som et vitnesbyrd om de bemerkelsesverdige evnene til disse teknologiene.

Googles MusicLM

Googles MusicLM ble lansert i mai i år. MusicLM kan generere høykvalitets musikkstykker som resonrerer med den eksakte stemningen beskrevet i teksten. Ved hjelp av hierarkisk sekvens-til-sekvens-modellering har MusicLM evnen til å transformere tekstbeskrivelser til musikk som resonrerer på 24 kHz over utvidede varigheter.

Modellen opererer på et flerdimensjonalt nivå, ikke bare ved å adlyde tekstuelle inndata, men også ved å demonstrere evnen til å være betinget av melodier. Dette betyr at den kan ta en hummet eller fløytet melodi og transformere den i henhold til stilen beskrevet i en tekst-overskrift.

Tekniske innsikter

MusicLM utnytter prinsippene til AudioLM, et rammeverk introdusert i 2022 for audio-generering. AudioLM syntetiserer audio som en språkmodellering-oppgave innenfor et diskret representasjonsrom, ved hjelp av en hierarki av grov-til-fine audio-diske enheter, også kjent som token. Denne tilnærmingen sikrer høykvalitets og langvarig kohens over betydelige varigheter.

For å lette genereringsprosessen, utvider MusicLM evnene til AudioLM til å inkorporere tekst-betinging, en teknikk som alignerer den genererte audio med nyansene i inndata-teksten. Dette oppnås gjennom en felles innbedningsrom skapt ved hjelp av MuLan, en felles musikk-tekstmodell trent for å projicere musikk og dens tilhørende tekstbeskrivelser nær hverandre i en innbedningsrom. Denne strategien eliminerer effektivt behovet for overskrifter under trening, og lar modellen bli trent på massive audio-korpus.

MusicLM-modellen bruker også SoundStream som sin audio-tokenisator, som kan rekonstruere 24 kHz-musikk på 6 kbps med imponerende trofasthet, ved hjelp av residual vektor-kvantifisering (RVQ) for effektiv og høykvalitets audio-komprimering.

En illustrasjon av den uavhengige fortreningprosessen for de grunnleggende modellene til MusicLM: SoundStream, w2v-BERT og MuLan,

En illustrasjon av fortreningprosessen til MusicLM: SoundStream, w2v-BERT og MuLan | Bildekilde: her

I tillegg utvider MusicLM evnene sine ved å tillate melodi-betinging. Denne tilnærmingen sikrer at selv en enkel hummet melodi kan legge grunnlaget for en strålende auditiv opplevelse, finjustert til den eksakte tekstlige stil-beskrivelsen.

Utviklerne av MusicLM har også åpnet kilden for MusicCaps, en datasett som består av 5,5k musikk-tekst-par, hver ledsaget av rike tekstbeskrivelser skapt av menneskelige eksperter. Du kan sjekke det ut her: MusicCaps på Hugging Face.

Klar til å skape AI-lydspor med Googles MusicLM? Her er hvordan du kommer i gang:

Besøk den offisielle MusicLM-nettsiden og klikk “Get Started.”
Meld deg på ventelisten ved å velge “Register your interest.”
Logg inn med din Google-konto.
Når du er gitt tilgang, klikk “Try Now” for å begynne.

Under er noen eksempel-prompter jeg eksperimenterte med:

“Meditasjons-sang, rolig og beroligende, med fløyter og gitarer. Musikk er langsom, med fokus på å skape en følelse av fred og ro.”

“jazz med saksofon”

Når sammenlignet med tidligere SOTA-modeller som Riffusion og Mubert i en kvalitativ vurdering, ble MusicLM foretrukket mer enn andre, med deltakere som favoriserte kompatibiliteten av tekst-overskrifter med 10-sekunders audio-klipp.

MusicLM Performance, Bildekilde: her

Stability Audio

Stability AI introduserte forrige uke “Stable Audio” en latent diffusjonsmodell-arkitektur betinget på tekst-metadata sammen med audio-fil varighet og starttid. Denne tilnærmingen, som Googles MusicLM, har kontroll over innholdet og lengden på den genererte audio, og lar brukerne skape audio-klipp med spesifiserte lengder opp til treningsvinduet.

Stable Audio

Tekniske innsikter

Stable Audio består av flere komponenter, inkludert en Variational Autoencoder (VAE) og en U-Net-basert betinget diffusjonsmodell, som arbeider sammen med en tekst-encoder.

En illustrasjon som viser integreringen av en variational autoencoder (VAE), en tekst-encoder og en U-Net-basert betinget diffusjonsmodell

Stable Audio Arkitektur, Bildekilde: her

VAE muliggjør raskere generering og trening ved å komprimere stereo-audio til en data-komprimert, støysvakt og omvendelig tap-encoding, og unngår behovet for å arbeide med rå audio-eksempler.

Tekst-encoderen, avledet fra en CLAP-modell, spiller en avgjørende rolle i å forstå de intrikate relasjonene mellom ord og lyder, og tilbyr en informativ representasjon av tokenisert inndata-tekst. Dette oppnås gjennom å utnytte tekst-egenskaper fra den nest siste laget av CLAP-tekst-encoderen, som deretter integreres i diffusjons-U-Net gjennom cross-attention-lag.

En viktig aspekt er inkorporeringen av tid-embeddings, som beregnes basert på to egenskaper: startsekundet for audio-klippet og den totale varigheten av den opprinnelige audio-filen. Disse verdiene, oversatt til per-sekund diskrete lært-embeddings, kombineres med prompt-token og matet inn i U-Net-s cross-attention-lag, og gir brukerne mulighet til å diktere den totale lengden av utgangs-audio.

Stable Audio-modellen ble trent ved hjelp av en omfattende datasett på over 800 000 audio-filer, gjennom samarbeid med stock-musikk-leverandør AudioSparx.

Stable audio Commercials

Stable Audio tilbyr en gratis versjon, som tillater 20 genereringer av opptil 20-sekunders spor per måned, og en $12/måned Pro-plan, som tillater 500 genereringer av opptil 90-sekunders spor.

Under er et audio-klipp som jeg skapte ved hjelp av Stable Audio.

Bilde generert av forfatteren using Midjourney

“Kinetisk, Soundtrack Gentle Rainfall, Ambient, Beroligende, Fjern hunder som barker, Rolerende blad-rustling, Subt vind, 40 BPM”

Anvendelsene av slike fint skapt audio-stykker er endeløse. Filmprodusenter kan utnytte denne teknologien til å skape rike og immersive lydlandskap. I det kommersielle sekretariatet kan annonserere bruke disse tilpassede audio-spor. I tillegg åpner dette verktøyet opp muligheter for enkelt skapere og kunstnere til å eksperimentere og innovere, og tilbyr en canvas av ubegrenset potensial til å skape lyd-stykker som forteller historier, vekker følelser og skaper atmosfærer med en dybde som tidligere var vanskelig å oppnå uten en betydelig budsjett eller teknisk ekspertise.

Prompt-tips

Skap det perfekte audio ved hjelp av tekst-prompter. Her er en rask guide for å komme i gang:

Vær detaljert: Spesifiser sjangre, humør og instrumenter. For eksempel: Kinetisk, Vill Vest, Perkusjon, Spent, Atmosfærisk
Stemnings-setting: Kombiner musikalske og emosjonelle termer for å overføre den ønskede stemningen.
Instrument-valg: Forbedre instrument-navn med adjektiver, som “Reverberert Gitar” eller “Kraftig Kor”.
BPM: Align tempo med sjangeren for en harmonisk utgang, som “170 BPM” for en Drum and Bass-spor.

Avsluttende notater

Bilde generert av forfatteren using Midjourney

I denne artikkelen har vi dykket ned i AI-generert musikk/audio, fra algoritmisk komposisjon til de sofistikerte generative AI-rammeverkene i dag som Googles MusicLM og Stability Audio. Disse teknologiene, som utnytter dypt læring og SOTA-komprimeringsmodeller, ikke bare forbedrer musikk-generering, men også finjusterer lytter-opplevelser.

Men det er et område i konstant utvikling, med hindringer som å opprettholde langvarig kohens og den pågående debatten om autentisiteten til AI-skapt musikk, som utfordrer pionerene i dette feltet. Bare forrige uke var det snakk om en AI-skapt sang som kanaliserte stilene til Drake og The Weeknd, som hadde fanget fyr på nettet tidligere i år. Imidlertid ble den fjernet fra Grammy-nominasjonslisten, og viste den pågående debatten omkring legitimiteten til AI-generert musikk i industrien (kilde). Mens AI fortsatt å broer gapene mellom musikk og lyttere, fremmer det også et økosystem der teknologi samexisterer med kunst, og fremmer innovasjon samtidig som det respekterer tradisjonen.

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.

Unite.AI

Tekst-til-Musikk Generativ AI : Stability Audio, Google’s MusicLM og mer

Opphavet til AI i musikk: En reise fra algoritmisk komposisjon til generativ modellering

Kompleksiteten ved å oversette tekst til musikk

Googles MusicLM

Tekniske innsikter

Stability Audio

Tekniske innsikter

Prompt-tips

Avsluttende notater

You may like