Kunstig intelligens
Tekst-til-Musik Genererende AI: Stability Audio, Google’s MusicLM og mere

Musik, en kunstform, der resonerer med den menneskelige sjæl, har været en konstant ledsager for os alle. At skabe musik ved hjælp af kunstig intelligens begyndte for flere årtier siden. I begyndelsen var forsøgene simple og intuitive, med grundlæggende algoritmer, der skabte monotone melodier. Men da teknologien avancerede, så også kompleksiteten og kapaciteten af AI-musikgenerering, og banede vejen for dyb læring og Natural Language Processing (NLP) til at spille afgørende roller i denne teknologi.
I dag udnytter platforme som Spotify AI til at finjustere brugernes lytteroplevelser. Disse dyb-læringsalgoritmer dissekerer individuelle præferencer på basis af forskellige musikalske elementer, såsom tempo og stemning, for at skabe personlige sangforslag. De analyserer også bredere lyttemønstre og gennemsøger internettet efter sang-relaterede diskussioner for at opbygge detaljerede sangprofiler.
AI’s oprindelse i musik: En rejse fra algorithmisk komposition til genererende modellering
I de tidlige faser af AI’s indtog i musikverdenen, fra 1950’erne til 1970’erne, var fokus primært på algorithmisk komposition. Dette var en metode, hvor computere brugte en defineret sæt af regler til at skabe musik. Den første bemærkelsesværdige skabelse i denne periode var Illiac Suite for String Quartet i 1957. Den brugte Monte Carlo-algoritmen, en proces, der involverede tilfældige tal til at diktere tonehøjde og rytme inden for rammerne af traditionel musikteori og statistiske sandsynligheder.
Under denne periode var en anden pioner, Iannis Xenakis, også aktiv. Han brugte stokastiske processer, en koncept, der involverer tilfældige sandsynlighedsfordeling, til at skabe musik. Han brugte computere og FORTRAN-sprog til at kombinere multiple sandsynlighedsfunktioner, og skabte således et mønster, hvor forskellige grafiske repræsentationer svarede til forskellige lydrum.
Kompleksiteten ved at oversætte tekst til musik
Musik er gemt i en rig og multi-dimensionel dataformat, der omfatter elementer som melodi, harmoni, rytme og tempo, og gør opgaven med at oversætte tekst til musik meget kompleks. En standard-sang er repræsenteret af næsten en million tal i en computer, et tal, der er betydeligt højere end andre dataformater som billeder, tekst osv.
Feltet for audio-generering er vidne til innovative tilgange for at overvinde udfordringerne ved at skabe realistisk lyd. En metode indebærer generering af et spektrogram og derefter konvertering af det tilbage til audio.
En anden strategi udnytter den symboliske repræsentation af musik, som fx nodepapir, der kan fortolkes og spilles af musikere. Denne metode er blevet digitaliseret med succes, med værktøjer som Magentas Chamber Ensemble Generator, der skaber musik i MIDI-format, et protokol, der faciliterer kommunikation mellem computere og musikinstrumenter.
Men selvom disse tilgange har fremmet feltet, kommer de med deres egne begrænsninger, og understreger den komplekse natur af audio-generering.
Transformer-baserede autoregressive modeller og U-Net-baserede diffusion-modeller er i fremhævet position, og producerer state-of-the-art (SOTA) resultater i generering af audio, tekst, musik og meget mere. OpenAI’s GPT-serie og næsten alle andre LLM’er er i øjeblikket drevet af transformatorer, der udnytter enten encoder, decoder eller begge arkitekturer. På kunst/billede-siden udnytter MidJourney, Stability AI og DALL-E 2 alle diffusion-rammer. Disse to kerne-teknologier har været afgørende for at opnå SOTA-resultater i audio-sektoren.
I denne artikel vil vi dykke ned i Google’s MusicLM og Stable Audio, der står som et vidnesbyrd om de bemærkelsesværdige evner af disse teknologier.
Google’s MusicLM
Google’s MusicLM blev frigivet i maj dette år. MusicLM kan generere høj-fidelity musikstykker, der resonerer med den præcise stemning, der er beskrevet i teksten. Ved hjælp af hierarkisk sekvens-til-sekvens-modellering har MusicLM evnen til at omdanne tekstbeskrivelser til musik, der resonerer på 24 kHz over udstrakte varigheder.
Modellen opererer på et multi-dimensionelt niveau, ikke kun i overensstemmelse med tekst-input, men også demonstrerer evnen til at være betinget af melodier. Dette betyder, at den kan tage en hummet eller fløjtet melodi og omdanne den i overensstemmelse med den stil, der er beskrevet i en tekst-underskrift.
Tekniske indsighter
MusicLM udnytter principperne i AudioLM, en ramme, der blev introduceret i 2022 til audio-generering. AudioLM syntetiserer audio som en sprogmodellering-opgave inden for et diskret repræsentationsrum, ved hjælp af en hierarki af grov-til-fine audio-diske enheder, også kendt som tokens. Denne tilgang sikrer høj-fidelity og lang-tids-kohærens over betydelige varigheder.
For at faciliterer genereringsprocessen udvider MusicLM kapaciteterne i AudioLM til at inkludere tekst-betingning, en teknik, der bringer den genererede audio i overensstemmelse med nuancerne i input-teksten. Dette opnås gennem en fælles indlejring af rum, der skabes ved hjælp af MuLan, en fælles musik-tekst-model, der er trænet til at projicere musik og dens tilhørende tekstbeskrivelser tæt på hinanden i et indlejring-rum. Denne strategi eliminerer effektivt behovet for undertekster under træning, og tillader modellen at blive trænet på massive audio-kun-korpora.
MusicLM-modellen bruger også SoundStream som sin audio-tokenizer, der kan genskabe 24 kHz-musik på 6 kbps med imponerende trofasthed, ved hjælp af residual-vektor-kvantificering (RVQ) til effektiv og høj-kvalitets audio-kompression.

En illustration af fortræningsprocessen for MusicLM: SoundStream, w2v-BERT og MuLan | Kilde: her
Desuden udvider MusicLM sine kapaciteter ved at tillade melodi-betingning. Denne tilgang sikrer, at selv en simpel hummet melodi kan lægge grundlaget for en pragtfuld auditiv oplevelse, finjusteret til den præcise tekst-stil-beskrivelse.
Udviklerne af MusicLM har også åbnet MusicCaps, en dataset, der består af 5,5k musik-tekst-par, hver ledsaget af rige tekstbeskrivelser, skabt af menneskelige eksperter. Du kan se det her: MusicCaps på Hugging Face.
Er du klar til at skabe AI-lydspor med Google’s MusicLM? Her er, hvordan du kommer i gang:
- Besøg den officielle MusicLM-website og klik på “Get Started.”
- Tilmeld dig ventelisten ved at vælge “Register your interest.”
- Log ind med din Google-konto.
- Når du er givet adgang, klik på “Try Now” for at begynde.
Her er nogle eksempler på prompts, jeg har eksperimenteret med:
“Mediterende sang, beroligende og sødvand, med fløjter og guitarer. Musikken er langsom, med fokus på at skabe en fornemmelse af fred og ro.”
“jazz med saxofon”
Når det sammenlignes med tidligere SOTA-modeller som Riffusion og Mubert i en kvalitativ vurdering, blev MusicLM foretrukket mere end andre, med deltagere, der vurderede tekst-underskrifternes kompatibilitet med 10-sekunders audio-klip.

MusicLM Performance, Kilde: her
Stability Audio
Stability AI introducerede forleden “Stable Audio” en latent diffusion model-arkitektur, der er betinget af tekst-metadata samt audio-fil-varighed og start-tid. Denne tilgang, ligesom Google’s MusicLM, har kontrol over indholdet og længden af den genererede audio, og tillader skabelsen af audio-klip med specificerede længder op til trænings-vinduets størrelse.
Tekniske indsighter
Stable Audio består af flere komponenter, herunder en Variational Autoencoder (VAE) og en U-Net-baseret betinget diffusion-model, der arbejder sammen med en tekst-encoder.

Stable Audio-arkitektur, Kilde: her
VAE’en faciliterer hurtig generering og træning ved at komprimere stereo-audio til en data-komprimeret, støj-resistent og omvendelig tab-lyd-encoding, og omgår således behovet for at arbejde med rå audio-prøver.
Tekst-encoderen, der er afledt fra en CLAP-model, spiller en afgørende rolle i at forstå de intrikate relationer mellem ord og lyde, og tilbyder en informativ repræsentation af den tokeniserede input-tekst. Dette opnås gennem udnyttelsen af tekst-funktioner fra den sidste lag af CLAP-tekst-encoderen, der derefter integreres i diffusion U-Net gennem cross-attention-lag.
En vigtig aspekt er inkorporeringen af timing-embeddings, der beregnes på basis af to egenskaber: start-sekundet af audio-klippet og den totale varighed af den originale audio-fil. Disse værdier, oversat til per-sekund-discrete-lærte-embeddings, kombineres med prompt-token og fødes ind i U-Net’s cross-attention-lag, og giver brugerne mulighed for at diktere den samlede længde af output-audio.
Stable Audio-modellen blev trænet ved hjælp af en omfattende dataset på over 800.000 audio-filer, gennem samarbejde med stock-musik-udbyderen AudioSparx.
Stable Audio tilbyder en gratis version, der tillader 20 genereringer af op til 20-sekunders-spor per måned, og en $12/måned Pro-plan, der tillader 500 genereringer af op til 90-sekunders-spor.
Her er et audio-klip, jeg skabte ved hjælp af Stable Audio.
“Cinematisk, Soundtrack Gentle Rainfall, Ambient, Beroligende, Fjernende hunde, der gør, Rolig blad-rustling, Subtil vind, 40 BPM”
Anvendelserne af sådanne fint skabte audio-stykker er endeløse. Filmmagerne kan udnytte denne teknologi til at skabe rige og immersive lydlandskaber. I den kommercielle sektor kan annoncører udnytte disse tilpassede audio-spor. Desuden åbner dette værktøj op for individuelle skabere og kunstnere til at eksperimentere og innovere, og tilbyder en canvas af ubegrænset potentiale til at skabe lydstykker, der fortæller historier, vækker følelser og skaber atmosfærer med en dybde, der tidligere var svær at opnå uden en betydelig budget eller teknisk ekspertise.
Prompt-tips
Skab den perfekte audio ved hjælp af tekst-prompts. Her er en hurtig guide til at komme i gang:
- Vær detaljeret: Specificer genrer, stemninger og instrumenter. Fx: Cinematisk, Wild West, Percussion, Spændende, Atmosfærisk
- Stemnings-indstilling: Kombiner musikalske og emotionelle termer for at overføre den ønskede stemning.
- Instrument-valg: Forbeder instrument-navne med adjektiver, som fx “Reverbereret Guitar” eller “Kraftfuld Kor”.
- BPM: Align tempo med genren for en harmonisk output, som fx “170 BPM” for en Drum and Bass-spor.
Afsluttende bemærkninger
I denne artikel har vi dykket ned i AI-genereret musik/audio, fra algorithmisk komposition til de sofistikerede genererende AI-rammer af i dag som Google’s MusicLM og Stability Audio. Disse teknologier, der udnytter dyb læring og SOTA-kompressionsmodeller, ikke kun forbedrer musik-generering, men også finjusterer lytter-oplevelser.
Men det er et domæne i konstant udvikling, med udfordringer som vedligeholdelse af lang-tids-kohærens og den fortsatte debat om autenticiteten af AI-skabt musik, der udfordrer pionererne på dette område. For blot en uge siden var det hele snak om en AI-skabt sang, der kanaliserede stilene fra Drake og The Weeknd, der havde fanget ild online tidligere på året. Men den blev fjernet fra Grammy-nomineringslisten, og viser således den fortsatte debat omkring legitimiteten af AI-genereret musik i branchen (kilde). Mens AI fortsætter med at brokke mellem musik og lyttere, fremmer det en økosystem, hvor teknologi samarbejder med kunst, og fremmer innovation, samtidig med at traditionen respekteres.

















