Kunstmatige intelligentie

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM en meer

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Muziek, een kunstvorm die resoneren met de menselijke ziel, is een constante metgezel van ons allemaal geweest. Het creëren van muziek met behulp van kunstmatige intelligentie begon enkele decennia geleden. Aanvankelijk waren de pogingen eenvoudig en intuïtief, met basisalgoritmes die saaie melodieën creëerden. Echter, naarmate de technologie vorderde, zo ook de complexiteit en mogelijkheden van AI-muziekgeneratoren, waardoor diepgaande leer- en natuurlijke taalverwerking (NLP) een cruciale rol speelden in deze technologie.

Vandaag de dag maken platforms zoals Spotify gebruik van AI om de luisterervaring van hun gebruikers te verfijnen. Deze diepgaande algoritmes ontleedden individuele voorkeuren op basis van verschillende muzikale elementen, zoals tempo en stemming, om gepersonaliseerde liedjesuggesties te maken. Ze analyseren ook bredere luisterpatronen en scannen het internet op zoek naar songgerelateerde discussies om gedetailleerde songprofielen op te bouwen.

De oorsprong van AI in muziek: een reis van algorithmische compositie tot generatief modeleren

In de vroege stadia van AI-menging in de muziekwereld, van de jaren 50 tot de jaren 70, lag de focus voornamelijk op algorithmische compositie. Dit was een methode waarbij computers een gedefinieerde set regels gebruikten om muziek te creëren. De eerste opvallende creatie tijdens deze periode was de Illiac Suite voor strijkkwartet in 1957. Het gebruikte de Monte Carlo-algoritme, een proces met willekeurige nummers om de toonhoogte en ritme binnen de grenzen van traditionele muziektheorie en statistische waarschijnlijkheden te dicteren.

Afbeelding gegenereerd door de auteur met behulp van Midjourney

Tijdens deze tijd was een andere pionier, Iannis Xenakis, het gebruik van stochastische processen, een concept met willekeurige waarschijnlijkheidsverdelingen, om muziek te creëren. Hij gebruikte computers en de FORTRAN-taal om meerdere waarschijnlijkheidsfuncties te verbinden, een patroon creërend waarin verschillende grafische voorstellingen overeenkwamen met diverse geluidsruimtes.

De complexiteit van het vertalen van tekst naar muziek

Muziek wordt opgeslagen in een rijke en multidimensionale gegevensindeling die elementen zoals melodie, harmonie, ritme en tempo omvat, waardoor de taak van het vertalen van tekst naar muziek zeer complex is. Een standaardlied wordt vertegenwoordigd door bijna een miljoen nummers in een computer, een cijfer aanzienlijk hoger dan andere gegevensformaten zoals afbeeldingen, tekst, enz.

Het veld van audiogeneratie ziet innovatieve benaderingen om de uitdagingen van het creëren van realistische geluiden te overwinnen. Een methode houdt het genereren van een spectrogram in, en vervolgens omzetten naar audio.

Een andere strategie maakt gebruik van de symbolische voorstelling van muziek, zoals bladmuziek, die kan worden geïnterpreteerd en gespeeld door musici. Deze methode is succesvol gedigitaliseerd, met tools zoals Magenta’s Chamber Ensemble Generator die muziek creëert in het MIDI-formaat, een protocol dat communicatie tussen computers en muziekinstrumenten mogelijk maakt.

Terwijl deze benaderingen het veld hebben gevorderd, komen ze met hun eigen set beperkingen, waardoor de complexe aard van audiogeneratie wordt benadrukt.

Transformer-gebaseerde autoregressieve modellen en U-Net-gebaseerde diffusiemodellen, staan aan de voorzijde van de technologie, waardoor state-of-the-art (SOTA) resultaten in het genereren van audio, tekst, muziek en meer worden geproduceerd. OpenAI’s GPT-reeks en bijna alle andere LLM’s worden momenteel aangedreven door transformatoren die gebruikmaken van encoder-, decoder- of beide architectuur. Aan de kant van kunst/afbeeldingen gebruiken MidJourney, Stability AI en DALL-E 2 allemaal diffusiekaders. Deze twee kerntechnologieën zijn van cruciaal belang geweest bij het behalen van SOTA-resultaten in de audiosector. In dit artikel zullen we ingaan op Google’s MusicLM en Stable Audio, die getuigen van de opmerkelijke mogelijkheden van deze technologieën.

Google’s MusicLM

Google’s MusicLM werd in mei van dit jaar uitgebracht. MusicLM kan hoogwaardige muziekstukken genereren die overeenkomen met de exacte sentiment die in de tekst wordt beschreven. Met behulp van hiërarchische sequentie-naar-sequentie-modellering heeft MusicLM de mogelijkheid om tekstbeschrijvingen om te zetten in muziek die resoneren bij 24 kHz over uitgebreide duur.

Het model werkt op een multidimensionaal niveau, niet alleen voldoet aan de tekstuele invoer maar ook demonstreert de mogelijkheid om te worden voorwaardelijk op melodieën. Dit betekent dat het een gehumde of gefloten melodie kan nemen en deze transformeren volgens de stijl die in een tekstuele onderschrift is aangegeven.

Technische inzichten

MusicLM maakt gebruik van de principes van AudioLM, een kader dat in 2022 is geïntroduceerd voor audiogeneratie. AudioLM synthetiseert audio als een taalmodelleringstaak binnen een discreet representatiegebied, met behulp van een hiërarchie van grof-naar-fijn audiogediscrete eenheden, ook wel tokens genoemd. Deze benadering garandeert hoogwaardige en langetermijncoherentie over aanzienlijke duur.

Om het generatieproces te faciliteren, breidt MusicLM de mogelijkheden van AudioLM uit om tekstvoorwaardelijkheid te incorporeren, een techniek die gegenereerde audio afstemt op de nuances van de invoertekst. Dit wordt bereikt door een gedeelde insluitingsruimte te creëren met behulp van MuLan, een gezamenlijk muziek-tekstmodel getraind om muziek en hun corresponderende tekstbeschrijvingen dicht bij elkaar in een insluitingsruimte te projecteren. Deze strategie elimineert effectief de noodzaak voor onderschriften tijdens de training, waardoor het model kan worden getraind op enorme audio-only corpora.

Het MusicLM-model gebruikt ook SoundStream als zijn audio-tokenizer, die 24 kHz-muziek kan reconstrueren bij 6 kbps met indrukwekkende geloofwaardigheid, door residu vectorquantificatie (RVQ) te gebruiken voor efficiënte en hoogwaardige audiocompressie.

Een illustratie van het onafhankelijke voortrainingsproces voor de fundamentale modellen van MusicLM: SoundStream, w2v-BERT en MuLan,

Een illustratie van het voortrainingsproces van MusicLM: SoundStream, w2v-BERT en Mulan | Afbeeldingsbron: hier

Bovendien breidt MusicLM zijn mogelijkheden uit door melodievoorwaardelijkheid toe te staan. Deze benadering zorgt ervoor dat zelfs een eenvoudig gehumde melodie de basis kan leggen voor een magnifieke auditieve ervaring, afgestemd op de exacte tekstuele stijlbeschrijvingen.

De ontwikkelaars van MusicLM hebben ook MusicCaps openbaar gemaakt, een dataset met 5,5k muziek-tekstparen, elk met rijke tekstbeschrijvingen gemaakt door menselijke experts. U kunt het hier bekijken: MusicCaps op Hugging Face.

Klaar om AI-soundtracks te maken met Google’s MusicLM? Hier is hoe u begint:

Bezoek de officiële MusicLM-website en klik op “Get Started.”
Sluit u aan bij de wachtlijst door “Register your interest” te selecteren.
Log in met uw Google-account.
Als u toegang krijgt, klikt u op “Try Now” om te beginnen.

Hieronder staan een paar voorbeeldprompts die ik heb geëxperimenteerd:

“Meditatief lied, kalmerend en sussend, met fluiten en gitaren. De muziek is langzaam, met een focus op het creëren van een gevoel van vrede en sereniteit.”

“jazz met saxofoon”

Wanneer vergeleken met eerdere SOTA-modellen zoals Riffusion en Mubert in een kwalitatieve evaluatie, werd MusicLM meer voorkeur gegeven dan anderen, met deelnemers die de compatibiliteit van tekstonderschriften met 10-seconde audioclips gunstig beoordeelden.

MusicLM-prestatie, Afbeeldingsbron: hier

Stability Audio

Stability AI introduceerde onlangs “Stable Audio” een latent diffusiemodelarchitectuur die voorwaardelijk is op tekstmetadata naast audiobestandduur en starttijd. Deze benadering, net als Google’s MusicLM, heeft controle over de inhoud en lengte van de gegenereerde audio, waardoor het mogelijk is om audioclips te maken met gespecificeerde lengtes tot de grootte van het trainingsvenster.

Stable Audio

Technische inzichten

Stable Audio bestaat uit verschillende componenten, waaronder een Variational Autoencoder (VAE) en een U-Net-gebaseerd voorwaardelijk diffusiemodel, dat samenwerkt met een tekstencoder.

Een illustratie die de integratie van een variational autoencoder (VAE), een tekstencoder en een U-Net-gebaseerd voorwaardelijk diffusiemodel laat zien

Stable Audio-architectuur, Afbeeldingsbron: hier

De VAE faciliteert snellere generatie en training door stereo-audio te comprimeren in een gegevensgecomprimeerde, ruisbestendige en omkeerbare verliesgeheugeneenheid, waardoor de noodzaak om met brute audio-voorbeelden te werken wordt omzeild.

De tekstencoder, afgeleid van een CLAP-model, speelt een cruciale rol bij het begrijpen van de intrigerende relaties tussen woorden en geluiden, waardoor een informatieve weergave van de getokeniseerde invoertekst wordt geboden. Dit wordt bereikt door het gebruik van tekstfuncties uit de penultieme laag van de CLAP-tekstencoder, die vervolgens worden geïntegreerd in het diffusie-U-Net via cross-attention-lagen.

Een belangrijk aspect is de incorporatie van timing-embeddings, die worden berekend op basis van twee eigenschappen: de startseconde van het audioblok en de totale duur van het oorspronkelijke audiobestand. Deze waarden, vertaald in per-seconde discrete geleerde embeddings, worden gecombineerd met de prompt-tokens en gevoerd in de U-Net’s cross-attention-lagen, waardoor gebruikers de algehele lengte van de uitvoeraudio kunnen dicteren.

Het Stable Audio-model is getraind met behulp van een uitgebreide dataset van meer dan 800.000 audiobestanden, in samenwerking met stockmuziekprovider AudioSparx.

Stable audio commercials

Stable Audio biedt een gratis versie, waarmee 20 generaties van maximaal 20-seconde tracks per maand mogelijk zijn, en een $12/maand Pro-plan, dat 500 generaties van maximaal 90-seconde tracks toestaat.

Hieronder staat een audioclip die ik heb gemaakt met behulp van Stable Audio.

Afbeelding gegenereerd door de auteur met behulp van Midjourney

“Cinematografisch, soundtrack zachte regenval, ambient, sussend, verre blaffende honden, kalmerend bladgeruis, subtiele wind, 40 BPM”

De toepassingen van dergelijke fijn gecreëerde audiostukken zijn eindeloos. Filmmakers kunnen deze technologie gebruiken om rijke en immersieve geluidslandschappen te creëren. In de commerciële sector kunnen adverteerders deze op maat gemaakte audiostukken gebruiken. Bovendien opent dit instrument wegen voor individuele creators en artiesten om te experimenteren en te innoveren, waardoor een canvas van onbeperkt potentieel ontstaat om geluidsfragmenten te creëren die verhalen vertellen, emoties oproepen en atmosferen creëren met een diepte die eerder moeilijk te bereiken was zonder een aanzienlijk budget of technische expertise.

Prompting Tips

Maak de perfecte audio met behulp van tekstprompts. Hier is een snelle gids om u te helpen beginnen:

Wees gedetailleerd: Specificeer genres, stemmingen en instrumenten. Bijv.: Cinematografisch, Wild West, Percussie, Spannend, Atmosferisch
Stemming instellen: Combineer muzikale en emotionele termen om de gewenste stemming over te brengen.
Instrumentkeuze: Versterk instrumentnamen met bijvoeglijke naamwoorden, zoals “Reverberated Gitaar” of “Krachtig Koor”.
BPM: Stem de tempo af op het genre voor een harmonieuze output, zoals “170 BPM” voor een Drum and Bass-track.

Afsluitende notities

Afbeelding gegenereerd door de auteur met behulp van Midjourney

In dit artikel zijn we ingegaan op AI-gegenereerde muziek/audio, van algorithmische composities tot de geavanceerde generatieve AI-kaders van vandaag zoals Google’s MusicLM en Stability Audio. Deze technologieën, die diepgaande leer- en SOTA-compressiemodellen gebruiken, verfijnen niet alleen muziekgeneratie maar ook de luisterervaring van luisteraars.

Toch is het een domein in constante evolutie, met hindernissen zoals het behouden van langetermijncoherentie en de voortdurende discussie over de authenticiteit van AI-gecreëerde muziek, die de pioniers in dit veld uitdagen. Slechts een week geleden was het allemaal over een AI-gecreëerd lied dat de stijlen van Drake en The Weeknd imiteerde, die aanvankelijk online vuur had gevat eerder dit jaar. Echter, het werd verwijderd van de Grammy-nominatielijst, waardoor de voortdurende discussie over de legitimiteit van AI-gegenereerde muziek in de industrie werd aangetoond (bron). Terwijl AI de kloof tussen muziek en luisteraars overbrugt, bevordert het zeker een ecosysteem waarin technologie samenleeft met kunst, innovatie bevordert en traditie respecteert.

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.

Unite.AI

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM en meer

De oorsprong van AI in muziek: een reis van algorithmische compositie tot generatief modeleren

De complexiteit van het vertalen van tekst naar muziek

Google’s MusicLM

Technische inzichten

Stability Audio

Technische inzichten

Prompting Tips

Afsluitende notities

You may like