Intelligenza artificiale

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM e altro

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

La musica, una forma d’arte che risuona con l’anima umana, è stata una costante compagna di noi tutti. La creazione di musica utilizzando l’intelligenza artificiale è iniziata diversi decenni fa. Inizialmente, i tentativi erano semplici e intuitivi, con algoritmi di base che creavano melodie monotone. Tuttavia, man mano che la tecnologia avanzava, anche la complessità e le capacità dei generatori di musica AI sono aumentate, aprendo la strada all’apprendimento profondo e all’elaborazione del linguaggio naturale (NLP) per svolgere ruoli fondamentali in questa tecnologia.

Oggi, piattaforme come Spotify stanno sfruttando l’AI per perfezionare l’esperienza di ascolto degli utenti. Questi algoritmi di apprendimento profondo analizzano le preferenze individuali in base a vari elementi musicali come il tempo e l’umore per creare suggerimenti di canzoni personalizzati. Analizzano anche modelli di ascolto più ampi e setacciano internet per discussioni relative alle canzoni per creare profili di canzoni dettagliati.

L’origine dell’AI nella musica: un viaggio dall’elaborazione algoritmica alla modellazione generativa

Nelle prime fasi dell’integrazione dell’AI nel mondo della musica, che va dagli anni ’50 ai ’70, l’attenzione si concentrava principalmente sull’elaborazione algoritmica. Questo era un metodo in cui i computer utilizzavano un set definito di regole per creare musica. La prima creazione notevole durante questo periodo fu la Illiac Suite for String Quartet nel 1957. Utilizzava l’algoritmo Monte Carlo, un processo che coinvolgeva numeri casuali per determinare l’altezza e il ritmo all’interno dei confini della teoria musicale tradizionale e delle probabilità statistiche.

Immagine generata dall’autore utilizzando Midjourney

Durante questo periodo, un altro pioniere, Iannis Xenakis, utilizzò processi stocastici, un concetto che coinvolge distribuzioni di probabilità casuali, per creare musica. Utilizzò computer e il linguaggio FORTRAN per collegare più funzioni di probabilità, creando un modello in cui diverse rappresentazioni grafiche corrispondevano a diversi spazi sonori.

La complessità della traduzione del testo in musica

La musica è archiviata in un formato di dati ricco e multidimensionale che comprende elementi come melodia, armonia, ritmo e tempo, rendendo il compito di tradurre il testo in musica altamente complesso. Una canzone standard è rappresentata da quasi un milione di numeri in un computer, una cifra significativamente più alta di altri formati di dati come immagini, testo, ecc.

Il campo della generazione audio sta assistendo ad approcci innovativi per superare le sfide della creazione di suoni realistici. Un metodo coinvolge la generazione di uno spettrogramma e quindi la sua conversione in audio.

Un’altra strategia sfrutta la rappresentazione simbolica della musica, come la musica scritta, che può essere interpretata e suonata da musicisti. Questo metodo è stato digitizzato con successo, con strumenti come Chamber Ensemble Generator di Magenta, che crea musica nel formato MIDI, un protocollo che facilita la comunicazione tra computer e strumenti musicali.

Mentre questi approcci hanno avanzato il campo, presentano anche una serie di limitazioni, sottolineando la natura complessa della generazione audio.

I modelli autoregressivi basati su Transformer e i modelli di diffusione basati su U-Net, come il modello di diffusione, sono all’avanguardia della tecnologia, producendo risultati di stato dell’arte (SOTA) nella generazione di audio, testo, musica e molto altro. La serie GPT di OpenAI e quasi tutti gli altri LLM attualmente sono alimentati da trasformatori che utilizzano architetture di encoder, decoder o entrambe. Nel lato arte/immagine, MidJourney, Stability AI e DALL-E 2 sfruttano tutti i framework di diffusione. Queste due tecnologie fondamentali sono state chiave nel raggiungere risultati SOTA nel settore audio.

In questo articolo, ci addentreremo in Google’s MusicLM e Stable Audio, che testimoniano le capacità eccezionali di queste tecnologie.

Google’s MusicLM

Google’s MusicLM è stato rilasciato a maggio di quest’anno. MusicLM può generare pezzi musicali ad alta fedeltà, che risuonano con il sentimento esatto descritto nel testo. Utilizzando la modellazione sequenza-sequenza gerarchica, MusicLM ha la capacità di trasformare descrizioni di testo in musica che risuona a 24 kHz su durate estese.

Il modello opera su un livello multidimensionale, non solo aderendo agli input testuali, ma anche dimostrando la capacità di essere condizionato su melodie. Ciò significa che può prendere una melodia ummata o fischiettata e trasformarla secondo lo stile delineato in una didascalia di testo.

Approfondimenti tecnici

MusicLM sfrutta i principi di AudioLM, un framework introdotto nel 2022 per la generazione audio. AudioLM sintetizza l’audio come un compito di modellazione del linguaggio all’interno di uno spazio di rappresentazione discreta, utilizzando una gerarchia di unità audio discrete da grossolane a fini, anche note come token. Questo approccio garantisce un’alta fedeltà e una coerenza a lungo termine su durate sostanziali.

Per facilitare il processo di generazione, MusicLM estende le capacità di AudioLM per incorporare la condizionamento del testo, una tecnica che allinea l’audio generato con le sfumature del testo di input. Ciò viene realizzato attraverso uno spazio di incorporamento condiviso creato utilizzando MuLan, un modello musicale-testo congiunto addestrato per proiettare musica e relative descrizioni di testo vicino l’uno all’altro in uno spazio di incorporamento. Questa strategia elimina efficacemente la necessità di didascalie durante l’addestramento, consentendo al modello di essere addestrato su enormi corpora audio-soli.

Il modello MusicLM utilizza anche SoundStream come tokenizzatore audio, che può ricostruire musica a 24 kHz con fedeltà impressionante, sfruttando la quantizzazione vettoriale residuale (RVQ) per la compressione audio efficiente e di alta qualità.

Un'illustrazione del processo di pre-addestramento indipendente per i modelli fondamentali di MusicLM: SoundStream, w2v-BERT e MuLan,

Un’illustrazione del processo di pre-addestramento di MusicLM: SoundStream, w2v-BERT e MuLan | Immagine fonte: qui

Inoltre, MusicLM estende le sue capacità consentendo la condizionamento della melodia. Questo approccio garantisce che anche una semplice melodia ummata possa costituire la base per un’esperienza auditiva magnifica, perfezionata per descrizioni di stile testuale esatte.

Gli sviluppatori di MusicLM hanno anche reso open-source MusicCaps, un set di dati che presenta 5.500 coppie di musica-testo, ciascuna accompagnata da descrizioni di testo ricche create da esperti umani. Puoi verificarlo qui: MusicCaps su Hugging Face.

Pronto a creare colonne sonore AI con Google’s MusicLM? Ecco come iniziare:

Visita il sito web ufficiale di MusicLM e clicca “Inizia”.
Unisciti alla lista d’attesa selezionando “Registra il tuo interesse”.
Accedi utilizzando il tuo account Google.
Una volta concesso l’accesso, clicca “Prova ora” per iniziare.

Ecco alcuni esempi di prompt che ho sperimentato:

“Canzone meditativa, calma e rilassante, con flauti e chitarre. La musica è lenta, con un focus sulla creazione di un senso di pace e tranquillità.”

“jazz con sassofono”

Quando paragonato a precedenti modelli SOTA come Riffusion e Mubert in una valutazione qualitativa, MusicLM è stato preferito più degli altri, con i partecipanti che hanno valutato favorevolmente la compatibilità delle didascalie di testo con clip audio da 10 secondi.

Confronto delle prestazioni di MusicLM, Immagine fonte: qui

Stability Audio

Stability AI ha introdotto la scorsa settimana “Stable Audio“, un modello di diffusione latente condizionato su metadati di testo insieme alla durata del file audio e all’ora di inizio. Questo approccio, come Google’s MusicLM, ha il controllo sul contenuto e sulla lunghezza dell’audio generato, consentendo la creazione di clip audio con lunghezze specificate fino alla dimensione della finestra di addestramento.

Stable Audio

Approfondimenti tecnici

Stable Audio comprende diversi componenti, tra cui un’autoencoder variazionale (VAE) e un modello di diffusione condizionato basato su U-Net, che lavorano insieme con un encoder di testo.

Un'illustrazione che mostra l'integrazione di un'autoencoder variazionale (VAE), un encoder di testo e un modello di diffusione condizionato basato su U-Net

Architettura di Stable Audio, Immagine fonte: qui

Il VAE facilita una generazione e un addestramento più veloci, comprimendo l’audio stereo in un’incorporazione lossy e invertibile, saltando la necessità di lavorare con campioni audio grezzi.

L’encoder di testo, derivato da un modello CLAP, svolge un ruolo fondamentale nel comprendere le relazioni intricate tra parole e suoni, offrendo una rappresentazione informativa del testo tokenizzato. Ciò viene realizzato utilizzando le caratteristiche del testo dal livello penultimo dell’encoder di testo CLAP, che vengono poi integrate nel modello di diffusione U-Net attraverso layer di cross-attenzione.

Un aspetto importante è l’incorporazione di incorporamenti di temporizzazione, che vengono calcolati in base a due proprietà: il secondo di inizio dell’audio e la durata totale del file audio originale. Questi valori, tradotti in incorporamenti discreti appresi per secondo, vengono combinati con i token di prompt e alimentati nei layer di cross-attenzione del modello U-Net, consentendo agli utenti di dictare la lunghezza complessiva dell’audio di output.

Il modello Stable Audio è stato addestrato utilizzando un vasto set di dati di oltre 800.000 file audio, in collaborazione con il fornitore di musica stock AudioSparx.

spot pubblicitari di Stable audio

Stable Audio offre una versione gratuita, che consente 20 generazioni di tracce fino a 20 secondi al mese, e un piano Pro a 12 dollari al mese, che consente 500 generazioni di tracce fino a 90 secondi.

Ecco un clip audio che ho creato utilizzando Stable Audio.

Immagine generata dall’autore utilizzando Midjourney

“Cinematografico, Colonna sonora Pioggia leggera, Ambient, Rilassante, Abbaiare di cani in lontananza, Fruscio di foglie calmante, Vento sottile, 40 BPM”

Le applicazioni di tali pezzi audio finemente elaborati sono infinite. I registi possono sfruttare questa tecnologia per creare paesaggi sonori ricchi e immersivi. Nel settore commerciale, gli inserzionisti possono utilizzare queste tracce audio personalizzate. Inoltre, questo strumento apre la strada a creatori e artisti individuali per sperimentare e innovare, offrendo una tela di potenziale illimitato per creare pezzi sonori che narrano storie, evocano emozioni e creano atmosfere con una profondità che in precedenza era difficile da raggiungere senza un sostanziale budget o competenze tecniche.

Suggerimenti per i prompt

Crea l’audio perfetto utilizzando prompt di testo. Ecco una guida rapida per iniziare:

Sii dettagliato: Specifica generi, umori e strumenti. Ad esempio: Cinematografico, Wild West, Percussione, Tense, Atmosferico
Impostazione dell’umore: Combina termini musicali ed emozionali per trasmettere l’umore desiderato.
Scelta dello strumento: Potenzia i nomi degli strumenti con aggettivi, come “Chitarra riverberata” o “Coro potente”.
BPM: Allinea il tempo con il genere per un output armonioso, come “170 BPM” per una traccia Drum and Bass.

Note conclusive

Immagine generata dall’autore utilizzando Midjourney

In questo articolo, ci siamo addentrati nella musica generata dall’AI, dalle composizioni algoritmiche alle sofisticate cornici di modellazione generativa di oggi come Google’s MusicLM e Stability Audio. Queste tecnologie, che sfruttano l’apprendimento profondo e i modelli di compressione SOTA, non solo migliorano la generazione musicale, ma anche le esperienze di ascolto degli utenti.

Tuttavia, è un dominio in costante evoluzione, con ostacoli come il mantenimento della coerenza a lungo termine e il dibattito in corso sull’autenticità della musica creata dall’AI che sfidano i pionieri in questo campo. Solo una settimana fa, il buzz era tutto sulla canzone creata dall’AI che incanalava gli stili di Drake e The Weeknd, che aveva inizialmente preso fuoco online all’inizio di quest’anno. Tuttavia, è stato rimosso dall’elenco di nomination ai Grammy, mostrando il dibattito in corso sulla legittimità della musica generata dall’AI nel settore (fonte: fonte). Mentre l’AI continua a colmare le lacune tra la musica e gli ascoltatori, sta sicuramente promuovendo un ecosistema in cui la tecnologia coesiste con l’arte, promuovendo l’innovazione mentre rispetta la tradizione.

Aayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.

Unite.AI

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM e altro

L’origine dell’AI nella musica: un viaggio dall’elaborazione algoritmica alla modellazione generativa

La complessità della traduzione del testo in musica

Google’s MusicLM

Approfondimenti tecnici

Stability Audio

Approfondimenti tecnici

Suggerimenti per i prompt

Note conclusive

You may like