mozzicone IA generativa da testo a musica: Stability Audio, MusicLM di Google e altro ancora - Unite.AI
Seguici sui social

Intelligenza Artificiale

IA generativa da testo a musica: Stability Audio, MusicLM di Google e altro ancora

mm
aggiornato on

La musica, una forma d'arte che risuona con l'animo umano, è stata una compagna costante di tutti noi. La creazione di musica utilizzando l’intelligenza artificiale è iniziata diversi decenni fa. Inizialmente, i tentativi erano semplici e intuitivi, con algoritmi di base che creavano melodie monotone. Tuttavia, con l’avanzare della tecnologia, sono aumentate anche la complessità e le capacità dei generatori musicali basati sull’intelligenza artificiale, aprendo la strada al deep learning e all’elaborazione del linguaggio naturale (NLP) per svolgere un ruolo chiave in questa tecnologia.

Oggi piattaforme come Spotify sfruttano l'intelligenza artificiale per ottimizzare le esperienze di ascolto dei propri utenti. Questi algoritmi di deep learning analizzano le preferenze individuali in base a vari elementi musicali come il tempo e l'umore per creare suggerimenti di brani personalizzati. Analizzano anche modelli di ascolto più ampi e setacciano Internet alla ricerca di discussioni relative alle canzoni per creare profili dettagliati delle canzoni.

L'origine dell'intelligenza artificiale nella musica: un viaggio dalla composizione algoritmica alla modellazione generativa

Nelle prime fasi del mixaggio basato sull’intelligenza artificiale nel mondo della musica, dagli anni ’1950 agli anni ’1970, l’attenzione era principalmente sulla composizione algoritmica. Questo era un metodo in cui i computer utilizzavano un insieme definito di regole per creare musica. La prima creazione degna di nota durante questo periodo fu la Suite illiaca per quartetto d'archi nel 1957. Ha utilizzato l'algoritmo Monte Carlo, un processo che coinvolge numeri casuali per dettare l'altezza e il ritmo entro i confini della teoria musicale tradizionale e delle probabilità statistiche.

Immagine generata dall'autore utilizzando Midjourney

Immagine generata dall'autore utilizzando Midjourney

Durante questo periodo, un altro pioniere, Iannis Xenakis, utilizzavano processi stocastici, un concetto che coinvolge distribuzioni di probabilità casuali, per creare musica. Usava i computer e il FORTRAN linguaggio per connettere molteplici funzioni di probabilità, creando uno schema in cui diverse rappresentazioni grafiche corrispondevano a diversi spazi sonori.

La complessità della traduzione del testo in musica

La musica viene archiviata in un formato di dati ricco e multidimensionale che comprende elementi come melodia, armonia, ritmo e tempo, rendendo il compito di tradurre il testo in musica estremamente complesso. Una canzone standard è rappresentata da quasi un milione di numeri in un computer, una cifra significativamente più alta rispetto ad altri formati di dati come immagini, testo, ecc.

Il campo della generazione audio sta assistendo ad approcci innovativi per superare le sfide legate alla creazione di un suono realistico. Un metodo prevede la generazione di uno spettrogramma e la successiva riconversione in audio.

Un’altra strategia fa leva sulla rappresentazione simbolica della musica, come gli spartiti, che possono essere interpretati e suonati dai musicisti. Questo metodo è stato digitalizzato con successo, con strumenti come quello di Magenta Generatore di ensemble da camera creare musica in formato MIDI, un protocollo che facilita la comunicazione tra computer e strumenti musicali.

Sebbene questi approcci abbiano fatto avanzare il campo, presentano una serie di limiti, sottolineando la natura complessa della generazione audio.

trasformatoremodelli autoregressivi basati su U-Net modelli di diffusione, sono all'avanguardia nella tecnologia, producendo risultati all'avanguardia (SOTA) nella generazione di audio, testo, musica e molto altro. La serie GPT di OpenAI e quasi tutti gli altri LLM attualmente sono alimentati da trasformatori che utilizzano codificatore, decodificatore o entrambe le architetture. Dal punto di vista artistico/immagine, MidJourney, Stability AI e DALL-E 2 sfruttano tutti i framework di diffusione. Queste due tecnologie fondamentali sono state fondamentali per raggiungere i risultati SOTA anche nel settore audio. In questo articolo approfondiremo MusicLM e Stable Audio di Google, che testimoniano le straordinarie capacità di queste tecnologie.

MusicLM di Google

MusicLM di Google è stato rilasciato a maggio di quest'anno. MusicLM può generare brani musicali ad alta fedeltà, che risuonano con l'esatto sentimento descritto nel testo. Utilizzando la modellazione gerarchica sequenza per sequenza, MusicLM ha la capacità di trasformare le descrizioni testuali in musica che risuona a 24 kHz per durate estese.

Il modello opera a livello multidimensionale, non solo aderendo agli input testuali ma dimostrando anche la capacità di lasciarsi condizionare dalle melodie. Ciò significa che può prendere una melodia canticchiata o fischiata e trasformarla secondo lo stile delineato in una didascalia di testo.

Approfondimenti tecnici

Il MusicLM sfrutta i principi di AudioLM, un framework introdotto nel 2022 per la generazione audio. AudioLM sintetizza l'audio come attività di modellazione del linguaggio all'interno di uno spazio di rappresentazione discreto, utilizzando una gerarchia di unità audio discrete da grossolane a fini, note anche come token. Questo approccio garantisce alta fedeltà e coerenza a lungo termine per durate sostanziali.

Per facilitare il processo di generazione, MusicLM estende le capacità di AudioLM per incorporare il condizionamento del testo, una tecnica che allinea l'audio generato con le sfumature del testo di input. Ciò si ottiene attraverso uno spazio di incorporamento condiviso creato utilizzando MuLan, un modello congiunto di musica e testo addestrato a proiettare la musica e le sue corrispondenti descrizioni testuali una accanto all'altra in uno spazio di incorporamento. Questa strategia elimina di fatto la necessità di didascalie durante l'addestramento, consentendo al modello di essere addestrato su enormi corpora solo audio.

Utilizza anche il modello MusicLM Flusso sonoro come il suo tokenizzatore audio, che può ricostruire la musica a 24 kHz a 6 kbps con una fedeltà impressionante, sfruttando quantizzazione vettoriale residua (RVQ) per una compressione audio efficiente e di alta qualità.

Un'illustrazione del processo di preformazione indipendente per i modelli fondamentali di MusicLM: SoundStream, w2v-BERT e MuLan,

Un'illustrazione del processo di pre-formazione di MusicLM: SoundStream, w2v-BERT e Mulan | Fonte immagine: qui

Inoltre, MusicLM espande le sue capacità consentendo il condizionamento della melodia. Questo approccio garantisce che anche una semplice melodia canticchiata possa gettare le basi per una magnifica esperienza uditiva, ottimizzata per le esatte descrizioni dello stile testuale.

Gli sviluppatori di MusicLM hanno anche reso open source MusicCaps, un set di dati contenente 5.5k coppie di musica-testo, ciascuna accompagnata da ricche descrizioni di testo realizzate da esperti umani. Puoi verificarlo qui: MusicCaps sul viso che abbraccia.

Pronto a creare colonne sonore AI con MusicLM di Google? Ecco come iniziare:

  1. Visita il sito web ufficiale di MusicLM e fai clic su "Inizia".
  2. Unisciti alla lista d'attesa selezionando "Registra il tuo interesse".
  3. Accedi utilizzando il tuo account Google.
  4. Una volta concesso l'accesso, fai clic su "Prova ora" per iniziare.

Di seguito sono riportati alcuni esempi di istruzioni che ho sperimentato:

“Canzone meditativa, calmante e rilassante, con flauti e chitarre. La musica è lenta, con l’obiettivo di creare un senso di pace e tranquillità”.

“jazz con sassofono”

Rispetto ai precedenti modelli SOTA come Riffusion e Mubert in una valutazione qualitativa, MusicLM è stato preferito rispetto ad altri, con i partecipanti che hanno valutato favorevolmente la compatibilità dei sottotitoli di testo con clip audio di 10 secondi.

Confronto delle prestazioni di MusicLM

Performance MusicLM, fonte immagine: qui

Stabilità dell'audio

L'intelligenza artificiale per la stabilità è stata introdotta la scorsa settimana "Audio stabile"Un'architettura del modello di diffusione latente condizionata dai metadati del testo insieme alla durata del file audio e all'ora di inizio. Questo approccio, come MusicLM di Google, ha il controllo sul contenuto e sulla lunghezza dell'audio generato, consentendo la creazione di clip audio con lunghezze specificate fino alla dimensione della finestra di training.

Approfondimenti tecnici

Stable Audio comprende diversi componenti tra cui un Variational Autoencoder (VAE) e un modello di diffusione condizionata basato su U-Net, che lavorano insieme a un codificatore di testo.

Un'illustrazione che mostra l'integrazione di un autoencoder variazionale (VAE), un codificatore di testo e un modello di diffusione condizionata basato su U-Net

Architettura audio stabile, fonte immagine: qui

Il VAE facilita la generazione e l'addestramento più rapidi comprimendo l'audio stereo in una codifica latente con perdita di dati compressa, resistente al rumore e invertibile, evitando la necessità di lavorare con campioni audio grezzi.

Il codificatore di testo, derivato da a CLAP modello, gioca un ruolo fondamentale nella comprensione delle complesse relazioni tra parole e suoni, offrendo una rappresentazione informativa del testo di input tokenizzato. Ciò si ottiene attraverso l'utilizzo di funzionalità di testo dal penultimo livello del codificatore di testo CLAP, che vengono poi integrate nella diffusione U-Net attraverso livelli di attenzione incrociata.

Un aspetto importante è l'incorporazione degli incorporamenti temporali, che vengono calcolati in base a due proprietà: il secondo iniziale del pezzo audio e la durata totale del file audio originale. Questi valori, tradotti in incorporamenti appresi discreti al secondo, vengono combinati con i token di richiesta e inseriti nei livelli di attenzione incrociata di U-Net, consentendo agli utenti di dettare la lunghezza complessiva dell'audio in uscita.

Il modello Stable Audio è stato addestrato utilizzando un ampio set di dati di oltre 800,000 file audio, attraverso la collaborazione con il fornitore di musica stock AudioSparx.

Spot audio stabili

Spot audio stabili

Stable Audio offre una versione gratuita, che consente 20 generazioni di tracce fino a 20 secondi al mese, e un piano Pro da $ 12 al mese, che consente 500 generazioni di tracce fino a 90 secondi.

Di seguito è riportato un clip audio che ho creato utilizzando l'audio stabile.

Immagine generata dall'autore utilizzando Midjourney

Immagine generata dall'autore utilizzando Midjourney

“Cinematografico, Colonna sonora Pioggia delicata, Ambiente, Rilassante, Cani lontani che abbaiano, Fruscio delle foglie calmante, Vento sottile, 40 BPM”

Le applicazioni di brani audio così finemente realizzati sono infinite. I registi possono sfruttare questa tecnologia per creare paesaggi sonori ricchi e coinvolgenti. Nel settore commerciale, gli inserzionisti possono utilizzare queste tracce audio su misura. Inoltre, questo strumento apre strade ai singoli creatori e artisti per sperimentare e innovare, offrendo una tela dal potenziale illimitato per creare pezzi sonori che narrano storie, evocano emozioni e creano atmosfere con una profondità che in precedenza era difficile da ottenere senza un budget sostanziale. o competenza tecnica.

Suggerimenti

Crea l'audio perfetto utilizzando le istruzioni di testo. Ecco una guida rapida per iniziare:

  1. Sii dettagliato: consente di specificare generi, atmosfere e strumenti. Ad esempio: cinematografico, selvaggio West, percussioni, teso, atmosferico
  2. Impostazione dell'umore: Combina termini musicali ed emotivi per trasmettere l'atmosfera desiderata.
  3. Scelta dello strumento: arricchisce i nomi degli strumenti con aggettivi, come “Chitarra riverberata” o “Coro potente”.
  4. BPM: Allinea il tempo al genere per un risultato armonioso, come “170 BPM” per una traccia Drum and Bass.

Note di chiusura

Immagine generata dall'autore utilizzando Midjourney

Immagine generata dall'autore utilizzando Midjourney

In questo articolo, abbiamo approfondito la musica e l'audio generati dall'intelligenza artificiale, dalle composizioni algoritmiche ai sofisticati framework di intelligenza artificiale generativa di oggi come MusicLM e Stability Audio di Google. Queste tecnologie, sfruttando il deep learning e i modelli di compressione SOTA, non solo migliorano la generazione di musica ma ottimizzano anche le esperienze degli ascoltatori.

Tuttavia, si tratta di un ambito in costante evoluzione, con ostacoli come il mantenimento della coerenza a lungo termine e il dibattito in corso sull’autenticità della musica creata dall’intelligenza artificiale che sfida i pionieri in questo campo. Solo una settimana fa, il buzz riguardava una canzone creata dall'intelligenza artificiale che incanalava gli stili di Drake e The Weeknd, che inizialmente aveva preso fuoco online all'inizio di quest'anno. Tuttavia, ha dovuto affrontare la rimozione dalla lista delle nomination ai Grammy, a dimostrazione del dibattito in corso sulla legittimità della musica generata dall’intelligenza artificiale nel settore.source). Mentre l’intelligenza artificiale continua a colmare il divario tra musica e ascoltatori, sta sicuramente promuovendo un ecosistema in cui la tecnologia coesiste con l’arte, promuovendo l’innovazione nel rispetto della tradizione.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.