Intelligence artificielle

Intelligence Artificielle Générative de Musique à Partir de Texte : Stability Audio, MusicLM de Google et Plus

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

La musique, une forme d’art qui résonne avec l’âme humaine, a été une constante compagnie pour nous tous. La création de musique à l’aide de l’intelligence artificielle a commencé il y a plusieurs décennies. Au début, les tentatives étaient simples et intuitives, avec des algorithmes de base créant des mélodies monotones. Cependant, à mesure que la technologie avançait, la complexité et les capacités des générateurs de musique IA ont augmenté, ouvrant la voie à l’apprentissage profond et au traitement automatique du langage naturel (TALN) pour jouer des rôles clés dans cette technologie.

Aujourd’hui, des plateformes comme Spotify utilisent l’IA pour affiner l’expérience d’écoute de leurs utilisateurs. Ces algorithmes d’apprentissage profond analysent les préférences individuelles en fonction de divers éléments musicaux tels que le tempo et l’humeur pour créer des suggestions de chansons personnalisées. Ils analysent même les modèles d’écoute plus larges et fouillent Internet pour des discussions sur les chansons pour créer des profils de chansons détaillés.

L’Origine de l’IA dans la Musique : Un Voyage de la Composition Algorithmique à la Modélisation Générative

Dans les premières étapes de l’IA dans le monde de la musique, allant des années 1950 aux années 1970, l’accent était mis principalement sur la composition algorithmique. Il s’agissait d’une méthode dans laquelle les ordinateurs utilisaient un ensemble de règles définies pour créer de la musique. La première création notable pendant cette période était la Illiac Suite pour quatuor à cordes en 1957. Elle utilisait l’algorithme de Monte Carlo, un processus impliquant des nombres aléatoires pour dicter la hauteur et le rythme dans les limites de la théorie musicale traditionnelle et des probabilités statistiques.

Image générée par l’auteur à l’aide de Midjourney

Pendant cette période, un autre pionnier, Iannis Xenakis, a utilisé des processus stochastiques, un concept impliquant des distributions de probabilité aléatoire, pour créer de la musique. Il a utilisé des ordinateurs et le langage FORTRAN pour relier plusieurs fonctions de probabilité, créant un modèle dans lequel différentes représentations graphiques correspondaient à des espaces sonores divers.

La Complexité de la Traduction de Texte en Musique

La musique est stockée dans un format de données riche et multi-dimensionnel qui englobe des éléments tels que la mélodie, l’harmonie, le rythme et le tempo, rendant la tâche de traduire le texte en musique hautement complexe. Une chanson standard est représentée par près d’un million de nombres dans un ordinateur, un chiffre nettement supérieur à d’autres formats de données comme l’image, le texte, etc.

Le domaine de la génération audio est témoin d’approches innovantes pour surmonter les défis de la création de sons réalistes. Une méthode consiste à générer un spectrogramme, puis à le convertir à nouveau en audio.

Une autre stratégie utilise la représentation symbolique de la musique, comme la partition, qui peut être interprétée et jouée par des musiciens. Cette méthode a été numérisée avec succès, avec des outils comme Chamber Ensemble Generator de Magenta, créant de la musique au format MIDI, un protocole qui facilite la communication entre les ordinateurs et les instruments de musique.

Alors que ces approches ont avancé le domaine, elles comportent leurs propres limites, soulignant la nature complexe de la génération audio.

Les modèles autoregressifs basés sur Transformer et les modèles de diffusion basés sur U-Net, tels que diffusion models, sont à la pointe de la technologie, produisant des résultats à l’état de l’art (SOTA) dans la génération d’audio, de texte, de musique et bien plus encore. La série GPT d’OpenAI et presque tous les autres LLM actuels sont alimentés par des transformateurs utilisant soit l’architecture de l’encodeur, soit du décodeur, soit les deux. Du côté de l’art/image, MidJourney, Stability AI et DALL-E 2 utilisent tous des cadres de diffusion. Ces deux technologies de base ont été clés pour atteindre des résultats SOTA dans le secteur audio également. Dans cet article, nous allons nous plonger dans Google’s MusicLM et Stable Audio, qui témoignent des capacités remarquables de ces technologies.

Google’s MusicLM

Google’s MusicLM a été publié en mai de cette année. MusicLM peut générer des pièces de musique de haute fidélité qui résonnent avec le sentiment exact décrit dans le texte. En utilisant la modélisation séquentielle hiérarchique, MusicLM a la capacité de transformer les descriptions de texte en musique qui résonne à 24 kHz sur des durées étendues.

Le modèle opère sur un niveau multi-dimensionnel, ne s’attachant pas seulement aux entrées textuelles mais également démontrant la capacité d’être conditionné sur les mélodies. Cela signifie qu’il peut prendre une mélodie fredonnée ou sifflée et la transformer selon le style défini dans une légende de texte.

Insights Techniques

MusicLM exploite les principes de AudioLM, un cadre introduit en 2022 pour la génération audio. AudioLM synthétise l’audio comme une tâche de modélisation de langage dans un espace de représentation discret, en utilisant une hiérarchie d’unités audio discrètes grossières à fines, également appelées jetons. Cette approche garantit une haute fidélité et une cohérence à long terme sur des durées substantielles.

Pour faciliter le processus de génération, MusicLM étend les capacités d’AudioLM pour incorporer la conditionnalisation du texte, une technique qui aligne l’audio généré sur les nuances du texte d’entrée. Cela est réalisé grâce à un espace d’intégration partagé créé à l’aide de MuLan, un modèle de musique-texte conjoint formé pour projeter la musique et ses descriptions de texte correspondantes près les unes des autres dans un espace d’intégration. Cette stratégie élimine efficacement le besoin de légendes pendant la formation, permettant au modèle d’être formé sur des corpus audio uniquement massifs.

Le modèle MusicLM utilise également SoundStream comme son tokeniseur audio, qui peut reconstruire de la musique à 24 kHz à 6 kbps avec une fidélité impressionnante, en exploitant la quantification vectorielle résiduelle (RVQ) pour une compression audio efficace et de haute qualité.

Une illustration du processus de pré-formation indépendant pour les modèles fondamentaux de MusicLM : SoundStream, w2v-BERT et MuLan,

Une illustration du processus de pré-formation de MusicLM : SoundStream, w2v-BERT et MuLan | Image source : ici

De plus, MusicLM étend ses capacités en permettant la conditionnalisation de la mélodie. Cette approche garantit que même une simple mélodie fredonnée peut poser les fondements d’une expérience auditive magnifique, affinée au style de texte exact décrit.

Les développeurs de MusicLM ont également mis à disposition en open source MusicCaps, un jeu de données présentant 5 500 paires musique-texte, chacune accompagnée de descriptions de texte riches créées par des experts humains. Vous pouvez le consulter ici : MusicCaps sur Hugging Face.

Prêt à créer des bandes sonores IA avec Google’s MusicLM ? Voici comment commencer :

Visitez le site officiel de MusicLM et cliquez sur “Commencer”.
Rejoignez la liste d’attente en sélectionnant “Enregistrer votre intérêt”.
Connectez-vous à l’aide de votre compte Google.
Une fois l’accès accordé, cliquez sur “Essayer maintenant” pour commencer.

Voici quelques exemples de invites que j’ai expérimentés :

“Chanson méditative, calme et apaisante, avec des flûtes et des guitares. La musique est lente, avec un accent sur la création d’un sentiment de paix et de tranquillité.”

“jazz avec saxophone”

Lorsqu’il est comparé à des modèles SOTA précédents tels que Riffusion et Mubert dans une évaluation qualitative, MusicLM a été préféré plus que les autres, avec des participants notant favorablement la compatibilité des légendes de texte avec des extraits audio de 10 secondes.

Performance de MusicLM, Image source : ici

Stability Audio

Stability AI a présenté la semaine dernière “Stable Audio“, une architecture de modèle de diffusion latent conditionnée sur les métadonnées de texte ainsi que sur la durée et l’heure de début du fichier audio. Cette approche, comme celle de Google’s MusicLM, a le contrôle sur le contenu et la longueur de l’audio généré, permettant la création d’extraits audio avec des longueurs spécifiées jusqu’à la taille de la fenêtre d’entraînement.

Stable Audio

Insights Techniques

Stable Audio se compose de plusieurs composants, notamment d’un VAE (Variational Autoencoder) et d’un modèle de diffusion conditionné basé sur U-Net, travaillant ensemble avec un encodeur de texte.

Une illustration montrant l'intégration d'un VAE, d'un encodeur de texte et d'un modèle de diffusion conditionné basé sur U-Net

Architecture de Stable Audio, Image source : ici

Le VAE facilite une génération et un entraînement plus rapides en compressant l’audio stéréo dans un codage latent compressé, résistant au bruit et inversible, contournant ainsi le besoin de travailler avec des échantillons audio bruts.

L’encodeur de texte, dérivé d’un modèle CLAP, joue un rôle crucial dans la compréhension des relations complexes entre les mots et les sons, offrant une représentation informative du texte d’entrée tokenisé. Cela est réalisé en utilisant les fonctionnalités de texte de la couche pénultième de l’encodeur de texte CLAP, qui sont ensuite intégrées dans le U-Net de diffusion via des couches d’attention croisée.

Un aspect important est l’incorporation d’incrustations de temporisation, qui sont calculées sur la base de deux propriétés : la seconde de début de la tranche audio et la durée totale du fichier audio d’origine. Ces valeurs, traduites en incrustations discrètes apprises par seconde, sont combinées avec les jetons de invite et alimentent les couches d’attention croisée du U-Net, permettant aux utilisateurs de dicter la longueur globale de l’audio de sortie.

Le modèle Stable Audio a été entraîné en utilisant un vaste ensemble de données de plus de 800 000 fichiers audio, en collaboration avec le fournisseur de musique de stock AudioSparx.

Publicités audio stables

Stable Audio propose une version gratuite, permettant 20 générations de pistes de jusqu’à 20 secondes par mois, et un plan Pro à 12 $/mois, autorisant 500 générations de pistes de jusqu’à 90 secondes.

Voici un extrait audio que j’ai créé en utilisant Stable Audio.

Image générée par l’auteur à l’aide de Midjourney

“Musique cinématique, bande originale, pluie douce, ambiance, apaisante, aboiements de chiens lointains, bruissement de feuilles calme, vent subtil, 40 BPM”

Les applications de tels morceaux audio soigneusement conçus sont infinies. Les cinéastes peuvent exploiter cette technologie pour créer des paysages sonores riches et immersifs. Dans le secteur commercial, les publicitaires peuvent utiliser ces pistes audio sur mesure. De plus, cet outil ouvre des voies pour les créateurs et les artistes individuels pour expérimenter et innover, offrant une toile de potentialité infinie pour créer des pièces sonores qui racontent des histoires, évoquent des émotions et créent des atmosphères avec une profondeur qui était auparavant difficile à atteindre sans un budget substantiel ou une expertise technique.

Conseils de Invitation

Créez l’audio parfait en utilisant des invites de texte. Voici un guide rapide pour vous lancer :

Soyez Détaillé : Spécifiez les genres, les humeurs et les instruments. Par exemple : Cinématique, Western sauvage, Percussion, Tendu, Atmosphérique
Régler l’Humeur : Combinez les termes musicaux et émotionnels pour transmettre l’humeur souhaitée.
Choix d’Instrument : Améliorez les noms d’instruments avec des adjectifs, comme “Guitare réverbérée” ou “Chœur puissant”.
BPM : Alignez le tempo avec le genre pour une sortie harmonieuse, comme “170 BPM” pour une piste de Drum and Bass.

Notes de Fin

Image générée par l’auteur à l’aide de Midjourney

Dans cet article, nous avons plongé dans la musique/audio générée par IA, des compositions algorithmiques aux cadres de modélisation générative sophistiqués d’aujourd’hui comme Google’s MusicLM et Stability Audio. Ces technologies, exploitant l’apprentissage profond et les modèles de compression SOTA, améliorent non seulement la génération de musique mais également les expériences d’écoute des auditeurs.

Pourtant, c’est un domaine en constante évolution, avec des obstacles tels que le maintien de la cohérence à long terme et le débat en cours sur l’authenticité de la musique créée par IA, qui défient les pionniers dans ce domaine. Il y a juste une semaine, le buzz était tout autour d’une chanson créée par IA qui canalisait les styles de Drake et The Weeknd, qui avait initialement pris feu en ligne plus tôt cette année. Cependant, elle a été retirée de la liste des nominations aux Grammy, mettant en évidence le débat en cours sur la légitimité de la musique générée par IA dans l’industrie (source). Alors que l’IA continue de combler les lacunes entre la musique et les auditeurs, elle promeut certainement un écosystème où la technologie coexiste avec l’art, favorisant l’innovation tout en respectant la tradition.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI

Intelligence Artificielle Générative de Musique à Partir de Texte : Stability Audio, MusicLM de Google et Plus

L’Origine de l’IA dans la Musique : Un Voyage de la Composition Algorithmique à la Modélisation Générative

La Complexité de la Traduction de Texte en Musique

Google’s MusicLM

Insights Techniques

Stability Audio

Insights Techniques

Conseils de Invitation

Notes de Fin

You may like