Suivez nous sur

IA gĂ©nĂ©rative de conversion texte-musique : Stability Audio, MusicLM de Google et plus

Intelligence Artificielle

IA gĂ©nĂ©rative de conversion texte-musique : Stability Audio, MusicLM de Google et plus

mm

La musique, une forme d’art qui résonne avec l’âme humaine, est notre compagne constante à tous. La création musicale utilisant l’intelligence artificielle a commencé il y a plusieurs décennies. Au départ, les tentatives étaient simples et intuitives, avec des algorithmes de base créant des mélodies monotones. Cependant, à mesure que la technologie progressait, la complexité et les capacités des générateurs de musique IA ont également augmenté, ouvrant la voie à l'apprentissage profond et au traitement du langage naturel (NLP) pour jouer un rôle central dans cette technologie.

Aujourd'hui, des plateformes comme Spotify exploitent l'IA pour optimiser l'expérience d'écoute de leurs utilisateurs. Ces algorithmes d'apprentissage profond décortiquent les préférences individuelles en fonction de divers éléments musicaux, tels que le tempo et l'ambiance, afin de créer des suggestions musicales personnalisées. Ils analysent même des habitudes d'écoute plus larges et parcourent Internet à la recherche de discussions sur les chansons afin d'établir des profils musicaux détaillés.

L'origine de l'IA dans la musique : un voyage de la composition algorithmique Ă  la modĂ©lisation gĂ©nĂ©rative

Aux débuts du mixage IA dans le monde de la musique, des années 1950 aux années 1970, l’accent était principalement mis sur la composition algorithmique. Il s’agissait d’une méthode dans laquelle les ordinateurs utilisaient un ensemble défini de règles pour créer de la musique. La première création notable de cette période fut la Suite Illiaque pour quatuor à cordes en 1957. Il utilisait l'algorithme de Monte Carlo, un processus impliquant des nombres aléatoires pour dicter la hauteur et le rythme dans les limites de la théorie musicale traditionnelle et des probabilités statistiques.

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

Pendant ce temps, un autre pionnier, Iannis Xénakis, a utilisé des processus stochastiques, un concept impliquant des distributions de probabilités aléatoires, pour créer de la musique. Il utilisait des ordinateurs et le Fortran langage pour connecter plusieurs fonctions de probabilité, créant un modèle dans lequel différentes représentations graphiques correspondaient à divers espaces sonores.

La complexité de la traduction de texte en musique

La musique est stockée dans un format de données riche et multidimensionnel qui englobe des éléments tels que la mélodie, l'harmonie, le rythme et le tempo, ce qui rend la tâche de traduction du texte en musique très complexe. Une chanson standard est représentée par près d'un million de chiffres dans un ordinateur, un chiffre nettement supérieur à d'autres formats de données comme l'image, le texte, etc.

Le domaine de la génération audio est témoin d’approches innovantes pour surmonter les défis liés à la création d’un son réaliste. Une méthode consiste à générer un spectrogramme, puis à le reconvertir en audio.

Une autre stratégie exploite la représentation symbolique de la musique, comme les partitions, qui peuvent être interprétées et jouées par les musiciens. Cette méthode a été numérisée avec succès grâce à des outils comme Magenta. Générateur d'ensemble de chambre créer de la musique au format MIDI, un protocole qui facilite la communication entre les ordinateurs et les instruments de musique.

Bien que ces approches aient fait progresser le domaine, elles comportent leurs propres limites, soulignant la nature complexe de la génération audio.

transformateurmodèles autorégressifs basés sur U-Net modèles de diffusion, sont à la pointe de la technologie et produisent des résultats SOTA de pointe pour la génération d'audio, de texte, de musique et bien plus encore. La série GPT d'OpenAI et la quasi-totalité des autres LLM reposent actuellement sur des transformateurs utilisant soit un encodeur, soit un décodeur, soit les deux architectures. Côté art/image, MidJourney, Stability AI et DALL-E 2 exploitent tous des frameworks de diffusion. Ces deux technologies fondamentales ont également joué un rôle clé dans l'obtention de résultats SOTA dans le secteur audio. Dans cet article, nous nous pencherons sur MusicLM et Stable Audio de Google, qui témoignent des capacités remarquables de ces technologies.

MusicLM de Google

MusicLM de Google est sorti en mai dernier. MusicLM permet de générer des morceaux de musique haute fidélité, en résonance avec le sentiment exprimé dans le texte. Grâce à une modélisation hiérarchique séquence à séquence, MusicLM est capable de transformer les descriptions textuelles en musique résonnant à 24 kHz sur de longues durées.

Le modèle fonctionne à un niveau multidimensionnel, non seulement en adhérant aux entrées textuelles, mais en démontrant également la capacité d'être conditionné par les mélodies. Cela signifie qu'il peut prendre une mélodie fredonnée ou sifflée et la transformer selon le style défini dans une légende de texte.

Informations techniques

Le MusicLM exploite les principes de AudioLM, un framework introduit en 2022 pour la génération audio. AudioLM synthétise l'audio en tant que tâche de modélisation de langage au sein d'un espace de représentation discret, en utilisant une hiérarchie d'unités audio discrètes grossières à fines, également appelées jetons. Cette approche garantit une haute fidélité et une cohérence à long terme sur des durées substantielles.

Pour faciliter le processus de génération, MusicLM étend les capacités d'AudioLM pour incorporer le conditionnement de texte, une technique qui aligne l'audio généré avec les nuances du texte saisi. Ceci est réalisé grâce à un espace d'intégration partagé créé à l'aide de MuLan, un modèle commun musique-texte formé pour projeter la musique et ses descriptions textuelles correspondantes proches les unes des autres dans un espace d'intégration. Cette stratégie élimine efficacement le besoin de sous-titres pendant la formation, permettant au modèle d'être formé sur des corpus massifs uniquement audio.

Le modèle MusicLM utilise également Flux sonore comme son tokenizer audio, qui peut reconstruire la musique de 24 kHz à 6 kbps avec une fidélité impressionnante, en tirant parti quantification vectorielle résiduelle (RVQ) pour une compression audio efficace et de haute qualité.

Une illustration du processus de prĂ©-formation indĂ©pendant pour les modèles fondamentaux de MusicLM : SoundStream, w2v-BERT et MuLan,

Une illustration du processus de prĂ©-formation de MusicLM : SoundStream, w2v-BERT et Mulan | Source des images : here.

De plus, MusicLM étend ses capacités en permettant le conditionnement mélodique. Cette approche garantit que même une simple mélodie fredonnée peut jeter les bases d’une magnifique expérience auditive, affinée selon les descriptions exactes du style textuel.

Les développeurs de MusicLM ont également MusicCaps en open source, un ensemble de données contenant 5.5 XNUMX paires de textes musicaux, chacune accompagnée de descriptions textuelles riches élaborées par des experts humains. Vous pouvez le voir ici: MusicCaps sur le visage câlin.

PrĂŞt Ă  crĂ©er des bandes sonores IA avec MusicLM de Google ? Voici comment commencer :

  1. Visitez le site Web officiel de MusicLM et cliquez sur « Commencer Â».
  2. Rejoignez la liste d'attente en sélectionnant « Enregistrez votre intérêt ».
  3. Connectez-vous Ă  l'aide de votre compte Google.
  4. Une fois l'accès accordĂ©, cliquez sur « Essayer maintenant Â» pour commencer.

Vous trouverez ci-dessous quelques exemples d'invites que j'ai expĂ©rimentĂ©es :

« Chanson méditative, apaisante et apaisante, avec flûtes et guitares. La musique est lente et vise à créer un sentiment de paix et de tranquillité.

«Jazz au saxophone»

Comparé aux modèles SOTA précédents tels que Riffusion et Mubert lors d'une évaluation qualitative, MusicLM a été préféré aux autres, les participants évaluant favorablement la compatibilité des sous-titres de texte avec les clips audio de 10 secondes.

Comparaison des performances MusicLM

Performance MusicLM, source de l'image : here.

Stabilité audio

Stability AI a introduit la semaine dernière « Audio stable« Une architecture de modèle de diffusion latente conditionnĂ©e par les mĂ©tadonnĂ©es textuelles, la durĂ©e et l'heure de dĂ©but du fichier audio. Cette approche, Ă  l'instar de MusicLM de Google, permet de contrĂ´ler le contenu et la durĂ©e de l'audio gĂ©nĂ©rĂ©, permettant ainsi la crĂ©ation de clips audio d'une durĂ©e spĂ©cifiĂ©e, jusqu'Ă  la taille de la fenĂŞtre d'apprentissage. Â»

Informations techniques

Stable Audio comprend plusieurs composants, dont un auto-encodeur variationnel (VAE) et un modèle de diffusion conditionnée basé sur U-Net, travaillant en collaboration avec un encodeur de texte.

Une illustration présentant l'intégration d'un auto-encodeur variationnel (VAE), d'un encodeur de texte et d'un modèle de diffusion conditionnée basé sur U-Net

Architecture audio stable, source de l'image : here.

Quand vous vous déconnectez, votre profil VAE facilite une génération et une formation plus rapides en compressant l'audio stéréo dans un codage latent avec perte compressé, résistant au bruit et inversible, évitant ainsi le besoin de travailler avec des échantillons audio bruts.

L'encodeur de texte, dérivé d'un CLAP modèle, joue un rôle central dans la compréhension des relations complexes entre les mots et les sons, offrant une représentation informative du texte d'entrée tokenisé. Ceci est réalisé grâce à l'utilisation des fonctionnalités de texte de l'avant-dernière couche de l'encodeur de texte CLAP, qui sont ensuite intégrées dans le U-Net de diffusion via des couches d'attention croisée.

Un aspect important est l'incorporation d'intĂ©grations temporelles, qui sont calculĂ©es sur la base de deux propriĂ©tĂ©s : la seconde de dĂ©but du morceau audio et la durĂ©e totale du fichier audio d'origine. Ces valeurs, traduites en intĂ©grations apprises discrètes par seconde, sont combinĂ©es avec les jetons d'invite et introduites dans les couches d'attention croisĂ©e d'U-Net, permettant aux utilisateurs de dicter la durĂ©e totale de l'audio de sortie.

Le modèle Stable Audio a été formé à l'aide d'un vaste ensemble de données de plus de 800,000 XNUMX fichiers audio, grâce à la collaboration avec le fournisseur de musique AudioSparx.

Publicités audio stables

Publicités audio stables

Stable Audio propose une version gratuite, permettant 20 générations de pistes jusqu'à 20 secondes par mois, et un forfait Pro de 12 $/mois, autorisant 500 générations de pistes jusqu'à 90 secondes.

Vous trouverez ci-dessous un clip audio que j'ai créé en utilisant un son stable.

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

« CinĂ©matique, bande-son, pluie douce, ambiance, apaisante, aboiements de chiens lointains, bruissement de feuilles apaisant, vent subtil, 40 BPM Â»

Les applications de ces pièces audio finement conçues sont infinies. Les cinéastes peuvent exploiter cette technologie pour créer des paysages sonores riches et immersifs. Dans le secteur commercial, les annonceurs peuvent utiliser ces pistes audio sur mesure. De plus, cet outil ouvre la voie aux créateurs et aux artistes individuels pour expérimenter et innover, offrant une toile au potentiel illimité pour créer des pièces sonores qui racontent des histoires, évoquent des émotions et créent des atmosphères d'une profondeur qui était auparavant difficile à obtenir sans un budget substantiel. ou une expertise technique.

Conseils d'incitation

CrĂ©ez le son parfait Ă  l'aide d'invites textuelles. Voici un guide rapide pour vous aider Ă  dĂ©marrer :

  1. Soyez dĂ©taillĂ©: SpĂ©cifiez les genres, les ambiances et les instruments. Par exemple : CinĂ©matographique, Far West, Percussion, Tendu, AtmosphĂ©rique
  2. Ambiance: Combinez des termes musicaux et émotionnels pour transmettre l’ambiance souhaitée.
  3. Choix de l'instrument: Améliorez les noms d'instruments avec des adjectifs, comme « Guitare réverbérée » ou « Chœur puissant ».
  4. BPM: Alignez le tempo avec le genre pour une sortie harmonieuse, comme « 170 BPM » pour une piste Drum and Bass.

Notes de clĂ´ture

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

Dans cet article, nous nous sommes penchés sur la musique et l'audio générés par l'IA, des compositions algorithmiques aux frameworks d'IA générative sophistiqués actuels, tels que MusicLM et Stability Audio de Google. Ces technologies, qui s'appuient sur l'apprentissage profond et les modèles de compression SOTA, améliorent non seulement la création musicale, mais optimisent également l'expérience des auditeurs.

Pourtant, il s’agit d’un domaine en constante évolution, avec des obstacles tels que le maintien d’une cohérence à long terme et le débat en cours sur l’authenticité de la musique créée par l’IA qui défie les pionniers dans ce domaine. Il y a à peine une semaine, le buzz tournait autour d'une chanson créée par l'IA canalisant les styles de Drake et The Weeknd, qui avait initialement pris feu en ligne plus tôt cette année. Cependant, il a été retiré de la liste des nominations aux Grammy Awards, ce qui témoigne du débat en cours autour de la légitimité de la musique générée par l'IA dans l'industrie (source). Alors que l’IA continue de combler le fossé entre la musique et les auditeurs, elle favorise certainement un écosystème où la technologie coexiste avec l’art, favorisant l’innovation tout en respectant la tradition.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.