talon IA générative de conversion de texte en musique : Stability Audio, MusicLM de Google et plus - Unite.AI
Suivez nous sur

Intelligence artificielle

IA générative de conversion texte-musique : Stability Audio, MusicLM de Google et plus

mm
Le kit de préparation mis à jour on

La musique, une forme d’art qui résonne avec l’âme humaine, est notre compagne constante à tous. La création musicale utilisant l’intelligence artificielle a commencé il y a plusieurs décennies. Au départ, les tentatives étaient simples et intuitives, avec des algorithmes de base créant des mélodies monotones. Cependant, à mesure que la technologie progressait, la complexité et les capacités des générateurs de musique IA ont également augmenté, ouvrant la voie à l'apprentissage profond et au traitement du langage naturel (NLP) pour jouer un rôle central dans cette technologie.

Aujourd'hui, des plateformes comme Spotify exploitent l'IA pour affiner les expériences d'écoute de leurs utilisateurs. Ces algorithmes d'apprentissage en profondeur analysent les préférences individuelles en fonction de divers éléments musicaux tels que le tempo et l'ambiance pour élaborer des suggestions de chansons personnalisées. Ils analysent même des modèles d'écoute plus larges et parcourent Internet à la recherche de discussions liées aux chansons afin de créer des profils de chansons détaillés.

L'origine de l'IA dans la musique : un voyage de la composition algorithmique à la modélisation générative

Aux débuts du mixage IA dans le monde de la musique, des années 1950 aux années 1970, l’accent était principalement mis sur la composition algorithmique. Il s’agissait d’une méthode dans laquelle les ordinateurs utilisaient un ensemble défini de règles pour créer de la musique. La première création notable de cette période fut la Suite Illiaque pour quatuor à cordes en 1957. Il utilisait l'algorithme de Monte Carlo, un processus impliquant des nombres aléatoires pour dicter la hauteur et le rythme dans les limites de la théorie musicale traditionnelle et des probabilités statistiques.

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

Pendant ce temps, un autre pionnier, Iannis Xénakis, a utilisé des processus stochastiques, un concept impliquant des distributions de probabilités aléatoires, pour créer de la musique. Il utilisait des ordinateurs et le Fortran langage pour connecter plusieurs fonctions de probabilité, créant un modèle dans lequel différentes représentations graphiques correspondaient à divers espaces sonores.

La complexité de la traduction de texte en musique

La musique est stockée dans un format de données riche et multidimensionnel qui englobe des éléments tels que la mélodie, l'harmonie, le rythme et le tempo, ce qui rend la tâche de traduction du texte en musique très complexe. Une chanson standard est représentée par près d'un million de chiffres dans un ordinateur, un chiffre nettement supérieur à d'autres formats de données comme l'image, le texte, etc.

Le domaine de la génération audio est témoin d’approches innovantes pour surmonter les défis liés à la création d’un son réaliste. Une méthode consiste à générer un spectrogramme, puis à le reconvertir en audio.

Une autre stratégie exploite la représentation symbolique de la musique, comme les partitions, qui peuvent être interprétées et jouées par des musiciens. Cette méthode a été numérisée avec succès, avec des outils comme celui de Magenta. Générateur d'ensemble de chambre créer de la musique au format MIDI, un protocole qui facilite la communication entre les ordinateurs et les instruments de musique.

Bien que ces approches aient fait progresser le domaine, elles comportent leurs propres limites, soulignant la nature complexe de la génération audio.

transformateurmodèles autorégressifs basés sur U-Net modèles de diffusion, sont à la pointe de la technologie et produisent des résultats de pointe (SOTA) en matière de génération d'audio, de texte, de musique et bien plus encore. La série GPT d'OpenAI et presque tous les autres LLM sont actuellement alimentés par des transformateurs utilisant soit un encodeur, soit un décodeur, soit les deux architectures. Côté art/image, MidJourney, Stability AI et DALL-E 2 exploitent tous des frameworks de diffusion. Ces deux technologies de base ont également joué un rôle clé dans l’obtention des résultats SOTA dans le secteur audio. Dans cet article, nous examinerons MusicLM et Stable Audio de Google, qui témoignent des capacités remarquables de ces technologies.

MusicLM de Google

MusicLM de Google est sorti en mai de cette année. MusicLM peut générer des morceaux de musique haute fidélité, qui résonnent avec le sentiment exact décrit dans le texte. Grâce à la modélisation hiérarchique séquence à séquence, MusicLM a la capacité de transformer des descriptions textuelles en musique qui résonne à 24 kHz sur des durées prolongées.

Le modèle fonctionne à un niveau multidimensionnel, non seulement en adhérant aux entrées textuelles, mais en démontrant également la capacité d'être conditionné par les mélodies. Cela signifie qu'il peut prendre une mélodie fredonnée ou sifflée et la transformer selon le style défini dans une légende de texte.

Informations techniques

Le MusicLM exploite les principes de AudioLM, un framework introduit en 2022 pour la génération audio. AudioLM synthétise l'audio en tant que tâche de modélisation de langage au sein d'un espace de représentation discret, en utilisant une hiérarchie d'unités audio discrètes grossières à fines, également appelées jetons. Cette approche garantit une haute fidélité et une cohérence à long terme sur des durées substantielles.

Pour faciliter le processus de génération, MusicLM étend les capacités d'AudioLM pour incorporer le conditionnement de texte, une technique qui aligne l'audio généré avec les nuances du texte saisi. Ceci est réalisé grâce à un espace d'intégration partagé créé à l'aide de MuLan, un modèle commun musique-texte formé pour projeter la musique et ses descriptions textuelles correspondantes proches les unes des autres dans un espace d'intégration. Cette stratégie élimine efficacement le besoin de sous-titres pendant la formation, permettant au modèle d'être formé sur des corpus massifs uniquement audio.

Le modèle MusicLM utilise également Flux sonore comme son tokenizer audio, qui peut reconstruire la musique de 24 kHz à 6 kbps avec une fidélité impressionnante, en tirant parti quantification vectorielle résiduelle (RVQ) pour une compression audio efficace et de haute qualité.

Une illustration du processus de pré-formation indépendant pour les modèles fondamentaux de MusicLM : SoundStream, w2v-BERT et MuLan,

Une illustration du processus de pré-formation de MusicLM : SoundStream, w2v-BERT et Mulan | Source des images : ici

De plus, MusicLM étend ses capacités en permettant le conditionnement mélodique. Cette approche garantit que même une simple mélodie fredonnée peut jeter les bases d’une magnifique expérience auditive, affinée selon les descriptions exactes du style textuel.

Les développeurs de MusicLM ont également MusicCaps en open source, un ensemble de données contenant 5.5 XNUMX paires de textes musicaux, chacune accompagnée de descriptions textuelles riches élaborées par des experts humains. Vous pouvez le voir ici: MusicCaps sur le visage câlin.

Prêt à créer des bandes sonores IA avec MusicLM de Google ? Voici comment commencer :

  1. Visitez le site Web officiel de MusicLM et cliquez sur « Commencer ».
  2. Rejoignez la liste d'attente en sélectionnant « Enregistrez votre intérêt ».
  3. Connectez-vous à l'aide de votre compte Google.
  4. Une fois l'accès accordé, cliquez sur « Essayer maintenant » pour commencer.

Vous trouverez ci-dessous quelques exemples d'invites que j'ai expérimentées :

« Chanson méditative, apaisante et apaisante, avec flûtes et guitares. La musique est lente et vise à créer un sentiment de paix et de tranquillité.

«Jazz au saxophone»

Comparé aux modèles SOTA précédents tels que Riffusion et Mubert lors d'une évaluation qualitative, MusicLM a été préféré aux autres, les participants évaluant favorablement la compatibilité des sous-titres de texte avec les clips audio de 10 secondes.

Comparaison des performances MusicLM

Performance MusicLM, source de l'image : ici

Stabilité audio

Stability AI a introduit la semaine dernière « Audio stable« une architecture de modèle de diffusion latente conditionnée par des métadonnées de texte ainsi que par la durée et l'heure de début du fichier audio. Cette approche, comme MusicLM de Google, contrôle le contenu et la durée de l'audio généré, permettant la création de clips audio avec des longueurs spécifiées jusqu'à la taille de la fenêtre de formation.

Informations techniques

Stable Audio comprend plusieurs composants, dont un auto-encodeur variationnel (VAE) et un modèle de diffusion conditionnée basé sur U-Net, travaillant en collaboration avec un encodeur de texte.

Une illustration présentant l'intégration d'un auto-encodeur variationnel (VAE), d'un encodeur de texte et d'un modèle de diffusion conditionnée basé sur U-Net

Architecture audio stable, source de l'image : ici

La VAE facilite une génération et une formation plus rapides en compressant l'audio stéréo dans un codage latent avec perte compressé, résistant au bruit et inversible, évitant ainsi le besoin de travailler avec des échantillons audio bruts.

L'encodeur de texte, dérivé d'un CLAP modèle, joue un rôle central dans la compréhension des relations complexes entre les mots et les sons, offrant une représentation informative du texte d'entrée tokenisé. Ceci est réalisé grâce à l'utilisation des fonctionnalités de texte de l'avant-dernière couche de l'encodeur de texte CLAP, qui sont ensuite intégrées dans le U-Net de diffusion via des couches d'attention croisée.

Un aspect important est l'incorporation d'intégrations temporelles, qui sont calculées sur la base de deux propriétés : la seconde de début du morceau audio et la durée totale du fichier audio d'origine. Ces valeurs, traduites en intégrations apprises discrètes par seconde, sont combinées avec les jetons d'invite et introduites dans les couches d'attention croisée d'U-Net, permettant aux utilisateurs de dicter la durée totale de l'audio de sortie.

Le modèle Stable Audio a été formé à l'aide d'un vaste ensemble de données de plus de 800,000 XNUMX fichiers audio, grâce à la collaboration avec le fournisseur de musique AudioSparx.

Publicités audio stables

Publicités audio stables

Stable Audio propose une version gratuite, permettant 20 générations de pistes jusqu'à 20 secondes par mois, et un forfait Pro de 12 $/mois, autorisant 500 générations de pistes jusqu'à 90 secondes.

Vous trouverez ci-dessous un clip audio que j'ai créé en utilisant un son stable.

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

« Cinématique, bande-son, pluie douce, ambiance, apaisante, aboiements de chiens lointains, bruissement de feuilles apaisant, vent subtil, 40 BPM »

Les applications de ces pièces audio finement conçues sont infinies. Les cinéastes peuvent exploiter cette technologie pour créer des paysages sonores riches et immersifs. Dans le secteur commercial, les annonceurs peuvent utiliser ces pistes audio sur mesure. De plus, cet outil ouvre la voie aux créateurs et aux artistes individuels pour expérimenter et innover, offrant une toile au potentiel illimité pour créer des pièces sonores qui racontent des histoires, évoquent des émotions et créent des atmosphères d'une profondeur qui était auparavant difficile à obtenir sans un budget substantiel. ou une expertise technique.

Conseils d'incitation

Créez l’audio parfait à l’aide d’invites textuelles. Voici un guide rapide pour vous aider à démarrer :

  1. Soyez détaillé: Spécifiez les genres, les ambiances et les instruments. Par exemple : Cinématographique, Far West, Percussion, Tendu, Atmosphérique
  2. Ambiance: Combinez des termes musicaux et émotionnels pour transmettre l’ambiance souhaitée.
  3. Choix de l'instrument: Améliorez les noms d'instruments avec des adjectifs, comme « Guitare réverbérée » ou « Chœur puissant ».
  4. BPM: Alignez le tempo avec le genre pour une sortie harmonieuse, comme « 170 BPM » pour une piste Drum and Bass.

Notes de clôture

Image générée par l'auteur à l'aide de Midjourney

Image générée par l'auteur à l'aide de Midjourney

Dans cet article, nous avons approfondi la musique/l'audio générés par l'IA, des compositions algorithmiques aux cadres d'IA génératifs sophistiqués d'aujourd'hui comme MusicLM et Stability Audio de Google. Ces technologies, tirant parti des modèles d'apprentissage profond et de compression SOTA, améliorent non seulement la génération de musique, mais affinent également l'expérience des auditeurs.

Pourtant, il s’agit d’un domaine en constante évolution, avec des obstacles tels que le maintien d’une cohérence à long terme et le débat en cours sur l’authenticité de la musique créée par l’IA qui défie les pionniers dans ce domaine. Il y a à peine une semaine, le buzz tournait autour d'une chanson créée par l'IA canalisant les styles de Drake et The Weeknd, qui avait initialement pris feu en ligne plus tôt cette année. Cependant, il a été retiré de la liste des nominations aux Grammy Awards, ce qui témoigne du débat en cours autour de la légitimité de la musique générée par l'IA dans l'industrie (la source). Alors que l’IA continue de combler le fossé entre la musique et les auditeurs, elle favorise certainement un écosystème où la technologie coexiste avec l’art, favorisant l’innovation tout en respectant la tradition.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.