talon OpenAI crée un nouveau programme d'IA pour créer de la musique basée sur les genres - Unite.AI
Suivez nous sur

Intelligence artificielle

OpenAI crée un nouveau programme d'IA pour créer de la musique basée sur les genres

mm
Le kit de préparation mis à jour on

L'organisme de recherche indépendant OpenAI a récemment publié une nouvelle forme d'IA générative baptisée juke-box, nommé ainsi en raison de sa capacité à générer de la musique. Le Jukebox AI est capable de générer des sons basés sur des attributs tels que l'instrumentation et même les paroles, et l'équipe de recherche OpenAI a créé l'IA en l'entraînant sur des clips audio compressés et divers extraits de paroles.

Comme TechCrunch rapporté, les chercheurs d'OpenAI ont formé le modèle à l'aide de clips audio bruts, donnant au modèle la possibilité de produire de l'audio. Cela contraste avec les approches utilisées pour créer d'autres applications de génération de musique, qui s'appuient souvent sur la "musique symbolique" (comme la musique MIDI) qui est des informations sur les notes et les hauteurs, mais pas d'audio réel. L'équipe de chercheurs a utilisé des réseaux de neurones convolutifs pour former le modèle, en compressant l'audio et en l'encodant dans un format que le réseau de neurones pourrait interpréter. Ensuite, un transformateur a été utilisé pour générer de l'audio compressé, qui a été suréchantillonné afin de convertir les données en un format audio.

Lors de la création de Jukebox, OpenAI a dû créer une méthode pour gérer la nature complexe et dense de l'audio. Les chercheurs ont traité la nature continue de l'audio en le divisant en sections plus discrètes et digestibles, en divisant les chansons en morceaux d'une durée de 1/128e de seconde. L'objectif était de créer un modèle d'IA capable de décomposer les chansons en morceaux suffisamment grands pour que le problème ne devienne pas insoluble, mais suffisamment petits et précis pour que les modèles puissent apprendre le modèle d'une chanson et reconstruire ce modèle.

La technique utilisée par OpenAI partage certains points communs avec une IA de génération musicale plus ancienne produite par la société, appelée MuseNet. MuseNet a été formé sur des fichiers MIDI et était capable de générer de la musique dans une multitude de styles, bien qu'il se concentre sur la mélodie globale d'une chanson et ne puisse pas produire de paroles. En revanche, Jukebox est capable d'écrire ses propres paroles pour accompagner la musique. Les paroles sont "co-écrites" par les chercheurs d'OpenAI, guidant le modèle vers la création de paroles dans certains styles. Le système Jukebox a été formé sur des paroles extraites de LyricWiki, les données de formation étant constituées de texte et de métadonnées sur 1.2 million de chansons.

En ce qui concerne les paroles du modèle, les chercheurs ont d'abord essayé d'utiliser une heuristique simple qui étendait les paroles à peu près sur la durée d'une chanson, en analysant le texte qui correspondait à un morceau/segment particulier de la chanson. Cette approche simple a bien fonctionné en général, bien que les chercheurs aient constaté que lorsque les paroles étaient particulièrement rapides, elles tombaient en panne. Afin de résoudre ce problème, les voix ont été extraites de la chanson et alignées avec le texte lyrique pour obtenir des alignements au niveau des mots pour les paroles. Ensuite, une couche d'encodage a été utilisée pour les paroles ainsi qu'une couche d'attention qui a mappé des sections de la musique aux paroles à l'aide de paires clé-valeur. Le résultat était que les paroles et le chant avaient une correspondance assez précise.

Les auteurs de le papier notez également qu'il existe plusieurs limites à Jukebox et que les travaux futurs viseront à améliorer la capacité de l'IA. Comme l'écrivent les auteurs dans un billet de blog:

"Alors que Jukebox représente un pas en avant dans la qualité musicale, la cohérence, la longueur de l'échantillon audio et la capacité de conditionner l'artiste, le genre et les paroles, il existe un écart important entre ces générations et la musique créée par l'homme. Par exemple, alors que les chansons générées montrent une cohérence musicale locale, suivent des schémas d'accords traditionnels et peuvent même présenter des solos impressionnants, nous n'entendons pas de structures musicales plus grandes familières telles que des chœurs qui se répètent.

À l'heure actuelle, le modèle est capable de produire une chanson reconnaissable dans le style d'un genre spécifique ou même d'un artiste spécifique. Par exemple, il peut produire des chansons dans le style d'Elvis Presley, Katy Perry ou Rage Against the Machine. Bien que les chansons soient reconnaissables dans un genre ou sur le thème du style d'un chanteur, elles sont également assez grossières, ressemblant souvent à une parodie ou à une mauvaise version de couverture d'une chanson. Néanmoins, la prouesse technique est impressionnante. Les chercheurs responsables de la création du système de génération d'IA ont choisi de travailler sur un programme capable de générer de la musique spécifiquement parce que la tâche était difficile, et les chercheurs prévoient de continuer à affiner leurs techniques. Vous pouvez écouter certaines des chansons ici.