Intelligence artificielle
Les chercheurs créent un modèle d’IA capable de chanter en chinois et en anglais

Une équipe de chercheurs de Microsoft et de l’Université Zhajiang ont récemment créé un modèle d’IA capable de chanter dans de nombreuses langues. Comme l’a rapporté VentureBeat, le modèle d’IA DeepSinger développé par l’équipe a été formé sur des données provenant de divers sites de musique, en utilisant des algorithmes qui ont capturé le timbre de la voix du chanteur.
La génération de la “voix” d’un chanteur d’IA nécessite des algorithmes capables de prédire et de contrôler à la fois la hauteur et la durée de l’audio. Lorsque les gens chantent, les bruits qu’ils produisent ont des rythmes et des modèles beaucoup plus complexes que la parole simple. Un autre problème que l’équipe a dû surmonter était que, même s’il existe une quantité raisonnable de données de formation de parole, les ensembles de données de formation de chant sont assez rares. Combiner ces défis avec le fait que les chansons doivent avoir à la fois du son et des paroles analysées, et le problème de la génération de chant est incroyablement complexe.
Le système DeepSinger créé par les chercheurs a surmonté ces défis en développant un pipeline de données qui a extrait et transformé les données audio. Les extraits de chant ont été extraits de divers sites de musique, puis le chant a été isolé du reste de l’audio et divisé en phrases. L’étape suivante consistait à déterminer la durée de chaque phonème dans les paroles, aboutissant à une série d’échantillons, chacun représentant un phonème unique dans les paroles. Le nettoyage des données est effectué pour traiter les échantillons de formation distordus après que les paroles et les échantillons audio ont été triés par score de confiance.
Les mêmes méthodes semblent fonctionner pour une variété de langues. DeepSinger a été formé sur des échantillons vocaux chinois, cantonais et anglais, composés de 89 chanteurs différents chantant pendant plus de 92 heures. Les résultats de l’étude ont montré que le système DeepSinger a pu générer de manière fiable des échantillons de “chant” de haute qualité, selon des métriques telles que la précision de la hauteur et la naturalité du chant. Les chercheurs ont demandé à 20 personnes d’évaluer à la fois les chansons générées par DeepSinger et les chansons de formation, selon ces métriques, et l’écart entre les scores des échantillons générés et de l’audio réel était très faible. Les participants ont donné à DeepSinger un score d’opinion moyen qui a varié entre 0,34 et 0,76.
En regardant vers l’avenir, les chercheurs veulent essayer d’améliorer la qualité des voix générées en formant conjointement les sous-modèles qui composent DeepSinger, avec l’aide de technologies spécialisées comme WaveNet, conçues spécifiquement pour la tâche de générer des discours naturels à partir de formes d’onde audio.
Le système DeepSinger pourrait être utilisé pour aider les chanteurs et les autres artistes musicaux à apporter des corrections à leur travail sans avoir à retourner en studio pour une autre session d’enregistrement. Il pourrait également potentiellement être utilisé pour créer des “deepfakes” audio, faisant croire qu’un artiste a chanté une chanson qu’il n’a jamais réellement chantée. Même s’il pourrait être utilisé pour la parodie ou la satire, c’est également d’une légalité douteuse.
DeepSinger est l’un des nombreux nouveaux systèmes d’IA basés sur la musique et l’audio qui pourraient transformer la façon dont la musique et les logiciels interagissent. OpenAI a récemment publié son propre système d’IA, appelé JukeBox, capable de produire des pistes de musique originales dans le style d’un certain genre ou même d’un artiste spécifique. D’autres outils musicaux d’IA incluent Google’s Magenta et Amazon’s DeepComposer. Magnets est une bibliothèque de manipulation audio (et d’image) open source qui peut être utilisée pour produire tout, des accompagnements de batterie automatisés aux jeux vidéo basés sur la musique simples. Pendant ce temps, Amazon’s DeepComposer est destiné à ceux qui veulent former et personnaliser leurs propres modèles d’apprentissage automatique basés sur la musique, permettant à l’utilisateur de prendre des modèles d’échantillons pré-formés et de les ajuster selon ses besoins.
Vous pouvez écouter certains des échantillons audio générés par DeepSinger à ce lien.












