Искусственный интеллект

Исследователи создали модель ИИ, способную петь на китайском и английском языках

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

Команда исследователей из Microsoft и Zhajiang University недавно создала модель ИИ, способную петь на numerous языках. Как сообщает VentureBeat, модель DeepSinger, разработанная командой была обучена на данных с различных музыкальных сайтов, используя алгоритмы, которые захватывали тембр голоса певца.

Генерация “голоса” ИИ-певца требует алгоритмов, которые могут предсказывать и контролировать как высоту, так и продолжительность аудио. Когда люди поют, шумы, которые они производят, имеют намного более сложные ритмы и узоры по сравнению с простой речью. Другой проблемой, которую команда должна была преодолеть, было то, что, хотя существует достаточно много данных для обучения речи, наборы данных для обучения пению довольно редки. Объединив эти проблемы с тем фактом, что песни должны иметь как звук, так и текст, проанализированные, проблема генерации пения невероятно сложна.

Система DeepSinger, созданная исследователями, преодолела эти проблемы, разработав конвейер данных, который извлекал и преобразовывал аудиоданные. Клипы пения были извлечены из различных музыкальных сайтов, а затем пение было выделено из остального аудио и разделено на предложения. Следующий шаг заключался в определении продолжительности каждого фонемы в тексте, в результате чего получилась серия образцов, каждый из которых представлял уникальный фонему в тексте. Очистка данных выполняется для обработки любых искаженных образцов обучения после того, как текст и сопровождающие аудио-образцы отсортированы по баллу уверенности.

Используемые методы, кажется, работают для различных языков. DeepSinger была обучена на китайских, кантонских и английских вокальных образцах, состоящих из 89 разных певцов, поющих более 92 часов. Результаты исследования показали, что система DeepSinger смогла надежно генерировать высококачественные образцы “пения” согласно метрикам, таким как точность высоты и то, насколько естественно звучит пение. Исследователи попросили 20 человек оценить как песни, сгенерированные DeepSinger, так и тренировочные песни по этим метрикам, и разрыв между оценками для сгенерированных образцов и подлинного аудио был довольно небольшим. Участники дали DeepSinger средний балл мнения, который отклонялся от 0,34 до 0,76.

В перспективе исследователи хотят попытаться улучшить качество сгенерированных голосов, совместно обучая различные подмодели, составляющие DeepSinger, с помощью специальных технологий, таких как WaveNet, которые предназначены специально для задачи генерации естественно звучащей речи через аудио-волновые формы.

Система DeepSinger может быть использована для того, чтобы помочь певцам и другим музыкальным артистам внести исправления в свою работу без необходимости возвращаться в студию для еще одной записи. Она также потенциально может быть использована для создания аудио-деепфейков, делая так, чтобы казалось, что артист спел песню, которую он на самом деле не спел. Хотя она может быть использована для пародии или сатиры, это также имеет сомнительную законность.

DeepSinger – это только одна из новой волны ИИ-основанных музыкальных и аудиосистем, которые могут изменить то, как музыка и программное обеспечение взаимодействуют. OpenAI недавно выпустила свою собственную систему ИИ, названную JukeBox, которая способна производить оригинальные музыкальные треки в стиле определенного жанра или даже конкретного артиста. Другие музыкальные инструменты ИИ включают Google’s Magenta и Amazon’s DeepComposer. Magenta – это библиотека открытого исходного кода для манипулирования аудио (и изображениями), которая может быть использована для производства всего, от автоматического барабанного сопровождения до простых музыкальных видеоигр. Тем временем, DeepComposer от Amazon ориентирован на тех, кто хочет обучить и настроить свои собственные музыкальные глубокие модели обучения, позволяя пользователю взять предварительно обученные образцы моделей и настроить модели в соответствии со своими потребностями.

Вы можете послушать некоторые аудио-образцы, сгенерированные DeepSinger, по этой ссылке.

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

Исследователи создали модель ИИ, способную петь на китайском и английском языках

You may like