Штучний інтелект

Дослідники створили модель штучного інтелекту, здатну співати китайською та англійською

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

Команда дослідників з Microsoft і Zhajiang University недавно створила модель штучного інтелекту, здатну співати багатьма мовами. Як повідомляє VentureBeat, модель DeepSinger, розроблена командою була навчена на даних з різних музичних сайтів, використовуючи алгоритми, які захопили тембр голосу співака.

Створення “голосу” співака штучного інтелекту вимагає алгоритмів, які можуть передбачати і контролювати висоту і тривалість аудіо. Коли люди співають, шуми, які вони видають, мають значно більш складні ритми і закономірності порівняно з простою мовою. Іншою проблемою для команди було те, що хоча існує достатня кількість даних для навчання мови, набори даних для навчання співу досить рідкісні. Об’єднавши ці виклики з тим фактом, що пісні повинні мати як звук, так і тексти, аналіз яких дуже складний.

Система DeepSinger, створена дослідниками, подолала ці виклики, розробивши конвеєр даних, який видобував і перетворював аудіодані. Уривки співу були видобуті з різних музичних сайтів, а потім спів був виділений з решти аудіо і розділений на речення. Наступним кроком було визначення тривалості кожного фонеми в тексті, що призвело до серії зразків, кожний з яких представляв унікальну фонему в тексті. Очистка даних проводиться для боротьби з будь-якими спотвореними зразками навчання після того, як тексти і супровідні аудіозразки були відсортовані за показником впевненості.

Точні ж самі методи, здається, працюють для різних мов. DeepSinger була навчена на китайських, кантонських і англійських вокальних зразках, складених з 89 різних співаків, які співали понад 92 години. Результати дослідження показали, що система DeepSinger能够 надійно генерувати високоякісні “співочі” зразки згідно з метриками, такими як точність висоти і природність звучання співу. Дослідники попросили 20 людей оцінити як пісні, згенеровані DeepSinger, так і навчальні пісні за цими метриками, і розрив між оцінками згенерованих зразків і справжніх аудіозаписів був досить малим. Учасники дали DeepSinger середній бал оцінки, який відхилявся між 0,34 і 0,76.

Оглядаючись вперед, дослідники хочуть спробувати покращити якість згенерованих голосів, спільно тренуючи різні підмоделі, які складають DeepSinger, з допомогою спеціальних технологій, таких як WaveNet, які призначені конкретно для завдання генерації природнього звучання мови через аудіоволнові форми.

Система DeepSinger могла б бути використана для допомоги співакам і іншим музичним артистам у виправленні їхньої роботи без необхідності повертатися в студію для ще однієї записної сесії. Вона також потенційно могла б бути використана для створення аудіофейків, роблячи так, щоб здавалося, що артист співав пісню, якої він насправді не співав. Хоча вона могла б бути використана для пародії або сатири, її використання також має сумнівну законність.

DeepSinger – це лише одна з хвилі нових систем штучного інтелекту для музики і аудіо, які можуть трансформувати спосіб взаємодії музики і програмного забезпечення. OpenAI недавно випустила свою власну систему штучного інтелекту, дубльована JukeBox, яка能够 створювати оригінальні музичні треки в стилі певного жанру або навіть конкретного артиста. Інші музичні інструменти штучного інтелекту включають Google’s Magenta і Amazon’s DeepComposer. Magenta – це відкрита бібліотека маніпуляції аудіо (і зображеннями), яка能够 бути використана для створення всього, від автоматичного барабанного супроводу до простих музичних відеоігор. Тоді як Amazon’s DeepComposer орієнтована на тих, хто хоче тренувати і налаштовувати свої власні музичні моделі глибокого навчання, дозволяючи користувачеві взяти попередньо треновані зразкові моделі і налаштувати моделі згідно з їхніми потребами.

Ви можете послухати деякі аудіозразки, згенеровані DeepSinger за цим посиланням.

Daniel Nelson

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.

Unite.AI

Дослідники створили модель штучного інтелекту, здатну співати китайською та англійською

You may like