Искусственный интеллект
Исследователи разработали ИИ «Audeo», способный играть на фортепиано

Группа исследователей из Вашингтонского университета разработала систему искусственного интеллекта (ИИ) под названием Audeo, которая может создавать звук из тихих игр на фортепиано. На этапе тестирования участвовали приложения для распознавания музыки, такие как SoundHound, которые могли правильно идентифицировать музыку с Audeo примерно в 86% случаев.
Исследование было представлено на конференции NeurlPS 2020 8 декабря.
Старший автор Эли Шлизерман является доцентом кафедры прикладной математики, электротехники и вычислительной техники в университете.
«Раньше считалось, что создать музыку, которая звучала бы так, будто её можно было бы исполнить в концерте, невозможно», — сказал Шлизерман. «Алгоритм должен распознавать сигналы, или „характерные черты“, в видеокадрах, которые связаны с созданием музыки, и „представлять“ звук, звучащий между видеокадрами. Для этого нужна система, которая одновременно точна и изобретательна. Тот факт, что нам удалось добиться довольно хорошего звучания музыки, стал сюрпризом».
Как работает аудио
Система Audeo работает путем декодирования видео и преобразования его в музыку. На первом из нескольких шагов ИИ определяет нажатые клавиши в каждом видеокадре и в конечном итоге разрабатывает диаграмму. Затем диаграмма переводится, чтобы музыкальный синтезатор мог распознавать звуки.
Следующим шагом является очистка данных и добавление дополнительной информации. Эта информация может включать в себя такие вещи, как давление при каждом нажатии клавиши и его продолжительность.
«Если мы попытаемся синтезировать музыку, основываясь только на первом шаге, качество музыки окажется неудовлетворительным», — сказал Шлицерман. «Второй шаг подобен тому, как учитель анализирует музыку, написанную учеником-композитором, и помогает ей улучшиться».
Система была обучена и протестирована с помощью видеороликов пианиста Пола Бартона на YouTube и состояла из примерно 172,000 19,000 видеокадров музыканта, играющего различных классических композиторов, таких как Моцарт. Audeo был протестирован с использованием XNUMX XNUMX кадров Бартона, играющего разную музыку.
Синтезатор
После обучения Audeo генерирует расшифровку музыки, которая затем подается на синтезатор для преобразования в звук. Музыка звучит по-разному в зависимости от каждого синтезатора, что эквивалентно изменению настройки инструмента на электрической клавиатуре.
Команда использовала два отдельных синтезатора.
«Fluidsynth создает знакомые нам звуки синтезаторного фортепиано. Они несколько механически звучат, но довольно точны», — сказал Шлизерман. «Мы также использовали PerfNet, новый синтезатор искусственного интеллекта, который генерирует более насыщенную и выразительную музыку. Но это также создает больше шума».
«Целью данного исследования было выяснить, способен ли искусственный интеллект генерировать музыку, исполняемую пианистом на видеозаписи. Мы не стремились воспроизвести Пола Бартона, ведь он настоящий виртуоз», — продолжил Шлицерман. «Мы надеемся, что наше исследование откроет новые способы взаимодействия с музыкой. Например, одно из будущих применений заключается в том, что Audeo можно расширить до виртуального пианино с камерой, записывающей только движения рук человека. Кроме того, разместив камеру поверх настоящего пианино, Audeo потенциально может помочь в разработке новых способов обучения игре на нём».
Кунг Су и Цзюлонг Лю, докторанты в области электротехники и вычислительной техники, были соавторами статьи.












