заглушки OpenAI створює нову програму штучного інтелекту для створення музики на основі жанрів - Unite.AI
Зв'язатися з нами

Штучний Інтелект

OpenAI створює нову програму штучного інтелекту для створення музики на основі жанрів

mm
оновлений on

Незалежна дослідницька організація OpenAI нещодавно випустила нову форму генеративного штучного інтелекту під назвою Jukebox, названий так через його здатність генерувати музику. Штучний інтелект Jukebox здатний генерувати звуки на основі інструментів і навіть пісень, а дослідницька група OpenAI створила штучний інтелект, навчивши його на стиснених аудіозаписах і різноманітних фрагментах пісень.

Як TechCrunch повідомляє, дослідники OpenAI навчили модель за допомогою необроблених аудіокліпів, давши моделі можливість створювати аудіо. Це відрізняється від підходів, які використовуються для створення інших програм для створення музики, які часто покладаються на «символну музику» (наприклад, MIDI-музику), яка є інформацією про ноти та висоту, але не містить фактичного аудіо. Команда дослідників використовувала згорточні нейронні мережі для навчання моделі, стискаючи аудіо та кодуючи його у формат, який могла інтерпретувати нейронна мережа. Після цього трансформатор використовувався для генерації стисненого аудіо, яке було підвищено для перетворення даних у аудіоформат.

Створюючи Jukebox, OpenAI довелося створити метод роботи зі складною, щільною природою аудіо. Дослідники мали справу з безперервною природою аудіо, розбиваючи його на більш дискретні, легко засвоювані частини, розділяючи пісні на біти довжиною 1/128 секунди. Мета полягала в тому, щоб створити модель штучного інтелекту, здатну розбивати пісні на фрагменти, достатньо великі, щоб проблема не стала важкорозв’язною, але водночас досить маленькі й точні, щоб моделі могли вивчати шаблон пісні та реконструювати цей шаблон.

Техніка, яку використовує OpenAI, має деякі спільні риси з штучним інтелектом старішого музичного покоління, створеним компанією, який називається MuseNet. MuseNet був навчений на MIDI-файлах і був здатний генерувати музику в безлічі стилів, хоча він зосереджувався на загальній мелодії пісні і не міг створити текст. Навпаки, Jukebox може писати власні тексти для супроводу музики. Тексти пісень «спільно пишуться» дослідниками OpenAI, керуючи моделлю створенням пісень у певних стилях. Система Jukebox була навчена на текстах пісень, взятих із LyricWiki, з навчальними даними, які складалися з тексту та метаданих 1.2 мільйона пісень.

Коли справа доходить до тексту пісні моделі, дослідники спочатку спробували використати просту евристику, яка розтягнула текст приблизно до тривалості пісні, аналізуючи текст, який відповідав певній частині/сегменту пісні. Цей простий підхід загалом спрацював добре, хоча дослідники виявили, що коли текст пісень був особливо швидким, він ламався. Щоб вирішити цю проблему, вокал було виділено з пісні та вирівняно з ліричним текстом, щоб отримати вирівнювання на рівні слів для тексту. Згодом для тексту пісні використовувався рівень кодування разом із рівнем уваги, який зіставляв розділи музики з текстом пісні за допомогою пар ключ-значення. Результатом стало те, що текст і вокал мали досить точний збіг.

Автори папір також зауважте, що Jukebox має кілька обмежень, і що майбутня робота буде спрямована на покращення можливостей штучного інтелекту. Як пишуть автори у своєму блозі:

«Хоча Jukebox є кроком вперед у музичній якості, узгодженості, тривалості аудіосемплів і здатності залежати від виконавця, жанру та тексту, існує значна прірва між цими поколіннями та музикою, створеною людьми. Наприклад, хоча згенеровані пісні демонструють локальну музичну злагодженість, дотримуються традиційних моделей акордів і можуть навіть містити вражаючі соло, ми не чуємо знайомих більших музичних структур, таких як повторювані приспіви».

Саме зараз модель здатна створити пісню, впізнавану в стилі конкретного жанру або навіть конкретного виконавця. Наприклад, він може створювати пісні в стилі Елвіса Преслі, Кеті Перрі або Rage Against the Machine. Незважаючи на те, що пісні можна впізнати в межах певного жанру або присвячені стилю співака, вони також досить грубі, часто звучать як пародія чи погана кавер-версія пісні. Тим не менш, технічні досягнення вражають. Дослідники, відповідальні за створення системи генерації штучного інтелекту, вирішили працювати над програмою, здатною генерувати музику саме тому, що це було складне завдання, і дослідники планують продовжувати вдосконалювати свої методи. Ви можете прослухати деякі пісні тут.