Штучний інтелект
Google представляє музичну модель зі ШІ, яка створює швидше, ніж відтворюється

Уявіть собі: музикант сидить за комп’ютером, але не компонує нота за нотою, а керує співпрацівником зі ШІ під час живого виступу — змінюючи жанри, змішуючи інструменти та досліджуючи звукові простори, що існують між усталеними музичними стилями. Це вже відбувається завдяки Google Magenta RealTime (RT), моделі з відкритим кодом, яка надає генерації музики зі ШІ можливість інтерактивності в реальному часі. Щойно випущена, Magenta RT змушує нас змінити погляд на музику, створену ШІ. На відміну від попередніх моделей, які вимагали від користувачів чекати на повне відтворення готових треків, Magenta RT генерує музику швидше, ніж вона відтворюється, забезпечуючи справжню взаємодію в реальному часі. Для музичної індустрії — яка вже стикається з руйнівним впливом ШІ — ця технологія відкриває двері до абсолютно нових форм творчого самовираження, одночасно піднімаючи глибокі питання щодо авторства, виконання та майбутнього людської музичної майстерності.
Розуміння Magenta RealTime
В основі Magenta RT лежить авторегресійна трансформерна модель на 800 мільйонів параметрів, але її відмінність полягає в підході до виклику генерації в реальному часі. Модель генерує безперервні потоки музики сегментами по 2 секунди, кожен з яких ґрунтується на попередніх 10 секундах аудіовиводу та динамічно регульованому стильовому вбудовуванні. Така архітектура дозволяє музикантам маніпулювати стильовим вбудовуванням у реальному часі, фактично керуючи музичним результатом по мірі його розгортання. Технічне досягнення тут неможливо переоцінити. На TPU Google Colab безкоштовного рівня Magenta RT генерує 2 секунди аудіо всього за 1,25 секунди — коефіцієнт реального часу становить 1,6. Така швидкість стала можливою завдяки кільком інноваціям:
- Блокова авторегресія: Замість генерації цілих треків одразу, модель працює з невеликими, керованими фрагментами, які можна швидко обробити.
- Кодек SpectroStream: Наступник SoundStream, який забезпечує високоякісне стерео аудіо з частотою 48 кГц.
- Вбудовування MusicCoCa: Нова модель спільного музично-текстового вбудовування, яка дозволяє здійснювати семантичний контроль над процесом генерації.
Що робить це особливо вражаючим, так це те, що на відміну від рішень на основі API або моделей генерації, орієнтованих на пакетну обробку, Magenta RT підтримує потоковий синтез з коефіцієнтом реального часу більшим за 1. Це означає, що модель фактично може випереджати відтворення, створюючи буфер, який забезпечує плавний, безперервний музичний потік.
Від пасивної генерації до активної гри
Наслідки генерації музики зі ШІ в реальному часі виходять далеко за межі технічних характеристик. Як зазначає команда Magenta, “Жива взаємодія вимагає більшого від виконавця, але може дати більше натомість. Безперервний цикл сприйняття-дії між людиною та моделлю забезпечує доступ до стану творчого потоку, зосереджуючи досвід на радості процесу, а не на кінцевому продукті”. Цей перехід від пасивної до активної взаємодії вирішує одну з основних критик контенту, створеного ШІ: його потенціал затопити ринок бездушною, масово виробленою музикою. Моделі реального часу “природно уникають створення потоку пасивного контенту, оскільки вони внутрішньо балансують прослуховування та генерацію у співвідношенні 1:1”. Кожна мить створеної музики вимагає миті людської уваги та прийняття рішень. Подумайте про можливості, які це відкриває:
- Живий виступ: Діджеї та електронні музиканти можуть інтегрувати ШІ як чутливий інструмент у свої сети, доповнюючи розширюваний набір інструментів ШІ для музикантів, які покращують, а не замінюють людську творчість.
- Інтерактивні інсталяції: Мистці можуть створювати середовища, де музика реагує на рух аудиторії або фактори навколишнього середовища.
- Освітні інструменти: Студенти можуть досліджувати музичні концепції через негайний, відчутний зворотний зв’язок.
- Саундтреки до ігор: Динамічні партитури, які адаптуються до дій гравця в реальному часі.
Дисперсія та можливість
Музична індустрія стоїть на роздоріжжі. Очікується, що дохід у музичній індустрії зросте на 17,2%, частково завдяки музиці, створеній ШІ, при цьому глобальний ринок музики зі ШІ оцінювався в 2,9 мільярда доларів у 2024 році. Проте це зростання супроводжується значними побоюваннями з боку митців та професіоналів індустрії. Дослідження Goldmedia прогнозує, що без належних систем компенсації музиканти можуть втратити до 27% свого доходу до 2028 року в міру зростання контенту, створеного ШІ. Страх відчутний — чи замінить ШІ людських музикантів? Чи буде знижена цінність людської творчості в світі, де кожен може генерувати музику професійної якості? Magenta RT пропонує нюансовану відповідь на ці побоювання. Позиціонуючи себе як інструмент з відкритим кодом, який покращує, а не замінює людську творчість, вона надає модель того, як ШІ та музиканти можуть співіснувати. Вимога щодо введення даних людиною в реальному часі гарантує, що технологія посилює людську творчість, а не працює автономно.
Демократизація проти знецінення
Одним із найважливіших наслідків Magenta RT є її потенціал для демократизації створення музики. Модель розроблена для того, щоб з часом працювати на споживчому обладнанні, і вже функціонує на безкоштовних TPU Colab. Ця доступність означає, що музиканти-початківці без дорогого обладнання або формальної освіти можуть експериментувати зі складними музичними ідеями, приєднуючись до зростаючої екосистеми генераторів музики зі ШІ, які трансформують творчі процеси. Однак ця демократизація несе з собою ризики. Як зазначає композитор Марк Генрі Філліпс у своїх експериментах з генерацією музики зі ШІ, він підозрює, що “незабаром вже не зможе заробляти на життя як музикант, оскільки компанії почнуть безпосередньо використовувати технологію самостійно”. Легкість, з якою ШІ може генерувати музику комерційної якості, загрожує традиційним джерелам доходу професійних музикантів. Проте є й інша точка зору. Так само, як цифрова фотографія не ліквідувала професійних фотографів, але змінила характер їхньої роботи, генерація музики зі ШІ може переформатувати, а не замінити музичні кар’єри. Ключ полягає в тому, як музиканти адаптуються та інтегрують ці інструменти у свій творчий процес. Поява генерації музики зі ШІ в реальному часі також висуває на перший план нагальні етичні питання. Авторське право, власність та справедлива компенсація залишаються спірними питаннями. 90% музикантів вважають, що компанії зі ШІ повинні просити дозволу перед використанням захищеної авторським правом музики для навчання, що підкреслює напругу між технологічними інноваціями та художніми правами. Відкритий підхід Magenta RT пропонує один потенційний шлях вперед. Зробивши технологію вільно доступною та навчивши її на приблизно 190 000 годинах інструментальної стокової музики з різних джерел, Google спробував обійти деякі проблеми з авторським правом, одночасно створивши потужну модель. Обмеження моделі також відображають етичні міркування. Хоча Magenta RT здатна генерувати нелексикалізовані вокалізації та наспіви, вона не навчена на текстах пісень і навряд чи генеруватиме реальні слова. Такий дизайнерський вибір допомагає уникнути потенційних проблем із генерацією неприйнятного текстового вмісту, зосереджуючи інструмент на інструментальній композиції.
Майбутнє співпраці людини та ШІ в музиці
Оскільки ми стоїмо на порозі цієї нової ери в створенні музики, виявляється кілька тенденцій:
- Гібридні моделі створення: Замість заміни музикантів, такі інструменти, як Magenta RT, стають співпрацівниками. Останні розробки в системах відстеження ритму з нульовою затримкою та покращеною керованістю показують, як ШІ може синхронізуватися з виконавцями-людьми в реальному часі.
- Нові парадигми виконання: Концепція “виступу” зі ШІ відкриває абсолютно нові художні можливості. Музиканти вчаться “грати” на цих системах, як на інструментах, розробляючи техніки для виклику певних звуків та навігації прихованими музичними просторами.
- Освітня революція: Технологія генерації музики зі ШІ революціонізувала музичну освіту, платформи забезпечують інтерактивний досвід, який слухає виступи користувачів і пропонує миттєвий зворотний зв’язок.Технічна конвергенція: Завдяки інноваціям у нейронних аудіокодеках та оптимізованих архітектурах, такі інструменти, як MusicFX DJ, тепер можуть транслювати аудіо стерео 48 кГц виробничої якості в реальному часі, наближаючи музику, створену ШІ, до професійних стандартів якості.
Приймаючи майбутнє співпраці
Magenta RealTime дає уявлення про майбутнє, де межі між людською та машинною творчістю стають дедалі більш розмитими. Вимагаючи введення даних людиною в реальному часі та зосереджуючись на процесі, а не лише на результаті, вона пропонує модель ШІ, яка покращує, а не замінює людську творчість. Відкрита природа технології та її доступність на споживчому обладнанні демократизують створення музики, тоді як обмеження реального часу гарантують, що людська воля залишається центральною у творчому процесі. Як підкреслює команда Magenta, покращення людської творчості — а не її заміна — завжди було в основі їхньої












