Connect with us

Text-to-Music Генеративний AI : Stability Audio, Google’s MusicLM і більше

Штучний інтелект

Text-to-Music Генеративний AI : Stability Audio, Google’s MusicLM і більше

mm

Музика, вид мистецтва, який резонує з людською душею, був постійним супутником нас усіх. Створення музики за допомогою штучного інтелекту розпочалося кілька десятиліть тому. Спочатку спроби були простими та інтуїтивними, з базовими алгоритмами, які створювали монотонні мелодії. Однак із розвитком технологій також зростала складність і можливості генераторів музики AI, відкриваючи шлях для глибокого навчання та обробки природної мови (NLP) у цій галузі.

Сьогодні платформи, такі як Spotify, використовують AI для доопрацювання досвіду прослуховування своїх користувачів. Ці алгоритми глибокого навчання розбирають індивідуальні переваги на основі різних музичних елементів, таких як темп і настрій, для створення персоналізованих пропозицій пісень. Вони навіть аналізують ширші моделі прослуховування та шукають у інтернеті обговорення пісень, щоб створити детальні профіль пісень.

Походження AI у музиці: Подорож від алгоритмічної композиції до генеративної моделі

На ранніх етапах змішування AI у світі музики, що тривало з 1950-х до 1970-х років, основний акцент був на алгоритмічній композиції. Це був метод, при якому комп’ютери використовували визначений набір правил для створення музики. Перша помітна творчість під час цього періоду була Illiac Suite для струнного квартету у 1957 році. Вона використовувала алгоритм Монте-Карло, процес, що涉вimplify випадкові числа для визначення висоти звуку та ритму у межах традиційної музичної теорії та статистичної ймовірності.

Image generated by the author using Midjourney

Image generated by the author using Midjourney

Під час цього часу інший піонер, Iannis Xenakis, використовував стохастичні процеси, концепцію, що涉вimplify випадкові ймовірності, для створення музики. Він використовував комп’ютери та мову FORTRAN для підключення декількох функцій ймовірності, створюючи модель, де різні графічні представлення відповідали різним просторам звуку.

Складність перекладу тексту в музику

Музика зберігається у багатому та багатовимірному форматі даних, який охоплює елементи, такі як мелодія, гармонія, ритм та темп, що робить завдання перекладу тексту в музику надзвичайно складним. Стандартна пісня представлена майже мільйоном чисел у комп’ютері, цифра значно вища, ніж інші формати даних, такі як зображення, текст тощо.

Поле генерації аудіо переживає інноваційні підходи для подолання викликів створення реалістичного звуку. Одним із методів є генерація спектрограми, а потім її перетворення назад у аудіо.

Інший стратегія використовує символічне представлення музики, як ноти, яке можна інтерпретувати та виконувати музикантами. Цей метод був успішно оцифрований, з інструментами, такими як Chamber Ensemble Generator від Magenta, який створює музику у форматі MIDI, протокол, який дозволяє спілкуватися між комп’ютерами та музичними інструментами.

Хоча ці підходи просунули цю галузь вперед, вони мають свої власні обмеження, підкреслюючи складний характер генерації аудіо.

Transformer-базовані автoregresивні моделі та U-Net-базовані дифузійні моделі знаходяться на передовій технології, створюючи результати рівня стану мистецтва (SOTA) у генерації аудіо, тексту, музики та багато іншого. Серія GPT від OpenAI та几乎 всі інші LLM зараз працюють на трансформерах, використовуючи або архітектуру кодувача, або декодувача, або обидва. На стороні мистецтва/зображення MidJourney, Stability AI та DALL-E 2 використовують дифузійні рамки. Ці дві основні технології були ключовими у досягненні результатів SOTA у секторі аудіо також. У цій статті ми зануримося у MusicLM від Google та Stable Audio, які свідчать про видатні можливості цих технологій.

MusicLM від Google

MusicLM від Google був випущений у травні цього року. MusicLM може генерувати музичні твори високої якості, які резонують з точним настроєм, описаним у тексті. Використовуючи ієрархічну послідовність до послідовності моделювання, MusicLM має можливість перетворити тексти в музику, яка резонує на частоті 24 кГц протягом тривалих періодів.

Модель працює на багатовимірному рівні, не тільки дотримуючись текстових входів, але також демонструючи здатність бути умовною на мелодії. Це означає, що він може взяти за основу запевнену або свистнувшу мелодію та перетворити її відповідно до стилю, описаного у текстовому підписі.

Технічні відомості

MusicLM використовує принципи AudioLM, рамки, введеної у 2022 році для генерації аудіо. AudioLM синтезує аудіо як завдання моделювання мови у дискретному просторі представлення, використовуючи ієрархію грубих-до-тонких аудіо дискретних одиниць, також відомих як токени. Цей підхід забезпечує високу якість та довгострокову узгодженість протягом значних періодів.

Для полегшення процесу генерації MusicLM розширює можливості AudioLM для включення умовної текстової обробки, техніки, яка вирівнює згенероване аудіо з нюансами вхідного тексту. Це досягається шляхом створення спільного простору вкладення за допомогою MuLan, спільної музично-текстової моделі, навченої проєктувати музику та її відповідні текстові описи близько один до одного у просторі вкладення. Ця стратегія ефективно усуває потребу у підписах під час навчання, дозволяючи моделі бути навченою на величезних аудіо-корпусах.

Модель MusicLM також використовує SoundStream як свій аудіо-токенізаційний інструмент, який може реконструювати музику 24 кГц з вражаючою вірністю, використовуючи векторну квантизацію (RVQ) для ефективного та високоякісного аудіо-стиснення.

Ілюстрація незалежного процесу попереднього навчання для фундаментальних моделей MusicLM: SoundStream, w2v-BERT та MuLan,

Ілюстрація процесу попереднього навчання MusicLM: SoundStream, w2v-BERT та MuLan | Джерело зображення: тут

Крім того, MusicLM розширює свої можливості, дозволяючи умовну мелодію. Цей підхід забезпечує, що навіть проста запевнена мелодія може стати основою для величезного аудіо-досвіду, доопрацьованого відповідно до точного текстового стилю опису.

Розробники MusicLM також відкрили доступ до MusicCaps, набору даних, що містить 5,5 тис. музично-текстових пар, кожна з яких супроводжується багатими текстовими описами, створеними людськими експертами. Ви можете переглянути його тут: MusicCaps на Hugging Face.

Готові створити звукові доріжки AI з MusicLM від Google? Ось як почати:

  1. Відвідайте офіційний сайт MusicLM та натисніть “Почати.”
  2. Приєднайтесь до списку очікування, вибравши “Зареєструйте свій інтерес.”
  3. Увійдіть до системи, використовуючи свій обліковий запис Google.
  4. Як тільки вам буде надано доступ, натисніть “Спробувати зараз”, щоб розпочати.

Нижче наведені кілька прикладів промптів, з якими я експериментував:

“Медитативна пісня, заспокійлива та умиротворяюча, з флейтами та гітарами. Музика повільна, з акцентом на створенні відчуття миру та спокою.”

“джаз з саксофоном”

Порівнюючи з попередніми моделями SOTA, такими як Riffusion та Mubert у кваліфікаційній оцінці, MusicLM був переважно вибраний над іншими, з учасниками, які позитивно оцінили сумісність текстових підписів з 10-секундними аудіо-кліпами.

MusicLM Продуктивність порівняння

MusicLM Продуктивність, Джерело зображення: тут

Stability Audio

Stability AI останнього тижня представила “Stable Audio” латентну дифузійну модель архітектури, умовну на текстових метаданих поряд з тривалістю аудіофайлу та початковим часом. Цей підхід, як і MusicLM від Google, має контроль над змістом та тривалістю згенерованого аудіо, дозволяючи створювати аудіо-кліпи з вказаною тривалістю до розміру вікна навчання.

Технічні відомості

Stable Audio складається з декількох компонентів, включаючи варіаційний автоенкодер (VAE) та умовну дифузійну модель U-Net, які працюють разом з текстовим кодувачем.

Ілюстрація, що демонструє інтеграцію варіаційного автоенкодера (VAE), текстового кодувача та умовної дифузійної моделі U-Net

Архітектура Stable Audio, Джерело зображення: тут

VAE забезпечує швидшу генерацію та навчання, стискаючи стерео-аудіо у даних-компресійне, шумостійке та інвертоване втратне латентне кодування, обходячи необхідність роботи з сирими аудіо-вибірками.

Текстовий кодувач, отриманий з моделі CLAP, відіграє важливу роль у розумінні складних відносин між словами та звуками, пропонуючи інформативне представлення токенізаційного текстового вводу. Це досягається шляхом використання текстових функцій з передостаннього шару текстового кодувача CLAP, які потім інтегруються у дифузійну U-Net через шари крос-аттенції.

Важливим аспектом є включення часових вкладень, які обчислюються на основі двох властивостей: початкової секунди аудіо-чанку та загальної тривалості оригінального аудіофайлу. Ці значення, перекладені у пересічні дискретні навчені вкладення, поєднуються з токенами промпту та подаються у шари крос-аттенції U-Net, надając користувачам можливість диктувати загальну тривалість вихідного аудіо.

Модель Stable Audio була навчена за допомогою великого набору даних понад 800 000 аудіофайлів у співробітництві зі стоковим постачальником музики AudioSparx.

Реклама Stable audio

Реклама Stable audio

Stable Audio пропонує безкоштовну версію, яка дозволяє 20 генерацій до 20-секундних треків на місяць, та план Pro за $12/місяць, який дозволяє 500 генерацій до 90-секундних треків.

Нижче наведено аудіо-кліп, створений за допомогою Stable Audio.

Image generated by the author using Midjourney

Image generated by the author using Midjourney

“Кіно, Саундтрек Легкий дощ, Атмосферний, Умиротворяючий, Віддалений гавкіт собак, Спокійний шелест листя, Ніжний вітер, 40 BPM”

Застосування таких майстерно створених аудіо-п’єс безмежні. Кінематографісти можуть використати цю технологію для створення багатих та іммерсивних звукових пейзажів. У комерційній сфері рекламодавці можуть використовувати ці підлаштовані аудіо-треки. Крім того, цей інструмент відкриває можливості для окремих творців та художників експериментувати та інновувати, пропонуючи полотно безмежного потенціалу для створення звукових творів, які розповідають історії, викликають емоції та створюють атмосферу з глибиною, яку раніше було важко досягти без суттєвого бюджету або технічної експертизи.

Поради щодо промптів

Створіть ідеальний аудіо за допомогою текстових промптів. Ось швидкий посібник, щоб почати:

  1. Будьте детальними: Вкажіть жанри, настрої та інструменти. Наприклад: Кіно, Дикий Захід, Перкусія, Напружений, Атмосферний
  2. Налаштування настрою: Об’єднайте музичні та емоційні терміни для передачі бажаного настрою.
  3. Вибір інструменту: Розширюйте назви інструментів прикметниками, такими як “Реверверований Гітар” або “Потужний Хор”.
  4. BPM: Вирівнюйте темп з жанром для гармонійного виходу, наприклад “170 BPM” для треку Drum and Bass.

Заключні нотатки

Image generated by the author using Midjourney

Image generated by the author using Midjourney

У цій статті ми зануримося у генерацію музики/аудіо AI, від алгоритмічних композицій до складних генеративних рамок сьогодні, таких як MusicLM від Google та Stable Audio. Ці технології, що використовують глибоке навчання та моделі стиснення рівня SOTA, не тільки покращують генерацію музики, але також доопрацьовують досвід прослуховування слухачів.

Однак це область постійного розвитку, з перешкодами, такими як підтримання довгострокової узгодженості та триваючою дискусією про автентичність музики, створеної AI, що викликує піонерів у цій галузі. Лише кілька днів тому, було все про пісню, створену AI, яка наслідувала стиль Drake та The Weeknd, яка спочатку викликала ажіотаж у мережі на початку цього року. Однак вона була видалена з списку номінантів на премію Греммі, демонструючи триваючу дискусію щодо легітимності музики, створеної AI, у галузі (джерело).

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.