Штучний Інтелект

Штучний інтелект для створення тексту в музику: стабільність звуку, MusicLM від Google тощо

оновлений on Вересень 25, 2023

Музика, вид мистецтва, який резонує з людською душею, був постійним супутником усіх нас. Створення музики за допомогою штучного інтелекту почалося кілька десятиліть тому. Спочатку спроби були простими та інтуїтивно зрозумілими, базові алгоритми створювали монотонні мелодії. Однак із розвитком технологій зростала складність і можливості музичних генераторів штучного інтелекту, прокладаючи шлях для глибокого навчання та обробки природної мови (NLP), які відіграють ключову роль у цій технології.

Сьогодні такі платформи, як Spotify, використовують штучний інтелект для точного налаштування прослуховування своїх користувачів. Ці алгоритми глибокого навчання аналізують індивідуальні вподобання на основі різних музичних елементів, таких як темп і настрій, щоб створювати персоналізовані пропозиції пісень. Вони навіть аналізують ширші моделі слухання та шукають в Інтернеті обговорення пісень, щоб створити детальні профілі пісень.

Походження ШІ в музиці: шлях від алгоритмічної композиції до генеративного моделювання

На ранніх етапах мікшування штучного інтелекту в музичному світі, який охоплював 1950-1970-ті роки, основна увага була зосереджена на алгоритмічній композиції. Це був метод, за якого комп’ютери використовували певний набір правил для створення музики. Першим помітним творінням цього періоду був Ілліак Сюїта для струнного квартету у 1957 році. Він використовував алгоритм Монте-Карло, процес із використанням випадкових чисел для диктування висоти та ритму в межах традиційної музичної теорії та статистичних ймовірностей.

Зображення, створене автором за допомогою Midjourney

За цей час інший піонер, Яніс Ксенакіс, використовував стохастичні процеси, концепцію, що включає випадковий розподіл ймовірностей, для створення музики. Він використовував комп’ютери та ФОРТРАН мова для з’єднання кількох функцій ймовірності, створення шаблону, де різні графічні зображення відповідали різним звуковим просторам.

Складність перекладу тексту на музику

Музика зберігається в насиченому та багатовимірному форматі даних, який охоплює такі елементи, як мелодія, гармонія, ритм і темп, що робить завдання перекладу тексту в музику дуже складним. Стандартна пісня представлена в комп’ютері майже мільйоном чисел, що значно перевищує дані інших форматів, як-от зображення, текст тощо.

Сфера створення аудіо є свідком інноваційних підходів до подолання проблем створення реалістичного звуку. Один із методів передбачає створення спектрограми з подальшим перетворенням її назад у аудіо.

Інша стратегія використовує символічне представлення музики, як-от ноти, які можуть інтерпретувати та грати музиканти. Цей метод був успішно оцифрований за допомогою таких інструментів, як Magenta Генератор камерного ансамблю створення музики у форматі MIDI, протоколі, який полегшує зв’язок між комп’ютерами та музичними інструментами.

Незважаючи на те, що ці підходи просунули сферу, вони мають власний набір обмежень, що підкреслює складну природу створення аудіо.

Трансформаторна основі авторегресійних моделей і на основі U-Net дифузійні моделі, є передовими технологіями, створюючи найсучасніші (SOTA) результати у створенні аудіо, тексту, музики та багато іншого. Серія GPT OpenAI і майже всі інші LLM наразі працюють на трансформаторах, які використовують або кодер, і декодер, або обидві архітектури. Що стосується мистецтва/зображення, MidJourney, Stability AI і DALL-E 2 використовують фреймворки розповсюдження. Ці дві основні технології також відіграли ключову роль у досягненні результатів SOTA в аудіосекторі. У цій статті ми заглибимося в MusicLM і Stable Audio від Google, які є свідченням надзвичайних можливостей цих технологій.

MusicLM від Google

MusicLM від Google був випущений у травні цього року. MusicLM може створювати музичні твори високої точності, які резонують із точним почуттям, описаним у тексті. Використовуючи ієрархічне моделювання від послідовності до послідовності, MusicLM має можливість перетворювати текстові описи в музику, яка резонує на частоті 24 кГц протягом тривалого часу.

Модель працює на багатовимірному рівні, не лише дотримуючись текстових вводів, але й демонструючи здатність залежати від мелодій. Це означає, що він може взяти наспівану або насвистану мелодію та трансформувати її відповідно до стилю, окресленого в текстовому підписі.

Технічна інформація

MusicLM використовує принципи AudioLM, структура, представлена в 2022 році для створення аудіо. AudioLM синтезує аудіо як задачу моделювання мови в просторі дискретного представлення, використовуючи ієрархію дискретних аудіо одиниць від грубого до точного, також відомих як токени. Цей підхід забезпечує високу точність і довгострокову узгодженість протягом значного періоду часу.

Щоб полегшити процес генерації, MusicLM розширює можливості AudioLM, включивши кондиціонування тексту, техніку, яка вирівнює створене аудіо з нюансами вхідного тексту. Це досягається за допомогою спільного простору вбудовування, створеного за допомогою MuLan, спільної музично-текстової моделі, навченої проектувати музику та її відповідні текстові описи близько один до одного в просторі вбудовування. Ця стратегія фактично усуває потребу в субтитрах під час навчання, дозволяючи навчати модель на масивних корпусах лише з аудіо.

Модель MusicLM також використовує SoundStream як його аудіотокенізер, який може реконструювати музику 24 кГц зі швидкістю 6 кбіт/с із вражаючою точністю, використовуючи залишкове векторне квантування (RVQ) для ефективного та високоякісного стиснення звуку.

Ілюстрація незалежного процесу попереднього навчання для базових моделей MusicLM: SoundStream, w2v-BERT і MuLan,

Ілюстрація процесу попереднього навчання MusicLM: SoundStream, w2v-BERT і Mulan | Джерело зображення: тут

Крім того, MusicLM розширює свої можливості, дозволяючи обумовлювати мелодію. Цей підхід гарантує, що навіть проста наспівувана мелодія може закласти основу для чудового слухового досвіду, точно налаштованого відповідно до точних описів текстового стилю.

Розробники MusicLM також мають відкритий вихідний код MusicCaps, набір даних, що містить 5.5 тисяч пар музика-текст, кожна з яких супроводжується розширеним текстовим описом, створеним експертами-людьми. Ви можете перевірити це тут: Музичні шапки на обіймаючому обличчі.

Готові створювати саундтреки зі штучним інтелектом за допомогою MusicLM від Google? Ось як почати:

Відвідайте офіційний веб-сайт MusicLM і натисніть «Почати».
Приєднайтеся до списку очікування, вибравши «Зареєструвати свою зацікавленість».
Увійдіть за допомогою свого облікового запису Google.
Отримавши доступ, натисніть «Спробувати зараз», щоб почати.

Нижче наведено кілька прикладів підказок, з якими я експериментував:

«Медитативна пісня, заспокійлива та заспокійлива, з флейтами та гітарами. Музика повільна, зосереджена на створенні відчуття миру та спокою».

«джаз з саксофоном»

У порівнянні з попередніми моделями SOTA, такими як Riffusion і Mubert, у якісній оцінці MusicLM віддали перевагу більше, ніж інші, учасники позитивно оцінили сумісність текстових підписів із 10-секундними аудіокліпами.

MusicLM Performance, Джерело зображення: тут

Стабільність звуку

ШІ стабільності минулого тижня представив “Стабільний звук” архітектура моделі прихованої дифузії, заснована на текстових метаданих разом із тривалістю та часом початку аудіофайлу. Цей підхід, подібний до Google MusicLM, контролює вміст і тривалість згенерованого аудіо, дозволяючи створювати аудіокліпи заданої довжини до розміру вікна навчання.

Стабільний звук

Технічна інформація

Стабільне аудіо складається з кількох компонентів, включаючи варіаційний автокодер (VAE) і модель умовної дифузії на основі U-Net, які працюють разом із текстовим кодувальником.

Ілюстрація, що демонструє інтеграцію варіаційного автокодувальника (VAE), текстового кодувальника та моделі умовної дифузії на основі U-Net

Стабільна аудіоархітектура, джерело зображення: тут

Команда ОАЕ сприяє швидшій генерації та навчанню шляхом стиснення стереоаудіо в стиснуте дані, шумостійке та оборотне латентне кодування з втратами, обходячи потребу в роботі з необробленими зразками аудіо.

Кодувальник тексту, похідний від a CLAP модель відіграє ключову роль у розумінні складних зв’язків між словами та звуками, пропонуючи інформативне представлення токенізованого вхідного тексту. Це досягається завдяки використанню функцій тексту з передостаннього шару кодера тексту CLAP, які потім інтегруються в дифузійну U-Net через рівні перехресної уваги.

Важливим аспектом є включення синхронізації вбудовування, яке обчислюється на основі двох властивостей: початкової секунди аудіофрагмента та загальної тривалості вихідного аудіофайлу. Ці значення, переведені в секундні дискретні вивчені вбудовування, об’єднуються з підказками та передаються на рівні перехресної уваги U-Net, надаючи користувачам можливість диктувати загальну тривалість вихідного аудіо.

Модель стабільного аудіо було навчено з використанням великого набору даних із понад 800,000 XNUMX аудіофайлів у співпраці з постачальником фондової музики AudioSparx.

Стабільний звук рекламних роликів

Stable Audio пропонує безкоштовну версію, що дозволяє створювати 20 треків тривалістю до 20 секунд на місяць, і план Pro за 12 доларів США на місяць, який дозволяє створювати 500 треків тривалістю до 90 секунд.

Нижче наведено аудіозапис, який я створив за допомогою стабільного звуку.

Зображення, створене автором за допомогою Midjourney

«Кінематографічний, звукова доріжка, ніжний дощ, навколишній, заспокійливий, далекий гавкіт собак, заспокійливий шелест листя, слабкий вітер, 40 уд/хв»

Застосування таких тонко створених аудіофайлів нескінченно. Режисери можуть використовувати цю технологію для створення насичених і захоплюючих звукових ландшафтів. У комерційному секторі рекламодавці можуть використовувати ці індивідуальні звукові доріжки. Крім того, цей інструмент відкриває можливості для окремих творців і художників для експериментів і інновацій, пропонуючи полотно з необмеженим потенціалом для створення звукових творів, які розповідають історії, викликають емоції та створюють атмосферу з глибиною, якої раніше було важко досягти без значного бюджету. або технічну експертизу.

Підказки

Створіть ідеальний звук за допомогою текстових підказок. Ось короткий посібник, щоб почати:

Будьте детальними: вкажіть жанри, настрої та інструменти. Наприклад: Кінематографічний, Дикий Захід, Перкусія, Напружений, Атмосферний
Налаштування настрою: Комбінуйте музичні та емоційні терміни, щоб передати потрібний настрій.
Вибір інструменту: додайте до назв інструментів прикметники, як-от «Гітара з реверберацією» або «Потужний хор».
БПМ: вирівняйте темп із жанром для гармонійного виходу, наприклад «170 BPM» для драм-н-бас треку.

Заключні примітки

Зображення, створене автором за допомогою Midjourney

У цій статті ми заглибились у музику/аудіо, згенеровану штучним інтелектом, від алгоритмічних композицій до складних генеративних структур штучного інтелекту, таких як MusicLM і Stability Audio від Google. Ці технології, що використовують глибоке навчання та моделі стиснення SOTA, не лише покращують створення музики, але й покращують враження слухачів.

Тим не менш, це сфера, яка постійно розвивається, з такими перешкодами, як підтримка довгострокової узгодженості та триваючі дебати щодо автентичності музики, створеної штучним інтелектом, що кидає виклик піонерам у цій галузі. Буквально тиждень тому галас був пов’язаний зі створеною штучним інтелектом піснею, що передає стилі Дрейка та The Weeknd, яка спочатку спалахнула онлайн на початку цього року. Однак його виключили зі списку номінантів на премію «Греммі», демонструючи триваючі дебати щодо легітимності музики, створеної штучним інтелектом, у галузі (джерело). Оскільки штучний інтелект продовжує подолати розриви між музикою та слухачами, він, безперечно, сприяє створенню екосистеми, де технології співіснують із мистецтвом, сприяючи інноваціям, поважаючи традиції.

Схожі теми:твірний ai nlp ШВИДКИЙ ІНЖИНІРИНГ

Вгору Далі

EfficientViT: Ефективний трансформатор пам’яті для комп’ютерного бачення високої роздільної здатності

Не пропустіть

ШІ-чат-боти борються з лінгвістичним розумінням

Ааюш Міттал

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.

Об'єднуйтесь.AI

Штучний інтелект для створення тексту в музику: стабільність звуку, MusicLM від Google тощо