Изкуствен интелект

AI за генериране на текст към музика: Стабилно аудио, MusicLM на Google и други

Обновено on Септември 25, 2023

Музиката, форма на изкуство, която резонира с човешката душа, е била постоянен спътник на всички ни. Създаването на музика с помощта на изкуствен интелект започна преди няколко десетилетия. Първоначално опитите бяха прости и интуитивни, с основни алгоритми, създаващи монотонни мелодии. С напредването на технологиите обаче се развиха и сложността и възможностите на AI музикалните генератори, проправяйки пътя за задълбочено обучение и обработка на естествен език (NLP), които да играят централна роля в тази технология.

Днес платформи като Spotify използват AI за фина настройка на изживяването на своите потребители при слушане. Тези алгоритми за дълбоко обучение анализират индивидуалните предпочитания въз основа на различни музикални елементи като темпо и настроение, за да изработят персонализирани предложения за песни. Те дори анализират по-широки модели на слушане и претърсват интернет за дискусии, свързани с песни, за да създадат подробни профили на песни.

Произходът на ИИ в музиката: Пътуване от алгоритмична композиция до генеративно моделиране

В ранните етапи на смесването на AI в света на музиката, обхващащи от 1950-те до 1970-те години, фокусът беше предимно върху алгоритмичната композиция. Това беше метод, при който компютрите използваха определен набор от правила за създаване на музика. Първото забележително творение през този период е Сюита Илиак за струнен квартет през 1957 г. Той използва алгоритъма Монте Карло, процес, включващ произволни числа, за да диктува височината и ритъма в границите на традиционната музикална теория и статистическите вероятности.

Изображение, генерирано от автора с помощта на Midjourney

През това време друг пионер, Янис Ксенакис, използва стохастични процеси, концепция, включваща произволни вероятностни разпределения, за създаване на музика. Той използва компютри и ФОРТРАН език за свързване на множество вероятностни функции, създавайки модел, където различни графични представяния съответстват на различни звукови пространства.

Сложността на превода на текст в музика

Музиката се съхранява в богат и многоизмерен формат от данни, който обхваща елементи като мелодия, хармония, ритъм и темпо, което прави задачата за превеждане на текст в музика много сложна. Една стандартна песен е представена от почти милион числа в компютър, цифра значително по-висока от други формати на данни като изображение, текст и т.н.

Областта на аудио генерирането е свидетел на иновативни подходи за преодоляване на предизвикателствата при създаването на реалистичен звук. Един метод включва генериране на спектрограма и след това преобразуването й обратно в аудио.

Друга стратегия използва символичното представяне на музика, като нотни листове, които могат да бъдат интерпретирани и свирени от музиканти. Този метод е дигитализиран успешно с инструменти като тези на Magenta Генератор на камерен ансамбъл създаване на музика във формат MIDI, протокол, който улеснява комуникацията между компютри и музикални инструменти.

Въпреки че тези подходи напреднаха в областта, те идват със собствен набор от ограничения, подчертавайки сложния характер на генерирането на аудио.

Трансформатор-базирани авторегресивни модели и базирани на U-Net дифузионни модели, са в челните редици на технологиите, създавайки най-съвременни (SOTA) резултати при генериране на аудио, текст, музика и много други. Серията GPT на OpenAI и почти всички други LLM в момента се захранват от трансформатори, използващи енкодер, декодер или и двете архитектури. От страна на изкуство/изображение, MidJourney, Stability AI и DALL-E 2 използват всички рамки за разпространение. Тези две основни технологии са ключови за постигането на SOTA резултати и в аудио сектора. В тази статия ще разгледаме MusicLM и Stable Audio на Google, които са доказателство за забележителните възможности на тези технологии.

MusicLM на Google

MusicLM на Google беше пуснат през май тази година. MusicLM може да генерира висококачествени музикални парчета, които резонират с точното чувство, описано в текста. Използвайки йерархично моделиране от последователност до последователност, MusicLM има способността да трансформира текстови описания в музика, която резонира на 24 kHz за продължителни периоди.

Моделът работи на многоизмерно ниво, като не само се придържа към текстовите входове, но също така демонстрира способността да се обуславя от мелодии. Това означава, че може да вземе тананикаща или подсвиркваща мелодия и да я трансформира според стила, очертан в текстов надпис.

Технически прозрения

MusicLM използва принципите на AudioLM, рамка, въведена през 2022 г. за генериране на аудио. AudioLM синтезира аудиото като задача за езиково моделиране в рамките на пространство за дискретно представяне, използвайки йерархия от отделни аудио единици от грубо към фино, известни също като токени. Този подход гарантира висока прецизност и дългосрочна съгласуваност за значителни периоди от време.

За да улесни процеса на генериране, MusicLM разширява възможностите на AudioLM, за да включи кондициониране на текст, техника, която подравнява генерираното аудио с нюансите на въведения текст. Това се постига чрез споделено пространство за вграждане, създадено с помощта на MuLan, съвместен модел на музика и текст, обучен да прожектира музика и съответните текстови описания близо едно до друго в пространство за вграждане. Тази стратегия ефективно елиминира необходимостта от надписи по време на обучение, позволявайки моделът да бъде обучен върху масивни корпуси само с аудио.

Моделът MusicLM също използва Звуков поток като свой аудио токенизатор, който може да реконструира 24 kHz музика при 6 kbps с впечатляваща прецизност, използвайки остатъчно векторно квантуване (RVQ) за ефективна и висококачествена аудио компресия.

Илюстрация на независимия процес на предварително обучение за основните модели на MusicLM: SoundStream, w2v-BERT и MuLan,

Илюстрация на процеса на предварително обучение на MusicLM: SoundStream, w2v-BERT и Mulan | Източник на изображението: тук

Освен това MusicLM разширява своите възможности, като позволява настройка на мелодията. Този подход гарантира, че дори обикновена тананикаща мелодия може да постави основата за великолепно слухово изживяване, фино настроено към точните описания на текстовия стил.

Разработчиците на MusicLM също имат отворен код MusicCaps, набор от данни, включващ 5.5k двойки музика-текст, всяка придружена от богати текстови описания, създадени от човешки експерти. Можете да го проверите тук: Музикални капачки на прегърнато лице.

Готови ли сте да създавате AI саундтраци с MusicLM на Google? Ето как да започнете:

Посетете официалния уебсайт на MusicLM и щракнете върху „Първи стъпки“.
Присъединете се към списъка с чакащи, като изберете „Регистрирайте своя интерес“.
Влезте с вашия Google акаунт.
След като получите достъп, щракнете върху „Опитайте сега“, за да започнете.

По-долу са няколко примерни подкани, с които експериментирах:

„Медитативна песен, успокояваща и успокояваща, с флейти и китари. Музиката е бавна, с акцент върху създаването на усещане за мир и спокойствие.”

"джаз със саксофон"

В сравнение с предишни SOTA модели като Riffusion и Mubert при качествена оценка, MusicLM беше предпочитан повече пред останалите, като участниците оцениха положително съвместимостта на текстови надписи с 10-секундни аудио клипове.

Изпълнение на MusicLM, Източник на изображението: тук

Стабилно аудио

Стабилен AI миналата седмица представи “Стабилно аудио” архитектура на модел на латентна дифузия, обусловена от текстови метаданни заедно с продължителността на аудио файла и началния час. Този подход като MusicLM на Google има контрол върху съдържанието и дължината на генерираното аудио, което позволява създаването на аудио клипове с определени дължини до размера на прозореца за обучение.

Стабилно аудио

Технически прозрения

Стабилното аудио се състои от няколко компонента, включително вариационен автоенкодер (VAE) и базиран на U-Net модел на условна дифузия, работещ заедно с текстов енкодер.

Илюстрация, показваща интегрирането на вариационен автоенкодер (VAE), текстов кодер и модел на условна дифузия, базиран на U-Net

Стабилна аудио архитектура, източник на изображение: тук

- VAE улеснява по-бързото генериране и обучение чрез компресиране на стерео аудио в компресирано с данни, устойчиво на шум и обратимо латентно кодиране със загуби, заобикаляйки необходимостта от работа със сурови аудио проби.

Текстовият енкодер, получен от a CLAP модел, играе ключова роля в разбирането на сложните връзки между думи и звуци, предлагайки информативно представяне на токенизирания входен текст. Това се постига чрез използването на текстови характеристики от предпоследния слой на текстовия енкодер CLAP, които след това се интегрират в дифузионната U-Net чрез слоеве за кръстосано внимание.

Важен аспект е включването на времеви вграждания, които се изчисляват въз основа на две свойства: началната секунда на аудио частта и общата продължителност на оригиналния аудио файл. Тези стойности, преведени в дискретни научени вграждания за секунда, се комбинират с подканващите токени и се подават в слоевете за кръстосано внимание на U-Net, което дава възможност на потребителите да диктуват общата дължина на изходния звук.

Моделът Stable Audio беше обучен, използвайки обширен набор от данни от над 800,000 XNUMX аудио файла, чрез сътрудничество с доставчика на фондова музика AudioSparx.

Стабилни аудио реклами

Stable Audio предлага безплатна версия, позволяваща 20 поколения на до 20-секундни песни на месец, и $12/месец Pro план, позволяващ 500 поколения на до 90-секундни песни.

По-долу е даден аудио клип, който създадох с помощта на стабилен звук.

Изображение, генерирано от автора с помощта на Midjourney

„Кинематографичен, Саундтрак Лек дъжд, Околна среда, Успокояващ, Далечен кучешки лай, Успокояващо шумолене на листа, Лек вятър, 40 BPM“

Приложенията на такива фино изработени аудио парчета са безкрайни. Създателите на филми могат да използват тази технология, за да създадат богати и завладяващи звукови пейзажи. В търговския сектор рекламодателите могат да използват тези персонализирани аудио записи. Нещо повече, този инструмент отваря възможности за индивидуални създатели и художници да експериментират и правят иновации, предлагайки платно с неограничен потенциал за създаване на звукови произведения, които разказват истории, предизвикват емоции и създават атмосфера с дълбочина, която преди беше трудно постижима без значителен бюджет или техническа експертиза.

Подсказващи съвети

Създайте перфектното аудио с помощта на текстови подкани. Ето кратко ръководство, за да започнете:

Бъдете подробни: Посочете жанрове, настроения и инструменти. Например: кинематографично, див запад, ударни, напрегнато, атмосферно
Настройка на настроението: Комбинирайте музикални и емоционални термини, за да предадете желаното настроение.
Избор на инструмент: Подобрете имената на инструментите с прилагателни, като „Реверберирана китара“ или „Мощен хор“.
BPM: Подравнете темпото с жанра за хармоничен изход, като например „170 BPM“ за дръм и бас песен.

Заключителни бележки

Изображение, генерирано от автора с помощта на Midjourney

В тази статия се задълбочихме в генерираната от AI музика/аудио, от алгоритмични композиции до сложните генеративни AI рамки на днешно време като MusicLM и Stability Audio на Google. Тези технологии, използващи задълбочено обучение и модели за компресиране на SOTA, не само подобряват генерирането на музика, но и фино настройват преживяванията на слушателите.

И все пак това е област в постоянна еволюция, с препятствия като поддържането на дългосрочна съгласуваност и продължаващия дебат за автентичността на създадената от AI музика, предизвикваща пионерите в тази област. Само преди седмица шумът беше изцяло около създадена от AI песен, насочваща към стиловете на Drake и The Weeknd, която първоначално се запали онлайн по-рано тази година. Въпреки това, той беше изправен пред премахване от списъка с номинации за Грами, демонстрирайки продължаващия дебат около легитимността на генерираната от AI музика в индустрията (източник). Тъй като AI продължава да преодолява празнините между музиката и слушателите, той със сигурност насърчава екосистема, в която технологията съществува съвместно с изкуството, насърчавайки иновациите, като същевременно зачита традициите.

Свързани теми:генеративен ai НЛП БЪРЗ ИНЖЕНЕРИНГ

Следва

EfficientViT: Трансформатор за ефективно зрение с памет за компютърно зрение с висока разделителна способност

Не пропускайте

AI Chatbots се борят с езиковото разбиране

Аюш Митал

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.

Обединете.AI

AI за генериране на текст към музика: Стабилно аудио, MusicLM на Google и други

Изкуствен интелект

AI за генериране на текст към музика: Стабилно аудио, MusicLM на Google и други

Съдържание

Произходът на ИИ в музиката: Пътуване от алгоритмична композиция до генеративно моделиране

Сложността на превода на текст в музика

MusicLM на Google

Технически прозрения

Стабилно аудио

Технически прозрения

Подсказващи съвети

Заключителни бележки

Последни Публикации

Обединете.AI

AI за генериране на текст към музика: Стабилно аудио, MusicLM на Google и други

Съдържание

Произходът на ИИ в музиката: Пътуване от алгоритмична композиция до генеративно моделиране

Сложността на превода на текст в музика

MusicLM на Google

Технически прозрения

Стабилно аудио

Технически прозрения

Подсказващи съвети

Заключителни бележки

Може да ви хареса

Последни Публикации