Искусственный интеллект
Генерирующий искусственный интеллект для преобразования текста в музыку: Stability Audio, Google MusicLM и многое другое

Музыка, вид искусства, который находит отклик в человеческой душе, была постоянным спутником каждого из нас. Создание музыки с использованием искусственного интеллекта началось несколько десятилетий назад. Первоначально попытки были простыми и интуитивно понятными: базовые алгоритмы создавали монотонные мелодии. Однако по мере развития технологий росла сложность и возможности музыкальных генераторов искусственного интеллекта, что открыло путь глубокому обучению и обработке естественного языка (НЛП), которые сыграли ключевую роль в этой технологии.
Сегодня такие платформы, как Spotify, используют искусственный интеллект для точной настройки пользовательского опыта прослушивания. Эти алгоритмы глубокого обучения анализируют индивидуальные предпочтения на основе различных музыкальных параметров, таких как темп и настроение, чтобы создавать персонализированные рекомендации песен. Они даже анализируют более общие паттерны прослушивания и просматривают интернет в поисках обсуждений, связанных с песнями, для создания подробных профилей песен.
Происхождение искусственного интеллекта в музыке: путь от алгоритмической композиции к генеративному моделированию
На ранних этапах микширования искусственного интеллекта в музыкальном мире, с 1950-х по 1970-е годы, основное внимание уделялось алгоритмической композиции. Это был метод, при котором компьютеры использовали определенный набор правил для создания музыки. Первым заметным творением этого периода стал Илиак-сюита для струнного квартета в 1957 году. Он использовал алгоритм Монте-Карло - процесс, включающий случайные числа для определения высоты тона и ритма в рамках традиционной музыкальной теории и статистических вероятностей.
В это время другой пионер, Яннис Ксенакис, использовали стохастические процессы, концепцию случайного распределения вероятностей, для создания музыки. Он использовал компьютеры и ФОРТРАН язык для соединения нескольких вероятностных функций, создавая шаблон, в котором различные графические представления соответствуют различным звуковым пространствам.
Сложность перевода текста в музыку
Музыка хранится в богатом и многомерном формате данных, который включает в себя такие элементы, как мелодия, гармония, ритм и темп, что делает задачу перевода текста в музыку очень сложной. Стандартная песня представлена на компьютере почти миллионом чисел, что значительно выше, чем в других форматах данных, таких как изображение, текст и т. д.
В области генерации звука наблюдаются инновационные подходы к решению проблем создания реалистичного звука. Один из методов предполагает создание спектрограммы и последующее преобразование ее обратно в аудио.
Другая стратегия использует символическое представление музыки, например, ноты, которые музыканты могут интерпретировать и исполнять. Этот метод был успешно оцифрован с помощью таких инструментов, как Magenta. Генератор камерного ансамбля создание музыки в формате MIDI — протоколе, облегчающем связь между компьютерами и музыкальными инструментами.
Хотя эти подходы продвинулись вперед в этой области, они имеют свой собственный набор ограничений, подчеркивающих сложную природу генерации звука.
Трансформатормодели авторегрессии и модели U-Net. диффузионные модели, находятся на переднем крае технологий, достигая результатов, соответствующих самым современным стандартам (SOTA), в области генерации аудио, текста, музыки и многого другого. Серия OpenAI GPT и практически все другие LLM в настоящее время работают на базе преобразователей, использующих либо архитектуру кодера, либо декодера, либо обе. Что касается графики/изображений, MidJourney, Stability AI и DALL-E 2 используют фреймворки диффузии. Эти две ключевые технологии сыграли ключевую роль в достижении результатов SOTA и в аудиоиндустрии. В этой статье мы подробно рассмотрим MusicLM и Stable Audio от Google, которые служат свидетельством выдающихся возможностей этих технологий.
Google MusicLM
MusicLM от Google был выпущен в мае этого года. MusicLM может генерировать высококачественные музыкальные произведения, точно передающие настроение, выраженное в тексте. Используя иерархическое моделирование последовательностей, MusicLM способен преобразовывать текстовые описания в музыку, резонирующую с частотой 24 кГц в течение длительного времени.
Модель работает на многомерном уровне, не только придерживаясь текстовых данных, но и демонстрируя способность зависеть от мелодий. Это означает, что он может взять напеванную или насвистываемую мелодию и преобразовать ее в соответствии со стилем, указанным в текстовой подписи.
Технические идеи
MusicLM использует принципы АудиоLM, платформа для генерации звука, представленная в 2022 году. AudioLM синтезирует звук как задачу языкового моделирования в дискретном пространстве представления, используя иерархию дискретных единиц звука от грубого к точному, также известных как токены. Такой подход обеспечивает высокую точность и долгосрочную согласованность на протяжении значительных периодов времени.
Чтобы облегчить процесс генерации, MusicLM расширяет возможности AudioLM, включая обработку текста — метод, который выравнивает сгенерированный звук с нюансами входного текста. Это достигается за счет общего пространства встраивания, созданного с использованием MuLan, совместной музыкально-текстовой модели, обученной проецировать музыку и соответствующие ей текстовые описания близко друг к другу в пространстве встраивания. Эта стратегия эффективно устраняет необходимость в субтитрах во время обучения, позволяя обучать модель на массивных корпусах, содержащих только аудио.
Модель MusicLM также использует Soundstream в качестве аудиотокенизатора, который может реконструировать музыку с частотой 24 кГц со скоростью 6 кбит/с с впечатляющей точностью, используя остаточное векторное квантование (RVQ) для эффективного и высококачественного сжатия звука.

Иллюстрация процесса предварительного обучения MusicLM: SoundStream, w2v-BERT и Mulan | Источник изображения: здесь
Более того, MusicLM расширяет свои возможности, позволяя обрабатывать мелодию. Такой подход гарантирует, что даже простая напевная мелодия может заложить основу для великолепного слухового восприятия, точно настроенного в соответствии с точными описаниями текстового стиля.
Разработчики MusicLM также открыли исходный код MusicCaps — набора данных, включающего 5.5 тысяч пар «музыка-текст», каждая из которых сопровождается подробными текстовыми описаниями, созданными экспертами. Вы можете проверить это здесь: Музыкальные колпачки на обнимающем лице.
Готовы ли вы создавать саундтреки с помощью ИИ с помощью MusicLM от Google? Вот как начать:
- Посетите официальный сайт MusicLM и нажмите «Начать».
- Присоединяйтесь к списку ожидания, выбрав «Зарегистрировать свой интерес».
- Войдите, используя свою учетную запись Google.
- После предоставления доступа нажмите «Попробовать сейчас», чтобы начать.
Ниже приведены несколько примеров подсказок, с которыми я экспериментировал:
«Медитативная песня, успокаивающая и успокаивающая, под звуки флейт и гитар. Музыка медленная, с акцентом на создание ощущения мира и спокойствия».
«джаз с саксофоном»
По сравнению с предыдущими моделями SOTA, такими как Riffusion и Mubert, в качественной оценке MusicLM отдавалось предпочтение перед другими: участники положительно оценили совместимость текстовых титров с 10-секундными аудиоклипами.

MusicLM Performance, Источник изображения: здесь
Стабильность звука
Стабильность AI на прошлой неделе представила»Стабильный звукАрхитектура модели латентной диффузии, основанная на текстовых метаданных, а также на длительности и времени начала аудиофайла. Этот подход, как и MusicLM от Google, позволяет контролировать содержание и длительность генерируемого аудио, что позволяет создавать аудиоклипы заданной длительности вплоть до размера окна обучения.
Технические идеи
Stable Audio состоит из нескольких компонентов, включая вариационный автоэнкодер (VAE) и модель условной диффузии на основе U-Net, работающие вместе с кодировщиком текста.

Стабильная аудиоархитектура. Источник изображения: здесь
Команда VAE способствует более быстрому созданию и обучению за счет сжатия стереозвука в шумоустойчивое и обратимое скрытое кодирование с потерями, минуя необходимость работы с необработанными аудиосэмплами.
Кодировщик текста, полученный из CLAP Модель играет ключевую роль в понимании сложных взаимосвязей между словами и звуками, предлагая информативное представление токенизированного входного текста. Это достигается за счет использования текстовых функций предпоследнего уровня текстового кодировщика CLAP, которые затем интегрируются в диффузную U-Net через уровни перекрестного внимания.
Важным аспектом является включение временных вложений, которые рассчитываются на основе двух свойств: начальной секунды аудиофрагмента и общей продолжительности исходного аудиофайла. Эти значения, преобразованные в посекундные дискретные обучаемые внедрения, объединяются с токенами подсказок и передаются на уровни перекрестного внимания U-Net, давая пользователям возможность определять общую продолжительность выходного аудио.
Модель Stable Audio была обучена с использованием обширного набора данных, содержащего более 800,000 XNUMX аудиофайлов, в сотрудничестве с поставщиком стандартной музыки AudioSparx.
Stable Audio предлагает бесплатную версию, позволяющую создавать 20 поколений треков длительностью до 20 секунд в месяц, а также план Pro за 12 долларов в месяц, позволяющий создавать 500 поколений треков длительностью до 90 секунд.
Ниже приведен аудиоклип, который я создал с использованием стабильного звука.
«Кинематографичный, саундтрек Нежный дождь, атмосфера, успокаивающий, лай собак вдалеке, успокаивающий шелест листьев, легкий ветер, 40 ударов в минуту»
Применение таких искусно созданных аудиофайлов безгранично. Кинематографисты могут использовать эту технологию для создания насыщенных и захватывающих звуковых ландшафтов. В коммерческом секторе рекламодатели могут использовать эти адаптированные звуковые дорожки. Более того, этот инструмент открывает возможности для экспериментов и инноваций для отдельных авторов и художников, предлагая холст с неограниченным потенциалом для создания звуковых произведений, рассказывающих истории, вызывающих эмоции и создающих атмосферу глубины, которой раньше было трудно достичь без значительного бюджета. или технической экспертизы.
Полезные советы
Создайте идеальный аудиофайл, используя текстовые подсказки. Вот краткое руководство для начала:
- Быть подробным: укажите жанры, настроения и инструменты. Например: кинематографический, дикий запад, перкуссия, напряженный, атмосферный.
- Настройка настроения: Объедините музыкальные и эмоциональные термины, чтобы передать желаемое настроение.
- Выбор инструмента: дополните названия инструментов прилагательными, например «Реверберационная гитара» или «Мощный хор».
- BPM: согласуйте темп с жанром для получения гармоничного результата, например, «170 BPM» для трека Drum and Bass.
Заметки
В этой статье мы подробно рассмотрели музыку и аудио, создаваемые с помощью ИИ, — от алгоритмических композиций до современных сложных фреймворков для генерации ИИ, таких как MusicLM и Stability Audio от Google. Эти технологии, использующие глубокое обучение и модели сжатия SOTA, не только улучшают генерацию музыки, но и позволяют улучшить восприятие слушателями.
Тем не менее, эта область находится в постоянном развитии, с такими препятствиями, как поддержание долгосрочной согласованности и продолжающиеся дебаты о подлинности музыки, созданной искусственным интеллектом, бросающей вызов пионерам в этой области. Всего неделю назад все говорили о песне, созданной искусственным интеллектом и отражающей стили Drake и The Weeknd, которая впервые стала популярной в сети в начале этого года. Однако его исключили из списка номинантов на Грэмми, что свидетельствует о продолжающихся дебатах вокруг легитимности музыки, генерируемой искусственным интеллектом, в индустрии (источник). Поскольку ИИ продолжает сокращать разрыв между музыкой и слушателями, он, несомненно, способствует созданию экосистемы, в которой технологии сосуществуют с искусством, способствуя инновациям и уважая традиции.

















