Inteligencia artificial

Inteligencia Artificial Generativa de Texto a Música: Stability Audio, MusicLM de Google y más

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

La música, una forma de arte que resuena con el alma humana, ha sido una compañera constante de todos nosotros. La creación de música utilizando inteligencia artificial comenzó hace varias décadas. Inicialmente, los intentos fueron simples e intuitivos, con algoritmos básicos que creaban melodías monótonas. Sin embargo, a medida que la tecnología avanzaba, también lo hacían la complejidad y las capacidades de los generadores de música de IA, allanando el camino para que el aprendizaje profundo y el Procesamiento de Lenguaje Natural (NLP) desempeñaran papeles fundamentales en esta tecnología.

Hoy en día, plataformas como Spotify están utilizando la IA para perfeccionar las experiencias de escucha de sus usuarios. Estos algoritmos de aprendizaje profundo analizan las preferencias individuales en función de diversos elementos musicales, como el tempo y el estado de ánimo, para crear sugerencias de canciones personalizadas. Incluso analizan patrones de escucha más amplios y exploran las discusiones relacionadas con las canciones en Internet para crear perfiles de canciones detallados.

El Origen de la IA en la Música: Un Viaje desde la Composición Algorítmica hasta el Modelado Generativo

En las primeras etapas de la mezcla de la IA en el mundo de la música, que abarca desde la década de 1950 hasta la de 1970, el enfoque se centró principalmente en la composición algorítmica. Este era un método en el que los ordenadores utilizaban un conjunto definido de reglas para crear música. La primera creación notable durante este período fue la Illiac Suite for String Quartet en 1957. Utilizó el algoritmo de Monte Carlo, un proceso que involucra números aleatorios para dictar el tono y el ritmo dentro de los límites de la teoría musical tradicional y las probabilidades estadísticas.

Imagen generada por el autor utilizando Midjourney

Durante este tiempo, otro pionero, Iannis Xenakis, utilizó procesos estocásticos, un concepto que involucra distribuciones de probabilidad aleatoria, para crear música. Utilizó ordenadores y el lenguaje FORTRAN para conectar múltiples funciones de probabilidad, creando un patrón en el que diferentes representaciones gráficas correspondían a diversos espacios sonoros.

La Complejidad de Traducir Texto a Música

La música se almacena en un formato de datos rico y multidimensional que abarca elementos como la melodía, la armonía, el ritmo y el tempo, lo que hace que la tarea de traducir texto a música sea altamente compleja. Una canción estándar se representa con casi un millón de números en una computadora, una cifra significativamente más alta que otros formatos de datos como la imagen, el texto, etc.

El campo de la generación de audio está presenciando enfoques innovadores para superar los desafíos de crear sonidos realistas. Un método implica generar un espectrograma y luego convertirlo de regreso a audio.

Otra estrategia aprovecha la representación simbólica de la música, como la partitura, que puede ser interpretada y reproducida por músicos. Este método ha sido digitalizado con éxito, con herramientas como Chamber Ensemble Generator de Magenta, que crea música en formato MIDI, un protocolo que facilita la comunicación entre computadoras e instrumentos musicales.

Aunque estos enfoques han avanzado en el campo, vienen con sus propias limitaciones, subrayando la naturaleza compleja de la generación de audio.

Los modelos autoregresivos basados en Transformer y los modelos de difusión basados en U-Net, son los líderes en tecnología, produciendo resultados de estado del arte (SOTA) en la generación de audio, texto, música y mucho más. La serie GPT de OpenAI y casi todos los demás LLM actuales están impulsados por transformadores que utilizan arquitecturas de codificador, decodificador o ambas. En el lado del arte/imagen, MidJourney, Stability AI y DALL-E 2 aprovechan marcos de difusión. Estas dos tecnologías fundamentales han sido clave para lograr resultados SOTA en el sector de audio también. En este artículo, exploraremos Google’s MusicLM y Stable Audio, que son un testimonio de las capacidades notables de estas tecnologías.

MusicLM de Google

MusicLM de Google se lanzó en mayo de este año. MusicLM puede generar piezas musicales de alta fidelidad que resuenan con el sentimiento exacto descrito en el texto. Utilizando modelado secuencial jerárquico, MusicLM tiene la capacidad de transformar descripciones de texto en música que resuena a 24 kHz durante duraciones extendidas.

El modelo opera en un nivel multidimensional, no solo ajustándose a las entradas textuales sino también demostrando la capacidad de estar condicionado en melodías. Esto significa que puede tomar una melodía cantada o silbada y transformarla según el estilo delineado en una descripción de texto.

Insights Técnicos

MusicLM aprovecha los principios de AudioLM, un marco introducido en 2022 para la generación de audio. AudioLM sintetiza el audio como una tarea de modelado de lenguaje dentro de un espacio de representación discreta, utilizando una jerarquía de unidades de audio discretas de gruesas a finas, también conocidas como tokens. Este enfoque garantiza una alta fidelidad y coherencia a largo plazo durante duraciones sustanciales.

Para facilitar el proceso de generación, MusicLM extiende las capacidades de AudioLM para incorporar condicionamiento de texto, una técnica que alinea el audio generado con las sutilezas del texto de entrada. Esto se logra a través de un espacio de incrustación compartido creado utilizando MuLan, un modelo de música-texto conjunto entrenado para proyectar música y sus descripciones de texto correspondientes cerca uno del otro en un espacio de incrustación. Esta estrategia elimina efectivamente la necesidad de subtítulos durante el entrenamiento, permitiendo que el modelo se entrena en corpus de audio solo masivos.

El modelo MusicLM también utiliza SoundStream como su tokenizador de audio, que puede reconstruir música de 24 kHz a 6 kbps con fidelidad impresionante, aprovechando cuantificación vectorial residual (RVQ) para la compresión de audio eficiente y de alta calidad.

Ilustración del proceso de preentrenamiento independiente para los modelos fundamentales de MusicLM: SoundStream, w2v-BERT y MuLan,

Ilustración del proceso de preentrenamiento de MusicLM: SoundStream, w2v-BERT y MuLan | Fuente de la imagen: aquí

Además, MusicLM amplía sus capacidades al permitir el condicionamiento de melodía. Este enfoque garantiza que incluso una simple melodía cantada pueda sentar las bases para una experiencia auditiva magnífica, afinada al estilo textual descrito exactamente.

Los desarrolladores de MusicLM también han abierto el conjunto de datos MusicCaps, que cuenta con 5.5k pares de música-texto, cada uno acompañado de descripciones de texto ricas elaboradas por expertos humanos. Puedes consultarlos aquí: MusicCaps en Hugging Face.

¿Listo para crear bandas sonoras de IA con MusicLM de Google? Aquí te explico cómo empezar:

Visita el sitio web oficial de MusicLM y haz clic en “Empezar”
Únete a la lista de espera seleccionando “Registrar tu interés”
Inicia sesión con tu cuenta de Google
Una vez que tengas acceso, haz clic en “Probar ahora” para comenzar

A continuación, te muestro algunos ejemplos de prompts que experimenté:

“Canción meditativa, calmante y suave, con flautas y guitarras. La música es lenta, con un enfoque en crear una sensación de paz y tranquilidad”

“jazz con saxofón”

Al compararlos con modelos SOTA anteriores como Riffusion y Mubert en una evaluación cualitativa, MusicLM fue preferido más que los demás, con participantes que calificaron favorablemente la compatibilidad de los subtítulos de texto con clips de audio de 10 segundos.

Comparación del rendimiento de MusicLM, Fuente de la imagen: aquí

Stability Audio

Stability AI presentó hace poco “Stable Audio“, una arquitectura de modelo de difusión latente condicionada en metadatos de texto junto con la duración del archivo de audio y el momento de inicio. Este enfoque, al igual que MusicLM de Google, tiene control sobre el contenido y la longitud del audio generado, permitiendo la creación de clips de audio con longitudes especificadas de hasta el tamaño de la ventana de entrenamiento.

Stable Audio

Insights Técnicos

Stable Audio comprende varios componentes, incluyendo un codificador de autoencoder variacional (VAE) y un modelo de difusión condicionado basado en U-Net, que trabajan juntos con un codificador de texto.

Ilustración que muestra la integración de un autoencoder variacional (VAE), un codificador de texto y un modelo de difusión condicionado basado en U-Net

Arquitectura de Stable Audio, Fuente de la imagen: aquí

El VAE facilita una generación y entrenamiento más rápidos al comprimir el audio estéreo en una codificación latente comprimida, resistente al ruido e invertible, evitando la necesidad de trabajar con muestras de audio sin procesar.

El codificador de texto, derivado de un modelo CLAP, juega un papel fundamental en la comprensión de las relaciones intrincadas entre palabras y sonidos, ofreciendo una representación informativa del texto de entrada tokenizado. Esto se logra mediante la utilización de características de texto de la capa penúltima del codificador de texto CLAP, que se integran en el U-Net de difusión a través de capas de atención cruzada.

Un aspecto importante es la incorporación de incrustaciones de temporización, que se calculan en función de dos propiedades: el segundo de inicio del fragmento de audio y la duración total del archivo de audio original. Estos valores, traducidos en incrustaciones discretas aprendidas por segundo, se combinan con los tokens de la llamada y se alimentan en las capas de atención cruzada del U-Net, lo que permite a los usuarios dictar la longitud general del audio de salida.

El modelo Stable Audio se entrenó utilizando un conjunto de datos extenso de más de 800.000 archivos de audio, en colaboración con el proveedor de música de stock AudioSparx.

Anuncios de Stable audio

Stable Audio ofrece una versión gratuita, que permite 20 generaciones de pistas de hasta 20 segundos por mes, y un plan Pro de $12/mes, que permite 500 generaciones de pistas de hasta 90 segundos.

A continuación, te muestro un clip de audio que creé utilizando Stable Audio.

Imagen generada por el autor utilizando Midjourney

“Cinematográfico, Banda Sonora Lluvia Suave, Ambiental, Calmante, Perros Lejanos Ladrando, Susurro de Hojas, Viento Sutil, 40 BPM”

Las aplicaciones de estas piezas de audio finamente elaboradas son infinitas. Los cineastas pueden aprovechar esta tecnología para crear paisajes sonoros ricos e inmersivos. En el sector comercial, los anunciantes pueden utilizar estas pistas de audio personalizadas. Además, esta herramienta abre caminos para que los creadores y artistas individuales experimenten y innoven, ofreciendo un lienzo de potencial ilimitado para crear piezas sonoras que narran historias, evocan emociones y crean atmósferas con una profundidad que anteriormente era difícil de lograr sin un presupuesto sustancial o experiencia técnica.

Consejos para Prompting

Crea el audio perfecto utilizando prompts de texto. Aquí te dejo una guía rápida para empezar:

Sé Detallado: Especifica géneros, estados de ánimo e instrumentos. Por ejemplo: Cinematográfico, Salvaje Oeste, Percusión, Tenso, Atmosférico
Ajuste de Estado de Ánimo: Combina términos musicales y emocionales para transmitir el estado de ánimo deseado.
Selección de Instrumento: Mejora los nombres de los instrumentos con adjetivos, como “Guitarra Reverberada” o “Coro Poderoso”.
BPM: Alinea el tempo con el género para una salida armónica, como “170 BPM” para una pista de Drum and Bass.

Notas de Cierre

Imagen generada por el autor utilizando Midjourney

En este artículo, hemos explorado la música y el audio generados por IA, desde las composiciones algorítmicas hasta los sofisticados marcos de IA generativa de hoy en día, como MusicLM de Google y Stability Audio. Estas tecnologías, que aprovechan el aprendizaje profundo y los modelos de compresión SOTA, no solo mejoran la generación de música sino que también perfeccionan las experiencias de los oyentes.

Sin embargo, es un dominio en constante evolución, con obstáculos como mantener la coherencia a largo plazo y el debate en curso sobre la autenticidad de la música creada por IA, que desafían a los pioneros en este campo. Hace solo una semana, el revuelo era sobre una canción creada por IA que canalizaba los estilos de Drake y The Weeknd, que había prendido fuego en línea a principios de este año. Sin embargo, fue eliminada de la lista de nominaciones a los Grammy, lo que muestra el debate en curso sobre la legitimidad de la música generada por IA en la industria (fuente). A medida que la IA continúa cerrando la brecha entre la música y los oyentes, seguramente está promoviendo un ecosistema en el que la tecnología coexiste con el arte, fomentando la innovación mientras respeta la tradición.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.

Unite.AI

Inteligencia Artificial Generativa de Texto a Música: Stability Audio, MusicLM de Google y más

El Origen de la IA en la Música: Un Viaje desde la Composición Algorítmica hasta el Modelado Generativo

La Complejidad de Traducir Texto a Música

MusicLM de Google

Insights Técnicos

Stability Audio

Insights Técnicos

Consejos para Prompting

Notas de Cierre

You may like