Inteligencia Artificial
IA generativa de texto a música: Stability Audio, MusicLM de Google y más

La música, una forma de arte que resuena con el alma humana, ha sido una compañera constante para todos nosotros. La creación de música utilizando inteligencia artificial comenzó hace varias décadas. Inicialmente, los intentos fueron simples e intuitivos, con algoritmos básicos que creaban melodías monótonas. Sin embargo, a medida que avanzaba la tecnología, también lo hacían la complejidad y las capacidades de los generadores de música de IA, allanando el camino para que el aprendizaje profundo y el procesamiento del lenguaje natural (PLN) desempeñen papeles fundamentales en esta tecnología.
Hoy en día, plataformas como Spotify están aprovechando la inteligencia artificial para ajustar las experiencias auditivas de sus usuarios. Estos algoritmos de aprendizaje profundo analizan las preferencias individuales basándose en diversos elementos musicales, como el tempo y el estado de ánimo, para crear sugerencias de canciones personalizadas. Incluso analizan patrones de escucha más amplios y buscan en Internet debates relacionados con canciones para crear perfiles de canciones detallados.
El origen de la IA en la música: un viaje desde la composición algorítmica al modelado generativo
En las primeras etapas de la mezcla de IA en el mundo de la música, desde la década de 1950 hasta la de 1970, la atención se centró principalmente en la composición algorítmica. Este era un método en el que las computadoras usaban un conjunto definido de reglas para crear música. La primera creación notable durante este período fue la Suite Illiac para cuarteto de cuerdas en 1957. Utilizó el algoritmo de Monte Carlo, un proceso que involucra números aleatorios para dictar el tono y el ritmo dentro de los límites de la teoría musical tradicional y las probabilidades estadísticas.
Durante este tiempo, otro pionero, Iannis Xenakis, utilizó procesos estocásticos, un concepto que involucra distribuciones de probabilidad aleatorias, para crear música. Utilizó ordenadores y FORTRAN lenguaje para conectar múltiples funciones de probabilidad, creando un patrón donde diferentes representaciones gráficas correspondían a diversos espacios sonoros.
La complejidad de traducir texto en música
La música se almacena en un formato de datos rico y multidimensional que abarca elementos como melodía, armonía, ritmo y tempo, lo que hace que la tarea de traducir texto en música sea muy compleja. Una canción estándar está representada por casi un millón de números en una computadora, una cifra significativamente mayor que otros formatos de datos como imagen, texto, etc.
El campo de la generación de audio está siendo testigo de enfoques innovadores para superar los desafíos de crear un sonido realista. Un método implica generar un espectrograma y luego convertirlo nuevamente en audio.
Otra estrategia aprovecha la representación simbólica de la música, como las partituras, que pueden ser interpretadas y tocadas por los músicos. Este método se ha digitalizado con éxito, con herramientas como la de Magenta Generador de conjuntos de cámara crear música en formato MIDI, un protocolo que facilita la comunicación entre ordenadores e instrumentos musicales.
Si bien estos enfoques han hecho avanzar el campo, tienen sus propias limitaciones, lo que subraya la naturaleza compleja de la generación de audio.
transformadorModelos autorregresivos basados en U-Net y basados en U-Net. modelos de difusión, están a la vanguardia de la tecnología y producen resultados de última generación (SOTA) en la generación de audio, texto, música y mucho más. La serie GPT de OpenAI y casi todos los demás LLM actualmente funcionan con transformadores que utilizan codificador, decodificador o ambas arquitecturas. En el lado del arte/imagen, MidJourney, Stability AI y DALL-E 2 aprovechan los marcos de difusión. Estas dos tecnologías centrales han sido clave para lograr resultados SOTA también en el sector del audio. En este artículo, profundizaremos en MusicLM y Stable Audio de Google, que son un testimonio de las notables capacidades de estas tecnologías.
Música de GoogleLM
MusicLM de Google se lanzó en mayo de este año. MusicLM puede generar piezas musicales de alta fidelidad que resuenan con el sentimiento exacto descrito en el texto. Utilizando modelado jerárquico de secuencia a secuencia, MusicLM tiene la capacidad de transformar descripciones de texto en música que resuena a 24 kHz durante períodos prolongados.
El modelo opera en un nivel multidimensional, no sólo adhiriéndose a las entradas textuales sino también demostrando la capacidad de estar condicionado por melodías. Esto significa que puede tomar una melodía tarareada o silbada y transformarla según el estilo delineado en una leyenda de texto.
Información técnica
MusicLM aprovecha los principios de AudioLM, un marco introducido en 2022 para la generación de audio. AudioLM sintetiza audio como una tarea de modelado de lenguaje dentro de un espacio de representación discreto, utilizando una jerarquía de unidades discretas de audio de grueso a fino, también conocidas como tokens. Este enfoque garantiza alta fidelidad y coherencia a largo plazo durante períodos sustanciales.
Para facilitar el proceso de generación, MusicLM amplía las capacidades de AudioLM para incorporar acondicionamiento de texto, una técnica que alinea el audio generado con los matices del texto de entrada. Esto se logra a través de un espacio de incrustación compartido creado utilizando MuLan, un modelo conjunto de música y texto entrenado para proyectar música y sus correspondientes descripciones de texto cerca uno del otro en un espacio de incrustación. Esta estrategia elimina efectivamente la necesidad de subtítulos durante el entrenamiento, lo que permite entrenar el modelo en corpus masivos de solo audio.
El modelo MusicLM también utiliza SoundStream como su tokenizador de audio, que puede reconstruir música de 24 kHz a 6 kbps con una fidelidad impresionante, aprovechando cuantificación de vector residual (RVQ) para una compresión de audio eficiente y de alta calidad.

Una ilustración del proceso de preentrenamiento de MusicLM: SoundStream, w2v-BERT y Mulan | Fuente de imagen: aquí
Además, MusicLM amplía sus capacidades al permitir el acondicionamiento de la melodía. Este enfoque garantiza que incluso una simple melodía tarareada pueda sentar las bases para una magnífica experiencia auditiva, ajustada a las descripciones exactas del estilo textual.
Los desarrolladores de MusicLM también han abierto MusicCaps, un conjunto de datos que presenta 5.5 mil pares de música y texto, cada uno acompañado de descripciones de texto enriquecido elaboradas por expertos humanos. Puede verificarlo aquí: MusicCaps en la cara abrazada.
¿Listo para crear bandas sonoras de IA con MusicLM de Google? A continuación le indicamos cómo empezar:
- Visite el sitio web oficial de MusicLM y haga clic en "Comenzar".
- Únase a la lista de espera seleccionando "Registrar su interés".
- Inicie sesión con su cuenta de Google.
- Una vez concedido el acceso, haga clic en "Probar ahora" para comenzar.
A continuación se muestran algunos ejemplos de indicaciones con las que experimenté:
“Canción meditativa, tranquilizadora y tranquilizadora, con flautas y guitarras. La música es lenta y se centra en crear una sensación de paz y tranquilidad”.
“jazz con saxofón”
En comparación con modelos SOTA anteriores como Riffusion y Mubert en una evaluación cualitativa, MusicLM fue preferido sobre otros, y los participantes calificaron favorablemente la compatibilidad de los subtítulos de texto con clips de audio de 10 segundos.

Interpretación de MusicLM, fuente de la imagen: aquí
Audio de estabilidad
La IA de estabilidad se presentó la semana pasada “Audio estable”una arquitectura de modelo de difusión latente condicionada a los metadatos de texto junto con la duración del archivo de audio y la hora de inicio. Este enfoque, como MusicLM de Google, tiene control sobre el contenido y la duración del audio generado, lo que permite la creación de clips de audio con longitudes específicas hasta el tamaño de la ventana de entrenamiento.
Información técnica
Stable Audio consta de varios componentes, incluido un codificador automático variacional (VAE) y un modelo de difusión condicionada basado en U-Net, que funcionan junto con un codificador de texto.

Arquitectura de audio estable, fuente de imagen: aquí
Tu VAE facilita una generación y un entrenamiento más rápidos al comprimir audio estéreo en una codificación latente con pérdida reversible, resistente al ruido y comprimida de datos, evitando la necesidad de trabajar con muestras de audio sin procesar.
El codificador de texto, derivado de un CLAP modelo, juega un papel fundamental en la comprensión de las intrincadas relaciones entre palabras y sonidos, ofreciendo una representación informativa del texto de entrada tokenizado. Esto se logra mediante la utilización de funciones de texto de la penúltima capa del codificador de texto CLAP, que luego se integran en la U-Net de difusión a través de capas de atención cruzada.
Un aspecto importante es la incorporación de incrustaciones de tiempo, que se calculan en función de dos propiedades: el segundo inicial del fragmento de audio y la duración total del archivo de audio original. Estos valores, traducidos en incrustaciones aprendidas discretas por segundo, se combinan con los tokens de aviso y se introducen en las capas de atención cruzada de U-Net, lo que permite a los usuarios dictar la duración total del audio de salida.
El modelo Stable Audio se entrenó utilizando un extenso conjunto de datos de más de 800,000 archivos de audio, a través de la colaboración con el proveedor de música AudioSparx.
Stable Audio ofrece una versión gratuita, que permite 20 generaciones de pistas de hasta 20 segundos por mes, y un plan Pro de $12 al mes, que permite 500 generaciones de pistas de hasta 90 segundos.
A continuación se muestra un clip de audio que creé usando audio estable.
“Cinemática, banda sonora Lluvia suave, ambiente, relajante, ladridos de perros distantes, susurro de hojas calmante, viento sutil, 40 BPM”
Las aplicaciones de piezas de audio tan finamente elaboradas son infinitas. Los cineastas pueden aprovechar esta tecnología para crear paisajes sonoros ricos e inmersivos. En el sector comercial, los anunciantes pueden utilizar estas pistas de audio personalizadas. Además, esta herramienta abre vías para que creadores y artistas individuales experimenten e innoven, ofreciendo un lienzo de potencial ilimitado para crear piezas sonoras que narren historias, evoquen emociones y creen atmósferas con una profundidad que antes era difícil de lograr sin un presupuesto sustancial. o experiencia técnica.
Consejos para incitar
Crea el audio perfecto usando indicaciones de texto. Aquí tienes una guía rápida para empezar:
- Sea detallado: Especifique géneros, estados de ánimo e instrumentos. Por ejemplo: cinematográfico, lejano oeste, percusión, tiempo, atmosférico
- Configuración del estado de ánimo: Combina términos musicales y emocionales para transmitir el estado de ánimo deseado.
- Elección del instrumento: Mejore los nombres de los instrumentos con adjetivos, como “Guitarra reverberada” o “Coro poderoso”.
- BPM: Alinee el tempo con el género para obtener una salida armoniosa, como “170 BPM” para una pista de batería y bajo.
Notas de cierre
En este artículo, hemos profundizado en la música y el audio generados por IA, desde composiciones algorítmicas hasta los sofisticados marcos de IA generativos de hoy en día, como MusicLM y Stability Audio de Google. Estas tecnologías, que aprovechan el aprendizaje profundo y los modelos de compresión SOTA, no solo mejoran la generación de música sino que también afinan las experiencias de los oyentes.
Sin embargo, es un ámbito en constante evolución, con obstáculos como mantener la coherencia a largo plazo y el debate en curso sobre la autenticidad de la música creada por IA que desafía a los pioneros en este campo. Hace apenas una semana, todo el rumor giraba en torno a una canción creada por IA que canalizaba los estilos de Drake y The Weeknd, que inicialmente se había popularizado en línea a principios de este año. Sin embargo, se enfrentó a la eliminación de la lista de nominaciones al Grammy, lo que muestra el debate en curso en torno a la legitimidad de la música generada por IA en la industria (fuente). A medida que la IA continúa cerrando brechas entre la música y los oyentes, seguramente está promoviendo un ecosistema donde la tecnología coexiste con el arte, fomentando la innovación y respetando la tradición.