Inteligencia artificial

Investigadores crean modelo de IA capaz de cantar en chino y en inglés

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

Un equipo de investigadores de Microsoft y la Universidad Zhajiang han creado recientemente un modelo de IA capaz de cantar en numerosos idiomas. Como informó VentureBeat, el modelo de IA DeepSinger desarrollado por el equipo fue entrenado con datos de varios sitios web de música, utilizando algoritmos que capturaron el timbre de la voz del cantante.

Generar la “voz” de un cantante de IA requiere algoritmos que sean capaces de predecir y controlar tanto el tono como la duración del audio. Cuando las personas cantan, los ruidos que producen tienen ritmos y patrones mucho más complejos en comparación con el habla simple. Otro problema que el equipo tuvo que superar fue que, si bien hay una cantidad razonable de datos de entrenamiento de habla/discurso disponibles, los conjuntos de datos de entrenamiento de canto son bastante raros. Combinar estos desafíos con el hecho de que las canciones necesitan tener tanto sonido como letras analizadas, y el problema de generar canto es increíblemente complejo.

El sistema DeepSinger creado por los investigadores superó estos desafíos desarrollando una canalización de datos que extrajo y transformó datos de audio. Los clips de canto se extrajeron de varios sitios web de música, y luego el canto se aisló del resto del audio y se dividió en oraciones. El siguiente paso fue determinar la duración de cada fonema dentro de las letras, lo que resultó en una serie de muestras cada una representando un fonema único en las letras. La limpieza de los datos se realiza para tratar cualquier muestra de entrenamiento distorsionada después de que las letras y las muestras de audio acompañantes se ordenan según la puntuación de confianza.

Los mismos métodos parecen funcionar para una variedad de idiomas. DeepSinger se entrenó con muestras vocales en chino, cantonés y inglés compuestas por 89 cantantes diferentes que cantaron durante más de 92 horas. Los resultados del estudio encontraron que el sistema DeepSinger pudo generar muestras de “canto” de alta calidad de manera confiable según métricas como la precisión del tono y lo natural que sonaba el canto. Los investigadores pidieron a 20 personas que calificaran tanto las canciones generadas por DeepSinger como las canciones de entrenamiento según estas métricas, y la brecha entre las puntuaciones de las muestras generadas y el audio genuino fue bastante pequeña. Los participantes dieron a DeepSinger una puntuación de opinión media que se desvió entre 0,34 y 0,76.

Mirando hacia adelante, los investigadores quieren intentar mejorar la calidad de las voces generadas entrenando conjuntamente los varios submodelos que componen DeepSinger, hecho con la ayuda de tecnologías especializadas como WaveNet que están diseñadas específicamente para la tarea de generar habla de sonido natural a través de formas de onda de audio.

El sistema DeepSinger podría usarse para ayudar a los cantantes y otros artistas musicales a hacer correcciones en su trabajo sin tener que regresar al estudio para otra sesión de grabación. También podría usarse potencialmente para crear deepfakes de audio, haciéndolo parecer que un artista cantó una canción que nunca cantó en realidad. Si bien podría usarse para parodias o sátiras, también es de dudosa legalidad.

DeepSinger es solo uno de una ola de nuevos sistemas de música y audio basados en IA que podrían transformar la forma en que la música y el software interactúan. OpenAI lanzó recientemente su propio sistema de IA, llamado JukeBox, que es capaz de producir pistas de música originales en el estilo de un género o incluso un artista específico. Otras herramientas musicales de IA incluyen Magenta de Google y DeepComposer de Amazon. Magenta es una biblioteca de manipulación de audio (y de imagen) de código abierto que se puede usar para producir todo, desde acompañamiento de batería automatizado hasta juegos de video simples basados en música. Mientras que DeepComposer de Amazon está dirigido a aquellos que desean entrenar y personalizar sus propios modelos de aprendizaje profundo basados en música, lo que permite al usuario tomar modelos de muestra preentrenados y ajustar los modelos según sus necesidades.

Puedes escuchar algunas de las muestras de audio generadas por DeepSinger en este enlace.

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

Investigadores crean modelo de IA capaz de cantar en chino y en inglés

You may like