Inteligencia artificial

OpenVoice: Clonación de Voz Instantánea Versátil

Publicado el 5 de febrero de 2024

Actualizado el 22 de mayo de 2026

Por

Kunal Kejriwal

En la síntesis de texto a voz (TTS), la Clonación de Voz Instantánea (IVC) permite que el modelo TTS clone la voz de cualquier hablante de referencia utilizando una muestra de audio corta, sin necesidad de entrenamiento adicional para el hablante de referencia. Esta técnica también se conoce como Síntesis de Texto a Voz de Disparo Cero. El enfoque de Clonación de Voz Instantánea permite una personalización flexible de la voz generada y demuestra un valor significativo en una amplia gama de situaciones del mundo real, incluyendo chatbots personalizados, creación de contenido e interacciones entre humanos y Modelos de Lenguaje Grande (LLM).

Aunque los marcos actuales de clonación de voz hacen su trabajo bien, están llenos de algunos desafíos en el campo, incluyendo Control de Estilo de Voz Flexible, es decir, los modelos carecen de la capacidad de manipular estilos de voz de manera flexible después de clonar la voz. Otro obstáculo importante que enfrentan los marcos actuales de clonación instantánea es Clonación de Voz Cruzada de Idiomas de Disparo Cero , es decir, para fines de entrenamiento, los modelos actuales requieren acceso a un conjunto de datos masivo de hablantes multilingües o MSML, independientemente del idioma.

Para abordar estos problemas y contribuir a la mejora de los modelos de clonación de voz instantánea, los desarrolladores han trabajado en OpenVoice, un marco de clonación de voz instantánea versátil que replica la voz de cualquier usuario y genera voz en múltiples idiomas utilizando una muestra de audio corta del hablante de referencia. OpenVoice demuestra que los modelos de Clonación de Voz Instantánea pueden replicar el color de tono del hablante de referencia y lograr un control granular sobre los estilos de voz, incluyendo acento, ritmo, entonación, pausas y sogar emociones. Lo que es más impresionante es que el marco de OpenVoice también demuestra capacidades notables para lograr la clonación de voz cruzada de idiomas en un entorno de disparo cero, lo que permite a OpenVoice clonar voces en nuevos idiomas sin un entrenamiento previo extenso para ese idioma. OpenVoice logra entregar resultados superiores de clonación de voz instantánea mientras es viable computacionalmente con costos de operación hasta 10 veces menos que las API actuales disponibles con un rendimiento inferior.

En este artículo, hablaremos sobre el marco de OpenVoice en profundidad y descubriremos su arquitectura que le permite entregar un rendimiento superior en tareas de clonación de voz instantánea. Así que comencemos.

OpenVoice: Habilitando la Clonación de Voz Instantánea Versátil

Como se mencionó anteriormente, la Clonación de Voz Instantánea, también conocida como Síntesis de Texto a Voz de Disparo Cero, permite que el modelo TTS clone la voz de cualquier hablante de referencia utilizando una muestra de audio corta sin necesidad de entrenamiento adicional para el hablante de referencia. La Clonación de Voz Instantánea siempre ha sido un tema de investigación candente con obras existentes que incluyen los marcos XTTS y VALLE que extraen la incrustación del hablante y/o tokens acústicos del audio de referencia que sirve como condición para el modelo auto-regresivo. El modelo auto-regresivo genera tokens acústicos secuencialmente y luego decodifica estos tokens en una onda de audio cruda.

Aunque los modelos de clonación de voz instantánea auto-regresivos clonan el color de tono de manera notable, fallan en la manipulación de otros parámetros de estilo, incluyendo acento, emoción, pausas y ritmo. Además, los modelos auto-regresivos también experimentan una velocidad de inferencia baja y sus costos operativos son bastante altos. Los enfoques existentes como el marco YourTTS emplean un enfoque no auto-regresivo que demuestra una velocidad de inferencia de habla significativamente más rápida que los marcos de clonación de voz instantánea auto-regresivos, pero aún no pueden proporcionar a sus usuarios un control flexible sobre los parámetros de estilo. Además, tanto los marcos de clonación de voz instantánea auto-regresivos como los no auto-regresivos necesitan acceso a un conjunto de datos grande de hablantes multilingües o MSML para la clonación de voz cruzada de idiomas.

Para abordar los desafíos que enfrentan los marcos actuales de clonación de voz instantánea, los desarrolladores han trabajado en OpenVoice, una biblioteca de clonación de voz instantánea de código abierto que tiene como objetivo resolver los siguientes desafíos que enfrentan los marcos actuales de IVC.

El primer desafío es permitir que los marcos de IVC tengan un control flexible sobre los parámetros de estilo, además del color de tono, incluyendo acento, ritmo, entonación y pausas. Los parámetros de estilo son cruciales para generar conversaciones y habla naturales en contexto, en lugar de narrar el texto de entrada de manera monótona.
El segundo desafío es permitir que los marcos de IVC clonen voces cruzadas de idiomas en un entorno de disparo cero.
El desafío final es lograr velocidades de inferencia en tiempo real altas sin deteriorar la calidad.

Para abordar los dos primeros obstáculos, la arquitectura del marco de OpenVoice está diseñada para separar los componentes de la voz lo mejor posible. Además, OpenVoice genera el color de tono, el idioma y otras características de la voz de manera independiente, lo que permite al marco manipular individualmente los tipos de lenguaje y los estilos de voz de manera flexible. El marco de OpenVoice aborda el tercer desafío por defecto, ya que la estructura separada reduce la complejidad computacional y los requisitos de tamaño del modelo.

OpenVoice: Metodología y Arquitectura

El marco técnico del marco de OpenVoice es efectivo y sorprendentemente simple de implementar. No es un secreto que clonar el color de tono para cualquier hablante, agregar un nuevo idioma y permitir un control flexible sobre los parámetros de voz simultáneamente puede ser un desafío. Esto se debe a que ejecutar estas tres tareas simultáneamente requiere que los parámetros controlados se crucen utilizando un gran conjunto de datos combinatorios. Además, en la síntesis de texto a voz simple de un solo hablante, para tareas que no requieren clonación de voz, es más fácil agregar control sobre otros parámetros de estilo. Basándose en esto, el marco de OpenVoice tiene como objetivo separar las tareas de Clonación de Voz Instantánea en subtareas. El modelo propone utilizar un modelo de texto a voz de hablante base para controlar los parámetros de lenguaje y estilo, y emplea un convertidor de color de tono para incluir el color de tono de referencia en la voz generada.

En su núcleo, el marco de OpenVoice emplea dos componentes: un convertidor de color de tono y un modelo de texto a voz de hablante base. El modelo de texto a voz de hablante base es un modelo de un solo hablante o multihablante que permite un control preciso sobre los parámetros de estilo, idioma y acento. El modelo genera una voz que se pasa al convertidor de color de tono, que cambia el color de tono del hablante base al color de tono del hablante de referencia.

El marco de OpenVoice ofrece mucha flexibilidad cuando se trata del modelo de texto a voz de hablante base, ya que puede emplear el modelo VITS con una ligera modificación que le permite aceptar incrustaciones de lenguaje y estilo en su predictor de duración y codificador de texto. El marco también puede emplear modelos como Microsoft TTS que son comercialmente baratos o puede desplegar modelos como InstructTTS que son capaces de aceptar prompts de estilo. Por ahora, el marco de OpenVoice emplea el modelo VITS, aunque los otros modelos también son una opción viable.

En cuanto al segundo componente, el convertidor de color de tono es un componente codificador-decodificador que alberga un flujo normalizador invertible en el centro. El componente codificador en el convertidor de color de tono es una CNN unidimensional que acepta la transformada de Fourier a tiempo corto del modelo de texto a voz de hablante base como entrada. El codificador genera mapas de características como salida. El extractor de color de tono es una CNN bidimensional simple que opera en la mel-espectrograma de la voz de entrada y genera un vector de características único que codifica la información del color de tono. Las capas de flujo normalizador aceptan los mapas de características generados por el codificador como entrada y generan una representación de características que conserva todas las propiedades de estilo pero elimina la información del color de tono. El marco de OpenVoice aplica las capas de flujo normalizador en la dirección inversa y toma las representaciones de características como entrada y salida de las capas de flujo normalizador. El marco decodifica las capas de flujo normalizador en ondas de audio crudas utilizando una pila de convoluciones unidimensionales transpuestas.

La arquitectura completa del marco de OpenVoice es de alimentación directa sin el uso de ningún componente auto-regresivo. El componente convertidor de color de tono es similar a la conversión de voz a nivel conceptual, pero difiere en términos de funcionalidad, objetivos de entrenamiento y sesgo inductivo en la estructura del modelo. Las capas de flujo normalizador comparten la misma estructura que los modelos de texto a voz basados en flujo, pero difieren en términos de funcionalidad y objetivos de entrenamiento.

Además, existe un enfoque diferente para extraer representaciones de características, el método implementado por el marco de OpenVoice entrega una mejor calidad de audio. También es digno de destacar que el marco de OpenVoice no tiene la intención de inventar componentes en la arquitectura del modelo, sino que ambos componentes principales, es decir, el convertidor de color de tono y el modelo de texto a voz de hablante base, son ambos obtenidos de obras existentes. El objetivo principal del marco de OpenVoice es formar un marco separado que separe el control del lenguaje y el estilo de voz del clonado del color de tono. Aunque el enfoque es bastante simple, es muy efectivo, especialmente en tareas que controlan estilos y acentos, o tareas de generalización de nuevos idiomas. Lograr el mismo control cuando se emplea un marco acoplado requiere una gran cantidad de cálculo y datos, y no se generaliza bien a nuevos idiomas.

En su núcleo, la filosofía principal del marco de OpenVoice es separar la generación de lenguaje y estilos de voz de la generación del color de tono. Una de las principales fortalezas del marco de OpenVoice es que la voz clonada es fluida y de alta calidad siempre y cuando el modelo de texto a voz de un solo hablante hable de manera fluida.

OpenVoice: Experimento y Resultados

Evaluar tareas de clonación de voz es un objetivo difícil debido a numerosas razones. En primer lugar, las obras existentes a menudo emplean diferentes datos de entrenamiento y prueba que hacen que comparar estas obras sea inherentemente injusto. Aunque la crowdsourcing puede utilizarse para evaluar métricas como la Puntuación de Opinión Media, la dificultad y la diversidad de los datos de prueba influirán en el resultado general de manera significativa. En segundo lugar, los diferentes métodos de clonación de voz tienen diferentes datos de entrenamiento, y la diversidad y la escala de estos datos influirán en los resultados de manera significativa. Finalmente, el objetivo principal de las obras existentes a menudo difiere entre sí, por lo que difieren en su funcionalidad.

Debido a las tres razones mencionadas anteriormente, es injusto comparar los marcos de clonación de voz existentes numéricamente. En su lugar, tiene mucho más sentido comparar estos métodos de manera cualitativa.

Clonación de Color de Tono Precisa

Para analizar su rendimiento, los desarrolladores crean un conjunto de prueba con individuos anónimos, personajes de juegos y celebridades que forman la base de hablantes de referencia, y tiene una amplia distribución de voz que incluye tanto muestras neutras como voces expresivas únicas. El marco de OpenVoice puede clonar el color de tono de referencia y generar voz en múltiples idiomas y acentos para cualquiera de los hablantes de referencia y los 4 hablantes base.

Control Flexible sobre Estilos de Voz

Uno de los objetivos del marco de OpenVoice es controlar los estilos de voz de manera flexible utilizando el convertidor de color de tono que puede modificar el color de tono mientras conserva todas las demás características y propiedades de la voz.

Los experimentos indican que el modelo conserva los estilos de voz después de convertir al color de tono de referencia. En algunos casos, sin embargo, el modelo neutraliza ligeramente las emociones, un problema que se puede resolver pasando menos información a las capas de flujo para que no puedan eliminar la emoción. El marco de OpenVoice puede conservar los estilos de la voz base gracias a su uso de un convertidor de color de tono. Esto permite al marco de OpenVoice manipular el modelo de texto a voz de hablante base para controlar fácilmente los estilos de voz.

Clonación de Voz Cruzada de Idiomas

El marco de OpenVoice no incluye ningún dato masivo de hablantes para un idioma no visto, sin embargo, es capaz de lograr una clonación de voz cruzada de idiomas cercana en un entorno de disparo cero. Las capacidades de clonación de voz cruzada de idiomas del marco de OpenVoice son de dos tipos:

El modelo puede clonar el color de tono del hablante de referencia de manera precisa cuando el idioma del hablante de referencia no se ve en el conjunto de datos de hablantes multilingües o MSML.
Además, en el mismo evento de que el idioma del hablante de referencia no se ve, el marco de OpenVoice es capaz de clonar la voz del hablante de referencia y hablar en el idioma, siempre y cuando el modelo de texto a voz de hablante base admita el idioma.

Pensamientos Finales

En este artículo, hemos hablado sobre OpenVoice, un marco de clonación de voz instantánea versátil que replica la voz de cualquier usuario y genera voz en múltiples idiomas utilizando una muestra de audio corta del hablante de referencia. La intuición principal detrás de OpenVoice es que siempre y cuando un modelo no tenga que realizar clonación de color de tono del hablante de referencia, un marco puede emplear un modelo de texto a voz de hablante base para controlar el lenguaje y los estilos de voz.

OpenVoice demuestra que los modelos de Clonación de Voz Instantánea pueden replicar el color de tono del hablante de referencia y lograr un control granular sobre los estilos de voz, incluyendo acento, ritmo, entonación, pausas y sogar emociones. OpenVoice logra entregar resultados superiores de clonación de voz instantánea mientras es viable computacionalmente con costos de operación hasta 10 veces menos que las API actuales disponibles con un rendimiento inferior.