Inteligencia artificial

OpenVoice: Clonación de Voz Instantánea Versátil

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

En la síntesis de texto a voz (TTS), la Clonación de Voz Instantánea (IVC) permite al modelo TTS clonar la voz de cualquier hablante de referencia utilizando una muestra de audio corta, sin requerir entrenamiento adicional para el hablante de referencia. Esta técnica también se conoce como Síntesis de Texto a Voz de Disparo Cero. El enfoque de Clonación de Voz Instantánea permite una personalización flexible de la voz generada y demuestra un valor significativo en una amplia gama de situaciones del mundo real, incluyendo chatbots personalizados, creación de contenido e interacciones entre humanos y Modelos de Lenguaje Grande (LLM).

Aunque los marcos actuales de clonación de voz hacen su trabajo bien, están plagados de unos pocos desafíos en el campo, incluyendo Control de Estilo de Voz Flexible, es decir, los modelos carecen de la capacidad de manipular estilos de voz de manera flexible después de clonar la voz. Otro obstáculo importante que enfrentan los marcos actuales de clonación instantánea es Clonación de Voz Cruzada de Lenguaje de Disparo Cero, es decir, para fines de entrenamiento, los modelos actuales requieren acceso a un conjunto de datos masivo de hablantes multilingües o MSML, independientemente del lenguaje.

Para abordar estos desafíos y contribuir a la mejora de los modelos de clonación de voz instantánea, los desarrolladores han trabajado en OpenVoice, un marco de clonación de voz instantánea versátil que replica la voz de cualquier usuario y genera voz en varios lenguajes utilizando una muestra de audio corta del hablante de referencia. OpenVoice demuestra que los modelos de Clonación de Voz Instantánea pueden replicar el tono de color del hablante de referencia y lograr un control granular sobre los estilos de voz, incluyendo acento, ritmo, entonación, pausas y incluso emociones. Lo que es más impresionante es que el marco de OpenVoice también demuestra capacidades notables para lograr la clonación de voz cruzada de lenguaje de disparo cero para lenguajes externos al conjunto de datos MSML, lo que permite a OpenVoice clonar voces en nuevos lenguajes sin un entrenamiento extensivo para ese lenguaje. OpenVoice logra entregar resultados de clonación de voz instantánea superiores mientras es viable computacionalmente con costos de operación de hasta 10 veces menos que las API actuales disponibles con un rendimiento inferior.

En este artículo, hablaremos sobre el marco de OpenVoice en profundidad y descubriremos su arquitectura que le permite entregar un rendimiento superior en tareas de clonación de voz instantánea. Así que comencemos.

OpenVoice: Habilitando la Clonación de Voz Instantánea Versátil

Como se mencionó anteriormente, la Clonación de Voz Instantánea, también conocida como Síntesis de Texto a Voz de Disparo Cero, permite al modelo TTS clonar la voz de cualquier hablante de referencia utilizando una muestra de audio corta sin la necesidad de entrenamiento adicional para el hablante de referencia. La Clonación de Voz Instantánea siempre ha sido un tema de investigación candente con trabajos existentes que incluyen los marcos XTTS y VALLE que extraen la incrustación del hablante y/o tokens acústicos del audio de referencia que sirve como condición para el modelo auto-regresivo. El modelo auto-regresivo genera tokens acústicos secuencialmente y luego decodifica estos tokens en una onda de audio cruda.

Aunque los modelos de clonación de voz instantánea auto-regresivos clonan el tono de color de manera notable, fallan en la manipulación de otros parámetros de estilo, incluyendo acento, emoción, pausas y ritmo. Además, los modelos auto-regresivos también experimentan una velocidad de inferencia baja y sus costos operativos son bastante altos. Los enfoques existentes como el marco YourTTS emplean un enfoque no auto-regresivo que demuestra una inferencia de habla significativamente más rápida que los marcos de enfoque auto-regresivo, pero todavía no pueden proporcionar a sus usuarios un control flexible sobre los parámetros de estilo. Además, tanto los marcos de clonación de voz instantánea auto-regresivos como los no auto-regresivos necesitan acceso a un conjunto de datos grande de hablantes multilingües o MSML para la clonación de voz cruzada de lenguaje.

Para abordar los desafíos que enfrentan los marcos actuales de clonación de voz instantánea, los desarrolladores han trabajado en OpenVoice, una biblioteca de clonación de voz instantánea de código abierto que tiene como objetivo resolver los siguientes desafíos que enfrentan los marcos actuales de IVC.

El primer desafío es habilitar los marcos de IVC para que tengan un control flexible sobre los parámetros de estilo, además del tono de color, incluyendo acento, ritmo, entonación y pausas. Los parámetros de estilo son cruciales para generar conversaciones y voz naturales en contexto, en lugar de narrar el texto de entrada de manera monótona.
El segundo desafío es habilitar los marcos de IVC para clonar voces cruzadas de lenguaje en un entorno de disparo cero.
El desafío final es lograr velocidades de inferencia en tiempo real altas sin deteriorar la calidad.

Para abordar los dos primeros obstáculos, la arquitectura del marco de OpenVoice está diseñada para separar los componentes en la voz lo mejor posible. Además, OpenVoice genera el tono de color, el lenguaje y otras características de la voz de manera independiente, lo que permite al marco manipular individualmente los tipos de lenguaje y los estilos de voz. El marco de OpenVoice aborda el tercer desafío por defecto, ya que la estructura separada reduce la complejidad computacional y los requisitos de tamaño del modelo.

OpenVoice: Metodología y Arquitectura

El marco técnico del marco de OpenVoice es efectivo y sorprendentemente simple de implementar. No es un secreto que clonar el tono de color para cualquier hablante, agregar un nuevo lenguaje y habilitar un control flexible sobre los parámetros de voz simultáneamente puede ser desafiante. Es así porque ejecutar estas tres tareas simultáneamente requiere que los parámetros controlados se intersecten utilizando una gran parte de conjuntos de datos combinatorios. Además, en la síntesis de texto a voz de un solo hablante regular, para tareas que no requieren clonación de voz, es más fácil agregar control sobre otros parámetros de estilo. Basándose en esto, el marco de OpenVoice tiene como objetivo separar las tareas de Clonación de Voz Instantánea en subtareas. El modelo propone utilizar un modelo de texto a voz de hablante base para controlar los parámetros de lenguaje y estilo, y emplea un convertidor de tono de color para incluir el tono de color de referencia en la voz generada.

En su núcleo, el marco de OpenVoice emplea dos componentes: un convertidor de tono de color y un modelo de texto a voz de hablante base. El modelo de texto a voz de hablante base es un modelo de un solo hablante o de varios hablantes que permite un control preciso sobre los parámetros de estilo, lenguaje y acento. El modelo genera una voz que se pasa al convertidor de tono de color, que cambia el tono de color del hablante base al tono de color del hablante de referencia.

El marco de OpenVoice ofrece mucha flexibilidad cuando se trata del modelo de texto a voz de hablante base, ya que puede emplear el modelo VITS con una ligera modificación que le permite aceptar incrustaciones de lenguaje y estilo en su predictor de duración y codificador de texto. El marco también puede emplear modelos como Microsoft TTS que son comercialmente baratos, o puede implementar modelos como InstructTTS que son capaces de aceptar instrucciones de estilo. Por ahora, el marco de OpenVoice emplea el modelo VITS, aunque los otros modelos también son una opción viable.

Pasando al segundo componente, el Convertidor de Tono de Color es un componente de codificador-decodificador que alberga un flujo de normalización invertible en el centro. El componente de codificador en el convertidor de tono de color es una CNN unidimensional que acepta el espectro transformado de Fourier a tiempo corto del modelo de texto a voz de hablante base como su entrada. El codificador genera mapas de características como salida. El extractor de tono de color es una CNN bidimensional simple que opera en la mel-espectrografía de la voz de entrada y genera un vector de características único como salida que codifica la información del tono de color. Las capas de flujo de normalización aceptan los mapas de características generados por el codificador como entrada y generan una representación de características que preserva todas las propiedades de estilo pero elimina la información del tono de color. El marco de OpenVoice aplica las capas de flujo de normalización en la dirección inversa y toma las representaciones de características como entrada y salida de las capas de flujo de normalización. El marco decodifica las capas de flujo de normalización en ondas de audio crudas utilizando una pila de convoluciones unidimensionales transpuestas.

La arquitectura completa del marco de OpenVoice es de alimentación directa sin el uso de ningún componente auto-regresivo. El componente del convertidor de tono de color es similar a la conversión de voz a nivel conceptual, pero difiere en términos de funcionalidad, objetivos de entrenamiento y sesgo inductivo en la estructura del modelo. Las capas de flujo de normalización comparten la misma estructura que los modelos de texto a voz basados en flujo, pero difieren en términos de funcionalidad y objetivos de entrenamiento.

Además, existe un enfoque diferente para extraer representaciones de características, el método implementado por el marco de OpenVoice entrega una mejor calidad de audio. También es digno de destacar que el marco de OpenVoice no tiene la intención de inventar componentes en la arquitectura del modelo, sino que ambos componentes principales, es decir, el convertidor de tono de color y el modelo de texto a voz de hablante base, son ambos obtenidos de trabajos existentes. El objetivo principal del marco de OpenVoice es formar un marco separado que separe el control de lenguaje y el estilo de voz del clonado de tono de color. Aunque el enfoque es bastante simple, es bastante efectivo, especialmente en tareas que controlan estilos y acentos, o tareas de generalización de lenguaje nuevo. Lograr el mismo control al emplear un marco acoplado requiere una gran cantidad de cálculo y datos, y no se generaliza bien a nuevos lenguajes.

En su núcleo, la filosofía principal del marco de OpenVoice es separar la generación de lenguaje y estilos de voz de la generación de tono de color. Una de las principales fortalezas del marco de OpenVoice es que la voz clonada es fluida y de alta calidad siempre y cuando el modelo de texto a voz de un solo hablante hable de manera fluida.

OpenVoice: Experimento y Resultados

Evaluar tareas de clonación de voz es un objetivo difícil debido a varias razones. En primer lugar, los trabajos existentes a menudo emplean diferentes datos de entrenamiento y prueba que hacen que comparar estos trabajos sea inherentemente injusto. Aunque se puede utilizar la externalización para evaluar métricas como la Puntuación de Opinión Media, la dificultad y la diversidad de los datos de prueba influirán en el resultado general de manera significativa. En segundo lugar, los diferentes métodos de clonación de voz tienen diferentes datos de entrenamiento, y la diversidad y escala de estos datos influyen en los resultados de manera significativa. Finalmente, el objetivo principal de los trabajos existentes a menudo difiere entre sí, por lo que difieren en su funcionalidad.

Debido a las tres razones mencionadas anteriormente, es injusto comparar los marcos de clonación de voz existentes numéricamente. En cambio, tiene más sentido comparar estos métodos de manera cualitativa.

Clonación de Tono de Color Precisa

Para analizar su rendimiento, los desarrolladores crean un conjunto de prueba con individuos anónimos, personajes de juegos y celebridades que forman la base de hablantes de referencia, y tiene una amplia distribución de voz que incluye tanto muestras neutras como voces expresivas únicas. El marco de OpenVoice es capaz de clonar el tono de color de referencia y generar voz en varios lenguajes y acentos para cualquier hablante de referencia y los 4 hablantes base.

Control Flexible sobre Estilos de Voz

Uno de los objetivos del marco de OpenVoice es controlar los estilos de voz de manera flexible utilizando el convertidor de tono de color que puede modificar el tono de color mientras preserva todas las demás características y propiedades de la voz.

Los experimentos indican que el modelo preserva los estilos de voz después de convertir al tono de color de referencia. En algunos casos, sin embargo, el modelo neutraliza ligeramente las emociones, un problema que se puede resolver pasando menos información a las capas de flujo para que no puedan eliminar la emoción. El marco de OpenVoice es capaz de preservar los estilos de la voz base gracias a su uso de un convertidor de tono de color. Esto permite al marco de OpenVoice manipular el modelo de texto a voz de hablante base para controlar fácilmente los estilos de voz.

Clonación de Voz Cruzada de Lenguaje

El marco de OpenVoice no incluye ningún dato masivo de hablantes para un lenguaje no visto, y sin embargo, es capaz de lograr una clonación de voz cruzada de lenguaje cercana en un entorno de disparo cero. Las capacidades de clonación de voz cruzada de lenguaje del marco de OpenVoice son de dos tipos:

El modelo es capaz de clonar el tono de color del hablante de referencia con precisión cuando el lenguaje del hablante de referencia no se ve en el conjunto de datos de hablantes multilingües o MSML.
Además, en el mismo evento de que el lenguaje del hablante de referencia no se ve, el marco de OpenVoice es capaz de clonar la voz del hablante de referencia y hablar en el lenguaje, siempre y cuando el modelo de texto a voz de hablante base admita el lenguaje.

Pensamientos Finales

En este artículo, hemos hablado sobre OpenVoice, un marco de clonación de voz instantánea versátil que replica la voz de cualquier usuario y genera voz en varios lenguajes utilizando una muestra de audio corta del hablante de referencia. La intuición principal detrás de OpenVoice es que siempre y cuando un modelo no tenga que realizar clonación de tono de color del hablante de referencia, un marco puede emplear un modelo de texto a voz de hablante base para controlar el lenguaje y los estilos de voz.

OpenVoice demuestra que los modelos de Clonación de Voz Instantánea pueden replicar el tono de color del hablante de referencia y lograr un control granular sobre los estilos de voz, incluyendo acento, ritmo, entonación, pausas y incluso emociones. OpenVoice logra entregar resultados de clonación de voz instantánea superiores mientras es viable computacionalmente con costos de operación de hasta 10 veces menos que las API actuales disponibles con un rendimiento inferior.

Unite.AI