Inteligência artificial

OpenVoice: Clonagem de Voz Instantânea Versátil

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

Na síntese de fala Text-to-Speech (TTS), a Clonagem de Voz Instantânea (IVC) permite que o modelo TTS clone a voz de qualquer locutor de referência usando uma amostra de áudio curta, sem necessidade de treinamento adicional para o locutor de referência. Essa técnica também é conhecida como Síntese de Texto para Fala de Zero-Shot. A abordagem de Clonagem de Voz Instantânea permite a personalização flexível da voz gerada e demonstra um valor significativo em uma ampla gama de situações do mundo real, incluindo chatbots personalizados, criação de conteúdo e interações entre humanos e Modelos de Linguagem Grande (LLMs).

Embora os atuais quadros de clonagem de voz façam seu trabalho bem, eles estão repletos de alguns desafios no campo, incluindo Controle de Estilo de Voz Flexível, ou seja, os modelos carecem da capacidade de manipular estilos de voz de forma flexível após clonar a voz. Outro grande obstáculo encontrado pelos atuais quadros de clonagem instantânea é Clonagem de Voz Cross-Lingual de Zero-Shot, ou seja, para fins de treinamento, os modelos atuais necessitam de acesso a um conjunto de dados MSML (multi-lingual) ou de falantes massivos, independentemente da língua.

Para lidar com esses problemas e contribuir para o aprimoramento dos modelos de clonagem de voz instantânea, os desenvolvedores trabalharam no OpenVoice, um quadro de clonagem de voz instantânea versátil que replica a voz de qualquer usuário e gera fala em múltiplas línguas usando uma amostra de áudio curta do locutor de referência. O OpenVoice demonstra que os modelos de Clonagem de Voz Instantânea podem replicar a cor do tom do locutor de referência e alcançar um controle granular sobre estilos de voz, incluindo sotaque, ritmo, entonação, pausas e até emoções. O que é mais impressionante é que o quadro OpenVoice também demonstra capacidades notáveis em alcançar clonagem de voz cross-lingual de zero-shot para línguas externas ao conjunto de dados MSML, permitindo que o OpenVoice clone vozes em novas línguas sem treinamento extensivo para essa língua. O OpenVoice consegue entregar resultados de clonagem de voz instantânea superiores enquanto é viável computacionalmente com custos operacionais de até 10 vezes menos do que as atuais APIs disponíveis com desempenho inferior.

Neste artigo, vamos falar sobre o quadro OpenVoice em profundidade e vamos descobrir sua arquitetura que permite que ele entregue um desempenho superior em tarefas de clonagem de voz instantânea. Então, vamos começar.

OpenVoice: Habilitando Clonagem de Voz Instantânea Versátil

Como mencionado anteriormente, a Clonagem de Voz Instantânea, também referida como Síntese de Texto para Fala de Zero-Shot, permite que o modelo TTS clone a voz de qualquer locutor de referência usando uma amostra de áudio curta sem a necessidade de treinamento adicional para o locutor de referência. A Clonagem de Voz Instantânea sempre foi um tópico de pesquisa quente com trabalhos existentes, incluindo os quadros XTTS e VALLE, que extraem embeddings de locutor e/ou tokens acústicos do áudio de referência que servem como condição para o modelo auto-regressivo. O modelo auto-regressivo, em seguida, gera tokens acústicos sequencialmente e, em seguida, decodifica esses tokens em uma onda de áudio bruta.

Embora os modelos de clonagem de voz instantânea auto-regressivos clonem a cor do tom de forma notável, eles falham em manipular outros parâmetros de estilo, incluindo sotaque, emoção, pausas e ritmo. Além disso, os modelos auto-regressivos também experimentam baixa velocidade de inferência e seus custos operacionais são bastante altos. Abordagens existentes, como o quadro YourTTS, empregam uma abordagem não auto-regressiva que demonstra uma inferência de fala significativamente mais rápida do que as abordagens auto-regressivas, mas ainda não conseguem fornecer aos usuários um controle flexível sobre os parâmetros de estilo. Além disso, tanto os quadros de clonagem de voz instantânea baseados em auto-regressão quanto os baseados em não auto-regressão necessitam de acesso a um conjunto de dados MSML (multi-lingual) ou de falantes massivos para clonagem de voz cross-lingual.

Para lidar com os desafios enfrentados pelos atuais quadros de clonagem de voz instantânea, os desenvolvedores trabalharam no OpenVoice, uma biblioteca de clonagem de voz instantânea de código aberto que visa resolver os seguintes desafios enfrentados pelos atuais quadros IVC.

O primeiro desafio é permitir que os quadros IVC tenham controle flexível sobre os parâmetros de estilo, além da cor do tom, incluindo sotaque, ritmo, entonação e pausas. Os parâmetros de estilo são cruciais para gerar conversas naturais e fala em contexto, em vez de narrar o texto de entrada de forma monótona.
O segundo desafio é permitir que os quadros IVC clonem vozes cross-linguais em um ambiente de zero-shot.
O desafio final é alcançar altas velocidades de inferência em tempo real sem deteriorar a qualidade.

Para lidar com os dois primeiros obstáculos, a arquitetura do quadro OpenVoice é projetada para desacoplar os componentes da voz ao máximo. Além disso, o OpenVoice gera cor do tom, idioma e outros recursos de voz de forma independente, permitindo que o quadro manipule individualmente os tipos de linguagem e estilos de voz. O quadro OpenVoice lida com o terceiro desafio por padrão, pois a estrutura desacoplada reduz a complexidade computacional e os requisitos de tamanho do modelo.

OpenVoice: Metodologia e Arquitetura

A estrutura técnica do quadro OpenVoice é eficaz e surpreendentemente simples de implementar. Não é segredo que clonar a cor do tom para qualquer locutor, adicionar um novo idioma e permitir controle flexível sobre os parâmetros de voz simultaneamente pode ser desafiador. Isso ocorre porque executar essas três tarefas simultaneamente requer que os parâmetros controlados se intersectem usando uma grande parte de conjuntos de dados combinatoriais. Além disso, na síntese de texto para fala de um único locutor regular, para tarefas que não requerem clonagem de voz, é mais fácil adicionar controle sobre outros parâmetros de estilo. Com base nisso, o quadro OpenVoice visa desacoplar as tarefas de Clonagem de Voz Instantânea em subtarefas. O modelo propõe usar um modelo de texto para fala de locutor base para controlar os parâmetros de linguagem e estilo e emprega um conversor de cor do tom para incluir a cor do tom de referência na voz gerada.

Em seu núcleo, o quadro OpenVoice emprega dois componentes: um conversor de cor do tom e um modelo de texto para fala de locutor base. O modelo de texto para fala de locutor base é um modelo de um único locutor ou de vários locutores, permitindo um controle preciso sobre os parâmetros de estilo, idioma e sotaque. O modelo gera uma voz que é então passada para o conversor de cor do tom, que muda a cor do tom do locutor base para a cor do tom do locutor de referência.

O quadro OpenVoice oferece muita flexibilidade quando se trata do modelo de texto para fala de locutor base, pois pode empregar o modelo VITS com modificações leves, permitindo que ele aceite embeddings de linguagem e estilo em seu preditor de duração e codificador de texto. O quadro também pode empregar modelos como o Microsoft TTS, que são comercialmente baratos, ou pode implantar modelos como o InstructTTS, que são capazes de aceitar prompts de estilo. Por enquanto, o quadro OpenVoice emprega o modelo VITS, embora os outros modelos sejam uma opção viável.

Vindo para o segundo componente, o Conversor de Cor do Tom é um componente encoder-decoder que abriga um fluxo de normalização invertível no centro. O componente encoder no conversor de cor do tom é uma CNN unidimensional que aceita o espectro de Fourier transformado no tempo curto do modelo de texto para fala de locutor base como sua entrada. O encoder, em seguida, gera mapas de recursos como saída. O extrator de cor do tom é uma CNN bidimensional simples que opera no mel-espectrograma da voz de entrada e gera um único vetor de recursos como saída que codifica as informações da cor do tom. As camadas de fluxo de normalização aceitam os mapas de recursos gerados pelo encoder como entrada e geram uma representação de recursos que preserva todas as propriedades de estilo, mas elimina as informações de cor do tom. O quadro OpenVoice, em seguida, aplica as camadas de fluxo de normalização na direção inversa e toma as representações de recursos como entrada e saídas das camadas de fluxo de normalização. O quadro, em seguida, decodifica as camadas de fluxo de normalização em ondas de áudio brutos usando uma pilha de convoluções unidimensionais transpostas.

A arquitetura completa do quadro OpenVoice é feed forward sem o uso de qualquer componente auto-regressivo. O componente conversor de cor do tom é semelhante à conversão de voz em um nível conceitual, mas difere em termos de funcionalidade, objetivos de treinamento e viés indutivo na estrutura do modelo. As camadas de fluxo de normalização compartilham a mesma estrutura que os modelos de texto para fala baseados em fluxo, mas diferem em termos de funcionalidade e objetivos de treinamento.

Além disso, existe uma abordagem diferente para extrair representações de recursos, o método implementado pelo quadro OpenVoice entrega uma melhor qualidade de áudio. Também é digno de nota que o quadro OpenVoice não tem a intenção de inventar componentes na arquitetura do modelo, mas ambos os componentes principais, ou seja, o conversor de cor do tom e o modelo de texto para fala de locutor base, são ambos provenientes de trabalhos existentes. O objetivo principal do quadro OpenVoice é formar um quadro desacoplado que separe o controle de linguagem e o estilo de voz da clonagem de cor do tom. Embora a abordagem seja bastante simples, é bastante eficaz, especialmente em tarefas que controlam estilos e sotaques ou tarefas de generalização de novas línguas. Alcançar o mesmo controle ao empregar um quadro acoplado requer uma grande quantidade de computação e dados e não se generaliza bem para novas línguas.

Em seu núcleo, a filosofia principal do quadro OpenVoice é desacoplar a geração de linguagem e estilos de voz da geração de cor do tom. Uma das principais forças do quadro OpenVoice é que a voz clonada é fluente e de alta qualidade, desde que o modelo de texto para fala de um único locutor fale de forma fluente.

OpenVoice: Experimento e Resultados

Avaliar tarefas de clonagem de voz é um objetivo difícil devido a várias razões. Em primeiro lugar, os trabalhos existentes frequentemente empregam dados de treinamento e teste diferentes, o que torna a comparação desses trabalhos intrinsicamente injusta. Embora a crowdsourcing possa ser usada para avaliar métricas como a Pontuação de Opinião Média, a dificuldade e a diversidade dos dados de teste influenciarão o resultado geral de forma significativa. Em segundo lugar, os diferentes métodos de clonagem de voz têm dados de treinamento diferentes e a diversidade e a escala desses dados influenciam os resultados de forma significativa. Finalmente, o objetivo principal dos trabalhos existentes frequentemente difere uns dos outros, portanto, eles diferem em sua funcionalidade.

Devido às três razões mencionadas acima, é injusto comparar os quadros de clonagem de voz existentes numericamente. Em vez disso, faz mais sentido comparar esses métodos qualitativamente.

Clonagem de Cor do Tom Precisa

Para analisar seu desempenho, os desenvolvedores constroem um conjunto de teste com indivíduos anônimos, personagens de jogos e celebridades que formam a base de locutores de referência e têm uma ampla distribuição de vozes, incluindo amostras neutras e vozes expressivas únicas. O quadro OpenVoice é capaz de clonar a cor do tom de referência e gerar fala em múltiplos idiomas e sotaques para qualquer um dos locutores de referência e os 4 locutores base.

Controle Flexível sobre Estilos de Voz

Um dos objetivos do quadro OpenVoice é controlar os estilos de fala de forma flexível usando o conversor de cor do tom, que pode modificar a cor do tom enquanto preserva todas as outras características e propriedades da voz.

Os experimentos indicam que o modelo preserva os estilos de voz após converter para a cor do tom de referência. Em alguns casos, no entanto, o modelo neutraliza as emoções ligeiramente, um problema que pode ser resolvido passando menos informações para as camadas de fluxo, para que elas não sejam capazes de se livrar da emoção. O quadro OpenVoice é capaz de preservar os estilos da voz base graças ao uso de um conversor de cor do tom. Isso permite que o quadro OpenVoice manipule o modelo de texto para fala de locutor base para controlar facilmente os estilos de voz.

Clonagem de Voz Cross-Lingual

O quadro OpenVoice não inclui nenhum dado de falantes massivos para uma língua não vista, mas é capaz de alcançar clonagem de voz cross-lingual de zero-shot. As capacidades de clonagem de voz cross-lingual do quadro OpenVoice são de duas partes:

O modelo é capaz de clonar a cor do tom do locutor de referência com precisão quando a língua do locutor de referência não é vista no conjunto de dados MSML.
Além disso, no mesmo evento de a língua do locutor de referência não ser vista, o quadro OpenVoice é capaz de clonar a voz do locutor de referência e falar na língua, desde que o modelo de texto para fala de locutor base suporte a língua.

Pensamentos Finais

Neste artigo, falamos sobre o OpenVoice, um quadro de clonagem de voz instantânea versátil que replica a voz de qualquer usuário e gera fala em múltiplos idiomas usando uma amostra de áudio curta do locutor de referência. A intuição principal por trás do OpenVoice é que, desde que um modelo não precise realizar clonagem de cor do tom do locutor de referência, um quadro pode empregar um modelo de texto para fala de locutor base para controlar a linguagem e os estilos de voz.

O OpenVoice demonstra que os modelos de Clonagem de Voz Instantânea podem replicar a cor do tom do locutor de referência e alcançar um controle granular sobre os estilos de voz, incluindo sotaque, ritmo, entonação, pausas e até emoções. O OpenVoice consegue entregar resultados de clonagem de voz instantânea superiores enquanto é viável computacionalmente com custos operacionais de até 10 vezes menos do que as atuais APIs disponíveis com desempenho inferior.

Unite.AI