Refresh

This website www.unite.ai/pt/hierspeech-hierarchical-variational-inference-for-zero-shot-speech-synthesis/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

toco HierSpeech++: Inferência Variacional Hierárquica para Síntese de Fala Zero-shot - Unite.AI
Entre em contato

Inteligência artificial

HierSpeech++: Inferência Variacional Hierárquica para Síntese de Fala Zero-shot

mm
Atualização do on
HierSpeech++: Inferência Variacional Hierárquica para Síntese de Fala Zero-shot

Os desenvolvimentos recentes e o progresso nas capacidades de grandes modelos de linguagem têm desempenhado um papel crucial nos avanços das estruturas baseadas em LLM para tarefas de geração de áudio e síntese de fala, especialmente na configuração zero-shot. As estruturas tradicionais de síntese de fala testemunharam avanços significativos como resultado da integração de recursos adicionais, como codecs de áudio neural para unidades discretas de áudio e fala. Embora estas estruturas de síntese de voz e áudio forneçam resultados satisfatórios, ainda há espaço para melhorias, uma vez que as atuais estruturas de áudio baseadas em LLM têm as seguintes três limitações principais

  1. Eles tendem a gerar automaticamente a saída de áudio, o que acaba causando falta de robustez e velocidades de interferência lentas, resultando em erros de pronúncia, pulos ou repetições. 
  2. Eles tendem a confiar demais em unidades de fala discretas ou em codecs de áudio neural pré-treinados. 
  3. Freqüentemente, eles exigem uma grande quantidade de dados de treinamento. 

Para resolver os problemas mencionados acima e melhorar os recursos dos modelos de síntese de voz e áudio baseados em LLM, os desenvolvedores criaram o HierSpeech++, um sintetizador de fala de disparo zero robusto e eficiente para conversões de voz e texto em fala ou TTS. A estrutura HierSpeech++ baseia-se no aprendizado de estruturas hierárquicas de síntese de fala que não apenas aumentam a robustez, mas também aumentam a expressividade da saída de fala sintética, ao mesmo tempo que aumentam a naturalidade e a similaridade do locutor da fala gerada artificialmente, mesmo em uma configuração de disparo zero. 

Neste artigo, falaremos detalhadamente sobre a estrutura HierSpeech++ e daremos uma olhada na arquitetura, no funcionamento e nos resultados do modelo quando comparado com modelos de geração de texto e áudio de última geração. Então vamos começar. 

HierSpeech++: Inferência Variacional Hierárquica para Síntese de Fala Zero-shot

O HierSpeech++ é uma estrutura de síntese de fala de disparo zero rápida, robusta e eficiente que usa um pipeline hierárquico de síntese de fala e, ao adotar essa estrutura de síntese de fala de ponta a ponta, o modelo HierSpeech++ é capaz de maximizar o potencial de geração de formas de onda de alta qualidade preencher hierarquicamente a lacuna entre as representações semânticas e acústicas, adotando uma representação de fala auto-supervisionada como uma representação de fala semântica e, assim, tentar resolver as limitações atuais das adaptações de estilo. A estrutura de síntese de fala ponta a ponta foi introduzida pela primeira vez pelo modelo VITS e adota um VAE ou Auto-Encoder Variacional aumentado com treinamento adversário e fluxo de normalização. Além disso, as estruturas baseadas em VAE com um pipeline de treinamento ponta a ponta têm a capacidade de gerar áudio em forma de onda de alta qualidade, com a qualidade perceptiva da síntese de fala sendo significativamente melhor do que aquelas geradas por outras estruturas de síntese de fala. 

A qualidade de reconstrução de áudio dessas estruturas pode ser aprimorada ainda mais usando um AutoEncoder Variacional condicional hierárquico, conforme usado na estrutura HierSpeech. Apesar de seu potencial, os modelos baseados em pipeline de treinamento ponta a ponta têm certas limitações, especialmente em uma configuração zero-shot, pois embora possam sintetizar amostras de fala com áudio de alta qualidade, a similaridade do locutor em tarefas de clonagem de voz zero-shot ainda está repleta de alta complexidade computacional. Por outro lado, modelos de síntese de fala baseados em difusão têm um bom desempenho em termos de adaptações de falantes, mas ainda estão longe de ser perfeitos, pois fazem uso de um processo de geração interativo que retarda sua velocidade de inferência, são frequentemente vulneráveis ​​a dados ruidosos e como resultado da incompatibilidade entre treinamento e inferência de No processo de geração de dois estágios entre o espectrograma Mel e a verdade gerada, a qualidade do áudio não está à altura. 

Para resolver os problemas enfrentados por seus antecessores, o modelo HierSpeech++ emprega um sintetizador de fala hierárquico, uma super-resolução de fala e um componente de texto para vec, e introduz um sintetizador de fala hierárquico aprimorado construído no VAE condicional hierárquico ou AutoEncoder Variacional. Na tentativa de melhorar a qualidade do áudio além da qualidade perceptiva, a estrutura HierSpeech++ adota um áudio duplo para aumentar a acústica posterior e aprimora a generalização fora de distribuição, empregando um gerador adaptativo hierárquico equipado com geração condicional e incondicional. Além disso, para desembaraçar os componentes da fala e aprimorar as informações semânticas relacionadas ao falante e independentes do falante, a estrutura HierSpeech++ também adota um codificador semântico de múltiplos caminhos baseado na teoria do filtro de origem. Como resultado do emprego de um AutoEncoder Variacional, o modelo HierSpeech++ pode conectar e aprender representações hierarquicamente e adaptar-se progressivamente ao estilo de voz alvo para inferir a forma de onda do áudio. Além disso, a estrutura HierSpeech++ também implanta uma rede bidirecional de normalização de transformadores de fluxo na tentativa de melhorar a adaptação e também reduzir a incompatibilidade entre treinamento e inferência. 

No geral, o modelo HierSpeech++ é uma estrutura de síntese de fala hierárquica totalmente paralela, nova e robusta, destinada a sintetizar amostras de fala em uma configuração zero-shot, e tenta fazer as seguintes contribuições

  • Usando uma estrutura hierárquica de síntese de fala para controlar e transferir estilos de voz e prosódia. 
  • Habilite a escalabilidade de dados e a síntese de voz de alta resolução aumentando a resolução da forma de onda do áudio de 16 para 48 kHz. 
  • Obtenha habilidade de nível humano em tarefas de conversão de voz e conversão de texto em fala sem esforço. 

HierSpeech++: componentes e arquitetura do modelo

Conforme discutido, HierSpeech++ é um modelo de síntese de fala zero-shot que tenta alcançar precisão de nível humano em termos de similaridade de voz e naturalidade de fala. 

O modelo HierSpeech++ consiste em diferentes componentes, incluindo um sintetizador de fala hierárquico, uma super resolução de fala e texto para vec para TTV que funcionam em sincronia entre si para facilitar o treinamento de cada modelo que pode utilizar efetivamente uma grande quantidade de baixo- resolução de dados de fala para clonagem de voz. Vamos analisar a estrutura e falar sobre cada componente. 

Representações de fala

Como a banda de frequência humana está abaixo de 4 kHz, para síntese de fala, a estrutura HierSpeech++ reduz a resolução do áudio em 16 kHz. Além disso, para reconstruir o sinal de voz, é vital usar pelo menos o dobro do componente mais alto da frequência de voz, além de reduzir a resolução da amostra de áudio. Para obter qualidade perceptiva aprimorada, a estrutura HierSpeech++ faz uso de uma super resolução de fala ou componente SpeechSR para aumentar a amostragem da amostra de áudio de 16 a 48 kHz e faz uso de representações de baixa resolução para representações semânticas e acústicas. 

Para representações acústicas, uma estrutura tradicional de conversão de texto em fala ou TTS emprega um espectrograma Mel como sua característica acústica intermediária que é então transformada a partir da forma de onda com a ajuda de um STFT ou Transformada de Fourier de Tempo Curto. No entanto, vale a pena notar que, uma vez que as características acústicas são representações ricas que compreendem vários atributos, incluindo conteúdo e pronúncia, informações de voz e muito mais, o que torna difícil para a estrutura inferir essas representações, uma situação que muitas vezes leva a erros de pronúncia, falta de similaridade, ou suavização excessiva do discurso. 

Seguindo em frente, para extrair uma representação semântica contínua de uma forma de onda, a estrutura HierSpeech++ utiliza uma estrutura Wav2Vec em contraste com a popular abordagem de representação de fala auto-supervisionada para representações semânticas. Embora a abordagem seja uma boa alternativa para um modelo monolíngue rico, ela afeta as habilidades de clonagem de voz de disparo zero de um modelo em termos de robustez e expressividade, especialmente em tarefas de síntese de fala multilíngue. 

Sintetizador de fala hierárquico

O componente Hierarchical Speech Synthesizer é a pedra fundamental para a estrutura HierSpeech++, pois permite treinar o módulo sem usar rótulos como transcrições de texto ou identificação do palestrante, e dependendo apenas de dados de fala. Para aumentar a capacidade acústica, os modelos anteriores de síntese de fala de última geração substituíram o espectrograma Mel por um espectrograma linear, no entanto, a abordagem minimiza a pontuação de divergência KL em termos de periodicidade de pitch, PESQ, pontuação de voz e não-voz, e até mesmo Mel- distância do espectrograma. O Sintetizador de Fala Hierárquico emprega um codificador acústico de áudio duplo para resolver os desafios apresentados usando um espectrograma linear projetado para capturar representações acústicas mais ricas e abrangentes. A estrutura também emprega um codificador de forma de onda para destilar informações de uma forma de onda de áudio bruta e concatena-la com a representação do espectrograma linear e, finalmente, projeta a representação acústica como uma representação concatenada. 

Além disso, para lidar com representações semânticas agnósticas e relacionadas ao falante, a estrutura HierSpeech++ utiliza uma representação de fala auto-supervisionada de múltiplos caminhos, onde cada representação individual é usada para adaptação de estilo hierárquico com as representações semânticas extraídas para obter informações linguísticas do camada intermediária do MMS. A estrutura também utiliza uma frequência fundamental para melhorar o desembaraço da fala que permite controlar manualmente o contorno do tom. A estrutura também usa uma representação linguística como informação condicional para gerar forma de onda de áudio hierarquicamente e usa uma representação linguística aprimorada da representação auto-supervisionada. Também é importante notar que as representações acústicas extraídas durante o treinamento usando uma forma de onda e espectrograma linear são usadas para reconstruir o áudio da forma de onda bruta, e uma inferência variacional hierárquica é usada para vincular as representações acústicas com as representações linguísticas de múltiplos caminhos. A estrutura também emprega um gerador adaptativo hierárquico(HAG) para gerar amostras semânticas para formas de onda, e as representações geradas compreendendo uma representação de estilo e uma representação acústica são alimentadas para os geradores de fonte e de forma de onda. 

Texto para Vec

Para síntese de texto em fala, a estrutura HierSpeech++ emprega um modelo text to vec ou TTV que gera uma frequência fundamental e uma representação semântica a partir de uma sequência de texto e utiliza uma pesquisa de alinhamento monotônica acoplada a um autoencoder variacional para alinhar a fala e o texto internamente. A estrutura HierSpeech++ então substitui o espectrograma linear por uma representação linear auto-supervisionada e reconstrói a mesma representação para servir como saída para o TTV. 

Além disso, a estrutura HierSpeech++ prevê a frequência fundamental com resoluções quatro vezes maiores quando comparada às representações de fala auto-supervisionadas, e faz uso de uma representação de texto condicional como informação prévia. Como resultado da informação semântica das representações de fala auto-supervisionadas, a estrutura é capaz de transferir o estilo prosódico do texto para o modelo vec e alimenta uma representação latente ao codificador de fonemas para aprimorar as capacidades linguísticas da representação. 

SpeechSR ou super resolução de fala

A estrutura HierSpeech++ treina em um conjunto de dados de resolução relativamente baixa em termos de eficiência e disponibilidade de dados e faz a amostragem de uma forma de onda de fala de baixa resolução para uma forma de onda de fala de alta resolução de 16 a 48 kHz. A estrutura também substitui uma convolução transposta pelo upsampler vizinho mais próximo, que anteriormente era conhecido por aliviar artefatos como resultado de convoluções transpostas. 

Arquitetura

O codificador de conteúdo do modelo text to vec consiste em 16 camadas WaveNet não casuais com um tamanho de kernel de 5 e um tamanho oculto de 256, enquanto o decodificador de conteúdo consiste em 8 camadas WaveNet não casuais com um tamanho de kernel de 5 e um tamanho oculto de 512. O componente do codificador de texto consiste em três redes Transformer condicionais de prosódia e três redes Transformer incondicionais com um tamanho de kernel de 9, tamanho de filtro de 1024 e um tamanho oculto de 256 com o codificador de texto tendo uma taxa de abandono de 0.2. Para codificar informações adjacentes e melhorar a adaptação do estilo de prosódia, a estrutura adota uma CNN com tamanho de kernel de 5 em blocos Transformer. O SpeechSR, por outro lado, compreende um único bloco AMP com 32 canais iniciais sem a presença de uma camada de upsampling. A estrutura faz uso de um upsampler vizinho mais próximo para aumentar a resolução das representações ocultas e utiliza um MPD como discriminador com seis tamanhos de janela diferentes e quatro discriminadores de sub-banda. 

A figura acima demonstra o pipeline de inferência do framework HierSpeech++ que começa com a extração das representações semânticas do áudio na frequência de 16 kHz e na frequência fundamental fazendo uso do algoritmo YAPPT. Antes que a frequência fundamental possa ser alimentada ao Sintetizador Hierárquico, ela é normalizada usando os desvios padrão e médio do áudio de origem, e a frequência fundamental normalizada é então desnormalizada usando o desvio padrão e médio do áudio alvo. Para extrações de texto para fala, a estrutura HierSpeech++ extrai representações textuais em vez de representações de fala e emprega o modelo text to vec para gerar uma representação semântica do prompt de prosódia. 

Experiência e resultados

A estrutura utiliza o conjunto de dados LibriTTS disponível publicamente para treinar o componente hierárquico do sintetizador, sendo a primeira etapa treinar o modelo com subconjuntos trainclean do conjunto de dados e utilizar os dados restantes para permitir uma transferência aprimorada do estilo de voz. Além disso, para melhorar a diversidade e robustez, a estrutura aumenta o conjunto de dados para 1 kHz, conforme demonstrado na figura a seguir. 

Reconstrução, tarefas de ressíntese e conversão de voz

Para avaliar o desempenho da estrutura HierSpeech++ em tarefas de reconstrução e ressintetização, os desenvolvedores conduziram sete métricas objetivas, e os resultados são demonstrados nas figuras a seguir para tarefas de reconstrução e ressintetização, respectivamente. 

Para tarefas de conversão de voz, a estrutura usa duas métricas subjetivas para avaliação: similaridade de voz MOS ou sMOS e pontuação média de opinião de naturalidade de nMOS com três métricas objetivas de naturalidade e duas métricas objetivas de similaridade. 

Seguindo em frente o objetivo principal da estrutura HierSpeech++ é permitir a síntese de fala zero-shot e para avaliar seu desempenho em zero-shot ele é comparado com outros modelos básicos como AutoVC VoiceMixer Modelos baseados em difusão, e muito mais com os resultados demonstrados na figura a seguir. 

As figuras a seguir demonstram conversão de texto em fala sem disparo resultados com prompts barulhentos e prompts muito barulhentos, respectivamente. 

Considerações Finais

Neste artigo, falamos sobre o modelo HierSpeech++, uma nova abordagem para permitir uma síntese de fala robusta e eficaz em uma configuração zero-shot, e superar as limitações enfrentadas pelas atuais estruturas de síntese de fala, incluindo sua dependência excessiva de grandes quantidades de treinamento. dados, dependência de unidades de fala discretas ou codec de áudio neural pré-treinado e sua tendência de gerar automaticamente saída de áudio que, em última análise, causa falta de robustez e velocidades de interferência lentas e resulta em erros de pronúncia, saltos ou repetições. O modelo HierSpeech++ é uma estrutura de síntese de fala hierárquica totalmente paralela, nova e robusta, destinada a sintetizar amostras de fala em uma configuração zero-shot, e tenta fazer as seguintes contribuições

  • Usando uma estrutura hierárquica de síntese de fala para controlar e transferir estilos de voz e prosódia. 
  • Habilite a escalabilidade de dados e a síntese de voz de alta resolução aumentando a resolução da forma de onda do áudio de 16 para 48 kHz. 
  • Obtenha habilidade de nível humano em tarefas de conversão de voz e conversão de texto em fala sem esforço. 

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.