Refresh

This website www.unite.ai/ko/hierspeech-hierarchical-variational-inference-for-zero-shot-speech-synthesis/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

부본 HierSpeech++: 제로샷 음성 합성을 위한 계층적 변이 추론 - Unite.AI
소셜 네트워크

인공 지능

HierSpeech++: 제로샷 음성 합성을 위한 계층적 변이 추론

mm
업데이트 on
HierSpeech++: 제로샷 음성 합성을 위한 계층적 변이 추론

최근 개발과 대규모 언어 모델 기능의 발전은 특히 제로 샷 설정에서 오디오 생성 및 음성 합성 작업을 위한 LLM 기반 프레임워크의 발전에 중요한 역할을 했습니다. 전통적인 음성 합성 프레임워크는 신중한 오디오 및 음성 단위를 위한 신경 오디오 코덱과 같은 추가 기능을 통합한 결과 상당한 발전을 이루었습니다. 이러한 음성 및 오디오 합성 프레임워크가 만족스러운 결과를 제공하더라도 현재 LLM 기반 오디오 프레임워크에는 다음과 같은 세 가지 주요 제한 사항이 있으므로 여전히 개선의 여지가 있습니다.

  1. 이는 궁극적으로 견고성이 부족하고 간섭 속도가 느려지고 발음이 틀리거나 건너뛰거나 반복되는 결과를 초래하는 오디오 출력을 자동 생성하는 경향이 있습니다. 
  2. 이들은 개별 음성 단위나 사전 훈련된 신경 오디오 코덱에 과도하게 의존하는 경향이 있습니다. 
  3. 종종 많은 양의 훈련 데이터가 필요합니다. 

위에서 언급한 문제를 해결하고 LLM 기반 오디오 및 음성 합성 모델의 기능을 향상시키기 위해 개발자는 음성 및 텍스트를 음성으로 변환하거나 TTS 변환을 위한 강력하고 효율적인 제로샷 음성 합성기인 HierSpeech++를 개발했습니다. HierSpeech++ 프레임워크는 견고성을 높일 뿐만 아니라 합성 음성 출력의 표현력을 추가하는 동시에 제로 샷 설정에서도 인위적으로 생성된 음성의 자연성과 화자 유사성을 높이는 계층적 음성 합성 프레임워크의 학습을 기반으로 구축되었습니다. 

이 기사에서는 HierSpeech++ 프레임워크에 대해 자세히 설명하고 최신 텍스트 및 오디오 생성 모델과 비교할 때 모델의 아키텍처, 작업 및 결과를 살펴보겠습니다. 그럼 시작해 보겠습니다. 

HierSpeech++: 제로샷 음성 합성을 위한 계층적 변이 추론

HierSpeech++는 계층적 음성 합성 파이프라인을 사용하는 빠르고 강력하며 효율적인 제로샷 음성 합성 프레임워크이며, 이러한 종단 간 음성 합성 프레임워크를 채택함으로써 HierSpeech++ 모델은 고품질 파형 생성의 잠재력을 극대화할 수 있습니다. 의미론적 음성 표현으로 자기 지도 음성 표현을 채택하여 의미론적 표현과 음향적 표현 사이의 격차를 계층적으로 연결하고, 이를 통해 스타일 적응의 현재 한계를 해결하려고 시도합니다. 종단 간 음성 합성 프레임워크는 VITS 모델에 의해 처음 도입되었으며, 적대적 훈련 및 정규화 흐름으로 강화된 VAE 또는 Variational Auto-Encoder를 채택합니다. 또한 엔드 투 엔드 훈련 파이프라인을 갖춘 VAE 기반 프레임워크는 다른 음성 합성 프레임워크에서 생성된 것보다 훨씬 더 나은 지각 음성 합성 품질로 고품질 파형 오디오를 생성할 수 있는 기능을 갖추고 있습니다. 

이러한 프레임워크의 오디오 재구성 품질은 HierSpeech 프레임워크에서 사용되는 계층적 조건부 Variational AutoEncoder를 사용하여 더욱 향상될 수 있습니다. 잠재력에도 불구하고 엔드 투 엔드 훈련 파이프라인 기반 모델은 특히 제로 샷 설정에서 특정 제한 사항을 가지고 있습니다. 왜냐하면 음성 샘플을 고품질 오디오로 합성할 수 있더라도 제로 샷 음성 복제 작업의 화자 유사성은 여전히 ​​높은 수준으로 가득 차 있기 때문입니다. 계산 복잡성. 반면에, 확산 기반 음성 합성 모델 화자 적응 측면에서는 잘 수행되지만 추론 속도를 늦추는 대화형 생성 프로세스를 사용하기 때문에 여전히 완벽과는 거리가 멀고 종종 시끄러운 데이터에 취약하며 훈련과 추론 간의 불일치로 인해 Mel-spectrogram과 생성된 지상 진실 사이의 XNUMX단계 생성 프로세스에서는 오디오 품질이 기대에 미치지 못합니다. 

이전 모델이 직면한 문제를 해결하기 위해 HierSpeech++ 모델은 계층적 음성 합성기, 음성 초해상도 및 텍스트 대 vec 구성 요소를 사용하고 계층적 조건부 VAE 또는 Variational AutoEncoder를 기반으로 구축된 향상된 계층적 음성 합성기를 도입합니다. 지각적 품질 이상의 오디오 품질을 향상시키기 위해 HierSpeech++ 프레임워크는 이중 오디오를 채택하여 음향 후방을 강화하고 조건부 생성과 무조건 생성을 모두 갖춘 계층적 적응형 생성기를 사용하여 분포 외 일반화를 향상합니다. 또한 음성 구성 요소를 분리하고 화자 관련 및 화자 독립적 의미 정보를 향상시키기 위해 HierSpeech++ 프레임워크는 소스 필터 이론 기반 다중 경로 의미 인코더도 채택합니다. Variational AutoEncoder를 사용한 결과 HierSpeech++ 모델은 계층적으로 표현을 연결하고 학습할 수 있으며 대상 음성 스타일에 점진적으로 적응하여 파형 오디오를 추론할 수 있습니다. 또한 HierSpeech++ 프레임워크는 적응을 강화하고 훈련과 추론 간의 불일치를 줄이기 위해 정규화 흐름 변환기의 양방향 네트워크도 배포합니다. 

전반적으로 HierSpeech++ 모델은 제로 샷 설정에서 음성 샘플을 합성하는 것을 목표로 하는 완전히 병렬적이고 새롭고 강력한 계층적 음성 합성 프레임워크이며 다음과 같은 기여를 시도합니다.

  • 계층적 음성 합성 프레임워크를 사용하여 음성 스타일과 운율을 제어하고 전송합니다. 
  • 16kHz에서 48kHz까지 파형 오디오를 업샘플링하여 데이터 확장성과 고해상도 음성 합성을 활성화합니다. 
  • 제로샷 음성 변환 및 텍스트 음성 변환 작업 전반에 걸쳐 인간 수준의 능력을 달성하세요. 

HierSpeech++: 모델 구성요소 및 아키텍처

논의된 바와 같이 HierSpeech++는 음성 유사성 및 음성 자연성 측면에서 인간 수준의 정확성을 달성하려고 시도하는 제로샷 음성 합성 모델입니다. 

HierSpeech++ 모델은 계층적 음성 합성기, 음성 초해상도, text-to-vec to TTV 등 다양한 구성 요소로 구성됩니다. TTV는 서로 동기화되어 대량의 저해상도를 효과적으로 활용할 수 있는 각 모델의 훈련을 용이하게 합니다. 음성 복제를 위한 해상도 음성 데이터. 프레임워크를 분석하고 각 구성 요소에 대해 이야기해 보겠습니다. 

음성 표현

인간의 주파수 대역은 4kHz 미만이므로 음성 합성의 경우 HierSpeech++ 프레임워크는 16kHz에서 오디오를 다운샘플링합니다. 또한 음성 신호를 재구성하려면 오디오 샘플을 다운샘플링하는 것 외에도 음성 주파수의 가장 높은 구성 요소를 두 배 이상 사용하는 것이 중요합니다. 향상된 지각 품질을 얻기 위해 HierSpeech++ 프레임워크는 음성 초해상도 또는 SpeechSR 구성 요소를 사용하여 오디오 샘플을 16kHz에서 48kHz로 업샘플링하고 의미 체계 및 음향 표현을 위해 저해상도 표현을 사용합니다. 

음향 표현의 경우 전통적인 텍스트 음성 변환 또는 TTS 프레임워크는 Mel-spectrogram을 중간 음향 특징으로 사용한 다음 STFT 또는 단시간 푸리에 변환을 통해 파형에서 변환합니다. 그러나 음향 특징은 내용과 발음, 음성 정보 등을 포함한 다양한 속성으로 구성된 풍부한 표현이므로 프레임워크가 이러한 표현을 추론하기 어렵게 만들고, 종종 잘못된 발음, 유사성 부족, 또는 연설의 지나치게 부드러운. 

계속해서 파형에서 연속적인 의미 표현을 추출하기 위해 HierSpeech++ 프레임워크는 의미 표현에 대한 널리 사용되는 자체 지도 음성 표현 접근 방식과 달리 Wav2Vec 프레임워크를 사용합니다. 이 접근 방식은 풍부한 단일 언어 모델에 대한 좋은 대안이 되지만, 특히 다국어 음성 합성 작업에서 견고성과 표현력 측면에서 모델의 제로샷 음성 복제 능력에 영향을 미칩니다. 

계층적 음성 합성기

Hierarchical Speech Synthesizer 구성 요소는 텍스트 대본이나 화자 ID와 같은 레이블을 사용하지 않고 음성 데이터에만 의존하여 모듈을 교육할 수 있으므로 HierSpeech++ 프레임워크의 초석입니다. 음향 용량을 높이기 위해 이전의 최신 음성 합성 모델은 Mel-스펙트로그램을 선형 스펙트로그램으로 대체했지만 이 접근 방식은 피치 주기성, PESQ, 음성 및 무성 점수, 심지어 Mel-spectrogram 측면에서 KL 발산 점수를 최소화합니다. 스펙트로그램 거리. Hierarchical Speech Synthesizer는 듀얼 오디오 음향 인코더를 사용하여 보다 풍부하고 포괄적인 음향 표현을 캡처하도록 설계된 선형 스펙트로그램을 사용하여 제시된 문제를 해결합니다. 프레임워크는 또한 파형 인코더를 사용하여 원시 파형 오디오에서 정보를 추출하고 이를 선형 스펙트로그램 표현과 연결하고 마지막으로 음향 표현을 연결된 표현으로 투영합니다. 

또한 화자 독립적 및 화자 관련 의미 표현을 처리하기 위해 HierSpeech++ 프레임워크는 다중 경로 자체 지도 음성 표현을 활용합니다. 여기서 각 개별 표현은 추출된 의미 표현과 함께 계층적 스타일 적응에 사용됩니다. MMS의 중간 계층. 프레임워크는 또한 기본 주파수를 활용하여 피치 윤곽을 수동으로 제어할 수 있는 음성 얽힘을 향상시킵니다. 또한 프레임워크는 계층적으로 파형 오디오를 생성하기 위한 조건부 정보로 언어적 표현을 사용하고, 자체 감독 표현의 향상된 언어적 표현을 사용합니다. 파형 및 선형 스펙트로그램을 사용하여 훈련 중에 추출된 음향 표현을 사용하여 원시 파형 오디오를 재구성하고 계층적 변형 추론을 사용하여 음향 표현을 다중 경로 언어 표현과 연결한다는 점도 주목할 가치가 있습니다. 프레임워크는 또한 계층적 적응 생성기(HAG)는 의미론적-파형 샘플을 생성하고, 생성된 표현은 스타일 표현과 음향 표현으로 구성되어 소스 및 파형 생성기에 공급됩니다. 

Vec에게 문자 보내기

텍스트-음성 합성의 경우 HierSpeech++ 프레임워크는 텍스트 시퀀스에서 기본 주파수와 의미론적 표현을 생성하는 텍스트-vec 또는 TTV 모델을 사용하고 변형 자동 인코더와 결합된 단조 정렬 검색을 활용하여 음성과 텍스트를 내부적으로 정렬합니다. 그런 다음 HierSpeech++ 프레임워크는 선형 스펙트로그램을 자체 감독 선형 표현으로 대체하고 동일한 표현을 재구성하여 TTV의 출력 역할을 합니다. 

또한 HierSpeech++ 프레임워크는 자기 지도 음성 표현과 비교할 때 XNUMX배 더 큰 해상도로 기본 주파수를 예측하고 조건부 텍스트 표현을 사전 정보로 사용합니다. 자기 지도 음성 표현의 의미 정보의 결과로 프레임워크는 텍스트의 운율 스타일을 vec 모델로 전송할 수 있으며 잠재 표현을 음소 인코더에 공급하여 표현의 언어 기능을 향상시킵니다. 

SpeechSR 또는 음성 초해상도

HierSpeech++ 프레임워크는 데이터 효율성 및 가용성 측면에서 상대적으로 저해상도 데이터 세트를 학습하고 저해상도 음성 파형을 16~48kHz의 고해상도 음성 파형으로 업샘플링합니다. 또한 프레임워크는 전치된 컨볼루션의 결과로 아티팩트를 완화하는 것으로 이전에 알려진 가장 가까운 이웃 업샘플러로 전치된 컨볼루션을 대체합니다. 

아키텍처

Text to Vec 모델의 콘텐츠 인코더는 커널 크기가 16이고 숨겨진 크기가 5인 256개의 비캐주얼 WaveNet 레이어로 구성되는 반면, 콘텐츠 디코더는 커널 크기가 8인 5개의 비캐주얼 WaveNet 레이어와 숨겨진 크기는 512입니다. 텍스트 인코더 구성 요소는 커널 크기가 9이고 필터 크기가 1024이며 숨겨진 크기가 256인 0.2개의 운율 조건부 Transformer 네트워크와 5개의 무조건적인 Transformer 네트워크로 구성되며 텍스트 인코더의 드롭아웃 비율은 32입니다. 인접한 정보를 인코딩하고 운율 스타일 적응을 향상시키기 위해 프레임워크는 Transformer 블록에서 커널 크기가 XNUMX인 CNN을 채택합니다. 반면 SpeechSR은 업샘플링 레이어 없이 XNUMX개의 초기 채널이 있는 단일 AMP 블록으로 구성됩니다. 프레임워크는 가장 가까운 이웃 업샘플러를 사용하여 숨겨진 표현을 업샘플링하고 MPD를 XNUMX개의 서로 다른 창 크기와 XNUMX개의 하위 대역 판별자가 있는 판별자로 활용합니다. 

위 그림은 YAPPT 알고리즘을 사용하여 16kHz 주파수 및 기본 주파수의 오디오에서 의미론적 표현을 추출하는 것으로 시작하는 HierSpeech++ 프레임워크의 추론 파이프라인을 보여줍니다. 기본 주파수가 계층적 합성기에 공급되기 전에 소스 오디오의 표준 및 평균 편차를 사용하여 정규화되고, 정규화된 기본 주파수는 대상 오디오의 표준 및 평균 편차를 사용하여 비정규화됩니다. 텍스트-음성 추출의 경우 HierSpeech++ 프레임워크는 음성 표현 대신 텍스트 표현을 추출하고 텍스트-vec 모델을 사용하여 운율 프롬프트에서 의미론적 표현을 생성합니다. 

실험 및 결과

프레임워크는 공개적으로 사용 가능한 LibriTTS 데이터 세트를 활용하여 계층적 합성기 구성 요소를 교육합니다. 첫 번째 단계는 데이터 세트의 trainclean 하위 세트로 모델을 교육하고 나머지 데이터를 활용하여 음성 스타일의 향상된 전송을 가능하게 합니다. 또한 다양성과 견고성을 향상시키기 위해 프레임워크는 다음 그림에 표시된 대로 데이터 세트를 1kHz로 확장합니다. 

재구성, 재합성 작업 및 음성 변환

재구성 및 재합성 작업에 대한 HierSpeech++ 프레임워크의 성능을 평가하기 위해 개발자는 XNUMX가지 객관적인 측정 기준을 수행했으며 그 결과는 각각 재구성 및 재합성 작업에 대한 다음 그림에 나와 있습니다. 

음성 변환 작업의 경우 프레임워크는 평가를 위해 두 가지 주관적 측정항목, 즉 음성 유사성 MOS 또는 sMOS와 자연성 평균 의견 점수(XNUMX개의 자연성 객관적 측정항목 및 XNUMX개의 유사성 객관적 측정항목)를 사용합니다. 

계속해서 HierSpeech++ 프레임워크의 주요 목표는 제로샷 음성 합성을 활성화하고 제로샷에서 성능을 평가하기 위해 AutoVC, VoiceMixer, 확산 기반 모델, 다음 그림에 결과가 나와 있습니다. 

다음 그림은 제로샷 텍스트 음성 변환 결과는 각각 시끄러운 프롬프트와 매우 시끄러운 프롬프트입니다. 

최종 생각

이 기사에서는 제로 샷 설정에서 강력하고 효과적인 음성 합성을 가능하게 하고 대량의 훈련에 대한 과도한 의존을 포함하여 현재 음성 합성 프레임워크가 직면한 한계를 극복하는 새로운 접근 방식인 HierSpeech++ 모델에 대해 설명했습니다. 데이터, 개별 음성 단위 또는 미리 훈련된 신경 오디오 코덱에 대한 의존성, 그리고 궁극적으로 견고성 부족과 느린 간섭 속도를 유발하고 잘못된 발음, 건너뛰기 또는 반복을 초래하는 오디오 출력을 자동 생성하는 경향이 있습니다. HierSpeech++ 모델은 제로샷 설정에서 음성 샘플을 합성하는 것을 목표로 하는 완전히 병렬적이고 새롭고 강력한 계층적 음성 합성 프레임워크이며 다음과 같은 기여를 시도합니다.

  • 계층적 음성 합성 프레임워크를 사용하여 음성 스타일과 운율을 제어하고 전송합니다. 
  • 16kHz에서 48kHz까지 파형 오디오를 업샘플링하여 데이터 확장성과 고해상도 음성 합성을 활성화합니다. 
  • 제로샷 음성 변환 및 텍스트 음성 변환 작업 전반에 걸쳐 인간 수준의 능력을 달성하세요. 

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.