인공 지능

StyleTTS 2: 대규모 음성 언어 모델을 사용한 인간 수준의 텍스트 음성 변환

게재

5 개월 전

2023 년 12 월 4 일

자연 및 합성 음성 합성 접근 방식의 증가로 인해 AI 업계가 지난 몇 년 동안 달성한 주요 성과 중 하나는 오디오북, 가상 비서, 음성 등 다양한 산업 전반에 걸쳐 잠재적인 응용 프로그램을 사용하여 텍스트 음성 변환 프레임워크를 효과적으로 합성한 것입니다. -내레이션 등 다양한 음성 관련 작업에서 인간 수준의 성능과 효율성을 제공하는 일부 최첨단 모드를 제공합니다. 그러나 강력한 성능에도 불구하고 표현력이 풍부하고 다양한 음성, 제로샷 텍스트를 음성 프레임워크로 최적화하기 위한 대량의 훈련 데이터에 대한 요구 사항, OOD 또는 배포되지 않은 텍스트에 대한 견고성으로 인해 작업 개선의 여지가 여전히 남아 있습니다. 개발자는 더욱 강력하고 접근 가능한 텍스트 음성 변환 프레임워크를 개발할 수 있습니다.

이 기사에서는 StyleTTS 프레임워크를 기반으로 구축된 강력하고 혁신적인 텍스트 음성 변환 프레임워크인 StyleTTS-2에 대해 설명하고 최첨단 텍스트 음성 변환 시스템을 향한 다음 단계를 제시하는 것을 목표로 합니다. StyleTTS2 프레임워크는 음성 스타일을 잠재 무작위 변수로 모델링하고 확률적 확산 모델을 사용하여 이러한 음성 스타일 또는 무작위 변수를 샘플링하므로 StyleTTS2 프레임워크가 참조 오디오 입력을 사용하지 않고도 사실적인 음성을 효과적으로 합성할 수 있습니다. 이러한 접근 방식으로 인해 StyleTTS2 프레임워크는 현재의 텍스트 대 음성 프레임워크와 비교할 때 더 나은 결과를 제공하고 높은 효율성을 보여줄 뿐만 아니라 확산 모델 프레임워크가 제공하는 다양한 음성 합성을 활용할 수도 있습니다. 우리는 StyleTTS2 프레임워크에 대해 더 자세히 논의하고 해당 프레임워크를 통해 얻은 결과를 살펴보는 동시에 아키텍처와 방법론에 대해 이야기할 것입니다. 그럼 시작해 보겠습니다.

텍스트 음성 합성을 위한 StyleTTS2: 소개

StyleTTS2는 인간 수준의 TTS 프레임워크 구축을 향한 다음 단계를 수행하는 혁신적인 텍스트 음성 변환 합성 모델이며 스타일 기반 텍스트인 StyleTTS를 기반으로 구축되었습니다. 음성 생성 모델. StyleTTS2 프레임워크는 음성 스타일을 잠재 무작위 변수로 모델링하고 확률적 확산 모델을 사용하여 이러한 음성 스타일 또는 무작위 변수를 샘플링하므로 StyleTTS2 프레임워크가 참조 오디오 입력을 사용하지 않고도 사실적인 음성을 효과적으로 합성할 수 있습니다. 스타일을 잠재 확률 변수로 모델링하는 것은 StyleTTS2 프레임워크를 이전 StyleTTS 프레임워크와 분리하는 것이며, 참조 오디오 입력 없이 입력 텍스트에 가장 적합한 음성 스타일을 생성하는 것을 목표로 하며, 가져오는 동안 효과적인 잠재 확산을 달성할 수 있습니다. 에서 제공하는 다양한 음성 합성 기능의 장점 확산 모델. 또한 StyleTTS2 프레임워크는 사전 훈련된 대규모 SLM 또는 음성 언어 모델을 WavLM 프레임워크와 같은 판별자로 사용하고 이를 고유한 새로운 차등 지속 기간 모델링 접근 방식과 결합하여 프레임워크를 엔드 투 엔드로 훈련하고 궁극적으로 자연성이 향상된 음성을 생성합니다. 따르는 접근 방식 덕분에 StyleTTS2 프레임워크는 음성 생성 작업을 위한 최신 프레임워크보다 성능이 뛰어나며 화자 적응 작업을 위한 제로샷 설정에서 대규모 음성 모델을 사전 훈련하는 가장 효율적인 프레임워크 중 하나입니다.

인간 수준의 텍스트를 음성 합성으로 전달하기 위해 StyleTTs2 프레임워크는 음성 합성을 위한 확산 모델 및 대규모 음성 언어 모델을 포함한 기존 작업의 학습 내용을 통합합니다. 확산 모델은 미세한 음성 제어 기능과 다양한 음성 샘플링 기능 덕분에 일반적으로 음성 합성 작업에 사용됩니다. 그러나 확산 모델은 GAN 기반 비반복 프레임워크만큼 효율적이지 않으며 그 주요 이유는 잠재 표현, 파형 및 멜 스펙트로그램을 음성의 목표 지속 시간까지 반복적으로 샘플링해야 하기 때문입니다.

반면, 대규모 음성 언어 모델에 관한 최근 연구에서는 음성 생성 작업에 대한 텍스트 품질을 향상시키고 화자에게 잘 적응하는 능력이 있음을 보여주었습니다. 대규모 음성 언어 모델은 일반적으로 텍스트 입력을 음성 재구성 작업을 위해 사전 훈련된 음성 언어 프레임워크에서 파생된 양자화 또는 연속 표현으로 변환합니다. 그러나 이러한 음성 언어 모델의 기능은 음성 합성에 직접적으로 최적화되어 있지 않습니다. 반면 StyleTTS2 프레임워크는 잠재 공간 맵을 사용하지 않고 음성 언어 모델의 기능을 합성하기 위해 적대적 훈련을 사용하는 대규모 SLM 프레임워크에서 얻은 지식을 활용하므로 음성 합성 최적화 잠재 공간을 직접 학습합니다.

StyleTTS2: 아키텍처 및 방법론

기본적으로 StyleTTS2는 스타일 인코더를 사용하여 참조 오디오에서 스타일 벡터를 파생시켜 표현력 있고 자연스러운 음성 생성을 허용하는 비자동 회귀 텍스트 음성 변환 프레임워크인 이전 버전인 StyleTTS 프레임워크를 기반으로 구축되었습니다. StyleTTS 프레임워크에 사용되는 스타일 벡터는 AdaIN 또는 적응형 인스턴스 정규화를 사용하여 인코더, 지속 시간 및 예측 변수에 직접 통합되므로 StyleTTS 모델이 다양한 운율, 지속 시간 및 감정까지 포함하는 음성 출력을 생성할 수 있습니다. StyleTTS 프레임워크는 총 8개 모델로 구성되며 세 가지 범주로 구분됩니다.

스타일 인코더, 텍스트 인코더 및 음성 디코더를 갖춘 음향 모델 또는 음성 생성 시스템.
운율 및 기간 예측자를 활용하는 텍스트 음성 예측 시스템.
훈련 목적을 위한 텍스트 정렬기, 피치 추출기 및 판별기를 포함하는 유틸리티 시스템입니다.

접근 방식 덕분에 StyleTTS 프레임워크는 제어 가능하고 다양한 음성 합성과 관련된 최첨단 성능을 제공합니다. 그러나 이 성능에는 샘플 품질 저하, 표현 제한, 실시간 음성 방해 응용 프로그램에 대한 의존성 등의 단점이 있습니다.

StyleTTS 프레임워크를 개선한 StyleTTS2 모델은 표현력이 향상되었습니다. 연설문 향상된 유통 성능과 인간 수준의 높은 품질로 작업을 수행합니다. StyleTTS2 프레임워크는 적대적 훈련과 직접적인 파형 합성을 통해 다양한 구성요소를 최적화하는 엔드투엔드 훈련 프로세스를 활용합니다. StyleTTS 프레임워크와 달리 StyleTTS2 프레임워크는 음성 스타일을 잠재 변수로 모델링하고 이를 확산 모델을 통해 샘플링하여 참조 오디오를 사용하지 않고 다양한 음성 샘플을 생성합니다. 이러한 구성 요소를 자세히 살펴보겠습니다.

간섭에 대한 엔드투엔드 교육

StyleTTS2 프레임워크에서는 고정 구성 요소에 의존하지 않고도 다양한 텍스트-음성 구성 요소를 간섭에 맞게 최적화하기 위해 종단 간 교육 접근 방식이 활용됩니다. StyleTTS2 프레임워크는 스타일 벡터, 피치 및 에너지 곡선, 정렬된 표현에서 직접 파형을 생성하도록 디코더를 수정하여 이를 달성합니다. 그런 다음 프레임워크는 디코더의 마지막 프로젝션 레이어를 제거하고 이를 파형 디코더로 대체합니다. StyleTTS2 프레임워크는 두 개의 인코더를 사용합니다. HifiGAN 기반 디코더는 파형을 직접 생성하고, iSTFT 기반 디코더는 더 빠른 간섭 및 훈련을 위해 파형으로 변환되는 위상 및 크기를 생성합니다.

위 그림은 사전 훈련과 공동 훈련에 사용되는 음향 모델을 나타냅니다. 훈련 시간을 줄이기 위해 먼저 사전 훈련 단계에서 모듈을 최적화한 후 공동 훈련 중에 피치 추출기를 제외한 모든 구성 요소를 최적화합니다. 관절 훈련이 피치 추출기를 최적화하지 않는 이유는 피치 곡선에 대한 Ground Truth를 제공하는 데 사용되기 때문입니다.

위 그림은 사전 훈련되었지만 사전 조정되지 않은 WavLM 프레임워크와의 음성 언어 모델의 적대적 훈련 및 간섭을 나타냅니다. 이 프로세스는 다양한 입력 텍스트를 사용할 수 있지만 그라데이션을 누적하여 각 배치의 매개변수를 업데이트한다는 점에서 위에서 언급한 프로세스와 다릅니다.

스타일 확산

StyleTTS2 프레임워크는 조건부 분포를 따르는 잠재 변수를 통해 음성을 조건부 분포로 모델링하는 것을 목표로 하며, 이 변수를 일반화된 음성 스타일이라고 하며 어휘 강세를 포함한 모든 음성 콘텐츠의 범위를 넘어서는 음성 샘플의 모든 특성을 나타냅니다. 운율, 말하기 속도, 심지어 포먼트 전환까지.

음성 언어 모델 판별자

음성 언어 모델은 광범위한 의미론 및 음향 측면에 대한 귀중한 정보를 인코딩하는 일반적인 능력으로 유명하며, SLM 표현은 전통적으로 생성된 합성 음성의 품질을 평가하기 위해 인간의 인식을 모방할 수 있었습니다. StyleTTS2 프레임워크는 생성 작업을 수행하기 위해 SLM 인코더의 기능을 활용하기 위해 적대적 훈련 접근 방식을 사용하고, 판별자로 12계층 WavLM 프레임워크를 사용합니다. 이 접근 방식을 사용하면 프레임워크에서 성능 향상에 도움이 될 수 있는 OOD 또는 배포되지 않은 텍스트에 대한 교육을 활성화할 수 있습니다. 또한 과적합 문제를 방지하기 위해 프레임워크는 OOD 텍스트와 분포를 동일한 확률로 샘플링합니다.

미분 가능한 기간 모델링

전통적으로 기간 예측자는 음소 기간을 생성하는 텍스트-음성 프레임워크에 사용되지만 이러한 기간 예측자가 사용하는 업샘플링 방법은 E2E 교육 프로세스 중에 그라데이션 흐름을 차단하는 경우가 많으며 NaturalSpeech 프레임워크는 인간 수준에 대한 주의 기반 업샘플러를 사용합니다. 텍스트를 음성으로 변환합니다. 그러나 StyleTTS2 프레임워크는 편차로 인한 길이 불일치로 인한 추가 항의 손실 없이 다양한 적대적 훈련으로 미분 가능한 업샘플링을 사용하여 훈련하기 때문에 적대적 훈련 중에 이 접근 방식이 불안정하다는 것을 발견합니다. 소프트 동적 시간 왜곡 접근 방식을 사용하면 이러한 불일치를 완화하는 데 도움이 될 수 있지만 이를 사용하면 계산 비용이 많이 들 뿐만 아니라 적대적 목표나 멜 재구성 작업을 수행할 때 안정성도 문제가 됩니다. 따라서 적대적 훈련으로 인간 수준의 성능을 달성하고 훈련 프로세스를 안정화하기 위해 StyleTTC2 프레임워크는 비모수적 업샘플링 접근 방식을 사용합니다. 가우스 업샘플링은 미리 결정된 가우스 커널의 고정 길이로 인해 제한이 있지만 예측 기간을 변환하는 데 널리 사용되는 비모수적 업샘플링 접근 방식입니다. 가우스 업샘플링에 대한 이러한 제한으로 인해 다양한 길이의 정렬을 정확하게 모델링하는 기능이 제한됩니다.

이러한 제한을 해결하기 위해 StyleTTC2 프레임워크는 추가 교육 없이 다양한 정렬 길이를 설명할 수 있는 새로운 비모수적 업샘플링 접근 방식을 사용할 것을 제안합니다. 각 음소에 대해 StyleTTC2 프레임워크는 정렬을 무작위 변수로 모델링하고 음소가 정렬되는 음성 프레임의 인덱스를 나타냅니다.

모델 교육 및 평가

StyleTTC2 프레임워크는 VCTK, LibriTTS 및 LJSpeech의 세 가지 데이터 세트에서 훈련되고 실험되었습니다. StyleTTS2 프레임워크의 단일 화자 구성 요소는 약 13,000개 이상의 오디오 샘플이 12,500개의 훈련 샘플, 100개의 검증 샘플 및 거의 500개의 테스트 샘플로 분할되어 포함된 LJSpeech 데이터 세트를 사용하여 훈련되었으며, 총 실행 시간은 거의 24시간에 달합니다. 프레임워크의 다중 화자 구성 요소는 다양한 악센트를 가진 44,000명 이상의 개별 원어민이 포함된 100개 이상의 오디오 클립으로 구성된 VCTK 데이터 세트에서 훈련되었으며 43,500개의 훈련 샘플, 100개의 검증 샘플 및 거의 500개의 테스트 샘플로 분할됩니다. 마지막으로, 프레임워크에 제로샷 적응 기능을 갖추기 위해 프레임워크는 250개 이상의 개별 화자와 함께 총 약 1,150시간의 오디오 클립으로 구성된 결합된 LibriTTS 데이터세트에 대해 훈련됩니다. 성능을 평가하기 위해 모델은 두 가지 측정항목을 사용합니다. 모스-N 또는 자연스러움의 평균 의견 점수, 그리고 이끼 또는 유사성의 평균 의견 점수.

결과

StyleTTS2 프레임워크에 사용된 접근 방식과 방법론은 모델이 특히 NaturalSpeech 데이터 세트 및 도중에 여러 최첨단 TTS 프레임워크를 능가하여 데이터 세트에 대한 새로운 표준을 설정하므로 성능에서 입증됩니다. 또한 StyleTTS2 프레임워크는 VCTK 데이터 세트에서 최첨단 VITS 프레임워크보다 성능이 뛰어나며 그 결과는 다음 그림에 나와 있습니다.

StyleTTS2 모델은 또한 LJSpeech 데이터 세트에서 이전 모델보다 성능이 뛰어나며 동일한 측정항목에 대해 이전 프레임워크에서 표시한 것처럼 OOD 또는 배포 중단 텍스트에 대한 품질 저하를 표시하지 않습니다. 또한, 제로샷 설정에서 StyleTTC2 모델은 유사성 측면에서는 뒤떨어지지만 자연스러움에서는 기존 Vall-E 프레임워크를 능가합니다. 그러나 Vall-E 프레임워크의 2시간 이상의 교육과 비교할 때 StyleTTS245 프레임워크는 60시간의 오디오 샘플만으로 교육에도 불구하고 경쟁력 있는 성능을 달성할 수 있으므로 StyleTTC2가 데이터 효율적인 대안임을 입증한다는 점은 주목할 가치가 있습니다. Vall-E에서 사용되는 기존의 대규모 사전 훈련 방법에 적용됩니다.

감정 레이블이 지정된 오디오 텍스트 데이터가 부족하기 때문에 StyleTTC2 프레임워크는 GPT-4 모델을 사용하여 프레임워크가 생성하는 스타일 벡터의 시각화를 위해 다양한 감정에 걸쳐 500개 이상의 인스턴스를 생성합니다. 방송 프로세스.

첫 번째 그림에서는 입력된 텍스트 감정에 반응하는 감정 스타일이 LJSpeech 모델의 스타일 벡터로 설명되며 다양한 감정으로 표현적인 음성을 합성하는 StyleTTC2 프레임워크의 능력을 보여줍니다. 두 번째 그림은 1개의 개별 스피커 각각에 대한 고유한 클러스터 형태를 보여 주므로 단일 오디오 파일에서 발생하는 광범위한 다양성을 나타냅니다. 마지막 그림은 화자 2의 느슨한 감정 클러스터를 보여주며 일부 중복에도 불구하고 감정 기반 클러스터가 두드러져 참조 오디오 샘플 및 입력 톤에 관계없이 화자의 감정 조율을 조작할 가능성을 나타냅니다. . 확산 기반 접근 방식을 사용함에도 불구하고 StyleTTSXNUMX 프레임워크는 VITS, ProDiff 및 FastDiff를 포함한 기존의 최첨단 프레임워크보다 성능이 뛰어납니다.

최종 생각

이 기사에서는 StyleTTS 프레임워크를 기반으로 구축된 새롭고 강력하며 혁신적인 텍스트 음성 변환 프레임워크인 StyleTTS2에 대해 설명했으며, 최첨단 텍스트 음성 시스템을 향한 다음 단계를 제시하는 것을 목표로 합니다. StyleTTS2 프레임워크는 음성 스타일을 잠재 무작위 변수로 모델링하고 확률적 확산 모델을 사용하여 이러한 음성 스타일 또는 무작위 변수를 샘플링하므로 StyleTTS2 프레임워크가 참조 오디오 입력을 사용하지 않고도 사실적인 음성을 효과적으로 합성할 수 있습니다. StyleTTS2 프레임워크는 스타일 확산 및 SLM 판별자를 사용합니다. 텍스트 음성 변환 작업에서 인간 수준의 성능을 달성하고 다양한 음성 작업에서 기존의 최첨단 프레임워크보다 뛰어난 성능을 발휘합니다.

Unite.AI

StyleTTS 2: 대규모 음성 언어 모델을 사용한 인간 수준의 텍스트 음성 변환

인공 지능

StyleTTS 2: 대규모 음성 언어 모델을 사용한 인간 수준의 텍스트 음성 변환

차례

텍스트 음성 합성을 위한 StyleTTS2: 소개