인공지능

OpenVoice: 다재다능한 즉시 음성 클론링

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

텍스트 음성 합성(TTS)에서 즉시 음성 클론링(IVC)은 참조 스피커의 짧은 오디오 샘플을 사용하여 참조 스피커의 음성을 복제할 수 있는 TTS 모델을 가능하게 합니다. 이 기술은 제로샷 텍스트 음성 합성으로도 알려져 있습니다. 즉시 음성 클론링 접근 방식은 생성된 음성의 유연한 사용자 지정 및 대화형 챗봇, 콘텐츠 생성 및 대형 언어 모델(LLM)との 상호 작용을 포함한 다양한 실제 상황에서 상당한 가치를 보여줍니다.

현재 음성 클론링 프레임워크는 잘 작동하지만, 몇 가지 도전 과제가 있습니다. 유연한 음성 스타일 제어 즉, 모델은 음성을 클론링한 후 음성 스타일을 유연하게 조작할 수 없습니다. 현재 즉시 클론링 프레임워크에서遭遇하는 또 다른 주요 장애물은 제로샷 크로스링구얼 음성 클론링 즉, 훈련을 위해 현재 모델은 언어에 관계없이 대규모 다중 언어 데이터 세트에 접근해야 합니다.

이러한 문제를 해결하고 즉시 음성 클론링 모델을 향상시키기 위해 개발자들은 참조 스피커의 음성을 복제하고 짧은 오디오 클립을 사용하여 여러 언어로 음성을 생성할 수 있는 다재다능한 즉시 음성 클론링 프레임워크인 OpenVoice를 개발했습니다. OpenVoice는 즉시 음성 클론링 모델이 참조 스피커의 음색을 복제하고 억양, 리듬, 음정, 휴지 및 감정과 같은 음성 스타일을 세부적으로 제어할 수 있음을 보여줍니다. 더욱 놀라운 것은 OpenVoice 프레임워크가 MSML 데이터 세트 외부의 언어에 대한 제로샷 크로스링구얼 음성 클론링을 달성하는 뛰어난 능력을 보여줍니다. OpenVoice는 언어에 대한 광범위한 사전 훈련 없이 새로운 언어로 음성을 클론링할 수 있습니다. OpenVoice는 비용을 10배까지 줄이면서도 현재 사용 가능한 API보다 우수한 즉시 음성 클론링 결과를 제공합니다.

이 기사에서 우리는 OpenVoice 프레임워크에 대해 자세히 다루고, 이를 통해 우수한 성능을 제공할 수 있는 아키텍처를 살펴보겠습니다. 따라서 시작해 보겠습니다.

OpenVoice : 다재다능한 즉시 음성 클론링

이전에도 언급했듯이 즉시 음성 클론링, 즉 제로샷 텍스트 음성 합성은 참조 스피커의 음성을 복제할 수 있는 TTS 모델을 가능하게 합니다. 즉시 음성 클론링은 항상 인기 있는 연구 주제였으며, XTTS 및 VALLE 프레임워크와 같은 기존 연구는 참조 오디오에서 스피커 임베딩 및/또는 음향 토큰을 추출하여 자동 회귀 모델의 조건으로 사용합니다. 자동 회귀 모델은 음향 토큰을 순차적으로 생성한 다음 이를 원시 오디오 波形으로 디코딩합니다.

자동 회귀 즉시 음성 클론링 모델은 음색을 놀라울 정도로 잘 복제하지만, 억양, 감정, 휴지 및 리듬과 같은 다른 스타일 매개변수를 조작하는 데에는 부족합니다. 또한 자동 회귀 모델은 낮은 추론 속도와 높은 운영 비용을 경험합니다. YourTTS 프레임워크와 같은 기존 접근 방식은 비자동 회귀 접근 방식을 사용하여 자동 회귀 접근 방식 프레임워크보다 훨씬 빠른 추론 음성을 제공하지만, 여전히 사용자에게 스타일 매개변수에 대한 유연한 제어를 제공하지 못합니다. 또한 자동 회귀 기반 및 비자동 회귀 기반 즉시 음성 클론링 프레임워크는 모두 크로스링구얼 음성 클론링을 위해 대규모 다중 언어 데이터 세트에 접근해야 합니다.

현재 즉시 음성 클론링 프레임워크에서遭遇하는 도전 과제를 해결하기 위해 개발자들은 즉시 음성 클론링 라이브러리인 OpenVoice를 개발했습니다. OpenVoice는 다음 도전 과제를 해결하도록 설계되었습니다.

첫 번째 도전 과제는 음색 외에 억양, 리듬, 음정 및 휴지와 같은 스타일 매개변수를 유연하게 제어할 수 있는 즉시 음성 클론링 프레임워크를 가능하게 하는 것입니다. 스타일 매개변수는 입력 텍스트를 단조롭게 낭독하는 대신 자연스럽고 상황에 맞는 대화를 생성하는 데 중요합니다.
두 번째 도전 과제는 제로샷 설정에서 크로스링구얼 음성을 클론링할 수 있는 즉시 음성 클론링 프레임워크를 가능하게 하는 것입니다.
마지막 도전 과제는 품질을 저하하지 않으면서 실시간 추론 속도를 높이는 것입니다.

첫 번째 두 가지 도전 과제를 해결하기 위해 OpenVoice 프레임워크의 아키텍처는 음성을 가능한 한 분리하도록 설계되었습니다. 또한 OpenVoice는 음색, 언어 및 기타 음성 기능을 독립적으로 생성하여 프레임워크가 개별 언어 유형 및 음성 스타일을 유연하게 조작할 수 있습니다. OpenVoice 프레임워크는 분리된 구조로 인해 계산 복잡성 및 모델 크기 요구 사항을 줄임으로써 세 번째 도전 과제를 해결합니다.

OpenVoice : 방법론 및 아키텍처

OpenVoice 프레임워크의 기술적 프레임워크는 효과적이고 놀라울 정도로 간단하게 구현할 수 있습니다. 任意 스피커의 음색을 클론링하고 새로운 언어를 추가하며同時적으로 음성 매개변수를 유연하게 제어하는 것은 도전 과제입니다. 이는 이러한 세 가지 작업을同時적으로 수행하는 것이 어려우므로 제어된 매개변수가 큰 조합 데이터 세트를 사용하여 교차해야 합니다. 또한 정형 텍스트 음성 합성에서 음성 클론링이 필요하지 않은 작업의 경우 다른 스타일 매개변수를 추가하는 것이 더 쉽습니다. 이러한 점을 기반으로 OpenVoice 프레임워크는 즉시 음성 클론링 작업을 하위 작업으로 분리하도록 설계되었습니다. 모델은 음색을 제어하기 위한 기본 스피커 텍스트 음성 모델을 사용하고 음성에 참조 음색을 포함하기 위한 음색 변환기를 사용합니다.

OpenVoice 프레임워크의 핵심은 두 가지 구성 요소로 구성됩니다. 음색 변환기와 기본 스피커 텍스트 음성 모델입니다. 기본 스피커 텍스트 음성 모델은 단일 스피커 또는 다중 스피커 모델로 언어, 스타일 및 억양을 정밀하게 제어할 수 있습니다. 모델은 음성을 생성한 다음 이를 음색 변환기에 전달하여 기본 스피커의 음색을 참조 스피커의 음색으로 변경합니다.

OpenVoice 프레임워크는 기본 스피커 텍스트 음성 모델에 많은 유연성을 제공합니다. 모델은 VITS 모델을 사용할 수 있으며 언어 및 스타일 임베딩을 수용하도록 수정할 수 있습니다. 또한 Microsoft TTS와 같은 모델을 사용할 수 있으며 상업적으로 저렴합니다. 또한 InstructTTS와 같은 모델을 사용할 수 있으며 스타일 프롬프트를 수용할 수 있습니다. 현재 OpenVoice 프레임워크는 VITS 모델을 사용하지만 다른 모델도 사용할 수 있습니다.

두 번째 구성 요소인 음색 변환기는 인코더-디코더 구성 요소로 구성되며 중앙에 가역 정규화 흐름이 있습니다. 음색 변환기의 인코더 구성 요소는 1차원 CNN으로 기본 스피커 텍스트 음성 모델의 단시간 푸리에 변환 스펙트럼을 입력으로 사용합니다. 인코더는 특징 맵을 출력으로 생성합니다. 음색 추출기는 참조 음성의 멜-스펙트로그램에서 작동하여 특징 벡터를 생성하여 음색 정보를 인코딩합니다. 정규화 흐름 레이어는 인코더에서 생성된 특징 맵을 입력으로 사용하여 음색 정보를 제거한 특징 표현을 생성합니다. OpenVoice 프레임워크는 정규화 흐름 레이어를 역방향으로 적용하여 특징 표현을 입력으로 사용하고 정규화 흐름 레이어를 출력으로 사용합니다. 프레임워크는 정규화 흐름 레이어를 원시 波形으로 디코딩하기 위해 1차원 전치 컨볼루션의 스택을 사용합니다.

OpenVoice 프레임워크의 전체 아키텍처는 피드 포워드 방식으로 자동 회귀 구성 요소를 사용하지 않습니다. 음색 변환기 구성 요소는 개념적으로 음성 변환과 유사하지만 기능, 훈련 목표 및 모델 구조의 유도적 편향이 다릅니다. 정규화 흐름 레이어는 흐름 기반 텍스트 음성 모델과 같은 구조를 공유하지만 기능 및 훈련 목표가 다릅니다.

또한 특징 표현을 추출하는 다른 접근 방식이 존재하지만 OpenVoice 프레임워크에서 구현된 방법은 더 나은 오디오 품질을 제공합니다. OpenVoice 프레임워크는 모델 아키텍처의 구성 요소를 발명하려는 의도가 아니라 기존 연구에서 두 가지 주요 구성 요소인 음색 변환기 및 기본 스피커 텍스트 음성 모델을 사용한다는 점을 주목할 필요가 있습니다. OpenVoice 프레임워크의 주요 목표는 언어 제어 및 음성 스타일을 음색 클론링에서 분리하는 분리된 프레임워크를 형성하는 것입니다. 접근 방식은 간단하지만 특히 스타일 및 억양 제어 또는 새로운 언어 일반화 작업에서 효과적입니다. 결합된 프레임워크를 사용하여 동일한 제어를 달성하려면大量의 컴퓨팅 및 데이터가 필요하며 새로운 언어에 잘 일반화되지 않습니다.

OpenVoice 프레임워크의 핵심 철학은 언어 및 음성 스타일의 생성을 음색 생성에서 분리하는 것입니다. OpenVoice 프레임워크의 주요 강점은 클론 음성이 유창하고 높은 품질을 유지하는 것입니다. 이는 단일 스피커 TTS가 유창하게 말할 때입니다.

OpenVoice : 실험 및 결과

음성 클론링 작업을 평가하는 것은 여러 이유로 어려운 객관적인 작업입니다. 기존 연구는 서로 다른 훈련 및 테스트 데이터를 사용하여 비교가 내재적으로 불공平합니다. 또한 크라우드소싱을 사용하여 평균 의견 점수와 같은 지표를 평가할 수 있지만 테스트 데이터의 어려움 및 다양성이 결과에 상당한 영향을 미칩니다. 두 번째로, 다른 음성 클론링 방법은 서로 다른 훈련 데이터를 사용하며 데이터의 다양성 및 규모가 결과에 상당한 영향을 미칩니다. 마지막으로 기존 연구의 주요 목표는 서로 다르므로 기능이 다릅니다.

위에 언급된 세 가지 이유로 기존 음성 클론링 프레임워크를 수치적으로 비교하는 것은 불공평합니다. 대신 이러한 방법을 질적으로 비교하는 것이 더 합리적입니다.

정확한 음색 클론링

성능을 분석하기 위해 개발자들은 익명 개인, 게임 캐릭터 및 유명인으로 구성된 참조 스피커 베이스와 다양한 음성 분포를 갖는 테스트 세트를 구축했습니다. OpenVoice 프레임워크는 참조 음색을 클론링하고 4개의 기본 스피커와任意 참조 스피커에 대해 여러 언어 및 억양으로 음성을 생성할 수 있습니다.

음성 스타일에 대한 유연한 제어

OpenVoice 프레임워크의 목표 중 하나는 음색 변환기를 사용하여 음성 스타일을 유연하게 제어하는 것입니다. 음색 변환기는 음색을 변경하면서 다른 음성 특성을 유지할 수 있습니다.

실험 결과 모델이 음색을 변환한 후에도 음성 스타일을 유지하는 것을 보여줍니다. 일부 경우에는 모델이 감정을 약간 중화하지만 이를 해결하기 위해 흐름 레이어에 덜 많은 정보를 전달하여 감정을 제거하지 않도록 할 수 있습니다. OpenVoice 프레임워크는 기본 스피커 텍스트 음성 모델을 쉽게 조작하여 음성 스타일을 제어할 수 있습니다.

크로스링구얼 음성 클론링

OpenVoice 프레임워크는 보이지 않는 언어에 대한 대규모 다중 언어 데이터 세트를 포함하지 않지만 제로샷 설정에서 거의 크로스링구얼 음성 클론링을 달성합니다. OpenVoice 프레임워크의 크로스링구얼 음성 클론링 능력은 두 가지입니다:

모델은 MSML 데이터 세트에서 보이지 않는 언어의 참조 스피커의 음색을 정확하게 클론링할 수 있습니다.
또한 언어가 보이지 않는 경우 OpenVoice 프레임워크는 참조 스피커의 음성을 클론링하고 기본 스피커 텍스트 음성 모델이 언어를 지원하는 경우 언어로 말할 수 있습니다.

최종 생각

이 기사에서 우리는 任意 사용자의 음성을 복제하고 짧은 오디오 클립을 사용하여 여러 언어로 음성을 생성할 수 있는 다재다능한 즉시 음성 클론링 프레임워크인 OpenVoice에 대해 논의했습니다. OpenVoice의 주요 직관은 모델이 참조 스피커의 음색을 클론링할 필요가 없다면 기본 스피커 TTS 모델을 사용하여 언어 및 음성 스타일을 제어할 수 있다는 것입니다.

OpenVoice는 즉시 음성 클론링 모델이 참조 스피커의 음색을 복제하고 억양, 리듬, 음정, 휴지 및 감정과 같은 음성 스타일을 세부적으로 제어할 수 있음을 보여줍니다. OpenVoice는 현재 사용 가능한 API보다 우수한 즉시 음성 클론링 결과를 제공하면서도 비용을 10배까지 줄입니다.

Unite.AI