Connect with us

Kunstmatige intelligentie

StyleTTS 2: Mensniveau-tekst-naar-spraak met grote spraaktaalmodellen

mm

Door de toename van natuurlijke en synthetische spraaksynthesebenaderingen, is een van de belangrijkste prestaties die de AI-industrie de afgelopen jaren heeft behaald, het effectief synthetiseren van tekst-naar-spraakkaders met potentieel toepasbare toepassingen in verschillende branches, waaronder audioboeken, virtuele assistenten, voice-over-narraties en meer, waarbij sommige state-of-the-art-modellen mensniveau-prestaties en -efficiëntie leveren bij een breed scala aan spraakgerelateerde taken. Echter, ondanks hun sterke prestaties, is er nog steeds ruimte voor verbetering voor taken dankzij expressieve en diverse spraak, de behoefte aan een grote hoeveelheid trainingsgegevens voor het optimaliseren van zero-shot-tekst-naar-spraakkaders en robuustheid voor OOD- of Out of Distribution-teksten, waardoor ontwikkelaars werken aan een meer robuust en toegankelijk tekst-naar-spraakkader.

In dit artikel zullen we het hebben over StyleTTS-2, een robuust en innovatief tekst-naar-spraakkader dat is gebouwd op de fundamenten van het StyleTTS-kader en dat ernaar streeft de volgende stap te zetten naar state-of-the-art-tekst-naar-spraaksystemen. Het StyleTTS2-kader modelleert spraakstijlen als latent random variabelen en gebruikt een probabilistisch diffusiemodel om deze spraakstijlen of random variabelen te bemonsteren, waardoor het StyleTTS2-kader realistische spraak kan synthetiseren zonder referentie-audio-inputs te gebruiken. Door deze benadering kan het StyleTTS2-kader betere resultaten leveren en hoog rendement vertonen in vergelijking met huidige state-of-the-art-tekst-naar-spraakkaders, maar kan het ook profiteren van de diverse spraaksynthese die wordt aangeboden door diffusiemodelkaders. We zullen het StyleTTS2-kader in meer detail bespreken en praten over zijn architectuur en methodologie, evenals de resultaten die door het kader zijn behaald. Laten we beginnen.

StyleTTS2 voor tekst-naar-spraak-synthese: een inleiding

StyleTTS2 is een innovatief tekst-naar-spraak-synthesemodel dat de volgende stap zet naar het bouwen van mensniveau-TTS-kaders en is gebouwd op StyleTTS, een stijl-gebaseerd tekst-naar-spraak-generatief model. Het StyleTTS2-kader modelleert spraakstijlen als latent random variabelen en gebruikt een probabilistisch diffusiemodel om deze spraakstijlen of random variabelen te bemonsteren, waardoor het StyleTTS2-kader realistische spraak kan synthetiseren zonder referentie-audio-inputs te gebruiken. Het modelleren van stijlen als latent random variabelen is wat het StyleTTS2-kader onderscheidt van zijn voorganger, het StyleTTS-kader, en dat ernaar streeft de meest geschikte spraakstijl te genereren voor de invoertekst zonder een referentie-audio-input nodig te hebben, en kan effectieve latent diffusies bereiken door gebruik te maken van de diverse spraaksynthesecapaciteiten die worden aangeboden door diffusiemodellen. Bovendien gebruikt het StyleTTS2-kader ook een vooraf getraind groot SLM- of spraaktaalmodel als discriminatoren, zoals het WavLM-kader, en koppelt het dit aan zijn eigen novum differentieel duurmodelleringbenadering om het kader eind-tot-eind te trainen en uiteindelijk spraak te genereren met verhoogde naturaliteit. Dankzij de benadering die het volgt, overtreft het StyleTTS2-kader de huidige state-of-the-art-kaders voor spraakgeneratietaken en is het een van de meest efficiënte kaders voor het vooraf trainen van grote spraakmodellen in zero-shot-setting voor sprekeradaptatietaken.

… (rest of the translation remains the same, following the exact structure and formatting as the original)

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.