stub StyleTTS 2: Test-to-Speech fil-Livell tal-Bniedem b'Mudelli Kbar tal-Lingwa tad-Diskors - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

StyleTTS 2: Test-to-Speech fil-Livell tal-Bniedem b'Mudelli Kbar tal-Lingwa tad-Diskors

mm

ippubblikat

 on

Minħabba żieda fl-approċċi ta’ sinteżi ta’ diskors naturali u sintetiku, waħda mill-kisbiet ewlenin li l-industrija tal-IA kisbet f’dawn l-aħħar ftit snin hija li tissintetizza b’mod effettiv oqfsa minn test għal diskors b’applikazzjonijiet potenzjali f’industriji differenti inklużi kotba awdjo, assistenti virtwali, vuċi. -narrazzjonijiet fuq u aktar, b'xi modi avvanzati li jwasslu prestazzjoni u effiċjenza fil-livell uman fuq firxa wiesgħa ta 'kompiti relatati mad-diskors. Madankollu, minkejja l-prestazzjoni qawwija tagħhom, għad hemm lok għal titjib għall-kompiti grazzi għal diskors espressiv u divers, rekwiżit għal ammont kbir ta 'dejta ta' taħriġ għall-ottimizzazzjoni ta 'oqfsa ta' test zero-shot għal diskors, u robustezza għal testi OOD jew Out of Distribution li jwasslu l-iżviluppaturi biex jaħdmu fuq qafas tat-test għal diskors aktar robust u aċċessibbli. 

F'dan l-artikolu, se nkunu qed nitkellmu dwar StyleTTS-2, qafas robust u innovattiv minn test għal diskors li huwa mibni fuq il-pedamenti tal-qafas StyleTTS, u għandu l-għan li jippreżenta l-pass li jmiss lejn sistemi ta 'test għal taħdit bl-aqwa teknoloġija. Il-qafas StyleTTS2 jimmudella stili ta 'diskors bħala varjabbli każwali moħbi, u juża mudell ta' diffużjoni probabilistiku biex jieħu kampjun ta 'dawn l-istili ta' diskors jew varjabbli każwali biex b'hekk il-qafas StyleTTS2 jissintetizza diskors realistiku b'mod effettiv mingħajr ma juża inputs awdjo ta 'referenza. Minħabba l-approċċ, il-qafas StyleTTS2 huwa kapaċi jagħti riżultati aħjar u juri effiċjenza għolja meta mqabbel mal-oqfsa attwali tat-test tal-arti għal diskors, iżda huwa wkoll kapaċi jieħu vantaġġ mis-sinteżi tad-diskors diversa offruta mill-oqfsa tal-mudell tad-diffużjoni. Se nkunu qed niddiskutu l-qafas StyleTTS2 f'aktar dettall, u nitkellmu dwar l-arkitettura u l-metodoloġija tiegħu filwaqt li nagħtu ħarsa lejn ir-riżultati miksuba mill-qafas. Mela ejja nibdew. 

StyleTTS2 għal Sinteżi minn Test għal Diskors: Introduzzjoni

StyleTTS2 huwa mudell innovattiv ta’ sinteżi ta’ Test to Speech li jagħmel il-pass li jmiss lejn il-bini ta’ oqfsa TTS fil-livell uman, u huwa mibni fuq StyleTTS, test ibbażat fuq stil biex mudell ġenerattiv tad-diskors. Il-qafas StyleTTS2 jimmudella stili ta 'diskors bħala varjabbli każwali moħbi, u juża mudell ta' diffużjoni probabilistiku biex jieħu kampjun ta 'dawn l-istili ta' diskors jew varjabbli każwali biex b'hekk il-qafas StyleTTS2 jissintetizza diskors realistiku b'mod effettiv mingħajr ma juża inputs awdjo ta 'referenza. L-immudellar ta’ stili bħala varjabbli każwali latenti huwa dak li jifred il-qafas StyleTTS2 mill-predeċessur tiegħu, il-qafas StyleTTS, u għandu l-għan li jiġġenera l-aktar stil ta’ diskors adattat għat-test tal-input mingħajr il-bżonn ta’ input awdjo ta’ referenza, u huwa kapaċi jikseb diffużjonijiet moħbija effettivi waqt li tieħu vantaġġ tal-kapaċitajiet differenti ta' sintesi tad-diskors offruti minn mudelli tad-diffużjoni. Barra minn hekk, il-qafas StyleTTS2 jimpjega wkoll SLM kbir jew Mudell tal-Lingwa tad-Diskors imħarreġ minn qabel bħala diskriminaturi bħall-qafas WavLM, u jgħaqqadha mal-approċċ ġdid ta 'mudellar ta' tul differenzjali tiegħu stess biex iħarreġ il-qafas tarf sa tarf, u fl-aħħar mill-aħħar jiġġenera diskors b'naturalità msaħħa. Grazzi għall-approċċ li jsegwi, il-qafas StyleTTS2 jissupera l-oqfsa attwali tal-aħħar għall-ħidmiet tal-ġenerazzjoni tad-diskors, u huwa wieħed mill-oqfsa l-aktar effiċjenti għat-taħriġ minn qabel ta 'mudelli tad-diskors fuq skala kbira f'ambjent zero-shot għal kompiti ta' adattament tal-kelliema. 

Nimxu 'l quddiem, biex iwassal test ta' livell uman għal sinteżi tad-diskors, il-qafas StyleTTs2 jinkorpora t-tagħlim minn xogħlijiet eżistenti inklużi mudelli ta 'diffużjoni għas-sintesi tad-diskors, u mudelli kbar tal-lingwa tat-taħdit. Mudelli ta 'diffużjoni huma ġeneralment użati għal kompiti ta' sinteżi tad-diskors grazzi għall-kapaċitajiet tagħhom li jikkontrollaw id-diskors fin-qamħ, u kapaċitajiet diversi ta 'kampjunar tad-diskors. Madankollu, mudelli ta 'diffużjoni mhumiex effiċjenti daqs l-oqfsa mhux iterattivi bbażati fuq GAN u raġuni ewlenija għal dan hija r-rekwiżit li jiġu kampjunati rappreżentazzjonijiet latenti, forom tal-mewġ u spettrogrammi mel b'mod iterattiv għat-tul ta' żmien fil-mira tad-diskors. 

Min-naħa l-oħra, xogħlijiet reċenti madwar Mudelli tal-Lingwa tad-Diskors Kbar indikaw il-kapaċità tagħhom li jtejbu l-kwalità tal-kompiti tal-ġenerazzjoni tat-test għal diskors, u jadattaw tajjeb għall-kelliem. Mudelli Kbar tal-Lingwa tad-Diskors tipikament jikkonvertu l-input tat-test jew f'rappreżentazzjonijiet kwantizzati jew kontinwi derivati ​​minn oqfsa tal-lingwa tat-taħdit imħarrġa minn qabel għal kompiti ta' rikostruzzjoni tad-diskors. Madankollu, il-karatteristiċi ta 'dawn il-Mudelli tal-Lingwa tad-Diskors mhumiex ottimizzati għas-sinteżi tad-diskors direttament. B'kuntrast, il-qafas StyleTTS2 jieħu vantaġġ mill-għarfien miksub minn oqfsa SLM kbar bl-użu ta 'taħriġ avversarju biex jissintetizza l-karatteristiċi tal-mudelli tal-lingwa tat-taħdit mingħajr ma juża mapep spazjali latenti, u għalhekk, it-tagħlim ta' sinteżi tad-diskors ottimizzat l-ispazju latenti direttament.  

StyleTTS2: Arkitettura u Metodoloġija

Fil-qalba tiegħu, l-StyleTTS2 huwa mibni fuq il-predeċessur tiegħu, il-qafas StyleTTS li huwa qafas ta 'test għal diskors mhux awtoregressiv li jagħmel użu minn encoder ta' stil biex joħroġ vettur ta 'stil mill-awdjo ta' referenza, u b'hekk jippermetti ġenerazzjoni ta 'diskors espressiv u naturali. Il-vettur tal-istil użat fil-qafas StyleTTS huwa inkorporat direttament fl-encoder, it-tul, u t-tbassir billi jagħmel użu minn AdaIN jew Adaptive Instance Normalization, u b'hekk jippermetti lill-mudell StyleTTS jiġġenera outputs tad-diskors bi prosodija, tul, u anke emozzjonijiet li jvarjaw. Il-qafas StyleTTS jikkonsisti fi 8 mudelli b'kollox li huma maqsuma fi tliet kategoriji

  1. Mudelli akustiċi jew Sistema ta 'Ġenerazzjoni tad-Diskors b'kodifikatur tal-istil, encoder tat-test, u decoder tad-diskors. 
  2. Sistema ta' Tbassir Test to Speech li tagħmel użu minn prosodija u tbassir tat-tul. 
  3. Sistema ta 'Utilità li tinkludi aligner tat-test, estrattur tal-pitch, u diskriminatur għal skopijiet ta' taħriġ. 

Grazzi għall-approċċ tiegħu, il-qafas StyleTTS jagħti prestazzjoni avvanzata relatata ma 'sintesi tad-diskors kontrollabbli u diversa. Madankollu, din il-prestazzjoni għandha l-iżvantaġġi tagħha bħal degradazzjoni tal-kwalità tal-kampjun, limitazzjonijiet espressivi, u dipendenza fuq applikazzjonijiet li jfixklu d-diskors f'ħin reali. 

It-titjib tal-qafas StyleTTS, il-mudell StyleTTS2 jirriżulta f'espressjoni msaħħa test għad-diskors kompiti bi prestazzjoni mtejba barra mid-distribuzzjoni, u kwalità għolja fil-livell uman. Il-qafas StyleTTS2 jagħmel użu minn proċess ta 'taħriġ tarf sa tarf li jottimizza l-komponenti differenti b'taħriġ avversarju, u sinteżi diretta tal-forma tal-mewġ b'mod konġunt. B'differenza mill-qafas StyleTTS, il-qafas StyleTTS2 jimmudella l-istil tad-diskors bħala varjabbli moħbija, u jieħu kampjuni permezz ta 'mudelli ta' diffużjoni biex b'hekk jiġġenera kampjuni ta 'diskors differenti mingħajr ma juża awdjo ta' referenza. Ejja nagħtu ħarsa dettaljata lejn dawn il-komponenti. 

Taħriġ minn Tarf sa Tarf għall-Interferenza

Fil-qafas ta 'StyleTTS2, approċċ ta' taħriġ minn tarf sa tarf huwa utilizzat biex jottimizza diversi komponenti mit-test għal diskors għal interferenza mingħajr ma jkun hemm għalfejn tistrieħ fuq komponenti fissi. Il-qafas StyleTTS2 jikseb dan billi jimmodifika d-decoder biex jiġġenera l-forma tal-mewġ direttament mill-vettur tal-istil, żift u kurvi tal-enerġija, u rappreżentazzjonijiet allinjati. Il-qafas imbagħad ineħħi l-aħħar saff ta 'projezzjoni tad-decoder, u jibdilha b'decoder tal-forma tal-mewġ. Il-qafas StyleTTS2 jagħmel użu minn żewġ encoders: decoder ibbażat fuq HifiGAN biex jiġġenera l-forma tal-mewġ direttament, u decoder ibbażat fuq iSTFT biex jipproduċi fażi u kodifikazzjoni li huma kkonvertiti f'forom tal-mewġ għal interferenza u taħriġ aktar mgħaġġel. 

Il-figura ta 'hawn fuq tirrappreżenta l-mudelli akustiċi użati għat-taħriġ minn qabel u t-taħriġ konġunt. Biex jitnaqqas il-ħin tat-taħriġ, il-moduli huma l-ewwel ottimizzati fil-fażi ta 'qabel it-taħriġ segwita mill-ottimizzazzjoni tal-komponenti kollha nieqes l-estrattur taż-żift waqt it-taħriġ konġunt. Ir-raġuni għaliex it-taħriġ konġunt ma jottimizzax l-estrattur taż-żift huwa minħabba li jintuża biex jipprovdi l-verità tal-art għall-kurvi taż-żift. 

Il-figura ta 'hawn fuq tirrappreżenta t-taħriġ kontradittorju tal-Mudell tal-Lingwa tad-Diskors u l-interferenza mal-qafas WavLM imħarreġ minn qabel iżda mhux irfinat minn qabel. Il-proċess huwa differenti minn dak imsemmi hawn fuq peress li jista 'jieħu testi ta' input varji iżda jakkumula l-gradjenti biex jaġġorna l-parametri f'kull lott. 

Diffużjoni tal-Istil

Il-qafas StyleTTS2 għandu l-għan li jimmudella d-diskors bħala distribuzzjoni kondizzjonali permezz ta’ varjabbli moħbi li ssegwi d-distribuzzjoni kondizzjonali, u din il-varjabbli tissejjaħ l-istil tad-diskors ġeneralizzat, u tirrappreżenta kwalunkwe karatteristika fil-kampjun tad-diskors lil hinn mill-ambitu ta’ kwalunkwe kontenut fonetiku inkluż stress lessiku, prosodija, rata tat-taħdit, u anke transizzjonijiet formanti. 

Diskriminaturi tal-Mudell tal-Lingwa tad-Diskors

Il-Mudelli tal-Lingwa tad-Diskors huma rinomati għall-kapaċitajiet ġenerali tagħhom li jikkodifikaw informazzjoni siewja fuq firxa wiesgħa ta 'aspetti semantiċi u akustiċi, u r-rappreżentazzjonijiet SLM kienu tradizzjonalment kapaċi jimitaw il-perċezzjonijiet tal-bniedem biex jevalwaw il-kwalità tad-diskors sintetizzat iġġenerat. Il-qafas StyleTTS2 juża approċċ ta 'taħriġ kontradittorju biex jutilizza l-abbiltà tal-kodifikaturi SLM biex iwettqu kompiti ġenerattivi, u jimpjega qafas WavLM ta' 12-il saff bħala d-diskriminazzjoni. Dan l-approċċ jippermetti li l-qafas jippermetti taħriġ fuq testi OOD jew Out Of Distribution li jistgħu jgħinu biex itejbu l-prestazzjoni. Barra minn hekk, biex jipprevjenu kwistjonijiet ta' twaħħil żejjed, il-qafas jieħu kampjuni ta' testi OOD u in-distribuzzjoni bi probabbiltà ugwali. 

Immudellar ta' Tul Differenzjabbli

Tradizzjonalment, tbassir tat-tul jintuża fl-oqfsa tat-test għal diskors li jipproduċi tul ta’ żmien tal-fonema, iżda l-metodi ta’ kampjunar li jużaw dawn il-prevedituri tat-tul spiss jimblukkaw il-fluss tal-gradjent matul il-proċess ta’ taħriġ E2E, u l-qafas NaturalSpeech jimpjega upsampler ibbażat fuq l-attenzjoni għal-livell uman. konverżjoni test għal diskors. Madankollu, il-qafas StyleTTS2 isib li dan l-approċċ huwa instabbli waqt it-taħriġ avversarju minħabba li l-StyleTTS2 iħarreġ bl-użu ta 'kampjunar differenti b'taħriġ avversarju differenti mingħajr it-telf ta' termini żejda minħabba nuqqas ta 'qbil fit-tul minħabba devjazzjonijiet. Għalkemm l-użu ta 'approċċ ta' warping tal-ħin dinamiku artab jista 'jgħin fil-mitigazzjoni ta' dan in-nuqqas ta 'tqabbil, l-użu tiegħu mhux biss jiswa komputazzjoni, iżda l-istabbiltà tiegħu hija wkoll ta' tħassib meta taħdem ma 'għanijiet kontradittorji jew kompiti ta' mel-rikostruzzjoni. Għalhekk, biex tinkiseb prestazzjoni fil-livell uman b'taħriġ avversarju u jistabbilizza l-proċess ta 'taħriġ, il-qafas StyleTTC2 juża approċċ ta' kampjunar mhux parametriku. L-upsampling Gaussian huwa approċċ popolari ta 'upsampling mhux parametriku għall-konverżjoni tat-tul imbassar għalkemm għandu l-limitazzjonijiet tiegħu grazzi għat-tul fiss tal-qlub Gaussian predeterminat. Din ir-restrizzjoni għat-teħid ta' kampjuni Gaussian tillimita l-kapaċità tagħha li timmudella b'mod preċiż allinjamenti b'tulijiet differenti. 

Biex tiltaqa' ma 'din il-limitazzjoni, il-qafas StyleTTC2 jipproponi li juża approċċ ġdid ta' kampjunar mhux parametriku mingħajr ebda taħriġ addizzjonali, u kapaċi jikkunsidra tulijiet differenti tal-allinjamenti. Għal kull fonema, il-qafas StyleTTC2 jimmudella l-allinjament bħala varjabbli każwali, u jindika l-indiċi tal-qafas tad-diskors li miegħu jallinja l-fonema. 

Mudell ta' Taħriġ u Evalwazzjoni

Il-qafas StyleTTC2 huwa mħarreġ u esperimentat fuq tliet settijiet ta 'dejta: VCTK, LibriTTS, u LJSpeech. Il-komponent ta 'kelliem wieħed tal-qafas StyleTTS2 huwa mħarreġ bl-użu tad-dataset LJSpeech li fih madwar 13,000 + kampjun tal-awdjo maqsuma fi 12,500 kampjun ta' taħriġ, 100 kampjun ta 'validazzjoni, u kważi 500 kampjun ta' ttestjar, bil-ħin ta 'run kombinat tagħhom jammonta għal kważi 24 siegħa. Il-komponent ta 'kelliem multiplu tal-qafas huwa mħarreġ fuq is-sett tad-dejta VCTK li jikkonsisti f'aktar minn 44,000 klipp awdjo b'aktar minn 100 kelliem indiġenu individwali b'aċċenti li jvarja, u huwa maqsum f'43,500 kampjun ta' taħriġ, 100 kampjun ta 'validazzjoni, u kważi 500 kampjun tal-ittestjar. Fl-aħħarnett, biex jgħammar il-qafas b'kapaċitajiet ta 'adattament zero-shot, il-qafas huwa mħarreġ fuq is-sett tad-dejta LibriTTS magħqud li jikkonsisti f'klipps tal-awdjo li jammontaw għal madwar 250 siegħa ta' awdjo b'aktar minn 1,150 kelliem individwali. Biex tevalwa l-prestazzjoni tiegħu, il-mudell juża żewġ metriċi: MOS-N jew Punteġġ tal-Opinjoni Medju ta' Naturalità, u MOS-S jew Punteġġ Medju tal-Opinjoni ta' Xebh. 

Riżultati

L-approċċ u l-metodoloġija użati fil-qafas StyleTTS2 jintwerew fil-prestazzjoni tiegħu peress li l-mudell jegħleb bosta oqfsa TTS tal-aħħar teknoloġija speċjalment fuq is-sett tad-dejta NaturalSpeech, u matul ir-rotta, jistabbilixxi standard ġdid għas-sett tad-dejta. Barra minn hekk, il-qafas StyleTTS2 jissupera l-qafas tal-VITS l-aktar avvanzat fuq is-sett tad-dejta VCTK, u r-riżultati jintwerew fil-figura li ġejja. 

Il-mudell StyleTTS2 jissupera wkoll il-mudelli preċedenti fuq is-sett tad-dejta LJSpeech, u ma juri l-ebda grad ta 'degradazzjoni tal-kwalità fuq testi OOD jew Out of Distribution kif muri minn oqfsa preċedenti fuq l-istess metriċi. Barra minn hekk, fl-issettjar ta 'zero-shot, il-mudell StyleTTC2 jegħleb il-qafas Vall-E eżistenti fin-naturalezza għalkemm jaqa' lura f'termini ta 'xebh. Madankollu, ta 'min jinnota li l-qafas StyleTTS2 huwa kapaċi jikseb prestazzjoni kompetittiva minkejja t-taħriġ biss fuq 245 siegħa ta' kampjuni awdjo meta mqabbel ma 'aktar minn 60k siegħa ta' taħriġ għall-qafas Vall-E, u b'hekk jipprova StyleTTC2 bħala alternattiva effiċjenti fid-dejta. għal metodi kbar eżistenti ta’ qabel it-taħriġ kif użati fil-Vall-E. 

Miexi 'l quddiem, minħabba n-nuqqas ta' dejta tat-test awdjo bit-tikketta tal-emozzjoni, il-qafas StyleTTC2 juża l-mudell GPT-4 biex jiġġenera aktar minn 500 każ f'emozzjonijiet differenti għall-viżwalizzazzjoni ta' vettori tal-istil li l-qafas joħloq bl-użu tiegħu. diffużjoni proċess. 

Fl-ewwel figura, stili emozzjonali bi tweġiba għas-sentimenti tat-test input huma illustrati mill-vettori tal-istil mill-mudell LJSpeech, u juri l-kapaċità tal-qafas StyleTTC2 biex jissintetizza diskors espressiv b'emozzjonijiet varjati. It-tieni figura turi forma ta' raggruppamenti distinti għal kull wieħed mill-ħames kelliema individwali biex b'hekk turi firxa wiesgħa ta' diversità miksuba minn fajl awdjo wieħed. Iċ-ċifra finali turi r-raggruppament maħlul ta’ emozzjonijiet mill-kelliem 1, u turi li, minkejja xi duplikazzjonijiet, gruppi bbażati fuq l-emozzjonijiet huma prominenti, u b’hekk jindikaw il-possibbiltà li tiġi mmanipulata l-melodia emozzjonali ta’ kelliem irrispettivament mill-kampjun tal-awdjo ta’ referenza u t-ton tad-dħul tiegħu. . Minkejja li juża approċċ ibbażat fuq id-diffużjoni, il-qafas StyleTTS2 jirnexxilu jegħleb l-oqfsa eżistenti tal-aħħar teknoloġija inklużi VITS, ProDiff u FastDiff. 

Ħsibijiet Finali

F'dan l-artikolu, tkellimna dwar StyleTTS2, qafas ġdid, robust u innovattiv minn test għal diskors li huwa mibni fuq il-pedamenti tal-qafas StyleTTS, u għandu l-għan li jippreżenta l-pass li jmiss lejn sistemi ta 'test għal taħdit l-aktar avvanzati. Il-qafas StyleTTS2 jimmudella stili ta' diskors bħala varjabbli każwali latenti, u juża mudell ta' diffużjoni probabilistika biex jieħu kampjun ta' dawn l-istili ta' diskors jew varjabbli każwali biex b'hekk il-qafas StyleTTS2 jissintetizza diskors realistiku b'mod effettiv mingħajr ma juża inputs awdjo ta' referenza. biex tikseb prestazzjoni fil-livell tal-bniedem fuq kompiti tat-test għal diskors, u jirnexxielha tegħleb l-oqfsa eżistenti tal-aktar avvanzata fuq firxa wiesgħa ta 'kompiti tad-diskors. 

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.