stub Codka Furan: Isku-xidhka Codka degdega ah ee la taaban karo - Unite.AI
Connect nala

Sirdoonka Artificial

Codka Furan: Isku-xidhka Codka degdega ah ee kala duwan

mm
Updated on

In qoraalka-ku-hadalka synthesis (TTS), Instant Voice cloning (IVC) waxay awood u siinaysaa qaabka TTS in uu xidho codka af-hadla kasta oo tixraac ah iyada oo la adeegsanayo muunad maqal gaaban ah, iyada oo aan u baahnayn tababar dheeraad ah afhayeenka tixraaca. Farsamadan waxaa sidoo kale loo yaqaan 'Zero-Shot Text-to-Speech Synthesis'. Habka Isku-xidhka Codka degdega ah waxa uu u ogolaanayaa habayn dabacsanaan leh ee codka la soo saaray oo waxa uu muujiyaa qiimo la taaban karo oo ka dhan ah xaaladaha kala duwan ee dunida dhabta ah, oo ay ku jiraan chatbots la habeeyey, abuurista nuxurka, iyo isdhexgalka ka dhexeeya bini'aadamka iyo Noocyada Luuqadaha waaweyn (LLMs).

In kasta oo qaababka hadda jira ee isku xidhka codku ay shaqadooda si fiican u qabtaan, waxa ay la daalaa dhacayaan caqabado dhawr ah oo goobta ka jira oo ay ka mid yihiin Xakamaynta qaabka codka dabacsan Tusaale ahaan moodooyinka ayaa ka maqan awoodda ay ku maamulaan qaababka codka si dabacsanaan leh ka dib marka ay xidhaan codka. Jidgooyo kale oo weyn oo ay la kulmeen qaab-dhismeedyada cloning degdegga ah ee hadda jira waa Zero-Shot Iskutallaabta-Luuqada Xiritaanka Tusaale ahaan ujeedooyinka tababarka, moodooyinka hadda waxay u baahan yihiin helitaanka xog-ururin ballaaran oo ku hadla luqado badan ama MSML iyadoon loo eegin luqadda. 

Si arrimahan wax looga qabto, loogana qayb qaato kobcinta moodooyinka xidhidhiyaha codka degdega ah, horumariyayaashu waxay ka shaqeeyeen OpenVoice, qaab-dhismeed cod degdeg ah oo la taaban karo kaas oo nuqul ka dhigaya codka isticmaale kasta oo soo saara hadalka luuqado badan iyadoo la isticmaalayo cajalad gaaban oo maqal ah oo ka socota afhayeenka tixraaca. . OpenVoice waxa ay muujisaa moodooyinka isku xidhka codka degdega ah in ay soo celin karaan midabka codka ee afhayeenka tixraaca, oo ay ku gaadhaan kontoroolka guud ee qaababka codka oo ay ku jiraan lahjadda, laxanka, dhawaaqa, hakadka, iyo xataa shucuurta. Waxa ka sii cajiibsan ayaa ah in qaabka OpenVoice uu sidoo kale muujiyo awoodaha cajiibka ah ee lagu gaari karo isku xidhka codka luqadda eber-shot ee luqadaha ka baxsan xogta MSML, taas oo u oggolaanaysa OpenVoice in ay codadka ku xidho luqado cusub iyada oo aan hore loo sii tababarin luqaddaas. OpenVoice waxa ay maamushaa in ay keento natiijooyin sareynta codka degdega ah iyada oo xisaab ahaan lagu shaqayn karo kharashyada hawlgelinta ilaa 10 jeer ka yar API-yada hadda jira ee leh waxqabad hooseeya. 

Maqaalkan, waxaan si qoto dheer uga hadli doonaa qaab dhismeedka VoiceVoice, waxaanan daaha ka qaadi doonaa qaabdhismeedkeeda u ogolaanaya inay bixiso waxqabad heersare ah oo ku saabsan hawlaha xidhitaanka codka degdega ah. Haddaba aan bilowno. 

Codka Furan: Awood-siinta xidhidhiyaha codka degdega ah ee la taaban karo

Sidaan hore u soo sheegnay, Instant Voice cloning, oo sidoo kale loo yaqaan Isku-dubaridka qoraalka Eber-Shot to Hadalka, waxay u ogolaataa qaabka TTS inuu xidho codka qof kasta oo tixraac ah iyadoo la adeegsanayo muunad maqal gaaban oo gaaban iyada oo aan loo baahnayn wax tababar dheeraad ah oo loogu talagalay afhayeenka tixraaca. Codka degdega ah had iyo jeer waxay ahayd mawduuc cilmi baaris oo kulul oo leh shaqooyin jira oo ay ku jiraan qaab-dhismeedka XTTS iyo VALLE ee soo saara ku-xidhka hadalka iyo/ama dhawaaqa cod-bixinta ee maqalka tixraaca kaas oo u adeega xaalad ahaan qaabka is-difaacida. Qaabka auto-dib-u-celinta ayaa markaa soo saara calaamadaha dhawaaqa si isdaba joog ah, ka dibna u codee calaamadahan qaab mowjad maqal ah oo cayriin ah. 

In kasta oo moodooyinka xidhidhiyaha codka degdega ah ee is-difaaca ahi ay si cajiib ah u xidhaan midabka codka, haddana way ka gaabiyeen inay wax ka beddelaan cabbirro kale oo ay ka mid yihiin lahjad, shucuur, joogsi, iyo laxanka. Intaa waxaa dheer, moodooyinka auto-regressive sidoo kale waxay la kulmaan xawaaruhu hooseeyo, kharashkooda hawlgalkuna aad buu u sarreeyaa. Hababka jira sida qaab-dhismeedka YourTTS waxay shaqaaleeyaan hab aan madaxbannaanayn oo muujiya hadal-ku-dhaqso leh oo ku saabsan qaababka habka is-difaacida, laakiin weli ma awoodaan inay siiyaan isticmaaleyaashooda kontoroolka dabacsan ee cabbirrada qaabka. Waxaa intaa dheer, labadaba qaab-dhismeedka isku-xidhka codka degdega ah ee ku salaysan autoregressive iyo non-autoregressive waxay u baahan yihiin helitaanka MSML weyn ama xog-ururinta luqadaha badan ee ku hadla luqadaha iskutallaabta ah. 

Si wax looga qabto caqabadaha soo wajaha qaab-dhismeedka codaynta degdegga ah ee hadda jira, horumariyayaashu waxay ka shaqeeyeen OpenVoice, il furan maktabadda codka degdega ah ee ujeeddadeedu tahay in lagu xalliyo caqabadaha soo socda ee ay wajahayaan qaababka IVC ee hadda. 

  1. Caqabadda koowaad waa in la suurtogeliyo qaab-dhismeedka IVC si ay u yeeshaan koontarool dabacsan oo ku saabsan cabbirrada qaabka marka lagu daro midabka codka oo ay ku jiraan lahjad, laxanka, dhawaaqa, iyo hakadyada. Halbeegyada qaabku waa muhiim si loo dhaliyo wada sheekaysiga iyo hadalka caadiga ah ee macnaha guud halkii ay ka sheegi lahaayeen qoraalka gelinta si keligiis ah. 
  2. Caqabadda labaad waa in la suurtogeliyo qaab-dhismeedka IVC si ay u xidhaan codadka luqadaha isdhaafsan ee meel eber ah. 
  3. Caqabadda kama dambaysta ah waa in la gaaro xawaare sare oo wax-is-sheegid-waqtiga-dhabta ah iyada oo aan tayada hoos loo dhigin. 

Si wax looga qabto labada caqabadood ee ugu horreeya, qaab-dhismeedka qaab-dhismeedka Codka Furan waxa loo qaabeeyey hab lagu kala saaro qaybaha codka sida ugu wanaagsan ee awoodiisa ah. Intaa waxaa dheer, OpenVoice waxay soo saartaa midabka codka, luqadda, iyo sifooyinka kale ee codka si madax-bannaan, taasoo u sahlaysa qaab-dhismeedka inuu si dabacsanaan leh u maareeyo noocyada luqadda iyo qaababka codka. Qaab dhismeedka VoiceVoice wuxuu u tacaalaa caqabada saddexaad si caadi ah maadaama qaab dhismeedka la jaray uu yareynayo kakanaanta xisaabinta iyo shuruudaha cabbirka moodeelka. 

Codka Furan: Habka iyo Dhismaha

Qaabka farsamada qaabdhismeedka Codka Furan waa mid wax ku ool ah oo la yaab leh oo fudud in la fuliyo. Wax qarsoodi ah maaha in isku-xidhka midabka codka ee ku hadla kasta, ku darista luqad cusub, iyo awood u yeelashada xakamaynta dabacsan ee cabirrada codka isla mar ahaantaana ay noqon karto mid adag. Waa sidaas sababtoo ah fulinta saddexdan hawlood oo isku mar ah waxay u baahan tahay cabbirada la xakameeyey si ay isu gooyaan iyada oo la adeegsanayo qaybo badan oo xog-ururin ah. Intaa waxaa dheer, in hal ku hadla oo caadi ah qoraalka ilaa hadalka hadalka, Hawlaha aan u baahnayn xidhitaanka codka, way fududahay in lagu daro xakamaynta qaababka kale. Iyada oo laga duulayo kuwan, qaabka OpenVoice waxa uu hiigsanayaa in uu kala saaro hawlaha Isku-xidhka Codka degdega ah oo laga dhigo hawl-hoosaadyo. Qaabku waxa uu soo jeedinayaa in la isticmaalo qaabka hadalka hadalka salka u ah qoraalka iyo hadalka si loo xakameeyo cabbirada luqadda iyo qaabka, oo waxa uu shaqaaleeyaa beddeliyaha midabka codka si loogu daro midabka codka tixraaca ee codka la sameeyay. Jaantuska soo socdaa wuxuu muujinayaa qaab dhismeedka qaabdhismeedka. 

Xuddunta, qaab dhismeedka OpenVoice wuxuu ka shaqeeyaa laba qaybood: beddelka midabka codka, iyo qoraalka hadalka salka u ah hadalka ama qaabka TTS. Qoraalka ku hadla saldhigga iyo qaabka hadalka waa hal-ku-hadleyste ama qaab-hadallo badan oo u oggolaanaya in si sax ah loo xakameeyo cabbirrada qaabka, luqadda, iyo lahjadda. Qaabku waxa uu abuuraa cod ka dibna loo gudbiyaa beddelaha midabka tone, kaas oo beddela midabka codka hadalka ee saldhigga una beddela midabka codka hadalka tixraaca. 

Qaabka OpenVoice wuxuu bixiyaa dabacsanaan badan marka ay timaado qoraalka ku hadla saldhigga ilaa qaabka hadalka maadaama ay shaqaaleysiin karto moodalka VITS oo leh wax ka beddel yar oo u oggolaanaya inay aqbasho luqadda iyo qaab-dhismeedka muddada saadaashadeeda iyo codeeyaha qoraalka. Qaab-dhismeedku waxa kale oo uu shaqaaleysiin karaa moodooyinka sida Microsoft TTS ee ganacsi ahaan raqiis ah ama waxa ay geyn kartaa moodooyinka sida InstructTTS kuwaas oo awood u leh in ay aqbalaan qaab-dhismeedyada. Waqtigan xaadirka ah, qaabka OpenVoice wuxuu shaqaaleeyaa qaabka VITS inkastoo moodooyinka kale ay sidoo kale yihiin ikhtiyaar macquul ah. 

Imaatinka qaybta labaad, Beddelka Midabka Tone waa qayb-decoder-ka-qeybiyaha hoy u ah socodka caadiga ah ee aan leexleexan karin ee bartamaha. Qaybta koodhka ee cod beddelaha midabka waa CNN hal-geesood ah oo aqbala muddada gaaban ee afar-geesoodka ah ee qoraalka hadalka salka u ah qaab-hadal ahaan. Codeeyaha ayaa markaa soo saara khariidado sifada wax soo saar ahaan. Midabka soosaarku waa CNN laba-geesood fudud oo ku shaqeeya mel-spectrogram ee codka wax gelinta, oo soo saara halbeeg muuqaal ah oo soo saara xogta midabka codka. Lakabyada socodka caadiga ah waxay aqbalaan khariidadaha sifada uu soo saaray codeeyaha sidii gelinta oo waxay soo saartaa matalaad sifo ilaalinaysa dhammaan sifooyinka qaabka laakiin meesha ka saaraysa macluumaadka midabka codka. Qaab dhismeedka VoiceVoice wuxuu markaas dabaqayaa lakabyada socodka caadiga ah ee jihada rogan, oo waxay u qaadanaysaa matalaada sifada sidii gelinta oo ay soo saartaa lakabyada socodka caadiga ah. Qaab-dhismeedka ayaa markaa kala saaraya lakabyada socodka caadiga ah ee qaab-mawjadaha cayriin iyadoo la adeegsanayo isku-dhacyo hal-cabbir ah oo la beddelay. 

Guud ahaan qaab dhismeedka qaab dhismeedka Codka Furan waa la sii hormariyay iyadoo aan la isticmaalin wax qayb ah oo dib-u-celinta. Qaybta beddelka midabka tone waxay la mid tahay beddelka codka ee heer fikradeed laakiin way ku kala duwan yihiin xagga shaqaynta, ujeedooyinka tababarka, iyo eexda soo jiidashada leh ee qaab-dhismeedka moodeelka. Lakabyada socodka caadiga ah waxay wadaagaan qaab isku mid ah sida qoraalka socodka ku salaysan ee moodooyinka hadalka laakiin way ku kala duwan yihiin shaqada iyo ujeedooyinka tababarka. 

Intaa waxaa dheer, waxaa jira habab kala duwan oo lagu soo saaro matalaad muuqaal ah, habka loo hirgeliyay qaab dhismeedka Codka Furan ayaa bixiya tayada maqalka ee wanaagsan. Waxa kale oo xusid mudan in qaabka OpenVoice aanu wax ujeedo ah u lahayn curinta qaybo ka mid ah qaab-dhismeedka qaab-dhismeedka, beddelka labada qaybood ee ugu waaweyn sida beddelka midabka tone iyo qaabka hadalka saldhigga TTS ayaa labaduba ka soo jeeda shaqooyinka jira. Ujeedada koowaad ee qaab dhismeedka Codka Furan waa in la sameeyo qaab-dhismeed kala go'ay oo ka sooca xakamaynta luqadda iyo qaabka codka iyo midabaynta codka. Inkasta oo habkani uu yahay mid fudud, haddana aad buu waxtar u leeyahay gaar ahaan hawlaha xakameynaya qaababka iyo lahjadaha, ama hawlaha guud ee luqadda cusub. Gaaritaanka isla kontorool marka la shaqaaleysiiyo qaab-dhismeed la isku daray waxay u baahan tahay xisaabin iyo xog badan, si fiicanna uma soo koobto luqadaha cusub. 

Xuddunta, falsafada ugu weyn ee qaabka Codka Furan waa in la kala saaro jiilka luqadda iyo qaababka codka ee jiilka midabka codka. Mid ka mid ah awoodaha ugu waaweyn ee qaabka Codka Furan waa in codka clone uu yahay mid faseexa ah oo tayo sare leh ilaa inta uu TTS-ku-hal-hadalku si wacan u hadlayo. 

Codka Furan : Tijaabada iyo Natiijooyinka

Qiimaynta hawlaha xidhitaanka codka waa ujeedo adag sababo badan dartood. Bilawga, shaqooyinka jira inta badan waxay shaqaaleeyaan tababaro kala duwan iyo xog tijaabo ah taasoo ka dhigaysa isbarbardhigga shaqooyinkan mid cadaalad darro ah. In kasta oo dad-soo-ururinta loo isticmaali karo in lagu qiimeeyo cabbirrada sida celceliska ra'yiga, dhibka iyo kala duwanaanta xogta imtixaanku waxay si weyn u saamaynaysaa natiijada guud. Marka labaad, hababka kala duwan ee isku xidhka codka ayaa leh xog tababar oo kala duwan, kala duwanaanshaha iyo miisaanka xogtan ayaa si weyn u saameeya natiijooyinka. Ugu dambeyntii, ujeeddada aasaasiga ah ee shaqooyinka jira inta badan way ka duwan yihiin midba midka kale, markaa waxay ku kala duwan yihiin shaqadooda. 

Sadexda sababood ee aan kor ku soo xusnay daraaddood, waa cadaalad darro in la barbar dhigo qaab-dhismeedka codaynta ee jira tiro ahaan. Taa beddelkeeda, waxa macno badan samaynaysa in hababkan si tayo leh loo barbardhigo. 

Midabka Codka Saxda ah ee cloning

Si loo falanqeeyo waxqabadkeeda, horumariyayaashu waxay dhisaan tijaabo ay la socdaan shakhsiyaad aan la garanayn, jilayaasha ciyaarta iyo dadka caanka ah waxay sameeyaan saldhigga tixraaca, waxayna leeyihiin qaybinta cod ballaadhan oo ay ku jiraan muunado dhexdhexaad ah iyo codad gaar ah. Qaabka Codka Furan waxa uu awoodaa in uu xidho midabka codka tixraaca oo uu dhaliyo hadalka luuqado badan iyo lahjadaha mid kasta oo ka mid ah kuwa ku hadla tixraaca iyo 4-ta ku hadla saldhiga. 

Xakamaynta dabacsan ee Hababka Codka

Mid ka mid ah ujeedooyinka qaab dhismeedka VoiceVoice waa in la xakameeyo qaababka hadalka si dabacsanaan leh iyadoo la adeegsanayo beddelaha midabka codka kaas oo wax ka beddeli kara codka midabka iyadoo la ilaalinayo dhammaan sifooyinka iyo sifooyinka kale ee codka. 

Tijaabooyinku waxay muujinayaan in moodelku ilaaliyo qaababka codka ka dib marka loo beddelo midabka codka tixraaca. Xaaladaha qaarkood, si kastaba ha ahaatee, qaabku wuxuu dhexdhexaadiyaa dareenka waxoogaa yar, dhibaatada lagu xallin karo iyada oo loo gudbiyo macluumaad yar lakabyada socodka si aysan u awoodin inay ka takhalusaan dareenka. Qaab dhismeedka Codka Furan waxa uu awoodaa in uu ka ilaaliyo qaababka codka gunta iyada oo ay ugu wacan tahay isticmaalkeeda beddelka midabka codka. Waxa ay u ogolaataa qaabka OpenVoice in uu maareeyo qoraalka ku hadla salku una gudbiyo qaabka hadalka si si fudud loo xakameeyo qaababka codka. 

Clone Codka Luqadaha-Luqadaha

Qaab dhismeedka Codka Furan kuma jiro xog-hadal badan oo luqadda aan la arkin, haddana waxa ay awood u leedahay in ay gaadho meel u dhow cod-ku-soo-gudbinta luqadda is-goysyada meel eber ah. Awoodaha isku xidhka codka-afafka ee qaabka qaabka Codka furan waa laba laalaab:

  1. Qaabku waxa uu awoodaa in uu si sax ah u xidho midabka codka tixraaca marka luuqada ku hadasha tixraacu aanay ka muuqan luqadaha badan ee ku hadla luqadaha badan ama xogta MSML. 
  2. Intaa waxaa dheer, isla dhacdo la mid ah luqadda tixraaca tixraaca aan la arki karin, qaabka OpenVoice wuxuu awood u leeyahay inuu xidho codka afhayeenka tixraaca, wuxuuna ku hadlaa luqadda mid shuruud ah in qoraalka ku hadla saldhigga iyo qaabka hadalka uu taageerayo luqadda. 

Afkaarta Final

Maqaalkan waxaan kaga hadalnay OpenVoice, qaab-dhismeed xidhidhiyaha codka degdega ah ee kala duwan kaas oo ku celceliya codka isticmaale kasta oo soo saara hadalka luuqado badan iyadoo la adeegsanayo cajalad maqal ah oo gaaban oo ka socota afhayeenka tixraaca. Dareenka aasaasiga ah ee ka dambeeya OpenVoice waa in ilaa iyo inta moodalku aanu ku qasbanayn inuu sameeyo midabaynta codka ee afhayeenka tixraaca, qaab-dhismeedku wuxuu shaqaaleysiin karaa qaabka ku hadla TTS ee salka si loo xakameeyo luqadda iyo qaababka codka. 

OpenVoice waxa ay muujisaa moodooyinka isku xidhka codka degdega ah in ay soo celin karaan midabka codka ee afhayeenka tixraaca, oo ay ku gaadhaan kontoroolka guud ee qaababka codka oo ay ku jiraan lahjadda, laxanka, dhawaaqa, hakadka, iyo xataa shucuurta. OpenVoice waxa ay maamushaa in ay keento natiijooyin sareynta codka degdega ah iyada oo xisaab ahaan lagu shaqayn karo kharashyada hawlgelinta ilaa 10 jeer ka yar API-yada hadda jira ee leh waxqabad hooseeya. 

"Injineer xirfad ahaan, qoraa qalbigiisa". Kunal waa qoraa farsamo oo leh jacayl qoto dheer & faham AI iyo ML, oo ​​u heellan fududaynta fikradaha adag ee dhinacyadan iyada oo loo marayo dukumeenti hawleed iyo macluumaad leh.