Refresh

This website www.unite.ai/ka/hierspeech-hierarchical-variational-inference-for-zero-shot-speech-synthesis/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

სტუბი HierSpeech++: იერარქიული ვარიაციული დასკვნა ნულოვანი სიტყვის სინთეზისთვის - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

HierSpeech++: იერარქიული ვარიაციული დასკვნა ნულოვანი მეტყველების სინთეზისთვის

mm
განახლებულია on
HierSpeech++: იერარქიული ვარიაციული დასკვნა ნულოვანი მეტყველების სინთეზისთვის

ბოლოდროინდელმა განვითარებამ და დიდი ენობრივი მოდელების შესაძლებლობებში პროგრესმა გადამწყვეტი როლი ითამაშა LLM-ზე დაფუძნებული ფრეიმორების წინსვლაში აუდიო გენერირებისა და მეტყველების სინთეზის ამოცანებისთვის, განსაკუთრებით ნულოვანი გასროლის პარამეტრებში. მეტყველების სინთეზის ტრადიციული ჩარჩოები მნიშვნელოვანი წინსვლის მოწმე გახდა დამატებითი ფუნქციების ინტეგრირების შედეგად, როგორიცაა ნერვული აუდიო კოდეკები გონივრული აუდიო და მეტყველების ერთეულებისთვის. მიუხედავად იმისა, რომ მეტყველების და აუდიო სინთეზის ეს ჩარჩოები იძლევა დამაკმაყოფილებელ შედეგებს, ჯერ კიდევ არსებობს გაუმჯობესების ადგილი, რადგან მიმდინარე LLM-ზე დაფუძნებულ აუდიო ჩარჩოებს აქვთ შემდეგი სამი ძირითადი შეზღუდვა.

  1. ისინი მიდრეკილნი არიან ავტომატურად გამოიმუშაონ აუდიო გამომავალი, რაც საბოლოოდ იწვევს გამძლეობის ნაკლებობას და ნელი ჩარევის სიჩქარეს და იწვევს არასწორ გამოთქმას, გამოტოვებას ან გამეორებას. 
  2. ისინი ზედმეტად ეყრდნობიან დისკრეტულ მეტყველების ერთეულებს ან წინასწარ გაწვრთნილ ნერვულ აუდიო კოდეკს. 
  3. ისინი ხშირად საჭიროებენ ტრენინგის დიდ რაოდენობას. 

ზემოაღნიშნული საკითხების მოსაგვარებლად და LLM-ზე დაფუძნებული აუდიო და მეტყველების სინთეზის მოდელების შესაძლებლობების გასაუმჯობესებლად, დეველოპერებმა შექმნეს HierSpeech++, ძლიერი და ეფექტური ნულოვანი მეტყველების სინთეზატორი ხმის და ტექსტის მეტყველებაში ან TTS კონვერტაციისთვის. HierSpeech++ ჩარჩო ეფუძნება იერარქიული მეტყველების სინთეზის ჩარჩოების ცოდნას, რაც არა მხოლოდ აძლიერებს სიმტკიცეს, არამედ მატებს სინთეზური მეტყველების გამომუშავების ექსპრესიულობას და ამავდროულად ზრდის ხელოვნურად გენერირებული მეტყველების ბუნებრიობას და მეტყველების მსგავსებას თუნდაც ნულოვანი გასროლის პირობებში. 

ამ სტატიაში ჩვენ დეტალურად ვისაუბრებთ HierSpeech++ ჩარჩოზე და გადავხედავთ მოდელის არქიტექტურას, მუშაობას და შედეგებს, როდესაც შევადარებთ თანამედროვე ტექსტისა და აუდიო თაობის მოდელებს. ასე რომ, დავიწყოთ. 

HierSpeech++: იერარქიული ვარიაციული დასკვნა ნულოვანი მეტყველების სინთეზისთვის

HierSpeech++ არის სწრაფი, ძლიერი და ეფექტური ნულოვანი სიტყვის სინთეზის ჩარჩო, რომელიც იყენებს მეტყველების სინთეზის იერარქიულ მილსადენს და ამ ბოლოდან ბოლომდე მეტყველების სინთეზის ჩარჩოს მიღებით, HierSpeech++ მოდელს შეუძლია მაქსიმალურად გაზარდოს მაღალი ხარისხის ტალღის წარმოქმნის პოტენციალი. იერარქიულად გადალახოს უფსკრული სემანტიკურ და აკუსტიკურ წარმოდგენებს შორის თვითკონტროლირებადი მეტყველების წარმოდგენის, როგორც სემანტიკური მეტყველების წარმოდგენის მიღებით, და ამით ცდილობს გადაჭრას სტილის ადაპტაციის ამჟამინდელი შეზღუდვები. მეტყველების სინთეზის ბოლო-ბოლო ჩარჩო პირველად დაინერგა VITS მოდელმა და იგი იყენებს VAE ან ვარიაციულ ავტომატურ დაშიფვრას, რომელიც გაძლიერებულია საპირისპირო ტრენინგით და ნაკადის ნორმალიზებით. გარდა ამისა, VAE-ზე დაფუძნებულ ჩარჩოებს, რომელსაც აქვს ბოლომდე საწვრთნელი მილსადენი, შეუძლია შექმნას მაღალი ხარისხის ტალღოვანი აუდიო, მეტყველების სინთეზის აღქმის ხარისხით ბევრად უკეთესია, ვიდრე სხვა მეტყველების სინთეზის ჩარჩოებით წარმოქმნილი. 

ამ ჩარჩოების აუდიო რეკონსტრუქციის ხარისხი შეიძლება კიდევ უფრო გაუმჯობესდეს იერარქიული პირობითი ვარიაციული ავტოკოდერის გამოყენებით, როგორც გამოიყენება HierSpeech ჩარჩოში. მიუხედავად მათი პოტენციალისა, მილსადენზე დაფუძნებულ მოდელებს აქვთ გარკვეული შეზღუდვები, განსაკუთრებით ნულოვანი გასროლის პარამეტრებში, რადგან, მიუხედავად იმისა, რომ მათ შეუძლიათ მეტყველების ნიმუშების სინთეზირება მაღალი ხარისხის აუდიოს საშუალებით, დინამიკის მსგავსება ნულოვანი გასროლით ხმის კლონირების ამოცანებში მაინც მაღალია. გამოთვლითი სირთულე. Მეორეს მხრივ, დიფუზიაზე დაფუძნებული მეტყველების სინთეზის მოდელები კარგად ასრულებენ დინამიკების ადაპტაციას, მაგრამ ისინი ჯერ კიდევ შორს არიან სრულყოფისაგან, რადგან იყენებენ ინტერაქტიული გენერირების პროცესს, რომელიც ანელებს მის დასკვნის სიჩქარეს, ისინი ხშირად დაუცველები არიან ხმაურიანი მონაცემების მიმართ და სწავლებასა და დასკვნას შორის შეუსაბამობის შედეგად. ორეტაპიანი გენერირების პროცესი Mel-სპექტროგრამასა და გენერირებულ მიწის ჭეშმარიტებას შორის, აუდიო ხარისხი არ არის შესაბამისი. 

მისი წინამორბედების პრობლემების გადასაჭრელად, HierSpeech++ მოდელი იყენებს იერარქიულ მეტყველების სინთეზატორს, მეტყველების სუპერ გარჩევადობას და ტექსტს vec კომპონენტზე და წარმოგიდგენთ გაუმჯობესებულ იერარქიულ მეტყველების სინთეზატორს, რომელიც აგებულია იერარქიულ პირობით VAE ან Variational AutoEncoder-ზე. აუდიოს ხარისხის გაზრდის მცდელობისას აღქმის ხარისხის მიღმა, HierSpeech++ ჩარჩო იყენებს ორმაგ აუდიოს აკუსტიკური უკანა გასაძლიერებლად და აძლიერებს განაწილების განზოგადებას იერარქიული ადაპტაციური გენერატორის გამოყენებით, რომელიც აღჭურვილია როგორც პირობითი, ასევე უპირობო გენერირებით. გარდა ამისა, მეტყველების კომპონენტების გასაყოფად და სპიკერთან დაკავშირებული და სპიკერის აგნოსტიკურ სემანტიკური ინფორმაციის გასაუმჯობესებლად, HierSpeech++ ჩარჩო ასევე იღებს წყაროზე ფილტრის თეორიაზე დაფუძნებულ მრავალგზიან სემანტიკური ენკოდერს. Variational AutoEncoder-ის გამოყენების შედეგად, HierSpeech++ მოდელს შეუძლია დააკავშიროს და ისწავლოს წარმოდგენები იერარქიულად, და თანდათანობით მოერგოს სამიზნე ხმის სტილს, რათა დაადგინოს ტალღის ფორმის აუდიო. გარდა ამისა, HierSpeech++ ჩარჩო ასევე ავრცელებს ნაკადის ნორმალიზების ტრანსფორმატორების ორმხრივ ქსელს, რათა გაზარდოს ადაპტაცია და ასევე შეამციროს შეუსაბამობა ტრენინგსა და დასკვნას შორის. 

მთლიანობაში, HierSpeech++ მოდელი არის სრულიად პარალელური, ახალი და ძლიერი იერარქიული მეტყველების სინთეზის ჩარჩო, რომელიც მიზნად ისახავს მეტყველების ნიმუშების სინთეზირებას ნულოვანი გასროლის პარამეტრებში და ცდილობს შემდეგი წვლილი შეიტანოს

  • იერარქიული მეტყველების სინთეზის ჩარჩოს გამოყენება ხმის სტილისა და პროსოდიის კონტროლისა და გადაცემისთვის. 
  • ჩართეთ მონაცემთა მასშტაბურობა და მაღალი გარჩევადობის მეტყველების სინთეზი ტალღის ფორმის აუდიოს 16-დან 48 კჰც-მდე შერჩევით. 
  • მიაღწიეთ ადამიანის დონის უნარს ხმოვანი ნულოვანი გადაცემის და ტექსტის მეტყველების ამოცანებში. 

HierSpeech++: მოდელის კომპონენტები და არქიტექტურა

როგორც განვიხილეთ, HierSpeech++ არის ნულოვანი სიტყვის სინთეზის მოდელი, რომელიც ცდილობს მიაღწიოს ადამიანის დონის სიზუსტეს ხმის მსგავსებისა და მეტყველების ბუნებრიობის თვალსაზრისით. 

HierSpeech++ მოდელი შედგება სხვადასხვა კომპონენტისგან, მათ შორის იერარქიული მეტყველების სინთეზატორი, მეტყველების სუპერ გარჩევადობა და ტექსტის გადაცემა TTV-ზე, რომლებიც მუშაობენ ერთმანეთთან სინქრონულად, რათა ხელი შეუწყონ თითოეული მოდელის ტრენინგს, რომელსაც შეუძლია ეფექტურად გამოიყენოს დიდი რაოდენობით დაბალი გარჩევადობა მეტყველების მონაცემები ხმის კლონირებისთვის. მოდით დავშალოთ ჩარჩო და ვისაუბროთ თითოეულ კომპონენტზე. 

მეტყველების წარმოდგენები

ვინაიდან ადამიანის სიხშირის დიაპაზონი 4 კჰც-ზე ნაკლებია, მეტყველების სინთეზისთვის HierSpeech++ ჩარჩო ამცირებს აუდიოს 16 კჰც სიხშირეზე. გარდა ამისა, ხმოვანი სიგნალის რეკონსტრუქციისთვის, აუდიო ნიმუშის შემცირების გარდა, სასიცოცხლოდ მნიშვნელოვანია ხმის სიხშირის მინიმუმ ორმაგი უმაღლესი კომპონენტის გამოყენება. გაუმჯობესებული აღქმის ხარისხის მისაღწევად, HierSpeech++ ჩარჩო იყენებს მეტყველების სუპერ გარჩევადობას ან SpeechSR კომპონენტს აუდიო ნიმუშის 16-დან 48 kHz-მდე ასარჩევად და იყენებს დაბალი გარჩევადობის წარმოდგენებს სემანტიკური და აკუსტიკური წარმოდგენისთვის. 

აკუსტიკური წარმოდგენისთვის, ტრადიციული ტექსტი მეტყველებამდე ან TTS ჩარჩო იყენებს Mel-სპექტროგრამას, როგორც მის შუალედურ აკუსტიკური მახასიათებელს, რომელიც შემდეგ გარდაიქმნება ტალღის ფორმიდან STFT ან მოკლე დროში ფურიეს ტრანსფორმაციის დახმარებით. თუმცა, აღსანიშნავია, რომ რადგან აკუსტიკური მახასიათებლები არის მდიდარი წარმოდგენები, რომლებიც შეიცავს სხვადასხვა ატრიბუტებს, მათ შორის შინაარსს და გამოთქმას, ხმოვან ინფორმაციას და სხვა, რაც ართულებს ჩარჩოს ამ წარმოდგენების დასკვნას, სიტუაცია, რომელიც ხშირად იწვევს არასწორ გამოთქმას, მსგავსების ნაკლებობას. ან მეტყველების ზედმეტად დამარბილება. 

ტალღის ფორმიდან უწყვეტი სემანტიკური წარმოდგენის გამოსატანად, HierSpeech++ ჩარჩო იყენებს Wav2Vec ჩარჩოს სემანტიკური წარმოდგენისთვის პოპულარული თვითკონტროლირებადი მეტყველების წარმოდგენის მიდგომისგან განსხვავებით. მიუხედავად იმისა, რომ მიდგომა კარგ ალტერნატივას წარმოადგენს მდიდარი მონოლინგვური მოდელისთვის, ის გავლენას ახდენს მოდელის ხმოვანი კლონირების უნარზე, როგორც გამძლეობის, ისე ექსპრესიულობის თვალსაზრისით, განსაკუთრებით მრავალენოვანი მეტყველების სინთეზის ამოცანებზე. 

იერარქიული მეტყველების სინთეზატორი

იერარქიული მეტყველების სინთეზატორი კომპონენტი წარმოადგენს HierSpeech++ ჩარჩოს საფუძველს, რადგან ის საშუალებას აძლევს მოდულის სწავლებას ყოველგვარი ეტიკეტების გამოყენების გარეშე, როგორიცაა ტექსტის ტრანსკრიპტები ან სპიკერის ID, და მხოლოდ მეტყველების მონაცემებზე დაყრდნობით. აკუსტიკური ტევადობის გასაზრდელად, მეტყველების სინთეზის წინა თანამედროვე მოდელებმა ჩაანაცვლეს Mel-სპექტროგრამა ხაზოვანი სპექტროგრამით, თუმცა, მიდგომა ამცირებს KL დივერგენციის ქულას სიმაღლის პერიოდულობის, PESQ, ხმის და ხმოვანი ქულის და თუნდაც Mel-ის თვალსაზრისით. სპექტროგრამის მანძილი. იერარქიული მეტყველების სინთეზატორი იყენებს ორმაგი აუდიო აკუსტიკური ენკოდერს, რათა გადაჭრას გამოწვევები წარმოდგენილი წრფივი სპექტროგრამის გამოყენებით, რომელიც შექმნილია უფრო მდიდარი და ყოვლისმომცველი აკუსტიკური წარმოდგენების გადასაღებად. ჩარჩო ასევე იყენებს ტალღის ფორმის შიფრატორს ინფორმაციის გამოხდისათვის ნედლი ტალღოვანი აუდიოდან და აკავშირებს მას ხაზოვანი სპექტროგრამის წარმოდგენასთან და ბოლოს აპროექტებს აკუსტიკური წარმოდგენას, როგორც თანმიმდევრულ წარმოდგენას. 

გარდა ამისა, მეტყველების აგნოსტიკურ და სპიკერთან დაკავშირებულ სემანტიკურ წარმოდგენასთან გასამკლავებლად, HierSpeech++ ფრეიმორი იყენებს მრავალგზის თვითკონტროლირებად მეტყველების წარმოდგენას, სადაც თითოეული ინდივიდუალური წარმოდგენა გამოიყენება სტილის იერარქიული ადაპტაციისთვის სემანტიკური წარმოდგენებით, რომლებიც ამოღებულია ენობრივი ინფორმაციის მისაღებად. MMS-ის შუა ფენა. ჩარჩო ასევე იყენებს ფუნდამენტურ სიხშირეს მეტყველების განლაგების გასაძლიერებლად, რაც შესაძლებელს გახდის ტონის კონტურის ხელით კონტროლს. ჩარჩო ასევე იყენებს ენობრივ წარმოდგენას, როგორც პირობით ინფორმაციას, რათა წარმოქმნას ტალღის ფორმა იერარქიულად, და იყენებს თვითკონტროლირებადი წარმოდგენის გაძლიერებულ ენობრივ წარმოდგენას. ასევე აღსანიშნავია, რომ ვარჯიშის დროს ამოღებული აკუსტიკური წარმოდგენები ტალღის ფორმისა და ხაზოვანი სპექტროგრამის გამოყენებით გამოიყენება ნედლეული ტალღის ფორმის აუდიოს აღსადგენად და იერარქიული ვარიაციული დასკვნა გამოიყენება აკუსტიკური წარმოდგენების დასაკავშირებლად მრავალგზიან ენობრივ წარმოდგენებთან. ჩარჩო ასევე იყენებს ა იერარქიული ადაპტაციური გენერატორი(HAG) სემანტიკური ტალღოვანი ნიმუშების გენერირებისთვის, და გენერირებული წარმოდგენები, რომლებიც მოიცავს სტილის წარმოდგენას და აკუსტიკური წარმოდგენას, მიეწოდება წყაროს და ტალღის გენერატორებს. 

ტექსტი Vec

ტექსტიდან მეტყველების სინთეზისთვის, HierSpeech++ ჩარჩო იყენებს ტექსტს vec ან TTV მოდელზე, რომელიც ქმნის ფუნდამენტურ სიხშირეს და სემანტიკურ წარმოდგენას ტექსტის თანმიმდევრობიდან და იყენებს მონოტონურ გასწორების ძიებას, ვარიაციულ ავტოენკოდერთან ერთად მეტყველებისა და ტექსტის შიგნიდან გასწორების მიზნით. HierSpeech++ ჩარჩო შემდეგ ცვლის ხაზოვან სპექტროგრამას თვითმმართველობის ზედამხედველობითი წრფივი წარმოდგენით და აღადგენს იმავე წარმოდგენას, რათა გამოვიდეს TTV-სთვის. 

გარდა ამისა, HierSpeech++ ჩარჩო წინასწარმეტყველებს ფუნდამენტურ სიხშირეს ოთხჯერ უფრო დიდი გარჩევადობით, ვიდრე თვითკონტროლირებადი მეტყველების წარმოდგენებთან შედარებით, და იყენებს პირობითი ტექსტის წარმოდგენას, როგორც წინა ინფორმაციას. თვითკონტროლირებადი მეტყველების წარმოდგენის სემანტიკური ინფორმაციის შედეგად, ჩარჩოს შეუძლია ტექსტში პროსოდიის სტილი გადაიტანოს vec მოდელზე და აწვდის ფარულ წარმოდგენას ფონემის კოდირზე, რათა გააძლიეროს წარმოდგენის ენობრივი შესაძლებლობები. 

SpeechSR ან Speech Super Resolution

HierSpeech++ ჩარჩო ივარჯიშებს შედარებით დაბალი გარჩევადობის მონაცემთა ბაზაზე მონაცემთა ეფექტურობისა და ხელმისაწვდომობის თვალსაზრისით და ამაღლებს დაბალი გარჩევადობის მეტყველების ტალღის ფორმას მაღალი გარჩევადობის მეტყველების ტალღის ფორმაზე 16-დან 48 kHz-მდე. ჩარჩო ასევე ანაცვლებს ტრანსპოზიციურ კონვოლუციას უახლოეს მეზობელ ასამპლერთან, რომელიც ადრე ცნობილი იყო, რომ ამსუბუქებს არტეფაქტებს ტრანსპონირებული კონვოლუციების შედეგად. 

არქიტექტურა

ტექსტის vec მოდელის კონტენტის დაშიფვრა შედგება 16 არაჩვეულებრივი WaveNet ფენისგან, ბირთვის ზომით 5 და ფარული ზომით 256, ხოლო შინაარსის დეკოდერი შედგება 8 არაჩვეულებრივი WaveNet ფენისგან, ბირთვის ზომით 5, და დამალული ზომა 512. ტექსტის ენკოდერის კომპონენტი შედგება სამი პროზოდიური პირობითი ტრანსფორმატორის ქსელისაგან და სამი უპირობო ტრანსფორმატორის ქსელისგან, ბირთვის ზომა 9, ფილტრის ზომა 1024 და ფარული ზომა 256, ტექსტის შიფრატორის გამოტოვების სიხშირე 0.2. მიმდებარე ინფორმაციის დაშიფვრისთვის და პროსოდიის სტილის ადაპტაციის გასაუმჯობესებლად, ფრეიმერი იღებს CNN-ს, რომლის ბირთვის ზომაა 5 ტრანსფორმერის ბლოკებში. SpeechSR, მეორეს მხრივ, მოიცავს ერთ AMP ბლოკს 32 საწყისი არხით, შერჩევის ფენის არსებობის გარეშე. Framework იყენებს უახლოეს მეზობელ upsampler-ს ფარული წარმოდგენების ასარჩევად და იყენებს MPD-ს, როგორც დისკრიმინატორს ექვსი სხვადასხვა ზომის ფანჯრის ზომით და ოთხი ქვეჯგუფის დისკრიმინატორით. 

ზემოთ მოყვანილი სურათი გვიჩვენებს HierSpeech++ ჩარჩოს დასკვნის მილსადენის, რომელიც იწყება აუდიოდან სემანტიკური წარმოდგენების ამოღებით 16 kHz სიხშირით და ფუნდამენტურ სიხშირეზე YAPPT ალგორითმის გამოყენებით. სანამ ფუნდამენტური სიხშირე მიეწოდება იერარქიულ სინთეზატორს, ის ნორმალიზდება წყაროს აუდიოს სტანდარტული და საშუალო გადახრების გამოყენებით, ხოლო ნორმალიზებული ფუნდამენტური სიხშირე დენორმალიზებულია სამიზნე აუდიოს სტანდარტული და საშუალო გადახრის გამოყენებით. ტექსტიდან მეტყველების ამონაწერისთვის, HierSpeech++ ჩარჩო ამოიღებს ტექსტურ წარმოდგენებს მეტყველების წარმოდგენის ნაცვლად და იყენებს ტექსტს vec მოდელზე, რათა წარმოქმნას სემანტიკური წარმოდგენა პროსოდიის მოთხოვნადან. 

ექსპერიმენტი და შედეგები

ჩარჩო იყენებს საჯაროდ ხელმისაწვდომ LibriTTS მონაცემთა ბაზას, რათა მოამზადოს იერარქიული სინთეზატორის კომპონენტი, პირველი ნაბიჯი არის მოდელის ტრენინგი მონაცემთა ნაკრების trainclean ქვეჯგუფებით და დარჩენილი მონაცემების გამოყენება ხმის სტილის გაუმჯობესებული გადაცემის გასააქტიურებლად. გარდა ამისა, მრავალფეროვნებისა და სიმტკიცის გასაუმჯობესებლად, ჩარჩო ზრდის მონაცემთა ბაზას 1 kHz-მდე, როგორც ეს ნაჩვენებია შემდეგ ფიგურაში. 

რეკონსტრუქცია, რესინთეზის ამოცანები და ხმის კონვერტაცია

რეკონსტრუქციისა და ხელახალი სინთეზირების ამოცანებზე HierSpeech++ ჩარჩოს მუშაობის შესაფასებლად, დეველოპერებმა ჩაატარეს შვიდი ობიექტური მეტრიკა და შედეგები ნაჩვენებია შემდეგ ფიგურებში, შესაბამისად, რეკონსტრუქციისა და ხელახალი სინთეზისთვის. 

ხმის კონვერტაციის ამოცანებისთვის, ჩარჩო იყენებს ორ სუბიექტურ მეტრიკას შეფასებისთვის: ხმის მსგავსება MOS ან sMOS და ბუნებრიობის საშუალო აზრის ქულა nMOS სამი ბუნებრიობის ობიექტური მეტრიკით და ორი მსგავსების ობიექტური მეტრიკა. 

მიდის წინ, HierSpeech++ ჩარჩოს უპირველესი მიზანია ჩართოს ნულოვანი სიტყვის სინთეზი და შეაფასოს მისი შესრულება ნულოვანი სროლით, ის შედარებულია სხვა ბაზის მოდელებთან, როგორიცაა AutoVC, VoiceMixer, დიფუზიაზე დაფუძნებული მოდელებიდა კიდევ ბევრი რამ, შედეგები ნაჩვენებია შემდეგ ფიგურაში. 

შემდეგი ფიგურები აჩვენებს ნულოვანი ტექსტი მეტყველებამდე შედეგები ხმაურიანი და ძალიან ხმაურიანი მოთხოვნებით შესაბამისად. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ HierSpeech++ მოდელზე, ახალ მიდგომაზე, რომელიც საშუალებას მისცემს ძლიერი და ეფექტური მეტყველების სინთეზს ნულოვანი გასროლის პირობებში, და გადავლახოთ მეტყველების სინთეზის ამჟამინდელი ჩარჩოების შეზღუდვები, მათ შორის მათი ზედმეტად დამოკიდებულება ვარჯიშის დიდ რაოდენობაზე. მონაცემები, დისკრეტულ მეტყველების ერთეულებზე ან წინასწარ გაწვრთნილ ნერვულ აუდიო კოდეკზე და მათი ტენდენცია აუდიო გამომავალი ავტომატური გენერირებისკენ, რაც საბოლოოდ იწვევს გამძლეობის ნაკლებობას და ნელი ჩარევის სიჩქარეს და იწვევს არასწორ გამოთქმას, გამოტოვებას ან გამეორებას. HierSpeech++ მოდელი არის სრულიად პარალელური, ახალი და ძლიერი იერარქიული მეტყველების სინთეზის ჩარჩო, რომელიც მიზნად ისახავს მეტყველების ნიმუშების სინთეზირებას ნულოვანი გასროლის პარამეტრებში და ცდილობს შემდეგი წვლილი შეიტანოს

  • იერარქიული მეტყველების სინთეზის ჩარჩოს გამოყენება ხმის სტილისა და პროსოდიის კონტროლისა და გადაცემისთვის. 
  • ჩართეთ მონაცემთა მასშტაბურობა და მაღალი გარჩევადობის მეტყველების სინთეზი ტალღის ფორმის აუდიოს 16-დან 48 კჰც-მდე შერჩევით. 
  • მიაღწიეთ ადამიანის დონის უნარს ხმოვანი ნულოვანი გადაცემის და ტექსტის მეტყველების ამოცანებში. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.