Τεχνητή νοημοσύνη
HierSpeech++ : Hierarchical Variational Inference for Zero-shot Speech Synthesis

Οι πρόσφατες εξελίξεις και η πρόοδος στις δυνατότητες μεγάλων γλωσσικών μοντέλων έχουν παίξει καθοριστικό ρόλο στην πρόοδο των πλαισίων LLM για εργασίες παραγωγής ήχου και σύνθεσης ομιλίας, ειδικά στη ρύθμιση μηδενικής λήψης. Τα παραδοσιακά πλαίσια σύνθεσης ομιλίας έχουν σημειώσει σημαντικές προόδους ως αποτέλεσμα της ενσωμάτωσης πρόσθετων χαρακτηριστικών, όπως νευρωνικοί κωδικοποιητές ήχου για διακριτικές μονάδες ήχου και ομιλίας. Παρόλο που αυτά τα πλαίσια σύνθεσης ομιλίας και ήχου παρέχουν ικανοποιητικά αποτελέσματα, υπάρχει ακόμα περιθώριο βελτίωσης, καθώς τα τρέχοντα πλαίσια ήχου που βασίζονται σε LLM έχουν τους ακόλουθους τρεις βασικούς περιορισμούς
- Τείνουν να παράγουν αυτόματα έξοδο ήχου που τελικά προκαλεί έλλειψη ευρωστίας και αργές ταχύτητες παρεμβολής και οδηγεί σε εσφαλμένη προφορά, παράλειψη ή επανάληψη.
- Τείνουν να βασίζονται υπερβολικά σε διακριτές μονάδες ομιλίας ή σε προεκπαιδευμένο νευρωνικό κωδικοποιητή ήχου.
- Συχνά απαιτούν μεγάλο όγκο δεδομένων εκπαίδευσης.
Για να αντιμετωπίσουν τα προβλήματα που αναφέρονται παραπάνω και να βελτιώσουν τις δυνατότητες των μοντέλων σύνθεσης ήχου και ομιλίας που βασίζονται σε LLM, οι προγραμματιστές έχουν καταλήξει στο HierSpeech++, ένα ισχυρό και αποτελεσματικό πρόγραμμα σύνθεσης ομιλίας μηδενικής λήψης για μετατροπές φωνής και κειμένου σε ομιλία ή TTS. Το πλαίσιο HierSpeech++ βασίζεται στις γνώσεις των ιεραρχικών πλαισίων σύνθεσης ομιλίας που όχι μόνο ενισχύουν την ευρωστία, αλλά προσθέτουν επίσης την εκφραστικότητα της συνθετικής εξόδου ομιλίας ενώ επίσης ενισχύουν τη φυσικότητα και την ομοιότητα των ηχείων της τεχνητά παραγόμενης ομιλίας ακόμη και σε ρύθμιση μηδενικής λήψης.
Σε αυτό το άρθρο, θα μιλήσουμε λεπτομερώς για το πλαίσιο HierSpeech++ και θα ρίξουμε μια ματιά στην αρχιτεκτονική, τη λειτουργία και τα αποτελέσματα του μοντέλου σε σύγκριση με τα τελευταίας τεχνολογίας μοντέλα παραγωγής κειμένου και ήχου. Ας ξεκινήσουμε λοιπόν.
HierSpeech++ : Hierarchical Variational Inference for Zero-shot Speech Synthesis
Το HierSpeech++ είναι ένα γρήγορο, ισχυρό και αποτελεσματικό πλαίσιο σύνθεσης ομιλίας μηδενικής λήψης που χρησιμοποιεί μια ιεραρχική γραμμή σύνθεσης ομιλίας και υιοθετώντας αυτό το πλαίσιο σύνθεσης ομιλίας από άκρο σε άκρο, το μοντέλο HierSpeech++ είναι σε θέση να μεγιστοποιήσει τις δυνατότητες δημιουργίας κυματομορφών υψηλής ποιότητας να γεφυρώσει ιεραρχικά το χάσμα μεταξύ σημασιολογικών και ακουστικών αναπαραστάσεων υιοθετώντας μια αυτοεποπτευόμενη αναπαράσταση ομιλίας ως σημασιολογική αναπαράσταση λόγου, και έτσι επιχειρεί να λύσει τους τρέχοντες περιορισμούς των προσαρμογών στυλ. Το πλαίσιο σύνθεσης ομιλίας από άκρο σε άκρο εισήχθη για πρώτη φορά από το μοντέλο VITS και υιοθετεί έναν VAE ή Variational Auto-Encoder επαυξημένο με αντίθετη εκπαίδευση και κανονικοποίηση ροής. Επιπλέον, τα πλαίσια βασισμένα σε VAE με αγωγό εκπαίδευσης από άκρο σε άκρο έχουν τη δυνατότητα να παράγουν υψηλής ποιότητας ήχο κυματομορφής με την αντιληπτική ποιότητα σύνθεσης ομιλίας να είναι σημαντικά καλύτερη από αυτά που δημιουργούνται από άλλα πλαίσια σύνθεσης ομιλίας.
Η ποιότητα ανακατασκευής ήχου αυτών των πλαισίων μπορεί να βελτιωθεί περαιτέρω με τη χρήση ενός ιεραρχικού υπό όρους Variational AutoEncoder όπως χρησιμοποιείται στο πλαίσιο HierSpeech. Παρά τις δυνατότητές τους, τα μοντέλα που βασίζονται σε αγωγούς εκπαίδευσης από άκρο σε άκρο έχουν ορισμένους περιορισμούς, ειδικά σε μια ρύθμιση μηδενικής λήψης, καθώς παρόλο που μπορούν να συνθέσουν δείγματα ομιλίας με ήχο υψηλής ποιότητας, η ομοιότητα των ηχείων στις εργασίες κλωνοποίησης φωνής μηδενικής λήψης εξακολουθεί να είναι γεμάτη υπολογιστική πολυπλοκότητα. Αφ 'ετέρου, μοντέλα σύνθεσης ομιλίας με βάση τη διάχυση αποδίδουν καλά όσον αφορά τις προσαρμογές των ηχείων, αλλά εξακολουθούν να απέχουν πολύ από το τέλειο, καθώς χρησιμοποιούν μια διαδραστική διαδικασία παραγωγής που επιβραδύνει την ταχύτητα συμπερασμάτων της, είναι συχνά ευάλωτα σε θορυβώδη δεδομένα και ως αποτέλεσμα της αναντιστοιχίας μεταξύ εκπαίδευσης και συμπερασμάτων η διαδικασία παραγωγής δύο σταδίων μεταξύ του φασματογράμματος Mel και της παραγόμενης αλήθειας εδάφους, η ποιότητα του ήχου δεν ανταποκρίνεται στο σημείο.
Για την αντιμετώπιση των προβλημάτων που αντιμετωπίζουν οι προκάτοχοί του, το μοντέλο HierSpeech++ χρησιμοποιεί έναν ιεραρχικό συνθέτη ομιλίας, μια υπερ-ανάλυση ομιλίας και ένα στοιχείο κειμένου σε vec και εισάγει έναν βελτιωμένο ιεραρχικό συνθέτη ομιλίας βασισμένο στον ιεραρχικό υπό όρους VAE ή Variational AutoEncoder. Σε μια προσπάθεια να βελτιώσει την ποιότητα ήχου πέρα από την αντιληπτική ποιότητα, το πλαίσιο HierSpeech++ υιοθετεί έναν διπλό ήχο για να ενισχύσει το ακουστικό οπίσθιο και ενισχύει τη γενίκευση εκτός διανομής χρησιμοποιώντας μια ιεραρχική προσαρμοστική γεννήτρια εξοπλισμένη με παραγωγή υπό όρους και άνευ όρων. Επιπλέον, για να ξεμπερδέψει τα στοιχεία ομιλίας και να βελτιώσει τις σημασιολογικές πληροφορίες που σχετίζονται με τον ομιλητή και τις αγνωστικιστικές πληροφορίες του ομιλητή, το πλαίσιο HierSpeech++ υιοθετεί επίσης έναν σημασιολογικό κωδικοποιητή πολλαπλών διαδρομών που βασίζεται στη θεωρία πηγής. Ως αποτέλεσμα της χρήσης ενός Variational AutoEncoder, το μοντέλο HierSpeech++ μπορεί να συνδεθεί και να μάθει αναπαραστάσεις ιεραρχικά και προοδευτικά να προσαρμόζεται στο στυλ φωνής-στόχου για να συμπεράνει τον ήχο κυματομορφής. Επιπλέον, το πλαίσιο HierSpeech++ αναπτύσσει επίσης ένα αμφίδρομο δίκτυο μετασχηματιστών κανονικοποίησης ροής σε μια προσπάθεια να βελτιώσει την προσαρμογή και επίσης να μειώσει την αναντιστοιχία μεταξύ εκπαίδευσης και συμπερασμάτων.
Συνολικά, το μοντέλο HierSpeech++ είναι ένα πλήρως παράλληλο, πρωτότυπο και ισχυρό πλαίσιο ιεραρχικής σύνθεσης ομιλίας που στοχεύει στη σύνθεση δειγμάτων ομιλίας σε μια ρύθμιση μηδενικής λήψης και επιχειρεί να κάνει τις ακόλουθες συνεισφορές
- Χρησιμοποιώντας ένα ιεραρχικό πλαίσιο σύνθεσης ομιλίας για τον έλεγχο και τη μεταφορά στυλ φωνής και προσωδίας.
- Ενεργοποιήστε την επεκτασιμότητα δεδομένων και τη σύνθεση ομιλίας υψηλής ανάλυσης αναβαθμίζοντας τον ήχο κυματομορφής από 16 σε 48 kHz.
- Αποκτήστε ικανότητα σε ανθρώπινο επίπεδο σε εργασίες μετατροπής φωνής μηδενικής λήψης και μετατροπής κειμένου σε ομιλία.
HierSpeech++ : Μοντέλα Στοιχεία και Αρχιτεκτονική
Όπως συζητήθηκε, το HierSpeech++ είναι ένα μοντέλο σύνθεσης ομιλίας μηδενικής λήψης που επιχειρεί να επιτύχει ακρίβεια σε ανθρώπινο επίπεδο όσον αφορά την ομοιότητα φωνής και τη φυσικότητα της ομιλίας.
Το μοντέλο HierSpeech++ αποτελείται από διαφορετικά στοιχεία, συμπεριλαμβανομένου ενός ιεραρχικού συνθέτη ομιλίας, μιας υπερανάλυσης ομιλίας και μετατροπής κειμένου σε vec σε TTV που λειτουργούν σε συγχρονισμό μεταξύ τους για να διευκολύνουν την εκπαίδευση κάθε μοντέλου που μπορεί να χρησιμοποιήσει αποτελεσματικά μεγάλο αριθμό χαμηλών ανάλυση δεδομένων ομιλίας για κλωνοποίηση φωνής. Ας αναλύσουμε το πλαίσιο και ας μιλήσουμε για κάθε στοιχείο.
Αναπαραστάσεις ομιλίας
Καθώς η ανθρώπινη ζώνη συχνοτήτων είναι κάτω από τα 4 kHz, για τη σύνθεση ομιλίας, το πλαίσιο HierSpeech++ μειώνει τη δειγματοληψία του ήχου στα 16 kHz. Επιπλέον, για την ανακατασκευή του φωνητικού σήματος, είναι ζωτικής σημασίας να χρησιμοποιείτε τουλάχιστον το διπλάσιο της υψηλότερης συνιστώσας της συχνότητας φωνής εκτός από τη μείωση του δείγματος ήχου. Για να επιτύχει βελτιωμένη αντιληπτική ποιότητα, το πλαίσιο HierSpeech++ χρησιμοποιεί μια εξαιρετική ανάλυση ομιλίας ή στοιχείο SpeechSR για τη δειγματοληψία του δείγματος ήχου από 16 σε 48 kHz και χρησιμοποιεί αναπαραστάσεις χαμηλής ανάλυσης για σημασιολογικές και ακουστικές αναπαραστάσεις.
Για ακουστικές αναπαραστάσεις, ένα παραδοσιακό πλαίσιο κειμένου σε ομιλία ή TTS χρησιμοποιεί ένα φασματόγραμμα Mel ως το ενδιάμεσο ακουστικό χαρακτηριστικό του που στη συνέχεια μετασχηματίζεται από την κυματομορφή με τη βοήθεια ενός μετασχηματισμού STFT ή βραχυχρόνιου μετασχηματισμού Fourier. Ωστόσο, αξίζει να σημειωθεί ότι δεδομένου ότι τα ακουστικά χαρακτηριστικά είναι πλούσιες αναπαραστάσεις που περιλαμβάνουν διάφορα χαρακτηριστικά, όπως περιεχόμενο και προφορά, φωνητικές πληροφορίες και πολλά άλλα που δυσκολεύουν το πλαίσιο να συναγάγει αυτές τις αναπαραστάσεις, μια κατάσταση που συχνά οδηγεί σε εσφαλμένες προφορές, έλλειψη ομοιότητας. ή υπερβολική εξομάλυνση του λόγου.
Προχωρώντας, για να εξαγάγετε μια συνεχή σημασιολογική αναπαράσταση από μια κυματομορφή, το πλαίσιο HierSpeech++ χρησιμοποιεί ένα πλαίσιο Wav2Vec σε αντίθεση με τη δημοφιλή προσέγγιση αναπαράστασης ομιλίας με αυτο-επίβλεψη για σημασιολογικές αναπαραστάσεις. Παρόλο που η προσέγγιση είναι μια καλή εναλλακτική για ένα πλούσιο μονόγλωσσο μοντέλο, επηρεάζει τις ικανότητες κλωνοποίησης φωνής μηδενικής λήψης ενός μοντέλου όσον αφορά τόσο την ευρωστία όσο και την εκφραστικότητα, ειδικά σε εργασίες σύνθεσης πολύγλωσσης ομιλίας.
Ιεραρχικός Συνθέτης Λόγου
Το στοιχείο Hierarchical Speech Synthesizer είναι ο θεμέλιος λίθος για το πλαίσιο HierSpeech++, καθώς επιτρέπει την εκπαίδευση της ενότητας χωρίς τη χρήση ετικετών όπως μεταγραφές κειμένου ή αναγνωριστικό ομιλητή, και να βασίζεται αποκλειστικά σε δεδομένα ομιλίας. Για να αυξηθεί η ακουστική χωρητικότητα, τα προηγούμενα μοντέλα σύνθεσης ομιλίας τελευταίας τεχνολογίας αντικατέστησαν το φασματογράφημα Mel με ένα γραμμικό φασματογράφημα, ωστόσο, η προσέγγιση ελαχιστοποιεί τη βαθμολογία απόκλισης KL όσον αφορά την περιοδικότητα τόνου, το PESQ, τη βαθμολογία φωνής και φωνής, ακόμη και τη βαθμολογία Mel- απόσταση φασματογράμματος. Το Hierarchical Speech Synthesizer χρησιμοποιεί έναν Ακουστικό Κωδικοποιητή Διπλού ήχου για την επίλυση των προκλήσεων που παρουσιάζονται χρησιμοποιώντας ένα γραμμικό φασματογράφημα σχεδιασμένο να καταγράφει πλουσιότερες και πιο ολοκληρωμένες ακουστικές αναπαραστάσεις. Το πλαίσιο χρησιμοποιεί επίσης έναν κωδικοποιητή κυματομορφής για την απόσταξη πληροφοριών από έναν ακατέργαστο ήχο κυματομορφής, και τον συνενώνει με τη γραμμική αναπαράσταση φασματογράμματος και τελικά προβάλλει την ακουστική αναπαράσταση ως συνενωμένη αναπαράσταση.
Επιπλέον, για την αντιμετώπιση των σημασιολογικών αναπαραστάσεων που σχετίζονται με ομιλητή και αγνωστικές, το πλαίσιο HierSpeech++ χρησιμοποιεί μια αυτοεπιβλεπόμενη αναπαράσταση ομιλίας πολλαπλών διαδρομών όπου κάθε μεμονωμένη αναπαράσταση χρησιμοποιείται για ιεραρχική προσαρμογή στυλ με τις σημασιολογικές αναπαραστάσεις που εξάγονται για να ληφθούν γλωσσικές πληροφορίες από το μεσαίο στρώμα του MMS. Το πλαίσιο χρησιμοποιεί επίσης μια θεμελιώδη συχνότητα για τη βελτίωση της αποσύμπλεξης της ομιλίας που επιτρέπει τον χειροκίνητο έλεγχο του περιγράμματος του τόνου. Το πλαίσιο χρησιμοποιεί επίσης μια γλωσσική αναπαράσταση ως πληροφορία υπό όρους για να δημιουργήσει ιεραρχικά ήχο κυματομορφής και χρησιμοποιεί μια βελτιωμένη γλωσσική αναπαράσταση της αυτοεποπτευόμενης αναπαράστασης. Αξίζει επίσης να σημειωθεί ότι οι ακουστικές αναπαραστάσεις που εξάγονται κατά τη διάρκεια της προπόνησης με τη χρήση κυματομορφής και γραμμικού φασματογράμματος χρησιμοποιούνται για την ανακατασκευή του ακατέργαστου ήχου κυματομορφής και χρησιμοποιείται ένα ιεραρχικό συμπέρασμα μεταβλητής για τη σύνδεση των ακουστικών αναπαραστάσεων με τις γλωσσικές αναπαραστάσεις πολλαπλών διαδρομών. Το πλαίσιο χρησιμοποιεί επίσης α ιεραρχική προσαρμοστική γεννήτρια(HAG) για τη δημιουργία δειγμάτων σημασιολογικής προς κυματομορφή και οι παραγόμενες αναπαραστάσεις που περιλαμβάνουν μια αναπαράσταση στυλ και μια ακουστική αναπαράσταση τροφοδοτούνται στην πηγή και στις γεννήτριες κυματομορφών.
Κείμενο στο Vec
Για τη σύνθεση κειμένου σε ομιλία, το πλαίσιο HierSpeech++ χρησιμοποιεί ένα μοντέλο κειμένου σε vec ή TTV που δημιουργεί μια θεμελιώδη συχνότητα και μια σημασιολογική αναπαράσταση από μια ακολουθία κειμένου και χρησιμοποιεί μια μονοτονική αναζήτηση στοίχισης σε συνδυασμό με έναν μεταβλητό αυτόματο κωδικοποιητή για να ευθυγραμμίσει την ομιλία και το κείμενο εσωτερικά. Το πλαίσιο HierSpeech++ αντικαθιστά στη συνέχεια το γραμμικό φασματογράφημα με μια αυτοεπιβλεπόμενη γραμμική αναπαράσταση και ανακατασκευάζει την ίδια αναπαράσταση για να χρησιμεύσει ως έξοδος για το TTV.
Επιπλέον, το πλαίσιο HierSpeech++ προβλέπει τη θεμελιώδη συχνότητα με τέσσερις φορές μεγαλύτερες αναλύσεις σε σύγκριση με τις αυτοεποπτευόμενες αναπαραστάσεις ομιλίας και χρησιμοποιεί μια αναπαράσταση κειμένου υπό όρους ως προηγούμενη πληροφορία. Ως αποτέλεσμα των σημασιολογικών πληροφοριών των αυτοεποπτευόμενων αναπαραστάσεων ομιλίας, το πλαίσιο είναι ικανό να μεταφέρει το στυλ προσωδίας στο κείμενο στο μοντέλο vec και τροφοδοτεί μια λανθάνουσα αναπαράσταση στον κωδικοποιητή φωνήματος για να ενισχύσει τις γλωσσικές δυνατότητες της αναπαράστασης.
SpeechSR ή Speech Super Resolution
Το πλαίσιο HierSpeech++ εκπαιδεύεται σε ένα σύνολο δεδομένων σχετικά χαμηλής ανάλυσης όσον αφορά την αποτελεσματικότητα και τη διαθεσιμότητα δεδομένων και αναβαθμίζει μια κυματομορφή ομιλίας χαμηλής ανάλυσης σε μια κυματομορφή ομιλίας υψηλής ανάλυσης από 16 έως 48 kHz. Το πλαίσιο αντικαθιστά επίσης μια μεταφερθείσα συνέλιξη με τον πλησιέστερο γείτονα upsampler που ήταν προηγουμένως γνωστό ότι ανακουφίζει τα τεχνουργήματα ως αποτέλεσμα των μεταφερόμενων συνελίξεων.
Αρχιτεκτονική
Ο κωδικοποιητής περιεχομένου του μοντέλου κειμένου σε vec αποτελείται από 16 μη περιστασιακά επίπεδα WaveNet με μέγεθος πυρήνα 5 και κρυφό μέγεθος 256, ενώ ο αποκωδικοποιητής περιεχομένου αποτελείται από 8 μη περιστασιακά επίπεδα WaveNet με μέγεθος πυρήνα 5 και κρυφό μέγεθος 512. Το στοιχείο κωδικοποιητή κειμένου αποτελείται από τρία δίκτυα μετασχηματιστή υπό όρους προσωδίας και τρία δίκτυα μετασχηματιστή χωρίς όρους με μέγεθος πυρήνα 9, μέγεθος φίλτρου 1024 και κρυφό μέγεθος 256 με τον κωδικοποιητή κειμένου να έχει ποσοστό εγκατάλειψης 0.2. Για την κωδικοποίηση παρακείμενων πληροφοριών και για τη βελτίωση της προσαρμογής του στυλ προσωδίας, το πλαίσιο υιοθετεί ένα CNN με μέγεθος πυρήνα 5 σε μπλοκ Transformer. Το SpeechSR από την άλλη πλευρά περιλαμβάνει ένα ενιαίο μπλοκ AMP με 32 αρχικά κανάλια χωρίς την παρουσία ενός επιπέδου upsampling. Το πλαίσιο χρησιμοποιεί έναν πλησιέστερο γείτονα upsampler για να κάνει upsampling τις κρυφές αναπαραστάσεις και χρησιμοποιεί ένα MPD ως διαχωριστικό με έξι διαφορετικά μεγέθη παραθύρων και τέσσερις διαχωριστές υποζώνης.
Το παραπάνω σχήμα δείχνει τη γραμμή συμπερασμάτων του πλαισίου HierSpeech++ που ξεκινά με την εξαγωγή των σημασιολογικών αναπαραστάσεων από τον ήχο σε συχνότητα 16 kHz και στη θεμελιώδη συχνότητα χρησιμοποιώντας τον αλγόριθμο YAPPT. Προτού η θεμελιώδης συχνότητα μπορεί να τροφοδοτηθεί στον Ιεραρχικό Συνθέτη, κανονικοποιείται χρησιμοποιώντας τις τυπικές και μέσες αποκλίσεις του ήχου πηγής και η κανονικοποιημένη θεμελιώδης συχνότητα στη συνέχεια αποκανονικοποιείται χρησιμοποιώντας την τυπική και μέση απόκλιση του ήχου στόχου. Για εξαγωγές κειμένου σε ομιλία, το πλαίσιο HierSpeech++ εξάγει αναπαραστάσεις κειμένου αντί για αναπαραστάσεις ομιλίας και χρησιμοποιεί το μοντέλο κειμένου σε vec για να δημιουργήσει μια σημασιολογική αναπαράσταση από την προτροπή προσωδίας.
Πείραμα και Αποτελέσματα
Το πλαίσιο χρησιμοποιεί το δημοσίως διαθέσιμο σύνολο δεδομένων LibriTTS για να εκπαιδεύσει το συστατικό του ιεραρχικού συνθεσάιζερ, με το πρώτο βήμα να είναι η εκπαίδευση του μοντέλου με τα trainclean υποσύνολα του συνόλου δεδομένων και η χρήση των υπόλοιπων δεδομένων για να καταστεί δυνατή η βελτιωμένη μεταφορά του στυλ φωνής. Επιπλέον, για να βελτιωθεί η ποικιλομορφία και η ευρωστία, το πλαίσιο αναβαθμίζει το σύνολο δεδομένων σε 1 kHz, όπως φαίνεται στο παρακάτω σχήμα.
Ανακατασκευή, εργασίες επανασύνθεσης και μετατροπή φωνής
Για να αξιολογήσουν την απόδοση του πλαισίου HierSpeech++ σε εργασίες ανακατασκευής και επανασύνθεσης, οι προγραμματιστές πραγματοποίησαν επτά αντικειμενικές μετρήσεις και τα αποτελέσματα παρουσιάζονται στα ακόλουθα σχήματα για εργασίες ανακατασκευής και επανασύνθεσης αντίστοιχα.
Για εργασίες φωνητικής μετατροπής, το πλαίσιο χρησιμοποιεί δύο υποκειμενικές μετρήσεις για αξιολόγηση: ομοιότητα φωνής MOS ή sMOS και μέσος όρος βαθμολογίας γνώμης φυσικότητας του nMOS με τρεις αντικειμενικές μετρήσεις φυσικότητας και δύο μετρήσεις στόχου ομοιότητας.
Συνεχίζοντας, ο πρωταρχικός στόχος του πλαισίου HierSpeech++ είναι να ενεργοποιήσει τη σύνθεση ομιλίας μηδενικής λήψης και να αξιολογήσει την απόδοσή του σε μηδενική λήψη, συγκρίνεται με άλλα βασικά μοντέλα όπως το AutoVC, το VoiceMixer, Μοντέλα που βασίζονται στη διάχυση, και πολλά άλλα με τα αποτελέσματα να φαίνονται στο παρακάτω σχήμα.
Τα παρακάτω σχήματα δείχνουν το μηδενικό κείμενο σε ομιλία αποτελέσματα με θορυβώδεις προτροπές και πολύ θορυβώδεις προτροπές αντίστοιχα.
Τελικές Σκέψεις
Σε αυτό το άρθρο, έχουμε μιλήσει για το μοντέλο HierSpeech++, μια νέα προσέγγιση που επιτρέπει την ισχυρή και αποτελεσματική σύνθεση ομιλίας σε μια ρύθμιση μηδενικής λήψης και την υπέρβαση των περιορισμών που αντιμετωπίζουν τα τρέχοντα πλαίσια σύνθεσης ομιλίας, συμπεριλαμβανομένης της υπερβολικής εξάρτησής τους από μεγάλες ποσότητες εκπαίδευσης δεδομένα, εξάρτηση από διακριτές μονάδες ομιλίας ή προεκπαιδευμένο νευρωνικό κωδικοποιητή ήχου και την τάση τους να δημιουργούν αυτόματα έξοδο ήχου που τελικά προκαλεί έλλειψη ευρωστίας και αργές ταχύτητες παρεμβολής και οδηγεί σε εσφαλμένη προφορά, παράβλεψη ή επανάληψη. Το μοντέλο HierSpeech++ είναι ένα πλήρως παράλληλο, πρωτότυπο και ισχυρό πλαίσιο ιεραρχικής σύνθεσης ομιλίας που στοχεύει στη σύνθεση δειγμάτων ομιλίας σε μια ρύθμιση μηδενικής λήψης και επιχειρεί να κάνει τις ακόλουθες συνεισφορές
- Χρησιμοποιώντας ένα ιεραρχικό πλαίσιο σύνθεσης ομιλίας για τον έλεγχο και τη μεταφορά στυλ φωνής και προσωδίας.
- Ενεργοποιήστε την επεκτασιμότητα δεδομένων και τη σύνθεση ομιλίας υψηλής ανάλυσης αναβαθμίζοντας τον ήχο κυματομορφής από 16 σε 48 kHz.
- Αποκτήστε ικανότητα σε ανθρώπινο επίπεδο σε εργασίες μετατροπής φωνής μηδενικής λήψης και μετατροπής κειμένου σε ομιλία.