Μοντέλα και πλατφόρμες AI

HierSpeech++ : Ιεραρχική Διαμεσολαβική Εικασία για Zero-Shot Συνθετική Ομιλία

Δημοσιεύτηκε 19 Δεκεμβρίου 2023

Ενημερώθηκε 22 Μαΐου 2026

Kunal Kejriwal

Οι πρόσφατες εξελίξεις και η πρόοδος στις ικανότητες των μεγάλων μοντέλων γλωσσών έχουν παίξει einen κρίσιμο ρόλο στις προόδους των πλαισίων LLM-βασισμένων για την γεννήσει ήχου και συνθετικής ομιλίας, ιδιαίτερα σε ένα zero-shot περιβάλλον. Τα παραδοσιακά πλαισία συνθετικής ομιλίας έχουν δει σημαντικές προόδους ως αποτέλεσμα της ενσωμάτωσης πρόσθετων χαρακτηριστικών όπως νευρωνικά κώδικες ήχου για διακριτό ήχο και ομιλία. Παρόλα αυτά, αυτά τα πλαισία συνθετικής ομιλίας και ήχου παρέχουν ικανοποιητικά αποτελέσματα, vẫn υπάρχει χώρος για βελτίωση, καθώς τα τρέχοντα πλαισία LLM-βασισμένων ήχου έχουν τις ακόλουθες τρεις μεγάλες περιορισμοί

Τείνουν να αυτο-γεννήσουν ήχο που τελικά προκαλεί έλλειψη robustness και αργή ταχύτητα inference, με αποτέλεσμα λάθη προφοράς, παραλείψεις ή επαναλήψεις.
Τείνουν να βασίζονται υπερβολικά σε διακριτές μονάδες ομιλίας ή προ-εκπαιδευμένους νευρωνικούς κώδικες ήχου.
Συνήθως απαιτούν μεγάλο όγκο εκπαιδευτικών δεδομένων.

Για να αντιμετωπιστούν τα προβλήματα που αναφέρθηκαν παραπάνω και να βελτιωθούν οι ικανότητες των μοντέλων LLM-βασισμένων ήχου και συνθετικής ομιλίας, οι développers έχουν δημιουργήσει το HierSpeech++, ένα robust και efficient zero-shot συνθετικό μοντέλο ομιλίας για φωνή και κείμενο σε ομιλία ή TTS μετατροπές. Το πλαισιο HierSpeech++ βασίζεται στις γνώσεις των ιεραρχικών πλαισίων συνθετικής ομιλίας που όχι μόνο αυξάνουν την robustness, αλλά και προσθέτουν στην εκφραστικότητα της συνθετικής ομιλίας, ενώ επίσης αυξάνουν την φυσικότητα και την ομοιότητα του ομιλητή της συνθετικής ομιλίας, ακόμη και σε ένα zero-shot περιβάλλον.

Σε αυτό το άρθρο, θα μιλήσουμε για το πλαισιο HierSpeech++ σε λεπτομέρειες και θα δούμε την αρχιτεκτονική, τη λειτουργία και τα αποτελέσματα του μοντέλου σε σύγκριση με τα state-of-the-art μοντέλα κειμένου και ήχου. Έτσι, ας ξεκινήσουμε.

HierSpeech++ : Ιεραρχική Διαμεσολαβική Εικασία για Zero-Shot Συνθετική Ομιλία

Το HierSpeech++ είναι ένα γρήγορο, robust και efficient zero-shot συνθετικό πλαισιο που χρησιμοποιεί μια ιεραρχική συνθετική ομιλία pipeline, και με την υιοθέτηση αυτής της πλήρως-παράλληλης συνθετικής ομιλίας, το μοντέλο HierSpeech++ είναι σε θέση να μεγιστοποιήσει το δυναμικό της υψηλής ποιότητας γεννήσεως ήχου για να γεφυρώσει το χάσμα μεταξύ σημασιολογικών και ακουστικών αναπαραστάσεων, υιοθετώντας μια αυτο-επιτηρούμενη ομιλιακή αναπαράσταση ως σημασιολογική ομιλιακή αναπαράσταση, και έτσι προσπαθεί να λύσει τα τρέχοντα περιορισμοί των στυλ προσαρμογών. Η πλήρως-παράλληλη συνθετική ομιλία αρχιτεκτονική εισήχθη για πρώτη φορά από το μοντέλο VITS, και υιοθετεί einen VAE ή Variational Auto-Encoder με αυξημένη αντιπαλότητα και κανονικοποίηση ροής. Επιπλέον, τα VAE-βασισμένα πλαισία με πλήρως-παράλληλη εκπαίδευση έχουν την ικανότητα να γεννήσουν υψηλής ποιότητας ήχο με την αντίληψη της συνθετικής ομιλίας να είναι σημαντικά καλύτερη από εκείνη που παράγεται από άλλα πλαισία συνθετικής ομιλίας.

Η ποιότητα ανακατασκευής ήχου αυτών των πλαισίων μπορεί να ενισχυθεί περαιτέρω με τη χρήση μιας ιεραρχικής συνθηκικής Variational AutoEncoder, όπως χρησιμοποιείται στο πλαισιο HierSpeech.尽管 αυτά τα πλαισία έχουν δυνατότητες, τα πλαισία με πλήρως-παράλληλη εκπαίδευση έχουν ορισμένα περιορισμοί, ιδιαίτερα σε ένα zero-shot περιβάλλον, καθώς και αν μπορούν να συνθέσουν δείγματα ομιλίας με υψηλής ποιότητας ήχο, η ομοιότητα του ομιλητή σε zero-shot φωνητικές κλωνοποίηση εργασίες είναι ακόμη γεμάτη με υψηλή υπολογιστική πολυπλοκότητα. Από την άλλη πλευρά, τα diffusion-βασισμένα πλαισία συνθετικής ομιλίας εκτελούν καλά σε όρους προσαρμογής ομιλητή, αλλά είναι ακόμη μακριά από την τελειότητα, καθώς χρησιμοποιούν μια διαδραστική διαδικασία γεννήσεως που επιβραδύνει την ταχύτητα inference, είναι συχνά ευάλωτα σε θορυβώδεις δεδομένα, και ως αποτέλεσμα της ανισότητας μεταξύ εκπαίδευσης και inference της δύο-στάθμης διαδικασίας γεννήσεως μεταξύ του Mel-φάσματος και του γεννημένου ground-truth, η ποιότητα ήχου δεν είναι στο επίπεδο.

Για να αντιμετωπιστούν τα προβλήματα που αντιμετωπίζουν οι προκάτοχοί του, το μοντέλο HierSpeech++ χρησιμοποιεί einen ιεραρχικό συνθετή ομιλίας, einen ομιλιακό super-ανάλυση και einen κείμενο σε vec συνιστώσα, και εισάγει einen βελτιωμένο ιεραρχικό συνθετή ομιλίας που βασίζεται στην ιεραρχική συνθηκική VAE ή Variational AutoEncoder. Σε μια προσπάθεια να ενισχύσει την ποιότητα ήχου πέρα από την αντίληψη, το πλαισιο HierSpeech++ υιοθετεί einen dual-ήχο για να ενισχύσει την ακουστική μεταγενέστερη, και να βελτιώσει την γενίκευση εκτός του κατανομής με την υιοθέτηση einen ιεραρχικού προσαρμοστικού γεννήτορα που είναι εξοπλισμένος με συνθηκτική και ασυνθήκη γεννήσεως. Επιπλέον, για να αποσυνδέσει τις συνιστώσες ομιλίας και να ενισχύσει τις σχετικές και ασχετικές σημασιολογικές πληροφορίες, το πλαισιο HierSpeech++ υιοθετεί einen πηγή-φίλτρο-θεωρία-βασισμένο multi-πρόσωπο σημασιολογικό κωδικοποιητή. Ως αποτέλεσμα της υιοθέτησης eines Variational AutoEncoder, το μοντέλο HierSpeech++ μπορεί να συνδέσει και να μάθει αναπαραστάσεις ιεραρχικά, και να προσαρμοστεί σταδιακά στο στυλ φωνής του στόχου για να εικαστεί ο ήχος. Επιπλέον, το πλαισιο HierSpeech++ αναπτύσσει einen διπλής κατεύθυνσης δικτύου μετασχηματισμού ροής σε μια προσπάθεια να ενισχύσει την προσαρμογή και να μειώσει την ανισότητα μεταξύ εκπαίδευσης και inference.

Συνολικά, το μοντέλο HierSpeech++ είναι ένα πλήρως-παράλληλο, νέο και robust ιεραρχικό πλαισιο συνθετικής ομιλίας που στοχεύει στην συνθέσει δειγμάτων ομιλίας σε ένα zero-shot περιβάλλον, και προσπαθεί να κάνει τις ακόλουθες συνεισφορές

Χρησιμοποιώντας einen ιεραρχικό συνθετή ομιλίας για να ελέγξει και να μεταφέρει στυλ φωνής και προσωδία.
Ενεργοποίηση της κλιμάκωσης δεδομένων και της υψηλής ανάλυσης συνθετικής ομιλίας με την υπερ-δείγματος του ήχου από 16 σε 48 kHz.
Επίκτηση ανθρώπινου επιπέδου ικανοτήτων σε zero-shot φωνητική μετατροπή και κείμενο σε ομιλία εργασίες.

HierSpeech++ : Στοιχεία Μοντέλου και Αρχιτεκτονική

Όπως συζητήθηκε, το HierSpeech++ είναι ένα zero-shot συνθετικό μοντέλο ομιλίας που προσπαθεί να επιτύχει ανθρώπινη-επίπεδο ακρίβεια σε όρους ομοιότητας φωνής και φυσικότητας ομιλίας.

Το μοντέλο HierSpeech++ αποτελείται από διάφορα στοιχεία, συμπεριλαμβανομένων eines ιεραρχικού συνθετή ομιλίας, eines ομιλιακού super-ανάλυσης και eines κειμένου σε vec που λειτουργούν σε συγχρονισμό για να διευκολύνουν την εκπαίδευση του κάθε μοντέλου που μπορεί να χρησιμοποιήσει αποτελεσματικά einen μεγάλο όγκο χαμηλής ανάλυσης δεδομένων για κλωνοποίηση φωνής. Ας αναλύσουμε το πλαισιο και να μιλήσουμε για κάθε στοιχείο.

Αναπαραστάσεις Ομιλίας

Όπως η ζώνη συχνότητας του ανθρώπινου είναι κάτω από 4 kHz, για συνθετική ομιλία, το πλαισιο HierSpeech++ υποδείγματος τον ήχο σε 16 kHz. Επιπλέον, για την ανακατασκευή του σήματος φωνής, είναι σημαντικό να χρησιμοποιηθεί τουλάχιστον διπλάσιο του υψηλότερου συνθέτη συχνότητας φωνής, μαζί με την υπο-δείγματος του ήχου. Για να επιτύχει την ενισχυμένη αντίληψη ποιότητας, το πλαισιο HierSpeech++ χρησιμοποιεί einen ομιλιακό super-ανάλυση ή SpeechSR συνιστώσα για να υπερ-δείγματος τον ήχο από 16 σε 48 kHz, και χρησιμοποιεί χαμηλής ανάλυσης αναπαραστάσεις για σημασιολογικές και ακουστικές αναπαραστάσεις.

Για ακουστικές αναπαραστάσεις, ένα παραδοσιακό κείμενο σε ομιλία ή TTS πλαισιο χρησιμοποιεί einen Mel-φάσμα ως μεσοδιαμεσολαβική ακουστική χαρακτηριστική που μετατρέπεται από τον ήχο με τη βοήθεια eines STFT ή Short-Time Fourier Transform. Ωστόσο, είναι αξιοσημείωτο ότι поскольку οι ακουστικές αναπαραστάσεις είναι πλούσιες αναπαραστάσεις που περιλαμβάνουν διάφορες ιδιότητες, συμπεριλαμβανομένων του περιεχομένου και της προφορά, πληροφορίες φωνής, και άλλα που καθιστούν δύσκολο για το πλαισιο να εικαστεί αυτές τις αναπαραστάσεις, μια κατάσταση που συχνά οδηγεί σε λάθη προφοράς, έλλειψη ομοιότητας ή υπερ-κατα 平滑ποίηση της ομιλίας.

Συνεχίζοντας, για να εξαγάγει μια συνεχής σημασιολογική αναπαράσταση από einen ήχο, το πλαισιο HierSpeech++ χρησιμοποιεί einen Wav2Vec πλαισιο, σε αντίθεση με την δημοφιλή αυτο-επιτηρούμενη ομιλιακή αναπαράσταση για σημασιολογικές αναπαραστάσεις.尽管 αυτή η προσέγγιση αποτελεί μια καλή εναλλακτική για einen πλούσιο μονόγλωσσο μοντέλο, επηρεάζει την ικανότητα zero-shot φωνητικής κλωνοποίησης του μοντέλου σε όρους robustness και εκφραστικότητας, ιδιαίτερα σε πολυγλωσσικές συνθετικές ομιλίας εργασίες.

Ιεραρχικός Συνθετής Ομιλίας

Η συνιστώσα Ιεραρχικού Συνθετή Ομιλίας είναι η θεμέλιο του πλαισιου HierSpeech++, καθώς επιτρέπει την εκπαίδευση του μοντέλου χωρίς τη χρήση ετικετών όπως κείμενο μεταγραφές ή ομιλητή id, και βασίζεται αποκλειστικά σε δεδομένα ομιλίας. Για να αυξήσει την ακουστική ικανότητα, προηγούμενα state-of-the-art μοντέλα συνθετικής ομιλίας αντικατέστησαν το Mel-φάσμα με einen γραμμικό φάσμα, ωστόσο, αυτή η προσέγγιση ελαττώνει την KL-απόσταση σε όρους pitch περιοδικότητας, PESQ, φωνής και αφωνίας σκορ, και ακόμη Mel-φάσματος απόστασης. Ο Ιεραρχικός Συνθετής Ομιλίας χρησιμοποιεί einen Dual-ήχο Ακουστικό Κωδικοποιητή για να λύσει τις προκλήσεις που παρουσιάζονται από την χρήση eines γραμμικού φάσματος, σχεδιασμένου για να καταγράψει πλουσιότερες και πιο ολοκληρωμένες ακουστικές αναπαραστάσεις. Το πλαισιο επίσης χρησιμοποιεί einen ήχο κωδικοποιητή για να εξαγάγει πληροφορίες από einen raw ήχο, και τις συνδυάζει με την γραμμική φασματική αναπαράσταση, και τελικά προβάλλει την ακουστική αναπαράσταση ως μια συνδυασμένη αναπαράσταση.

Επιπλέον, για να αντιμετωπιστούν οι ασχετικές και σχετικές σημασιολογικές αναπαραστάσεις, το πλαισιο HierSpeech++ χρησιμοποιεί einen multi-πρόσωπο αυτο-επιτηρούμενη ομιλιακή αναπαράσταση, όπου κάθε μεμονωμένη αναπαράσταση χρησιμοποιείται για ιεραρχική στυλ προσαρμογή με τις σημασιολογικές αναπαραστάσεις που εξάγονται για να ληφθούν γλωσσικές πληροφορίες από το μεσαίο επίπεδο του MMS. Το πλαισιο επίσης χρησιμοποιεί einen θεμελιώδη συχνότητα για να ενισχύσει την ομιλιακή αποσύνδεση που επιτρέπει τον χειρισμό του πίτσου контουρά. Το πλαισιο επίσης χρησιμοποιεί eine γλωσσική αναπαράσταση ως συνθηκτική πληροφορία για να γεννήσει ήχο ιεραρχικά, και χρησιμοποιεί μια ενισχυμένη γλωσσική αναπαράσταση της αυτο-επιτηρούμενης αναπαράστασης. Είναι επίσης αξιοσημείωτο ότι οι ακουστικές αναπαραστάσεις που εξάγονται κατά την εκπαίδευση με την χρήση eines ήχου και γραμμικού φάσματος χρησιμοποιούνται για να ανακατασκευάσουν τον raw ήχο, και eine ιεραρχική διαμεσολαβική εικασία χρησιμοποιείται για να συνδέσει τις ακουστικές αναπαραστάσεις με τις multi-πρόσωπο γλωσσικές αναπαραστάσεις. Το πλαισιο επίσης χρησιμοποιεί einen ιεραρχικό προσαρμοστικό γεννήτορα για να γεννήσει σημασιολογικές-σε-ήχο δείγματα, και οι γεννημένες αναπαραστάσεις που περιλαμβάνουν eine στυλ αναπαράσταση και eine ακουστική αναπαράσταση τροφοδοτούν τους πηγαίους και ήχου γεννήτορες.

Κείμενο σε Vec

Για κείμενο σε ομιλία συνθετική ομιλία, το πλαισιο HierSpeech++ χρησιμοποιεί einen κείμενο σε vec ή TTV μοντέλο που γεννήσει eine θεμελιώδη συχνότητα και eine σημασιολογική αναπαράσταση από einen κειμένου ακολουθία, και χρησιμοποιεί eine μονοτονική αναζήτηση συγχρονισμού με einen διαμεσολαβικό αυτο-κωδικοποιητή για να συγχρονίσει την ομιλία και το κείμενο εσωτερικά. Το πλαισιο HierSpeech++ αντικαθιστά το γραμμικό φάσμα με eine αυτο-επιτηρούμενη γραμμική αναπαράσταση, και ανακατασκευάζει την ίδια αναπαράσταση για να χρησιμεύσει ως η έξοδος για το TTV.

Επιπλέον, το πλαισιο HierSpeech++ προβλέπει την θεμελιώδη συχνότητα με τέσσερις φορές μεγαλύτερη ανάλυση σε σύγκριση με τις αυτο-επιτηρούμενες ομιλιακές αναπαραστάσεις, και χρησιμοποιεί eine συνθηκτική κειμένου αναπαράσταση ως την προηγούμενη πληροφορία. Ως αποτέλεσμα της σημασιολογικής πληροφορίας των αυτο-επιτηρούμενων ομιλιακών αναπαραστάσεων, το πλαισιο είναι ικανό να μεταφέρει το στυλ προσωδίας στο κείμενο σε vec μοντέλο, και τροφοδοτεί eine.latent αναπαράσταση στο φωνητικό κωδικοποιητή για να ενισχύσει τις γλωσσικές ικανότητες της αναπαράστασης.

Ομιλιακή Super-Ανάλυση ή SpeechSR

Το πλαισιο HierSpeech++ εκπαιδεύεται σε ένα σχετικά χαμηλής ανάλυσης dataset σε όρους δεδομένων και διαθεσιμότητας, και υπερ-δείγματος einen χαμηλής ανάλυσης ομιλιακό ήχο από 16 σε 48 kHz. Το πλαισιο επίσης αντικαθιστά einen μεταposed convolution με einen nearest neighbor upsampler που έχει προηγουμένως γνωστοποιηθεί για να ανακουφίσει τα артеφакты που προκαλούνται από μεταposed convolutions.

Αρχιτεκτονική

Ο κωδικοποιητής περιεχομένου του κειμένου σε vec μοντέλου αποτελείται από 16 μη-καταρράκτου WaveNet στρώματα με ένα μέγεθος πυρήνα 5 και ένα κρυφό μέγεθος 256, ενώ ο αποκωδικοποιητής περιεχομένου αποτελείται από 8 μη-καταρράκτου WaveNet στρώματα με ένα μέγεθος πυρήνα 5 και ένα κρυφό μέγεθος 512. Ο κωδικοποιητής κειμένου αποτελείται από τρία προσωδίας-συνθηκτικά Transformer δίκτυα και τρία ασυνθήκη Transformer δίκτυα με ένα μέγεθος πυρήνα 9, φίλτρου μέγεθος 1024 και ένα κρυφό μέγεθος 256 με τον κωδικοποιητή κειμένου να έχει ένα ποσοστό απόρριψης 0.2. Για να κωδικοποιήσει γειτονικές πληροφορίες και να ενισχύσει την προσαρμογή στυλ, το πλαισιο υιοθετεί einen CNN με ένα μέγεθος πυρήνα 5 στα Transformer μπλοκ. Η SpeechSR από την άλλη πλευρά αποτελείται από einen đơnικό AMP μπλοκ με 32 αρχικές διαύλους χωρίς την παρουσία ενός upsampling στρώματος. Το πλαισιο χρησιμοποιεί einen nearest neighbor upsampler για να υπερ-δείγματος τις κρυφές αναπαραστάσεις και χρησιμοποιεί einen MPD ως τον διακρίβωνα με έξι διαφορετικά μεγέθη παραθύρου και τέσσερις υπο-ζώνες διακρίβωνες.

Η παραπάνω εικόνα δείχνει την inference pipeline του πλαισιου HierSpeech++ που ξεκινά με την εξαγωγή των σημασιολογικών αναπαραστάσεων από τον ήχο σε eine συχνότητα 16 kHz και στη θεμελιώδη συχνότητα με τη βοήθεια του YAPPT αλγορίθμου. Πριν η θεμελιώδης συχνότητα μπορεί να τροφοδοτηθεί στον Ιεραρχικό Συνθετή, είναι normalized χρησιμοποιώντας το πρότυπο και την απόκλιση του πηγαίου ήχου, και η normalized θεμελιώδης συχνότητα είναι στη συνέχεια denormalized χρησιμοποιώντας το πρότυπο και την απόκλιση του στόχου ήχου. Για κείμενο σε ομιλία εξαγωγές, το πλαισιο HierSpeech++ εξάγει κειμενικές αναπαραστάσεις αντί για ομιλιακές αναπαραστάσεις, και χρησιμοποιεί το κείμενο σε vec μοντέλο για να γεννήσει eine σημασιολογική αναπαράσταση από το προσωδίας prompt.

Πείραμα και Αποτελέσματα

Το πλαισιο χρησιμοποιεί το δημόσια διαθέσιμο LibriTTS dataset για να εκπαιδεύσει τον ιεραρχικό συνθετή ομιλίας με το πρώτο βήμα να είναι η εκπαίδευση του μοντέλου με τα trainclean υποσύνολα του dataset, και χρησιμοποιώντας τα υπόλοιπα δεδομένα για να ενισχύσει την μεταφορά του στυλ φωνής. Επιπλέον, για να βελτιώσει την ποικιλία και την robustness, το πλαισιο υπερ-δείγματος το dataset σε 1 kHz όπως φαίνεται στην ακόλουθη εικόνα.

Ανακατασκευή, Resynthesis Εργασίες και Φωνητική Μετατροπή

Για να αξιολογήσει την απόδοση του πλαισιου HierSpeech++ σε ανακατασκευή και resynthesis εργασίες, οι développers διεξήγαγαν επτά αντικειμενικά μετρικά, και τα αποτελέσματα παρουσιάζονται στις ακόλουθες εικόνες για ανακατασκευή και resynthesis εργασίες αντίστοιχα.

Για φωνητική μετατροπή εργασίες, το πλαισιο χρησιμοποιεί δύο υποκειμενικά μετρικά για αξιολόγηση: φωνητική ομοιότητα MOS ή sMOS και φυσικότητα μέσο όρο γνώμης της nMOS με τρία φυσικότητας αντικειμενικά μετρικά, και δύο ομοιότητας αντικειμενικά μετρικά.

Συνεχίζοντας, ο κύριος στόχος του πλαισιου HierSpeech++ είναι να ενεργοποιήσει την zero-shot συνθετική ομιλία, και για να αξιολογήσει την απόδοσή του σε zero-shot, το πλαισιο συγκρίνεται με άλλα βασικά μοντέλα όπως AutoVC, VoiceMixer, Diffusion-βασισμένα μοντέλα, και πολλά άλλα με τα αποτελέσματα να παρουσιάζονται στην ακόλουθη εικόνα.

Οι ακόλουθες εικόνες δείχνουν τα zero-shot κείμενο σε ομιλία αποτελέσματα με θορυβώδεις prompts, και πολύ θορυβώδεις prompts αντίστοιχα.

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το μοντέλο HierSpeech++, μια νέα προσέγγιση για να ενεργοποιήσει robust και αποτελεσματική συνθετική ομιλία σε ένα zero-shot περιβάλλον, και να υπερβεί τα περιορισμοί που αντιμετωπίζουν τα τρέχοντα πλαισία συνθετικής ομιλίας, συμπεριλαμβανομένων της υπερ-εξάρτησης τους από großen όγκους εκπαιδευτικών δεδομένων, της εξάρτησής τους από διακριτές ομιλιακές μονάδες ή προ-εκπαιδευμένους νευρωνικούς κώδικες ήχου, και της τάσης τους να αυτο-γεννήσουν ήχο που τελικά προκαλεί έλλειψη robustness και αργή ταχύτητα inference, με αποτέλεσμα λάθη προφοράς, παραλείψεις ή επαναλήψεις. Το μοντέλο HierSpeech++ είναι ένα πλήρως-παράλληλο, νέο και robust ιεραρχικό πλαισιο συνθετικής ομιλίας που στοχεύει στην συνθέσει δειγμάτων ομιλίας σε ένα zero-shot περιβάλλον, και προσπαθεί να κάνει τις ακόλουθες συνεισφορές

Χρησιμοποιώντας einen ιεραρχικό συνθετή ομιλίας για να ελέγξει και να μεταφέρει στυλ φωνής και προσωδία.
Ενεργοποίηση της κλιμάκωσης δεδομένων και της υψηλής ανάλυσης συνθετικής ομιλίας με την υπερ-δείγματος του ήχου από 16 σε 48 kHz.
Επίκτηση ανθρώπινου επιπέδου ικανοτήτων σε zero-shot φωνητική μετατροπή και κείμενο σε ομιλία εργασίες.

Kunal Kejriwal

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.

Unite.AI

HierSpeech++ : Ιεραρχική Διαμεσολαβική Εικασία για Zero-Shot Συνθετική Ομιλία

HierSpeech++ : Ιεραρχική Διαμεσολαβική Εικασία για Zero-Shot Συνθετική Ομιλία

HierSpeech++ : Στοιχεία Μοντέλου και Αρχιτεκτονική

Αναπαραστάσεις Ομιλίας

Ιεραρχικός Συνθετής Ομιλίας

Κείμενο σε Vec

Ομιλιακή Super-Ανάλυση ή SpeechSR

Αρχιτεκτονική

Πείραμα και Αποτελέσματα

Ανακατασκευή, Resynthesis Εργασίες και Φωνητική Μετατροπή

Τελικές Σκέψεις

Ανακαλύψτε περισσότερα