Τεχνητή νοημοσύνη

StyleTTS 2: Ανθρώπινη-Επίπεδο Κείμενο-Σε-Ομιλία με Μεγάλες Γλωσσικές Μοντέλα Ομιλίας

Δημοσιεύτηκε 4 Δεκεμβρίου 2023

Ενημερώθηκε 22 Μαΐου 2026

Kunal Kejriwal

Λόγω της αύξησης των φυσικών και συνθετικών προσεγγίσεων σύνθεσης ομιλίας, μια από τις σημαντικότερες επιτυχίες που έχει επιτύχει η βιομηχανία του AI τα τελευταία χρόνια είναι η αποτελεσματική σύνθεση πλαισίων κειμένου-σε-ομιλία με πιθανές εφαρμογές σε διάφορους τομείς, συμπεριλαμβανομένων των ηχητικών βιβλίων, των εικονικών βοηθών, των αφηγήσεων και πολλών άλλων, με ορισμένα μοντέλα να παρέχουν ανθρώπινη-επίπεδο απόδοση και αποτελεσματικότητα σε eine ευρεία γκάμα ομιλιακών εργασιών. Ωστόσο, παρά την ισχυρή απόδοσή τους, vẫn υπάρχει χώρος για βελτίωση για εργασίες λόγω εκφραστικής και ποικίλης ομιλίας, απαιτήσεις για μεγάλο όγκο δεδομένων εκπαίδευσης για την βελτιστοποίηση των πλαισίων κειμένου-σε-ομιλία zero-shot, και robustness για OOD ή Εκτός-Κατανομής κειμένων, οδηγώντας τους développers να εργαστούν σε ένα πιο robust και προσιτό πλαίσιο κειμένου-σε-ομιλία.

Σε αυτό το άρθρο, θα μιλήσουμε για το StyleTTS-2, ένα robust και καινοτόμο πλαίσιο κειμένου-σε-ομιλία που είναι χτισμένο στις βάσεις του πλαισίου StyleTTS, και στοχεύει να παρουσιάσει το επόμενο βήμα προς τα state-of-the-art συστήματα κειμένου-σε-ομιλία. Το πλάισιο StyleTTS2 μοντελοποιεί τις στυλ ομιλίας ως τυχαίες μεταβλητές, και χρησιμοποιεί ένα πιθανολογικό μοντέλο διάχυσης για να δειγματίσει αυτές τις στυλ ομιλίας ή τυχαίες μεταβλητές, επιτρέποντας στο πλάισιο StyleTTS2 να συνθέσει πραγματική ομιλία αποτελεσματικά χωρίς να χρησιμοποιεί αναφορικές εισόδους ήχου. Λόγω της προσέγγισης, το πλάισιο StyleTTS2 είναι σε θέση να παρέχει καλύτερα αποτελέσματα και να δείξει υψηλή αποτελεσματικότητα σε σύγκριση με τα τρέχοντα state-of-the-art πλάisia κειμένου-σε-ομιλία, αλλά είναι επίσης σε θέση να επωφεληθεί από την ποικιλία σύνθεσης ομιλίας που προσφέρεται από τα μοντέλα διάχυσης. Θα συζητήσουμε το πλάισιο StyleTTS2 σε μεγαλύτερη λεπτομέρεια, και θα εξετάσουμε την αρχιτεκτονική και τη μεθοδολογία του, καθώς και τα αποτελέσματα που έχει επιτύχει το πλάισιο. Έτσι, ας ξεκινήσουμε.

StyleTTS2 για Σύνθεση Ομιλίας: Eine Εισαγωγή

Το StyleTTS2 είναι ένα καινοτόμο μοντέλο σύνθεσης κειμένου-σε-ομιλία που κάνει το επόμενο βήμα προς την κατασκευή ανθρώπινη-επίπεδο πλαισίων κειμένου-σε-ομιλία, και είναι χτισμένο πάνω στο StyleTTS, ένα στυλ-βασισμένο γενετικό μοντέλο κειμένου-σε-ομιλία. Το πλάισιο StyleTTS2 μοντελοποιεί τις στυλ ομιλίας ως τυχαίες μεταβλητές, και χρησιμοποιεί ένα πιθανολογικό μοντέλο διάχυσης για να δειγματίσει αυτές τις στυλ ομιλίας ή τυχαίες μεταβλητές, επιτρέποντας στο πλάισιο StyleTTS2 να συνθέσει πραγματική ομιλία αποτελεσματικά χωρίς να χρησιμοποιεί αναφορικές εισόδους ήχου. Η μοντελοποίηση των στυλ ως τυχαίων μεταβλητών είναι αυτό που διακρίνει το πλάισιο StyleTTS2 από τον προκάτοχό του, το πλάισιο StyleTTS, και στοχεύει να γεννήσει το πιο κατάλληλο στυλ ομιλίας για το εισαγόμενο κείμενο χωρίς να χρειάζεται αναφορική είσοδο ήχου, και είναι σε θέση να επιτύχει αποτελεσματικές.latent διάχυσεις ενώ επωφελείται από τις ποικίλες ικανότητες σύνθεσης ομιλίας που προσφέρονται από τα μοντέλα διάχυσης. Επιπλέον, το πλάισιο StyleTTS2 χρησιμοποιεί επίσης ένα προ-εκπαιδευμένο μεγάλο SLM ή Γλωσσικό Μοντέλο Ομιλίας ως διακρίβυλες όπως το WavLM, και το συνδυάζει με μια νέα διαφορική μεθοδολογία μοντελοποίησης διάρκειας για να εκπαιδεύσει το πλάισιο από άκρη σε άκρη, και τελικά να παράγει ομιλία με αυξημένη φυσικότητα. Λόγω της προσέγγισης που ακολουθεί, το πλάισιο StyleTTS2 υπερέχει των τρέχοντων state-of-the-art πλαισίων για εργασίες σύνθεσης ομιλίας, και είναι ένα από τα πιο αποτελεσματικά πλάisia για την προ-εκπαίδευση μεγάλων μοντέλων ομιλίας σε zero-shot ρύθμιση για εργασίες προσαρμογής ομιλητή.

Συνεχίζοντας, για να παρέχει ανθρώπινη-επίπεδο σύνθεση κειμένου-σε-ομιλία, το πλάισιο StyleTTs2 ενσωματώνει τα μαθήματα από τις υπάρχουσες εργασίες, συμπεριλαμβανομένων των μοντέλων διάχυσης για σύνθεση ομιλίας, και μεγάλων γλωσσικών μοντέλων ομιλίας. Τα μοντέλα διάχυσης χρησιμοποιούνται συνήθως για εργασίες σύνθεσης ομιλίας λόγω των ικανοτήτων τους για λεπτομερή έλεγχο ομιλίας, και ποικίλης δειγματοληψίας ομιλίας. Ωστόσο, τα μοντέλα διάχυσης δεν είναι τόσο αποτελεσματικά όσο τα GAN-βασισμένα μη-επαναληπτικά πλάisia, και ένας主要 λόγος για αυτό είναι η απαίτηση για δειγματοληψία.latent αναπαραστάσεων, κυμάτων, και μελ-φασμάτων επαναληπτικά μέχρι τη στόχευση διάρκειας της ομιλίας.

Από την άλλη πλευρά, πρόσφατες εργασίες γύρω από τα Μεγάλα Γλωσσικά Μοντέλα Ομιλίας έχουν δείξει την ικανότητά τους να βελτιώσουν την ποιότητα της σύνθεσης κειμένου-σε-ομιλία, και να προσαρμοστούν καλά στον ομιλητή. Τα Μεγάλα Γλωσσικά Μοντέλα Ομιλίας συνήθως μετατρέπουν το εισαγόμενο κείμενο είτε σε quantized είτε σε συνεχείς αναπαραστάσεις που προέρχονται από προ-εκπαιδευμένα γλωσσικά μοντέλα ομιλίας για εργασίες ανασυγκρότησης ομιλίας. Ωστόσο, τα χαρακτηριστικά των Γλωσσικών Μοντέλων Ομιλίας δεν είναι βελτιστοποιημένα για σύνθεση ομιλίας απευθείας. Αντίθετα, το πλάισιο StyleTTS2 επωφελείται από τις γνώσεις που έχουν αποκτηθεί από τα μεγάλα SLM πλάisia χρησιμοποιώντας ανταγωνιστική εκπαίδευση για να συνθέσει χαρακτηριστικά γλωσσικών μοντέλων ομιλίας χωρίς να χρησιμοποιεί χάρτες latents, και έτσι, μαθαίνοντας ένα χώρο latents που είναι βελτιστοποιημένος για σύνθεση ομιλίας απευθείας.

StyleTTS2: Αρχιτεκτονική και Μεθοδολογία

Στην καρδιά του, το StyleTTS2 είναι χτισμένο πάνω στο προκάτοχό του, το πλάισιο StyleTTS, το οποίο είναι ένα μη-αυτο-αναδρομικό πλάισιο κειμένου-σε-ομιλία που χρησιμοποιεί einen κωδικοποιητή στυλ για να εξαγάγει einen διανυσματικό στυλ από το αναφορικό ήχο, επιτρέποντας την εκφραστική και φυσική σύνθεση ομιλίας. Ο διανυσματικός στυλ που χρησιμοποιείται στο πλάισιο StyleTTS ενσωματώνεται απευθείας στον κωδικοποιητή, τη διάρκεια, και τους προβλέπτες χρησιμοποιώντας την AdaIN ή την Προσαρμοστική Ευστάθεια Εμφάνισης, επιτρέποντας στο πλάισιο StyleTTS να παράγει εξόδους ομιλίας με ποικίλες προσωδίες, διάρκεια, και ακόμη συναισθήματα. Το πλάισιο StyleTTS αποτελείται από 8 μοντέλα συνολικά που διαιρούνται σε τρεις κατηγορίες

Ακουστικά Μοντέλα ή Σύστημα Γεννήτριας Ομιλίας με einen κωδικοποιητή στυλ, einen κωδικοποιητή κειμένου, και einen αποκωδικοποιητή ομιλίας.
Ένα Σύστημα Πρόβλεψης Κειμένου-Σε-Ομιλία που χρησιμοποιεί προβλέπτες προσωδίας και διάρκειας.
Ένα Σύστημα Εργαλείων που περιλαμβάνει einen συγχρονιστή κειμένου, einen εξαγωγέα πίτσας, και einen διακρίβυλα για εκπαίδευση.

Λόγω της προσέγγισης, το πλάισιο StyleTTS παρέχει state-of-the-art απόδοση σχετικά με την ελεγχόμενη και ποικίλη σύνθεση ομιλίας. Ωστόσο, αυτή η απόδοση έχει τις δικές της μειονεκτήματα όπως η υποβάθμιση της ποιότητας του δείγματος, οι εκφραστικές περιορισμοί, και η εξάρτηση από εφαρμογές ομιλίας σε πραγματικό χρόνο.

Βελτιώνοντας το πλάισιο StyleTTS, το πλάισιο StyleTTS2 οδηγεί σε βελτιωμένη εκφραστική σύνθεση κειμένου-σε-ομιλία με βελτιωμένη απόδοση εκτός κατανομής, και υψηλή ανθρώπινη-επίπεδο ποιότητα. Το πλάισιο StyleTTS2 χρησιμοποιεί μια διαδικασία εκπαίδευσης από άκρη σε άκρη που βελτιστοποιεί τα διάφορα συστατικά με ανταγωνιστική εκπαίδευση, και απευθείας σύνθεση κυμάτων. Αντίθετα με το πλάισιο StyleTTS, το πλάισιο StyleTTS2 μοντελοποιεί την ομιλία ως μια τυχαία μεταβλητή, και τη δειγματίζει μέσω μοντέλων διάχυσης, παράγοντας ποικίλες δειγματοληψίες ομιλίας χωρίς να χρησιμοποιεί αναφορικό ήχο. Ας εξετάσουμε αυτά τα συστατικά σε μεγαλύτερη λεπτομέρεια.

Εκπαίδευση από Άκρη σε Άκρη για Διαδικασία

Στο πλάισιο StyleTTS2, μια διαδικασία εκπαίδευσης από άκρη σε άκρη χρησιμοποιείται για να βελτιστοποιήσει τα διάφορα συστατικά της σύνθεσης κειμένου-σε-ομιλία για διαδικασία χωρίς να εξαρτάται από σταθερά συστατικά. Το πλάισιο StyleTTS2 επιτύχει αυτό τροποποιώντας τον αποκωδικοποιητή για να παράγει το κύμα απευθείας από το διανυσματικό στυλ, τις καμπύλες πίτσας και ενέργειας, και τις συγχρονισμένες αναπαραστάσεις. Το πλάισιο StyleTTS2 χρησιμοποιεί δύο κωδικοποιητές: einen κωδικοποιητή HifiGAN-βασισμένο για να παράγει το κύμα απευθείας, και einen κωδικοποιητή iSTFT-βασισμένο για να παράγει φάση και μέγεθος που μετατρέπονται σε κύματα για ταχύτερη διαδικασία και εκπαίδευση.

Η παραπάνω εικόνα αντιπροσωπεύει τα ακουστικά μοντέλα που χρησιμοποιούνται για προ-εκπαίδευση και συν-εκπαίδευση. Για να μειώσει τον χρόνο εκπαίδευσης, τα μοντέλα είναι πρώτα βελτιστοποιημένα στη φάση προ-εκπαίδευσης, ακολουθούμενη από την βελτιστοποίηση όλων των συστατικών εκτός από τον εξαγωγέα πίτσας κατά τη συν-εκπαίδευση. Ο λόγος για τον οποίο η συν-εκπαίδευση δεν βελτιστοποιεί τον εξαγωγέα πίτσας είναι ότι χρησιμοποιείται για να παρέχει την αλήθεια για τις καμπύλες πίτσας.

Η παραπάνω εικόνα αντιπροσωπεύει την ανταγωνιστική εκπαίδευση και διαδικασία του Γλωσσικού Μοντέλου Ομιλίας με το WavLM, το οποίο είναι προ-εκπαιδευμένο αλλά όχι προ-ρυθμισμένο. Η διαδικασία διαφέρει από αυτή που αναφέρθηκε παραπάνω, καθώς μπορεί να λάβει ποικίλες εισόδους κειμένου, αλλά συσσωρεύει τις κλίσεις για να ενημερώσει τα παράμετρα σε κάθε δείγμα.

Διάχυση Στυλ

Το πλάισιο StyleTTS2 στοχεύει να μοντελοποιήσει την ομιλία ως μια συνθήκη κατανομή μέσω μιας τυχαίας μεταβλητής που ακολουθεί την συνθήκη κατανομή, και αυτή η μεταβλητή ονομάζεται γενικευμένο στυλ ομιλίας, και αντιπροσωπεύει οποιοδήποτε χαρακτηριστικό στην ομιλία πέρα από το φάσμα του φωνητικού περιεχομένου, συμπεριλαμβανομένων του λεξικού στρες, προσωδίας, ταχύτητας ομιλίας, και ακόμη μεταβάσεων φορμαντών.

Διακρίβυλες Γλωσσικών Μοντέλων Ομιλίας

Τα Γλωσσικά Μοντέλα Ομιλίας είναι γνωστά για τις γενικές τους ικανότητες να κωδικοποιούντι αξιοποιήσιμες πληροφορίες σε eine ευρεία γκάμα σημασιολογικών και ακουστικών аспектων, και οι αναπαραστάσεις SLM έχουν παραδοσιακά την ικανότητα να μιμούνται ανθρώπινες αντιλήψεις για να αξιολογήσουν την ποιότητα της παραγώμενης συνθετικής ομιλίας. Το πλάισιο StyleTTS2 χρησιμοποιεί μια ανταγωνιστική εκπαίδευση για να εκμεταλλευτεί την ικανότητα των κωδικοποιητών SLM να εκτελούν γενετικές εργασίες, και χρησιμοποιεί einen 12-στρωματικό WavLM ως διακρίβυλα. Αυτή η προσέγγιση επιτρέπει στο πλάισιο να εκπαιδεύσει OOD ή Εκτός-Κατανομής κειμένων που μπορούν να βελτιώσουν την απόδοση. Επιπλέον, για να αποφευχθούν προβλήματα υπερ-προσαρμογής, το πλάισιο δειγματίζει OOD κειμένου και κειμένου εντός κατανομής με ίση πιθανότητα.

Διαφορική Μοντελοποίηση Διάρκειας

Παραδοσιακά, ένας προβλέπτης διάρκειας χρησιμοποιείται σε πλάisia κειμένου-σε-ομιλία που παράγει διάρκειας φωνημάτων, αλλά οι μεθόδους δειγματοληψίας που χρησιμοποιούν αυτοί οι προβλέπτες διάρκειας συχνά μπλοκάρουν τη ροή της κλίσης κατά τη διαδικασία εκπαίδευσης από άκρη σε άκρη, και το πλάισιο NaturalSpeech χρησιμοποιεί einen προβλέπτη με βάση την προσοχή για ανθρώπινη-επίπεδο σύνθεση κειμένου-σε-ομιλία. Ωστόσο, το πλάισιο StyleTTS2 βρίσκει αυτήν την προσέγγιση να είναι ασταθής κατά τη διαδικασία ανταγωνιστικής εκπαίδευσης, επειδή το StyleTTS2 εκπαιδεύεται χρησιμοποιώντας διαφορική δειγματοληψία με ανταγωνιστική εκπαίδευση χωρίς την απώλεια επιπλέον όρων λόγω διαφοράς στη διάρκεια λόγω αποκλίσεων. Αν και η χρήση μιας μαλακής δυναμικής μεθόδου συγχρονισμού μπορεί να βοηθήσει στην μείωση αυτής της διαφοράς, η χρήση της δεν είναι μόνο υπολογιστικά ακριβή, αλλά και η σταθερότητά της είναι ένα ζήτημα όταν εργάζεται με ανταγωνιστικά αντικείμενα ή εργασίες ανασυγκρότησης μελ-φασμάτων.，因此, για να επιτύχει ανθρώπινη-επίπεδο απόδοση με ανταγωνιστική εκπαίδευση και να σταθεροποιήσει τη διαδικασία εκπαίδευσης, το πλάισιο StyleTTC2 χρησιμοποιεί μια μη-παραμετρική μέθοδο δειγματοληψίας. Η δειγματοληψία Gaussian είναι μια δημοφιλής μη-παραμετρική μέθοδος δειγματοληψίας για τη μετατροπή των προβλεπόμενων διαρκειών, αν και έχει τις δικές της περιορισμούς λόγω του σταθερού μήκους των Gaussian πυρήνων που προκαθορίζονται. Αυτός ο περιορισμός για τη δειγματοληψία Gaussian περιορίζει την ικανότητά της να μοντελοποιήσει ακριβείς συγχρονισμούς με διαφορετικά μήκη.

Για να αντιμετωπίσουμε αυτόν τον περιορισμό, το πλάισιο StyleTTC2 προτείνει να χρησιμοποιήσει μια νέα μη-παραμετρική μέθοδο δειγματοληψίας χωρίς πρόσθετη εκπαίδευση, και ικανή να λογαριασμούς για διαφορετικά μήκη των συγχρονισμών. Για κάθε φωνήμα, το πλάισιο StyleTTC2 μοντελοποιεί τον συγχρονισμό ως μια τυχαία μεταβλητή, και υποδεικνύει τον δείκτη του πλαισίου ομιλίας με τον οποίο το φωνήμα συγχρονίζεται.

Εκπαίδευση και Αξιολόγηση Μοντέλου

Το πλάισιο StyleTTC2 εκπαιδεύεται και πειραματίζεται σε τρεις βάσεις δεδομένων: VCTK, LibriTTS, και LJSpeech. Το μοντέλο μεμονωμένου ομιλητή του πλαισίου StyleTTS2 εκπαιδεύεται χρησιμοποιώντας τη βάση δεδομένων LJSpeech που περιλαμβάνει περίπου 13.000+ δείγματα ήχου, χωρισμένα σε 12.500 δείγματα εκπαίδευσης, 100 δείγματα επαλήθευσης, και लगभग 500 δείγματα δοκιμής, με το συνδυασμένο χρόνο εκτέλεσης να φτάνει τα 24 ώρες. Το μοντέλο πολλαπλών ομιλητών του πλαισίου εκπαιδεύεται στη βάση δεδομένων VCTK που αποτελείται από πάνω από 44.000 δείγματα ήχου με πάνω από 100 ιθαγενείς ομιλητές με διαφορετικά προφίλ, και χωρίζεται σε 43.500 δείγματα εκπαίδευσης, 100 δείγματα επαλήθευσης, και लगभग 500 δείγματα δοκιμής. Τέλος, για να εξοπλίσει το πλάισιο με ικανότητες προσαρμογής zero-shot, το πλάισιο εκπαιδεύεται στη συνδυασμένη βάση δεδομένων LibriTTS που αποτελείται από δείγματα ήχου που φτάνουν τα 250 ώρες ήχου με πάνω από 1.150 ομιλητές. Για να αξιολογήσει την απόδοσή του, το μοντέλο χρησιμοποιεί δύο μετρικές: MOS-N ή Μέσο Όρο Γνώμης Φυσικότητας, και MOS-S ή Μέσο Όρο Γνώμης Ομοιότητας.

Αποτελέσματα

Η προσέγγιση και η μεθοδολογία που χρησιμοποιούνται στο πλάισιο StyleTTS2 αναδεικνύονται στην απόδοσή του, καθώς το μοντέλο υπερέχει πολλών state-of-the-art πλαισίων κειμένου-σε-ομιλία, ιδιαίτερα στη βάση δεδομένων NaturalSpeech, και καθιστά το ένα νέο πρότυπο για τη βάση δεδομένων. Επιπλέον, το πλάισιο StyleTTS2 υπερέχει του state-of-the-art πλαισίου VITS στη βάση δεδομένων VCTK, και τα αποτελέσματα παρουσιάζονται στο ακόλουθο σχήμα.

Το μοντέλο StyleTTS2 υπερέχει επίσης των προηγούμενων μοντέλων στη βάση δεδομένων LJSpeech, και δεν εμφανίζει κανένα βαθμό υποβάθμισης ποιότητας σε OOD ή Εκτός-Κατανομής κειμένων, όπως εμφανίζουν τα προηγούμενα πλάisia στις ίδιες μετρικές. Επιπλέον, σε zero-shot ρύθμιση, το μοντέλο StyleTTC2 υπερέχει του υπάρχοντος μοντέλου Vall-E στη φυσικότητα, αν και μένει πίσω σε όρους ομοιότητας. Ωστόσο, αξίζει να σημειωθεί ότι το πλάισιο StyleTTS2 είναι σε θέση να επιτύχει ανταγωνιστική απόδοση παρά το γεγονός ότι εκπαιδεύτηκε μόνο σε 245 ώρες ήχου, σε σύγκριση με πάνω από 60.000 ώρες εκπαίδευσης για το μοντέλο Vall-E, καθιστώντας το StyleTTC2 μια αποτελεσματική εναλλακτική λύση για τις υπάρχουσες μεγάλες μεθόδους προ-εκπαίδευσης.

Συνεχίζοντας, λόγω της έλλειψης δεδομένων ήχου με συναισθήματα, το πλάισιο StyleTTC2 χρησιμοποιεί το μοντέλο GPT-4 για να γεννήσει πάνω από 500 περιπτώσεις σε διάφορες συναισθήματα για την οπτικοποίηση των διανυσμάτων στυλ που δημιουργούνται από τη διαδικασία διάχυσης.

Στο πρώτο σχήμα, οι συναισθηματικοί στυλ σε απάντηση των συναισθημάτων του εισαγομένου κειμένου εικονογραφούνται από τα διανύσματα στυλ από το μοντέλο LJSpeech, και αυτό δείχνει την ικανότητα του πλαισίου StyleTTC2 να συνθέτει εκφραστική ομιλία με ποικίλες συναισθήματα. Το δεύτερο σχήμα δείχνει διακριτές ομάδες για κάθε einen από τους πέντε ατομικούς ομιλητές, δείχνοντας eine ευρεία γκάμα ποικιλίας που προέρχεται από ένα seul αρχείο ήχου. Το τρίτο σχήμα δείχνει μια χαλαρή ομάδα συναισθημάτων από τον ομιλητή 1, και αποκαλύπτει ότι, παρά некоторые перекрытия, οι ομάδες συναισθημάτων είναι προεξάρχουσες, δείχνοντας την πιθανότητα να χειριστεί το συναισθηματικό τόνο ενός ομιλητή ανεξάρτητα από το αρχείο ήχου αναφοράς και τον τόνο εισόδου. Παρά την χρήση μιας μεθόδου διάχυσης, το πλάισιο StyleTTS2 είναι σε θέση να υπερέχει των υπάρχοντων state-of-the-art πλαισίων, συμπεριλαμβανομένων των VITS, ProDiff, και FastDiff.

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το StyleTTS2, ένα καινοτόμο, robust και καινοτόμο πλάισιο κειμένου-σε-ομιλία που είναι χτισμένο στις βάσεις του πλαισίου StyleTTS, και στοχεύει να παρουσιάσει το επόμενο βήμα προς τα state-of-the-art συστήματα κειμένου-σε-ομιλία. Το πλάισιο StyleTTS2 μοντελοποιεί τις στυλ ομιλίας ως τυχαίες μεταβλητές, και χρησιμοποιεί ένα πιθανολογικό μοντέλο διάχυσης για να δειγματίσει αυτές τις στυλ ομιλίας ή τυχαίες μεταβλητές, επιτρέποντας στο πλάισιο StyleTTS2 να συνθέσει πραγματική ομιλία αποτελεσματικά χωρίς να χρησιμοποιεί αναφορικές εισόδους ήχου. Το πλάισιο StyleTTS2 χρησιμοποιεί διάχυση στυλ και διακρίβυλες SLM για να επιτύχει ανθρώπινη-επίπεδο απόδοση σε εργασίες κειμένου-σε-ομιλία, και είναι σε θέση να υπερέχει των υπάρχοντων state-of-the-art πλαισίων σε eine ευρεία γκάμα ομιλιακών εργασιών.