Connect with us

StyleTTS 2: Ανθρώπινη-Επίπεδο Κειμένου-Σε-Ομιλία με Μεγάλους Μοντέλους Γλώσσας Ομιλίας

Τεχνητή νοημοσύνη

StyleTTS 2: Ανθρώπινη-Επίπεδο Κειμένου-Σε-Ομιλία με Μεγάλους Μοντέλους Γλώσσας Ομιλίας

mm

Λόγω της αύξησης των φυσικών και συνθετικών προσεγγίσεων σύνθεσης ομιλίας, μια από τις σημαντικές επιτεύξεις που έχει επιτύχει η βιομηχανία του AI τα τελευταία χρόνια είναι να συνθέσει αποτελεσματικά πλαισια κειμένου-σε-ομιλία με πιθανές εφαρμογές σε διάφορους τομείς, συμπεριλαμβανομένων των ηχητικών βιβλίων, των εικονικών βοηθών, των αφηγήσεων φωνής και πολλών άλλων, με ορισμένα state of the art μοντέλα να παρέχουν ανθρώπινη-επίπεδο απόδοση και αποτελεσματικότητα σε eine ευρεία γκάμα ομιλιακών εργασιών. Ωστόσο, παρά την ισχυρή απόδοσή τους, vẫn υπάρχει χώρος για βελτίωση των εργασιών λόγω εκφραστικής και ποικίλης ομιλίας, απαιτήσεων για μεγάλη ποσότητα δεδομένων εκπαίδευσης για την βελτιστοποίηση των πλαισίων κειμένου-σε-ομιλία zero-shot και της αντοχής για OOD ή Εκτός-Διανομής κειμένων, οδηγώντας τους développers να εργαστούν σε ένα πιο robust και προσιτό πλαίσιο κειμένου-σε-ομιλία. 

Σε αυτό το άρθρο, θα μιλήσουμε για το StyleTTS-2, ένα robust και καινοτόμο πλαίσιο κειμένου-σε-ομιλία που είναι χτισμένο στις βάσεις του πλαισίου StyleTTS, και στοχεύει να παρουσιάσει το επόμενο βήμα προς τα state of the art συστήματα κειμένου-σε-ομιλία. Το πλαίσιο StyleTTS2 μοντελοποιεί τους στυλ ομιλίας ως τυχαίες μεταβλητές, και χρησιμοποιεί ένα πιθανοτικό μοντέλο διάχυσης για να δειγματίσει αυτούς τους στυλ ομιλίας ή τυχαίες μεταβλητές, επιτρέποντας στο πλαίσιο StyleTTS2 να συνθέσει πραγματική ομιλία αποτελεσματικά χωρίς να χρησιμοποιεί αναφορικά ήχηματα. Λόγω της προσέγγισης, το πλαίσιο StyleTTS2 είναι σε θέση να παρέχει καλύτερα αποτελέσματα και να δείχνει υψηλή αποτελεσματικότητα σε σύγκριση με τα τρέχοντα state of the art πλαίσια κειμένου-σε-ομιλία, αλλά είναι επίσης σε θέση να επωφεληθεί από την ποικίλη σύνθεση ομιλίας που προσφέρεται από τα μοντέλα διάχυσης. Θα συζητήσουμε το πλαίσιο StyleTTS2 σε μεγαλύτερη λεπτομέρεια, και θα μιλήσουμε για την αρχιτεκτονική και τη μεθοδολογία του, καθώς και θα δούμε τα αποτελέσματα που έχει επιτύχει το πλαίσιο. Έτσι, ας ξεκινήσουμε. 

StyleTTS2 για Σύνθεση Κειμένου-Σε-Ομιλία: Μια Εισαγωγή

Το StyleTTS2 είναι ένα καινοτόμο μοντέλο σύνθεσης κειμένου-σε-ομιλία που κάνει το επόμενο βήμα προς την κατασκευή ανθρώπινη-επίπεδο πλαισίων κειμένου-σε-ομιλία, και είναι χτισμένο πάνω στο StyleTTS, ένα στυλ-βασισμένο μοντέλο κειμένου-σε-ομιλία. Το πλαίσιο StyleTTS2 μοντελοποιεί τους στυλ ομιλίας ως τυχαίες μεταβλητές, και χρησιμοποιεί ένα πιθανοτικό μοντέλο διάχυσης για να δειγματίσει αυτούς τους στυλ ομιλίας ή τυχαίες μεταβλητές, επιτρέποντας στο πλαίσιο StyleTTS2 να συνθέσει πραγματική ομιλία αποτελεσματικά χωρίς να χρησιμοποιεί αναφορικά ήχηματα. Η μοντελοποίηση των στυλ ως τυχαίων μεταβλητών είναι αυτό που διακρίνει το πλαίσιο StyleTTS2 από τον προκάτοχό του, το πλαίσιο StyleTTS, και στοχεύει να γεννήσει τον πιο κατάλληλο στυλ ομιλίας για το εισαγόμενο κείμενο χωρίς να χρειάζεται αναφορικό ήχο, και είναι σε θέση να επιτύχει αποτελεσματική διάχυση ενώ επωφελείται από την ποικίλη σύνθεση ομιλίας που προσφέρεται από τα μοντέλα διάχυσης. Επιπλέον, το πλαίσιο StyleTTS2 χρησιμοποιεί επίσης ένα προ-εκπαιδευμένο μεγάλο SLM ή Μοντέλο Γλώσσας Ομιλίας ως διακρίβους όπως το πλαίσιο WavLM, και το συνδυάζει με μια νέα διαφορική μεθοδολογία μοντελοποίησης διάρκειας για να εκπαιδεύσει το πλαίσιο από άκρο σε άκρο, και τελικά να παράγει ομιλία με ενισχυμένη φυσικότητα. Λόγω της προσέγγισης που ακολουθεί, το πλαίσιο StyleTTS2 υπερβαίνει τα τρέχοντα state of the art πλαίσια για εργασίες σύνθεσης ομιλίας, και είναι ένα από τα πιο αποτελεσματικά πλαίσια για την προ-εκπαίδευση μεγάλων μοντέλων ομιλίας σε zero-shot ρύθμιση για εργασίες προσαρμογής ομιλίας. 

… (the rest of the content remains the same, following the exact structure and translation rules)

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.