Μοντέλα και πλατφόρμες AI
OpenVoice: Ενεργοποίηση Πολυμορφικής Αμεσης Κλωνοποίησης Φωνής

Στη σύνθεση κειμένου-ομιλίας (TTS), η Αμεσής Κλωνοποίηση Φωνής (IVC) επιτρέπει στο μοντέλο TTS να κλωνοποιήσει τη φωνή οποιουδήποτε αναφορικού ομιλητή χρησιμοποιώντας ένα σύντομο δείγμα ήχου, χωρίς να απαιτείται πρόσθετη εκπαίδευση για τον αναφορικό ομιλητή. Αυτή η τεχνική είναι επίσης γνωστή ως Συνθετική Ομιλία Zero-Shot. Η Αμεσής Κλωνοποίηση Φωνής επιτρέπει την ευέλικτη προσαρμογή της παραγόμενης φωνής και αποδεικνύει σημαντική αξία σε eine ευρεία γκάμα πραγματικών καταστάσεων, συμπεριλαμβανομένων των εξατομικευμένων chatbot, της δημιουργίας περιεχομένου και των αλληλεπιδράσεων μεταξύ ανθρώπων και Μεγάλων Γλωσσικών Μοντέλων (LLM).
Αν και τα τρέχοντα πλαίσια κλωνοποίησης φωνής κάνουν τη δουλειά τους καλά, είναι γεμάτα με μερικές προκλήσεις στο πεδίο, συμπεριλαμβανομένης της Ευέλικτης Ελέγχου Στυλ Φωνής, δηλαδή τα μοντέλα δεν έχουν τη δυνατότητα να χειρίζονται ευέλικτα τα στυλ φωνής μετά την κλωνοποίηση της φωνής. Μια άλλη σημαντική εμπόδιο που αντιμετωπίζουν τα τρέχοντα πλαίσια αμεσης κλωνοποίησης είναι η Zero-Shot Cross-Lingual Voice Cloning, δηλαδή για τους σκοπούς της εκπαίδευσης, τα τρέχοντα μοντέλα απαιτούν πρόσβαση σε ένα εκτενές dataset με πολλαπλούς ομιλητές και πολλαπλές γλώσσες ή MSML, ανεξάρτητα από τη γλώσσα.
Για να αντιμετωπιστούν αυτά τα προβλήματα και να συμβάλλουν στην ενίσχυση των μοντέλων αμεσης κλωνοποίησης φωνής, οι développers έχουν εργαστεί στην OpenVoice, ένα ευέλικτο πλαίσιο αμεσης κλωνοποίησης φωνής που αναπαράγει τη φωνή οποιουδήποτε χρήστη και παράγει ομιλία σε πολλαπλές γλώσσες χρησιμοποιώντας ένα σύντομο δείγμα ήχου από τον αναφορικό ομιλητή. Η OpenVoice αποδεικνύει ότι τα μοντέλα αμεσης κλωνοποίησης φωνής μπορούν να αναπαράγουν το χρώμα τόνου του αναφορικού ομιλητή και να επιτύχουν λεπτομερή έλεγχο των στυλ φωνής, συμπεριλαμβανομένων του προφορικού ιδιώματος, του ρυθμού, της τονικής, των παύσεων και ακόμη και των συναισθημάτων. Αυτό που είναι ακόμη πιο εντυπωσιακό είναι ότι το πλαίσιο OpenVoice επίσης αποδεικνύει αξιοσημείωτες ικανότητες στην επίτευξη zero-shot cross-lingual κλωνοποίησης φωνής για γλώσσες εκτός του dataset MSML, επιτρέποντας στην OpenVoice να κλωνοποιήσει φωνές σε νέες γλώσσες χωρίς εκτενή προ-εκπαίδευση για αυτή τη γλώσσα. Η OpenVoice καταφέρνει να παράγει ανώτερα αποτελέσματα αμεσης κλωνοποίησης φωνής ενώ είναι υπολογιστικά βιώσιμη με λειτουργικά έξοδα μέχρι και 10 φορές λιγότερα από τις τρέχουσες διαθέσιμες API με κατώτερη απόδοση.
Σε αυτό το άρθρο, θα μιλήσουμε για το πλαίσιο OpenVoice σε βάθος, και θα ανακαλύψουμε την αρχιτεκτονική του που του επιτρέπει να παράγει ανώτερα αποτελέσματα σε εργασίες αμεσης κλωνοποίησης φωνής. Έτσι, ας ξεκινήσουμε.
OpenVoice: Ενεργοποίηση Πολυμορφικής Αμεσης Κλωνοποίησης Φωνής
Όπως αναφέρθηκε νωρίτερα, η Αμεσής Κλωνοποίηση Φωνής, επίσης γνωστή ως Zero-Shot Text to Speech Synthesis, επιτρέπει στο μοντέλο TTS να κλωνοποιήσει τη φωνή οποιουδήποτε αναφορικού ομιλητή χρησιμοποιώντας ένα σύντομο δείγμα ήχου, χωρίς να απαιτείται πρόσθετη εκπαίδευση για τον αναφορικό ομιλητή. Η Αμεσής Κλωνοποίηση Φωνής έχει πάντα ήταν ένα热 topic έρευνας με υπάρχοντα έργα που περιλαμβάνουν τα πλαίσια XTTS και VALLE που εξάγουν εμβύθμιση ομιλητή και/ή ακουστικά σύμβολα από το αναφορικό ήχο που χρησιμεύει ως συνθήκη για το αυτο-αναγωγικό μοντέλο. Το αυτο-αναγωγικό μοντέλο στη συνέχεια παράγει ακουστικά σύμβολα σειριακά, και στη συνέχεια αποκωδικοποιεί αυτά τα σύμβολα σε ένα сырой ήχο.
Αν και τα αυτο-αναγωγικά μοντέλα αμεσης κλωνοποίησης φωνής κλωνοποιούν το χρώμα τόνου αξιοσημείωτα, δεν έχουν τη δυνατότητα να χειρίζονται άλλα παραμέτρους στυλ, συμπεριλαμβανομένων του προφορικού ιδιώματος, του συναισθήματος, των παύσεων και του ρυθμού. Επιπλέον, τα αυτο-αναγωγικά μοντέλα επίσης αντιμετωπίζουν χαμηλή ταχύτητα συλλογισμού, και τα λειτουργικά τους έξοδα είναι khá υψηλά. Υπάρχουν επίσης προσεγγίσεις όπως το πλαίσιο YourTTS που χρησιμοποιούν μια μη-αυτο-αναγωγική προσέγγιση που αποδεικνύει σημαντικά ταχύτερη συλλογή ομιλίας από τα αυτο-αναγωγικά πλαίσια, αλλά δεν είναι ακόμη σε θέση να παρέχουν στους χρήστες ευέλικτο έλεγχο των παραμέτρων στυλ. Επιπλέον, και τα αυτο-αναγωγικά και τα μη-αυτο-αναγωγικά πλαίσια αμεσης κλωνοποίησης φωνής απαιτούν πρόσβαση σε ένα μεγάλο dataset με πολλαπλούς ομιλητές και πολλαπλές γλώσσες ή MSML για cross-lingual κλωνοποίηση φωνής.
Για να αντιμετωπιστούν οι προκλήσεις που αντιμετωπίζουν τα τρέχοντα πλαίσια αμεσης κλωνοποίησης φωνής, οι développers έχουν εργαστεί στην OpenVoice, ένα ανοιχτό πλαίσιο αμεσης κλωνοποίησης φωνής που αποσκοπεί να επιλύσει τις ακόλουθες προκλήσεις που αντιμετωπίζουν τα τρέχοντα πλαίσια IVC.
- Η πρώτη πρόκληση είναι να ενεργοποιήσει τα πλαίσια IVC να έχουν ευέλικτο έλεγχο των παραμέτρων στυλ,除了 το χρώμα τόνου, συμπεριλαμβανομένων του προφορικού ιδιώματος, του ρυθμού, της τονικής, και των παύσεων. Οι παράμετροι στυλ είναι κρίσιμες για τη δημιουργία φυσικών συνομιλιών και ομιλίας αντί να διαβάζουν το κείμενο μονοτονικά.
- Η δεύτερη πρόκληση είναι να ενεργοποιήσει τα πλαίσια IVC να κλωνοποιήσουν cross-lingual φωνές σε ένα zero-shot ρύθμιση.
- Η τρίτη πρόκληση είναι να επιτύχει υψηλές ταχύτητες συλλογισμού σε πραγματικό χρόνο χωρίς να επιβαρύνει την ποιότητα.
Για να αντιμετωπιστούν οι δύο πρώτες προκλήσεις, η αρχιτεκτονική του πλαισίου OpenVoice σχεδιάστηκε για να αποσυνδέσει τα συστατικά της φωνής στο μέγιστο δυνατό. Επιπλέον, η OpenVoice παράγει το χρώμα τόνου, τη γλώσσα και άλλα χαρακτηριστικά φωνής ανεξάρτητα, επιτρέποντας στο πλαίσιο να χειρίζεται ευέλικτα τα ατομικά στυλ γλώσσας και φωνής. Το πλαίσιο OpenVoice αντιμετωπίζει την τρίτη πρόκληση από προεπιλογή, καθώς η αποσυνδεμένη δομή μειώνει την υπολογιστική复잡ότητα και τις απαιτήσεις μεγέθους μοντέλου.
OpenVoice: Μεθοδολογία και Αρχιτεκτονική
Το τεχνικό πλαίσιο της OpenVoice είναι αποτελεσματικό και απλό στην εφαρμογή. Δεν είναι μυστικό ότι η κλωνοποίηση του χρώματος τόνου για οποιοδήποτε ομιλητή, η προσθήκη νέας γλώσσας και η ενεργοποίηση ευέλικτου ελέγχου των παραμέτρων φωνής ταυτόχρονα μπορεί να είναι μια πρόκληση. Αυτό συμβαίνει επειδή η εκτέλεση αυτών των τριών εργασιών ταυτόχρονα απαιτεί τις ελεγχόμενες παραμέτρους να τομούνται χρησιμοποιώντας ένα μεγάλο τμήμα συνδυαστικών δεδομένων. Επιπλέον, σε κανονική μονό ομιλητή σύνθεση κειμένου-ομιλίας, για εργασίες που δεν απαιτούν κλωνοποίηση φωνής, είναι πιο εύκολο να προστεθεί έλεγχος άλλων παραμέτρων στυλ. Βασισμένοι σε αυτά, το πλαίσιο OpenVoice αποσκοπεί να αποσυνδέσει τις εργασίες αμεσης κλωνοποίησης φωνής σε υπο-εργασίες. Το μοντέλο προτείνει να χρησιμοποιήσει ένα βασικό μοντέλο ομιλητή TTS για να ελέγξει τη γλώσσα και τις παραμέτρους στυλ, και να χρησιμοποιήσει einen μετατροπέα χρώματος τόνου για να ενσωματώσει το αναφορικό χρώμα τόνου στη φωνή που παράγεται. Η ακόλουθη εικόνα δείχνει την αρχιτεκτονική του πλαισίου.

Στην καρδιά του, το πλαίσιο OpenVoice χρησιμοποιεί δύο συστατικά: einen μετατροπέα χρώματος τόνου, και ένα βασικό μοντέλο ομιλητή TTS. Το βασικό μοντέλο ομιλητή TTS είναι είτε ένα μονό ομιλητή είτε ένα μοντέλο πολλαπλών ομιλητών που επιτρέπει τον ακριβή έλεγχο των παραμέτρων στυλ, γλώσσας και προφορικού ιδιώματος. Το μοντέλο παράγει μια φωνή που στη συνέχεια περνάει στον μετατροπέα χρώματος τόνου, ο οποίος αλλάζει το χρώμα τόνου του βασικού ομιλητή στο χρώμα τόνου του αναφορικού ομιλητή.
Το πλαίσιο OpenVoice προσφέρει πολλή ευελιξία όσον αφορά το βασικό μοντέλο ομιλητή TTS, καθώς μπορεί να χρησιμοποιήσει το μοντέλο VITS με μικρές τροποποιήσεις που του επιτρέπουν να δέχεται εμβύθμιση γλώσσας και στυλ στην προβλέπτρια διάρκειας και τον κωδικοποιητή κειμένου. Το πλαίσιο μπορεί επίσης να χρησιμοποιήσει μοντέλα όπως το Microsoft TTS που είναι εμπορικά φθηνά ή να αναπτύξει μοντέλα όπως το InstructTTS που είναι ικανά να δέχονται προτροπές στυλ. Για το παρόν, το πλαίσιο OpenVoice χρησιμοποιεί το μοντέλο VITS, αν και και τα άλλα μοντέλα είναι επίσης μια εφικτή επιλογή.
Ερχόμενοι στο δεύτερο συστατικό, ο μετατροπέας χρώματος τόνου είναι ένα συστατικό κωδικοποιητή-αποκωδικοποιητή που στεγάζει ένα αναστρέψιμο ροή κανονικοποίησης στο κέντρο. Το συστατικό κωδικοποιητή στο μετατροπέα χρώματος τόνου είναι ένας的一維ικός CNN που δέχεται το σύντομο-χρόνο Fourier-μετασχηματισμένο φάσμα του βασικού μοντέλου ομιλητή TTS ως είσοδο. Ο κωδικοποιητής στη συνέχεια παράγει χάρτες χαρακτηριστικών ως έξοδο. Ο εξαγωγέας χρώματος τόνου είναι ένας απλός δύο-διάστατος CNN που λειτουργεί στο μελ-φάσμα της εισόδου φωνής και παράγει einen μονό χαρακτηριστικό διανύσμα που κωδικοποιεί τις πληροφορίες του χρώματος τόνου. Τα στρώματα ροής κανονικοποίησης δέχονται τους χάρτες χαρακτηριστικών που παράγονται από τον κωδικοποιητή ως είσοδο και παράγουν μια αναπαράσταση χαρακτηριστικών που διατηρεί όλες τις ιδιότητες στυλ αλλά εξαφανίζει τις πληροφορίες χρώματος τόνου. Το πλαίσιο OpenVoice εφαρμόζει τα στρώματα ροής κανονικοποίησης στην αντίστροφη κατεύθυνση και δέχεται τις αναπαραστάσεις χαρακτηριστικών ως είσοδο και εξόδους τα στρώματα ροής κανονικοποίησης. Το πλαίσιο στη συνέχεια αποκωδικοποιεί τα στρώματα ροής κανονικοποίησης σε сыρές κυματικές μορφές χρησιμοποιώντας einen στοίβαξη από μεταposed的一維 convolutions.
Η ολόκληρη αρχιτεκτονική του πλαισίου OpenVoice είναι προωθημένη χωρίς τη χρήση αυτο-αναγωγικών συστατικών. Ο μετατροπέας χρώματος τόνου είναι παρόμοιος με τη μετατροπή φωνής σε концепτουαλικό επίπεδο αλλά διαφέρει σε λειτουργικότητα, εκπαιδευτικά αντικείμενα και επαγωγική προκατάληψη στη δομή μοντέλου. Τα στρώματα ροής κανονικοποίησης μοιράζονται την ίδια δομή με τα μοντέλα ροής κειμένου-ομιλίας αλλά διαφέρουν σε λειτουργικότητα και εκπαιδευτικά αντικείμενα.
Επιπλέον, υπάρχει μια διαφορετική προσέγγιση για την εξαγωγή αναπαραστάσεων χαρακτηριστικών, η μέθοδος που εφαρμόζεται από το πλαίσιο OpenVoice παρέχει καλύτερη ποιότητα ήχου. Είναι επίσης αξιοσημείωτο ότι το πλαίσιο OpenVoice δεν έχει την πρόθεση να εφευρέσει συστατικά στη δομή μοντέλου, αλλά και τα δύο κύρια συστατικά, δηλαδή ο μετατροπέας χρώματος τόνου και το βασικό μοντέλο ομιλητή TTS, προέρχονται από υπάρχοντα έργα. Ο πρωταρχικός σκοπός του πλαισίου OpenVoice είναι να σχηματίσει ένα αποσυνδεμένο πλαίσιο που分离ει τον έλεγχο γλώσσας και τον έλεγχο στυλ από την κλωνοποίηση χρώματος τόνου. Αν και η προσέγγιση είναι khá απλή, είναι khá αποτελεσματική, ιδιαίτερα σε εργασίες που ελέγχουν στυλ και προφορά, ή γενίκευση γλωσσών. Η επίτευξη του ίδιου ελέγχου όταν χρησιμοποιείται ένα συνδεμένο πλαίσιο απαιτεί μεγάλο όγκο υπολογιστικών και δεδομένων και δεν γενικεύεται καλά σε νέες γλώσσες.
Στην καρδιά του, η κύρια φιλοσοφία του πλαισίου OpenVoice είναι να αποσυνδέσει την παραγωγή γλώσσας και στυλ από την παραγωγή χρώματος τόνου. Μια από τις κύριες δυνάμεις του πλαισίου OpenVoice είναι ότι η κλωνοποιημένη φωνή είναι ομαλή και υψηλής ποιότητας只要 το μονό ομιλητή TTS μιλάει ομαλά.
OpenVoice: Πειράματα και Αποτελέσματα
Η αξιολόγηση των εργασιών κλωνοποίησης φωνής είναι ένα δύσκολο αντικείμενο λόγω πολλών λόγων. Για αρχή, τα υπάρχοντα έργα συχνά χρησιμοποιούν διαφορετικά δεδομένα εκπαίδευσης και δοκιμής που καθιστούν την σύγκριση αυτών των έργων εγγενώς άδικη. Αν και η crowd-sourcing μπορεί να χρησιμοποιηθεί για την αξιολόγηση μετρικών όπως το Mean Opinion Score, η δυσκολία και η ποικιλία των δεδομένων δοκιμής θα επηρεάσουν το συνολικό αποτέλεσμα σημαντικά. Δεύτερον, τα διαφορετικά μοντέλα κλωνοποίησης φωνής έχουν διαφορετικά δεδομένα εκπαίδευσης, και η ποικιλία και η κλίμακα αυτών των δεδομένων επηρεάζουν τα αποτελέσματα σημαντικά. Τέλος, ο πρωταρχικός σκοπός των υπάρχοντων έργων συχνά διαφέρει ο ένας από τον άλλον, γι’ αυτό διαφέρουν στη λειτουργικότητά τους.
Λόγω των τριών παραπάνω λόγων, είναι άδικο να συγκρίνουμε τα υπάρχοντα πλαίσια κλωνοποίησης φωνής αριθμητικά. Αντίθετα, έχει περισσότερο νόημα να συγκρίνουμε αυτές τις μεθόδους ποιοτικά.
Ακρίβεια Κλωνοποίησης Χρώματος Τόνου
Για να αναλύσει την απόδοσή του, οι développers έχουν δημιουργήσει ένα σετ δοκιμής με ανώνυμους ατόμους, χαρακτήρες παιχνιδιών και διασημότητες που αποτελούν τη βάση του αναφορικού ομιλητή, και έχει eine ευρεία κατανομή φωνής, συμπεριλαμβανομένων και των ουδέτερων δειγμάτων και των μοναδικών εκφραστικών φωνών. Το πλαίσιο OpenVoice είναι σε θέση να κλωνοποιήσει το αναφορικό χρώμα τόνου και να παράγει ομιλία σε πολλαπλές γλώσσες και προφορικά ιδιώματα για οποιοδήποτε από τους αναφορικούς ομιλητές και τους 4 βασικούς ομιλητές.

Ευέλικτος Έλεγχος Στυλ Φωνής
Ένας από τους στόχους του πλαισίου OpenVoice είναι να ελέγξει τα στυλ φωνής ευέλικτα χρησιμοποιώντας τον μετατροπέα χρώματος τόνου που μπορεί να τροποποιήσει το χρώμα τόνου διατηρώντας όλα τα άλλα χαρακτηριστικά φωνής και ιδιότητες.
Τα πειράματα δείχνουν ότι το μοντέλο διατηρεί τα στυλ φωνής μετά την μετατροπή στο αναφορικό χρώμα τόνου. Σε ορισμένες περιπτώσεις, Tuy nhiên, το μοντέλο trung hòa τα συναισθήματα ελαφρώς, ένα πρόβλημα που μπορεί να επιλυθεί με την παροχή λιγότερων πληροφοριών στα στρώματα ροής ώστε να μην μπορούν να αφαιρέσουν το συναισθήμα. Το πλαίσιο OpenVoice είναι σε θέση να διατηρήσει τα στυλ από τη βασική φωνή χάρη στην χρήση του μετατροπέα χρώματος τόνου. Αυτό επιτρέπει στο πλαίσιο OpenVoice να χειρίζεται εύκολα το βασικό μοντέλο ομιλητή TTS για να ελέγξει τα στυλ φωνής.

Κλωνοποίηση Φωνής Cross-Lingual
Το πλαίσιο OpenVoice δεν περιλαμβάνει κανένα μεγάλο dataset με πολλαπλούς ομιλητές για μια μη ορατή γλώσσα, ωστόσο είναι σε θέση να επιτύχει near cross-lingual κλωνοποίηση φωνής σε ένα zero-shot ρύθμιση. Οι ικανότητες κλωνοποίησης φωνής cross-lingual του πλαισίου OpenVoice είναι δύο φορές:
- Το μοντέλο είναι σε θέση να κλωνοποιήσει το χρώμα τόνου του αναφορικού ομιλητή ακριβώς όταν η γλώσσα του αναφορικού ομιλητή δεν έχει φανεί στο dataset MSML.
- Επιπλέον, στην ίδια περίπτωση που η γλώσσα του αναφορικού ομιλητή δεν έχει φανεί, το πλαίσιο OpenVoice είναι σε θέση να κλωνοποιήσει τη φωνή του αναφορικού ομιλητή και να μιλήσει στη γλώσσα με την προϋπόθεση ότι το βασικό μοντέλο ομιλητή TTS υποστηρίζει τη γλώσσα.
Τελικές Σκέψεις
Σε αυτό το άρθρο, μιλήσαμε για το πλαίσιο OpenVoice, ένα ευέλικτο πλαίσιο αμεσης κλωνοποίησης φωνής που αναπαράγει τη φωνή οποιουδήποτε χρήστη και παράγει ομιλία σε πολλαπλές γλώσσες χρησιμοποιώντας ένα σύντομο δείγμα ήχου από τον αναφορικό ομιλητή. Η πρωταρχική έμπνευση πίσω από το OpenVoice είναι ότι只要 ένα μοντέλο δεν χρειάζεται να κάνει κλωνοποίηση χρώματος τόνου του αναφορικού ομιλητή, ένα πλαίσιο μπορεί να χρησιμοποιήσει ένα βασικό μοντέλο ομιλητή TTS για να ελέγξει τη γλώσσα και τα στυλ φωνής.
Το πλαίσιο OpenVoice αποδεικνύει ότι τα μοντέλα αμεσης κλωνοποίησης φωνής μπορούν να αναπαράγουν το χρώμα τόνου του αναφορικού ομιλητή και να επιτύχουν λεπτομερή έλεγχο των στυλ φωνής, συμπεριλαμβανομένων του προφορικού ιδιώματος, του ρυθμού, της τονικής, των παύσεων και ακόμη και των συναισθημάτων. Το πλαίσιο OpenVoice καταφέρνει να παράγει ανώτερα αποτελέσματα αμεσης κλωνοποίησης φωνής ενώ είναι υπολογιστικά βιώσιμη με λειτουργικά έξοδα μέχρι και 10 φορές λιγότερα από τις τρέχουσες διαθέσιμες API με κατώτερη απόδοση.












