Τεχνητή νοημοσύνη
OpenVoice: Πολυμορφική Άμεση Κλωνοποίηση Φωνής

Στη σύνθεση Κειμένου-Σε-Ομιλία (TTS), η Άμεση Κλωνοποίηση Φωνής (IVC) επιτρέπει στο μοντέλο TTS να κλωνοποιήσει τη φωνή οποιουδήποτε αναφορικού ομιλητή χρησιμοποιώντας ένα σύντομο δείγμα ήχου, χωρίς να απαιτείται επιπλέον εκπαίδευση για τον αναφορικό ομιλητή. Αυτή η τεχνική είναι επίσης γνωστή ως Zero-Shot Text-to-Speech Synthesis. Η προσέγγιση της Άμεσης Κλωνοποίησης Φωνής επιτρέπει την ευέλικτη προσαρμογή της γεννηθείσας φωνής και αποδεικνύει σημαντική αξία σε ένα ευρύ φάσμα πραγματικών καταστάσεων, συμπεριλαμβανομένων των εξατομικευμένων chatbots, της δημιουργίας περιεχομένου και των αλληλεπιδράσεων μεταξύ ανθρώπων και Μεγάλων Γλωσσικών Μοντέλων (LLMs).
Αν και τα τρέχοντα πλαίσια κλωνοποίησης φωνής κάνουν τη δουλειά τους καλά, είναι γεμάτα με μερικές προκλήσεις στο πεδίο, συμπεριλαμβανομένης τηςΕυέλικτης Ελέγχου Στυλ Φωνής, δηλαδή τα μοντέλα δεν έχουν την ικανότητα να χειρίζονται ευέλικτα τους στυλ φωνής μετά την κλωνοποίηση της φωνής. Một άλλη σημαντική εμπόδιο που αντιμετωπίζουν τα τρέχοντα πλαίσια άμεσης κλωνοποίησης είναι ηZero-Shot Cross-Lingual Φωνητική Κλωνοποίηση, δηλαδή για την εκπαίδευση, τα τρέχοντα μοντέλα απαιτούν πρόσβαση σε ένα εκτενές dataset πολλών ομιλητών και πολλών γλωσσών ή MSML, ανεξάρτητα από τη γλώσσα.
Για να αντιμετωπιστούν αυτές οι προκλήσεις και να συμβάλλουν στην ενίσχυση των μοντέλων άμεσης κλωνοποίησης φωνής, οι développers έχουν εργαστεί στην OpenVoice, ένα πολυμορφικό πλαίσιο άμεσης κλωνοποίησης φωνής που αναπαράγει τη φωνή οποιουδήποτε χρήστη και παράγει ομιλία σε πολλές γλώσσες χρησιμοποιώντας ένα σύντομο δείγμα ήχου από τον αναφορικό ομιλητή. Η OpenVoice αποδεικνύει ότι τα μοντέλα Άμεσης Κλωνοποίησης Φωνής μπορούν να αναπαράγουν το χρώμα της φωνής του αναφορικού ομιλητή και να επιτύχουν λεπτομερή έλεγχο των στυλ φωνής, συμπεριλαμβανομένων του προφορικού, του ρυθμού, της μελωδίας, των παύσεων και ακόμη και των συναισθημάτων. Τι είναι ακόμη πιο εντυπωσιακό είναι ότι το πλαίσιο της OpenVoice επίσης αποδεικνύει αξιοσημείωτες ικανότητες στην επίτευξη zero-shot cross-lingual φωνητικής κλωνοποίησης για γλώσσες έξω από το dataset MSML, επιτρέποντας στην OpenVoice να κλωνοποιήσει φωνές σε νέες γλώσσες χωρίς εκτενή προ-εκπαίδευση για αυτή τη γλώσσα. Η OpenVoice καταφέρνει να παραδώσει υπεροχή άμεσης κλωνοποίησης φωνής ενώ είναι υπολογιστικά βιώσιμη με λειτουργικά κόστη μέχρι 10 φορές λιγότερα από τις τρέχουσες διαθέσιμες APIs με κατώτερη απόδοση.
Σε αυτό το άρθρο, θα μιλήσουμε για το πλαίσιο της OpenVoice σε βάθος, και θα αποκαλύψουμε την αρχιτεκτονική του που του επιτρέπει να παραδίδει υπεροχή σε εργασίες άμεσης κλωνοποίησης φωνής. Έτσι, ας ξεκινήσουμε.
OpenVoice : Ενεργοποιώντας Πολυμορφική Άμεση Κλωνοποίηση Φωνής
Όπως αναφέρθηκε νωρίτερα, η Άμεση Κλωνοποίηση Φωνής, επίσης γνωστή ως Zero-Shot Text to Speech Synthesis, επιτρέπει στο μοντέλο TTS να κλωνοποιήσει τη φωνή οποιουδήποτε αναφορικού ομιλητή χρησιμοποιώντας ένα σύντομο δείγμα ήχου, χωρίς να απαιτείται επιπλέον εκπαίδευση για τον αναφορικό ομιλητή. Η Άμεση Κλωνοποίηση Φωνής έχει πάντα sido ένα ζεστό ερευνητικό θέμα με υπάρχουσες εργασίες που συμπεριλαμβάνουν τα πλαίσια XTTS και VALLE που εξάγουν εμβέλεια ομιλητή και/ή ακουστικά token από το αναφορικό ήχο που χρησιμεύει ως προϋπόθεση για το auto-regressive μοντέλο. Το auto-regressive μοντέλο στη συνέχεια παράγει ακουστικά token tuần, και στη συνέχεια αποκωδικοποιεί αυτά τα token σε ένα сыρό ήχο.
Αν και τα auto-regressive μοντέλα άμεσης κλωνοποίησης φωνής κλωνοποιούν το χρώμα της φωνής αξιοσημείωτα, δεν είναι σε θέση να χειρίζονται άλλα παραμέτρους στυλ, συμπεριλαμβανομένων του προφορικού, του συναισθήματος, των παύσεων και του ρυθμού. Επιπλέον, τα auto-regressive μοντέλα επίσης αντιμετωπίζουν χαμηλή ταχύτητα συλλογισμού, και τα λειτουργικά τους κόστη είναι khá υψηλά. Υπάρχουσες προσεγγίσεις όπως το πλαίσιο YourTTS χρησιμοποιούν μια μη auto-regressive προσέγγιση που αποδεικνύει σημαντικά ταχύτερη συλλογή ομιλίας από τα auto-regressive πλαίσια, αλλά δεν είναι ακόμη σε θέση να παρέχουν στους χρήστες ευέλικτο έλεγχο των παραμέτρων στυλ. Επιπλέον, και τα auto-regressive και τα μη auto-regressive πλαίσια άμεσης κλωνοποίησης φωνής χρειάζονται πρόσβαση σε ένα μεγάλο dataset πολλών ομιλητών και πολλών γλωσσών ή MSML για cross-lingual φωνητική κλωνοποίηση.
Για να αντιμετωπιστούν οι προκλήσεις που αντιμετωπίζουν τα τρέχοντα πλαίσια άμεσης κλωνοποίησης φωνής, οι développers έχουν εργαστεί στην OpenVoice, ένα ανοιχτό πλαίσιο άμεσης κλωνοποίησης φωνής που στοχεύει να επιλύσει τις ακόλουθες προκλήσεις που αντιμετωπίζουν τα τρέχοντα πλαίσια IVC.
- Η πρώτη πρόκληση είναι να ενεργοποιήσει τα πλαίσια IVC να έχουν ευέλικτο έλεγχο των παραμέτρων στυλ, συμπεριλαμβανομένων του προφορικού, του ρυθμού, της μελωδίας και των παύσεων. Οι παραμέτρους στυλ είναι κρίσιμες για την παραγωγή φυσικών συνομιλιών και ομιλίας αντί να απαγγέλλουν το εισαγόμενο κείμενο μονότονα.
- Η δεύτερη πρόκληση είναι να ενεργοποιήσει τα πλαίσια IVC να κλωνοποιήσουν cross-lingual φωνές σε ένα zero-shot ρύθμιση.
- Η τελική πρόκληση είναι να επιτύχει υψηλές ταχύτητες συλλογισμού σε πραγματικό χρόνο χωρίς να deteriorate την ποιότητα.
Για να αντιμετωπιστούν οι δύο πρώτες προκλήσεις, η αρχιτεκτονική του πλαισίου της OpenVoice σχεδιάστηκε για να αποσυνδέσει τα компоненты της φωνής στο μέγιστο δυνατό. Επιπλέον, η OpenVoice παράγει το χρώμα της φωνής, τη γλώσσα και άλλα χαρακτηριστικά φωνής ανεξάρτητα, επιτρέποντας στο πλαίσιο να χειρίζεται ευέλικτα τα μεμονωμένα είδη γλώσσας και στυλ φωνής. Το πλαίσιο της OpenVoice αντιμετωπίζει την τρίτη πρόκληση από προεπιλογή, καθώς η αποσυνδεμένη δομή μειώνει την υπολογιστική複雑ότητα και τις απαιτήσεις μεγέθους μοντέλου.
OpenVoice : Μεθοδολογία και Αρχιτεκτονική
Το τεχνικό πλαίσιο του πλαισίου της OpenVoice είναι αποτελεσματικό και εκπληκτικά απλό να υλοποιηθεί. Δεν είναι μυστικό ότι η κλωνοποίηση του χρώματος της φωνής για οποιονδήποτε ομιλητή, η προσθήκη νέας γλώσσας και η ενεργοποίηση ευέλικτου ελέγχου των παραμέτρων φωνής ταυτόχρονα μπορεί να είναι προκλητική. Αυτό είναι επειδή η εκτέλεση αυτών των τριών εργασιών ταυτόχρονα απαιτεί τις ελεγχόμενες παραμέτρους να διασταυρωθούν χρησιμοποιώντας ένα μεγάλο τμήμα συνδυαστικών datasets. Επιπλέον, σε κανονική μονό ομιλητή text to speech σύνθεση, για εργασίες που δεν απαιτούν κλωνοποίηση φωνής, είναι ευκολότερο να προστεθεί έλεγχος άλλων παραμέτρων στυλ. Βασισμένοι σε αυτά, το πλαίσιο της OpenVoice στοχεύει να αποσυνδέσει τις εργασίες Άμεσης Κλωνοποίησης Φωνής σε υπο-εργασίες. Το μοντέλο προτείνει να χρησιμοποιηθεί ένα βασικό μοντέλο ομιλητή Text to Speech για να ελέγξει τη γλώσσα και τις παραμέτρους στυλ, και να χρησιμοποιηθεί ένας μετατροπέας χρώματος φωνής για να συμπεριλάβει το αναφορικό χρώμα φωνής στην παραγμένη φωνή.

Στην καρδιά του, το πλαίσιο της OpenVoice χρησιμοποιεί δύο компоненты: einen μετατροπέα χρώματος φωνής και ένα βασικό μοντέλο ομιλητή text to speech ή TTS. Το βασικό μοντέλο ομιλητή text to speech είναι είτε ένα μονό ομιλητή είτε ένα μοντέλο πολλών ομιλητών που επιτρέπει ακριβή έλεγχο των παραμέτρων στυλ, γλώσσας και προφορικού. Το μοντέλο παράγει μια φωνή που στη συνέχεια περνά στον μετατροπέα χρώματος φωνής, ο οποίος αλλάζει το χρώμα φωνής του βασικού ομιλητή στο χρώμα φωνής του αναφορικού ομιλητή.
Το πλαίσιο της OpenVoice προσφέρει πολλή ευελιξία όταν πρόκειται για το βασικό μοντέλο ομιλητή text to speech, καθώς μπορεί να χρησιμοποιηθεί το μοντέλο VITS με μικρές τροποποιήσεις, επιτρέποντας του να αποδεχθεί γλώσσα και εμβέλεια στυλ στις προβλέψεις διάρκειας και κωδικοποίηση κειμένου. Το πλαίσιο μπορεί επίσης να χρησιμοποιηθεί με μοντέλα όπως το Microsoft TTS που είναι εμπορικά φθηνά ή μπορεί να αναπτύξει μοντέλα όπως το InstructTTS που είναι ικανά να αποδεχθούν προrompt στυλ. Για την ώρα, το πλαίσιο της OpenVoice χρησιμοποιεί το μοντέλο VITS, αν και τα άλλα μοντέλα είναι επίσης एक εφικτή επιλογή.
Ερχόμενοι στο δεύτερο компонента, ο μετατροπέας χρώματος φωνής είναι ένας κωδικοποιητής-αποκωδικοποιητής που στεγάζει έναν αναστρέψιμο κανονικό ροή στο κέντρο. Ο κωδικοποιητής στο μετατροπέα χρώματος φωνής είναι ένας的一維 CNN που αποδέχεται το φάσμα Fourier του βασικού μοντέλου ομιλητή text to speech ως είσοδο. Ο κωδικοποιητής στη συνέχεια παράγει χάρτες χαρακτηριστικών ως έξοδο. Ο εξαγωγέας χρώματος φωνής είναι ένας απλός δύο-διάστατος CNN που λειτουργεί στο μελ-φάσμα του εισαγώμενου ήχου και παράγει einen seul διανυσματικό χαρακτηριστικό ως έξοδο που κωδικοποιεί την πληροφορία του χρώματος φωνής. Οι στρώσεις κανονικού ροή αποδέχονται τους χάρτες χαρακτηριστικών που παράγονται από τον κωδικοποιητή ως είσοδο και παράγουν μια αναπαράσταση χαρακτηριστικών που διατηρεί όλες τις ιδιότητες στυλ αλλά εξαφανίζει την πληροφορία χρώματος φωνής. Το πλαίσιο της OpenVoice στη συνέχεια εφαρμόζει τις στρώσεις κανονικού ροή στην αντίστροφη κατεύθυνση και παίρνει τις αναπαραστάσεις χαρακτηριστικών ως είσοδο και εξόδου τις στρώσεις κανονικού ροή. Το πλαίσιο στη συνέχεια αποκωδικοποιεί τις στρώσεις κανονικού ροή σε сыρό ήχο χρησιμοποιώντας einen στοίβα από μεταστροφείς的一維 convolutions.
Η整體 αρχιτεκτονική του πλαισίου της OpenVoice είναι προώθηση χωρίς τη χρήση οποιουδήποτε auto-regressive компонента. Ο μετατροπέας χρώματος φωνής είναι παρόμοιος με την μετατροπή φωνής σε концепτουαλικό επίπεδο αλλά διαφέρει σε λειτουργικότητα, εκπαιδευτικά αντικείμενα και επαγωγική προκατάληψη στη δομή μοντέλου. Οι στρώσεις κανονικού ροή μοιράζονται την ίδια δομή με τα μοντέλα text to speech που βασίζονται σε ροή αλλά διαφέρουν σε λειτουργικότητα και εκπαιδευτικά αντικείμενα.
Επιπλέον, υπάρχει μια διαφορετική προσέγγιση για την εξαγωγή αναπαραστάσεων χαρακτηριστικών, η μέθοδος που εφαρμόζεται από το πλαίσιο της OpenVoice παραδίδει καλύτερη ποιότητα ήχου. Είναι επίσης αξιοσημείωτο ότι το πλαίσιο της OpenVoice δεν έχει την πρόθεση να εφευρέσει компоненты στη δομή μοντέλου, αλλά και οι δύο κύριοι компоненты, δηλαδή ο μετατροπέας χρώματος φωνής και το βασικό μοντέλο ομιλητή TTS, προέρχονται από υπάρχουσες εργασίες. Ο πρωταρχικός στόχος του πλαισίου της OpenVoice είναι να σχηματίσει ένα αποσυνδεμένο πλαίσιο που分離ζει τον έλεγχο γλώσσας και στυλ από την κλωνοποίηση χρώματος φωνής. Αν και η προσέγγιση είναι khá απλή, είναι khá αποτελεσματική, ειδικά σε εργασίες που ελέγχουν στυλ και προφορά, ή γενίκευση σε νέες γλώσσες. Η επίτευξη του ίδιου ελέγχου όταν χρησιμοποιείται ένα συνδεμένο πλαίσιο απαιτεί大量 υπολογιστικών και δεδομένων, και δεν γενικεύεται καλά σε νέες γλώσσες.
Στην καρδιά του, η κύρια φιλοσοφία του πλαισίου της OpenVoice είναι να αποσυνδέσει τη γεννήτρια γλώσσας και στυλ από τη γεννήτρια χρώματος φωνής. Μια από τις κύριες δυνάμεις του πλαισίου της OpenVoice είναι ότι η κλωνοποιημένη φωνή είναι ευ流 και υψηλής ποιότητας, όσο το μονό ομιλητή TTS μιλάει ευ流.
OpenVoice : Πείραμα και Αποτελέσματα
Η αξιολόγηση των εργασιών κλωνοποίησης φωνής είναι một khó εργασία λόγω πολλών λόγων. Για αρχή, υπάρχουσες εργασίες συχνά χρησιμοποιούν διαφορετικά δεδομένα εκπαίδευσης και δοκιμής που κάνουν την σύγκριση αυτών των εργασιών εσωτερικά άδικη. Αν και η crowd-sourcing μπορεί να χρησιμοποιηθεί για την αξιολόγηση μετρικών όπως το Mean Opinion Score, η δυσκολία και η ποικιλία των δεδομένων δοκιμής θα επηρεάσουν το συνολικό αποτέλεσμα σημαντικά. Δεύτερον, διαφορετικά μοντέλα κλωνοποίησης φωνής έχουν διαφορετικά δεδομένα εκπαίδευσης, και η ποικιλία και η κλίμακα αυτών των δεδομένων επηρεάζουν τα αποτελέσματα σημαντικά. Τέλος, ο πρωταρχικός στόχος των υπάρχουσων εργασιών συχνά διαφέρει ο ένας από τον άλλον, και έτσι διαφέρουν στη λειτουργικότητα.
Λόγω των τριών λόγων που αναφέρθηκαν παραπάνω, είναι άδικο να συγκρίνουμε τα υπάρχοντα πλαίσια κλωνοποίησης φωνής αριθμητικά. Αντίθετα, έχει περισσότερο νόημα να συγκρίνουμε αυτές τις μεθόδους ποιοτικά.
Ακρίβεια Κλωνοποίησης Χρώματος Φωνής
Για να αναλύσει την απόδοσή του, οι développers κατασκευάζουν ένα σετ δοκιμής με ανώνυμους ατόμους, χαρακτήρες παιχνιδιών και διασημότητες που αποτελούν τη βάση αναφορικού ομιλητή, και έχει μια ευρεία κατανομή φωνής, συμπεριλαμβανομένων και των ουδέτερων δειγμάτων και των μοναδικών εκφραστικών φωνών. Το πλαίσιο της OpenVoice είναι σε θέση να κλωνοποιήσει το αναφορικό χρώμα φωνής και να παράγει ομιλία σε πολλές γλώσσες και προφορές για οποιονδήποτε από τους αναφορικούς ομιλητές και τους 4 βασικούς ομιλητές.

Ευέλικτος Έλεγχος Στυλ Φωνής
Ένας από τους στόχους του πλαισίου της OpenVoice είναι να ελέγξει τα στυλ ομιλίας ευέλικτα χρησιμοποιώντας τον μετατροπέα χρώματος φωνής που μπορεί να τροποποιήσει το χρώμα φωνής ενώ διατηρεί όλες τις άλλες ιδιότητες φωνής.
Πειράματα δείχνουν ότι το μοντέλο διατηρεί τα στυλ φωνής μετά την μετατροπή στο αναφορικό χρώμα φωνής. Σε ορισμένες περιπτώσεις, ωστόσο, το μοντέλο trung hòa τα συναισθήματα ελαφρά, ένα πρόβλημα που μπορεί να επιλυθεί περνώντας λιγότερη πληροφορία στις στρώσεις ροής ώστε να μην μπορέσουν να απομακρύνουν το συναισθήμα. Το πλαίσιο της OpenVoice είναι σε θέση να διατηρήσει τα στυλ από τη βασική φωνή χάρη στην χρήση του μετατροπέα χρώματος φωνής. Αυτό επιτρέπει στο πλαίσιο της OpenVoice να χειρίζεται το βασικό μοντέλο ομιλητή TTS για να ελέγξει ευέλικτα τα στυλ φωνής.

Διγλωσσική Κλωνοποίηση Φωνής
Το πλαίσιο της OpenVoice δεν περιλαμβάνει κανένα μεγάλο dataset για μια μη εμφανιζόμενη γλώσσα, και όμως είναι σε θέση να επιτύχει gần διγλωσσική κλωνοποίηση φωνής σε ένα zero-shot ρύθμιση. Οι ικανότητες διγλωσσικής κλωνοποίησης φωνής του πλαισίου της OpenVoice είναι δύο-πλά:
- Το μοντέλο είναι σε θέση να κλωνοποιήσει το χρώμα φωνής του αναφορικού ομιλητή ακριβώς όταν η γλώσσα του αναφορικού ομιλητή δεν εμφανίζεται στο dataset πολλών ομιλητών και πολλών γλωσσών ή MSML.
- Επιπλέον, στην ίδια περίπτωση που η γλώσσα του αναφορικού ομιλητή δεν εμφανίζεται, το πλαίσιο της OpenVoice είναι σε θέση να κλωνοποιήσει τη φωνή του αναφορικού ομιλητή και να μιλήσει στη γλώσσα με την προϋπόθεση ότι το βασικό μοντέλο ομιλητή TTS υποστηρίζει τη γλώσσα.
Τελικές Σκέψεις
Σε αυτό το άρθρο, abbiamo μιλήσει για το πλαίσιο της OpenVoice, ένα πολυμορφικό πλαίσιο άμεσης κλωνοποίησης φωνής που αναπαράγει τη φωνή οποιουδήποτε χρήστη και παράγει ομιλία σε πολλές γλώσσες χρησιμοποιώντας ένα σύντομο δείγμα ήχου από τον αναφορικό ομιλητή. Η πρωταρχική έμπνευση πίσω από την OpenVoice είναι ότι只要 ένα μοντέλο δεν χρειάζεται να κάνει κλωνοποίηση χρώματος φωνής του αναφορικού ομιλητή, ένα πλαίσιο μπορεί να χρησιμοποιηθεί ένα βασικό μοντέλο ομιλητή TTS για να ελέγξει τη γλώσσα και τα στυλ φωνής.
Η OpenVoice αποδεικνύει ότι τα μοντέλα Άμεσης Κλωνοποίησης Φωνής μπορούν να αναπαράγουν το χρώμα φωνής του αναφορικού ομιλητή και να επιτύχουν λεπτομερή έλεγχο των στυλ φωνής, συμπεριλαμβανομένων του προφορικού, του ρυθμού, της μελωδίας, των παύσεων και ακόμη και των συναισθημάτων. Η OpenVoice καταφέρνει να παραδώσει υπεροχή άμεσης κλωνοποίησης φωνής ενώ είναι υπολογιστικά βιώσιμη με λειτουργικά κόστη μέχρι 10 φορές λιγότερα από τις τρέχουσες διαθέσιμες APIs με κατώτερη απόδοση.












