στέλεχος Jaime Bosch, Διευθύνων Σύμβουλος, Voicemod - Σειρά Συνεντεύξεων - Unite.AI
Συνδεθείτε μαζί μας

συνεντεύξεις

Jaime Bosch, Διευθύνων Σύμβουλος, Voicemod – Σειρά Συνεντεύξεων

mm

Δημοσιευμένα

 on

Ο Jaime Bosch είναι ο Διευθύνων Σύμβουλος της Φωνητικό σύστημα ένα δωρεάν λογισμικό αλλαγής φωνής για παίκτες, δημιουργούς περιεχομένου και vtuber.

Θα μπορούσατε να μοιραστείτε την ιστορία γένεσης πίσω από το Voicemod;

Ως το 8ο από τα 10 παιδιά, μεγάλωσα σε ένα περιβάλλον όπου μπορούσα να ξεδιπλώσω πλήρως το επιχειρηματικό μου πνεύμα από πολύ μικρός, καθώς πάντα υπήρχε υποστήριξη από αδέλφια με παρόμοια σκέψη.

Ως εκ τούτου, ήταν μόνο θέμα χρόνου που δύο από τα αδέρφια μου και εγώ, όλοι μοιραζόμαστε μια βαθιά αγάπη για την τεχνολογία και τη μουσική, παίξαμε με την ιδέα να δημιουργήσουμε μια εφαρμογή που συνδύαζε τα ενδιαφέροντά μας. Έτσι, το 2009, κάναμε ακριβώς αυτό και δημιουργήσαμε μια εφαρμογή μουσικής B2C ως βοηθητικό βήμα στην επιχείρηση στούντιο που λειτουργούσαμε ως κύρια ασχολία μας.

Καθώς ήταν ένα δευτερεύον έργο, πειραματιστήκαμε πολύ με πράγματα όπως η διαμόρφωση φωνής, που μας ενέπνευσε να δημιουργήσουμε κάτι εντελώς νέο και νέο. Το αποτέλεσμα αυτού ήταν αυτό που ονομάσαμε "Voicemod Experience" - ένας εντελώς νέος τρόπος για να βιώσετε τη δική σας φωνή - που έγινε η κινητήρια δύναμη της εξέλιξης της εφαρμογής. Ανεξάρτητα από το ποιος δοκίμασε το λογισμικό μας, συνεχίζουμε να αντιμετωπίζουμε τις ίδιες αντιδράσεις από τα άτομα που βίωσαν την εφαρμογή: γέλιο και έκπληξη όταν ακούς τον εαυτό σου με έναν εντελώς διαφορετικό τρόπο.

Αυτό μας οδήγησε να αναδιαμορφώσουμε το όραμά μας για το προϊόν, σε κάτι που θα μπορούσε τελικά να εξελίξει την ανθρώπινη σύνδεση μέσω του ήχου. Έτσι, μεταφέραμε την εμπειρία από το κινητό στον υπολογιστή, όπου την πήρε αμέσως η εκρηκτική σκηνή παιχνιδιών και ροής – και τα υπόλοιπα είναι, όπως λέει κάποιος, «ιστορία».

Το Voicemod ήταν αρχικά ένα δευτερεύον έργο — πότε συνειδητοποιήσατε ότι θέλετε να κάνετε all-in;

Αρχικά, με τα αδέρφια μου είχαμε μαζί ένα στούντιο που ονομαζόταν 2taptap. Όταν σκεφτήκαμε την ιδέα να δημιουργήσουμε το Voicemod, αρχικά ήταν απλώς ένα διασκεδαστικό εγχείρημα, αλλά όσο περνούσε ο καιρός, είδαμε πώς αλληλεπιδρούσαν οι άνθρωποι με αυτό και το είδος των δυνατοτήτων που είχε η τεχνολογία. Μέχρι εκείνο το σημείο, οι περισσότερες τεχνολογίες αλλαγής φωνής ήταν ασύγχρονες, επομένως η εμπειρία του να είσαι κάποιος άλλος σε πραγματικό χρόνο ήταν καινοτόμο για πολλούς ανθρώπους. Η καθοριστική στιγμή για εμάς, ωστόσο, ήταν η συνειδητοποίηση ότι οι άνθρωποι χρησιμοποιούσαν την τεχνολογία μας όχι απλώς για να διασκεδάσουν, αλλά για να διαμορφώσουν ολόκληρο τον τρόπο έκφρασης τους στο διαδίκτυο. Τότε συνειδητοποιήσαμε ότι χτίζαμε κάτι που δεν αφορούσε μόνο την ψυχαγωγία, αλλά πιθανώς το επόμενο βήμα στο μέλλον των κοινωνικών εμπειριών ήχου.

Θα μπορούσατε να συζητήσετε μερικές από τις τεχνολογίες αναγνώρισης φωνής;

Με το εύρος των αλλαγών φωνής στον κατάλογό μας, υπάρχουν διαδικασίες που υποβάλλονται για να ληφθεί μια κανονική ανθρώπινη φωνή και να μεταμορφωθεί σε κάτι νέο. Φυσικά, υπάρχουν επίσης πτυχές στη φωνή κάποιου που πρέπει να ληφθούν υπόψη, όπως η ηλικία, το φύλο, το συναίσθημα και απλώς απλές παραλλαγές στον τρόπο που μιλάει.

Αυτές οι παραλλαγές συμβάλλουν στο πώς κάποιος μπορεί να ακούγεται και επηρεάζει τις αλλαγές που εφαρμόζονται. Αξιοποιούμε στοιχεία από την προηγμένη τεχνολογία αναγνώρισης φωνής για να διευκολύνουμε τη μετατροπή και τον μετασχηματισμό φωνής όσο το δυνατόν ακριβέστερα — και βελτιώνουμε συνεχώς αυτή τη διαδικασία. Θέλουμε να δώσουμε στους ανθρώπους την ευκαιρία να δομήσουν τον τρόπο με τον οποίο αντιλαμβάνονται, να ακούγονται όπως θέλουν να ακουστούν και να προσφέρουν μια εξαιρετική εμπειρία ακρόασης στο κοινό τους.

Γιατί είναι σημαντικό να βοηθάμε τους ανθρώπους να εκφράζονται μέσω του ήχου;

Από τη στιγμή που γεννιόμαστε και την πρώτη κραυγή ενός μωρού, ο ήχος είναι ο φυσικός τρόπος μέσω του οποίου μαθαίνουμε να εκφραζόμαστε. Καθώς μεγαλώνουμε, η σημασία της ακουστικής επικοινωνίας συνεχίζει να μεγαλώνει, καθώς μαθαίνουμε να διαμορφώνουμε τον ήχο στη γλώσσα και να χρησιμοποιούμε τις φωνές μας για να βάζουμε συναισθήματα και αποχρώσεις στις λέξεις που λέμε. Ανεβάζοντας τον τόνο της φωνής μας, μπορούμε να σηματοδοτήσουμε τον ενθουσιασμό – ή να χρησιμοποιήσουμε ηχητικά εφέ, όπως αναστεναγμούς ή στεναγμούς για να δώσουμε ιδιαίτερη έμφαση στα σημεία που θέλουμε να κάνουμε.

Για μερικούς πραγματικά ταλαντούχους ανθρώπους, η φωνή είναι ένα όργανο για απεριόριστη έκφραση - καθώς μπορούν να δημιουργήσουν απεριόριστο αριθμό ηχητικών εφέ ή φωνών. Οι περισσότεροι από εμάς, ωστόσο, δεν είμαστε τόσο τυχεροί και στην πραγματικότητα αισθανόμαστε άβολα με τις φωνές μας (ειδικά όταν τις ακούμε ηχογραφημένες). Μερικοί από τους χρήστες μας μιλούν ότι αισθάνονται νευρικοί όταν μιλούν μπροστά σε αγνώστους και είναι απογοητευμένοι που δεν μπορούν να εκφραστούν σωστά με τον τρόπο που θα ήθελαν.

Εδώ βλέπουμε μια τεράστια ευκαιρία να βοηθήσουμε τους ανθρώπους. Με τις φωνητικές μας ταυτότητες, οι χρήστες μπορούν να διαμορφώσουν τις φωνές τους ώστε να είναι κάτι με το οποίο αισθάνονται άνετα – ή ακόμα και να γλιστρήσουν σε διαφορετικές φωνές για συγκεκριμένες καταστάσεις. Θέλουμε επίσης να τους δώσουμε τη δυνατότητα να χρησιμοποιούν ηχητικά εφέ, μουσικά κλιπ ή ακουστικά emoji για να δημιουργήσουν ατμόσφαιρα, να μεταδώσουν το πλαίσιο ή να εφαρμόσουν κωμικά εφέ – παρόμοιο με το πώς τα γραφικά emoji συνέβαλαν στη διαμόρφωση της επικοινωνίας κειμένου.

Περιγράψατε το Voicemod ως εξελισσόμενη ανθρώπινη σύνδεση μέσω του ήχου, θα μπορούσατε να το αναλύσετε;

Εκτός από την απελευθέρωση του ομιλητή και την αφαίρεση ενός συγκεκριμένου διανοητικού μπλοκ που εμποδίζει τους ανθρώπους να μιλούν, εργαζόμαστε επίσης για να κάνουμε αυτή τη σύνδεση πιο βαθιά. Για παράδειγμα, το ηχείο μας παίρνει την επικοινωνία και την ανεβάζει στο επόμενο επίπεδο — σκεφτείτε το ως ένα "ηχητικό emoji". Μπορείτε να φανταστείτε άτομα κάτω των 35 ετών να συνομιλούν χωρίς να χρησιμοποιούν emojis; Αν και αυτή η τεχνολογία υπάρχει εδώ και πολύ καιρό, στην πραγματικότητα έχει ενσωματωθεί βαθιά στην επικοινωνία μας από το 2010 περίπου. Είδαμε μια παρόμοια τάση με αυτοκόλλητα σε πλατφόρμες ανταλλαγής μηνυμάτων, την άνοδο των φωνητικών μηνυμάτων και των φωνητικών σημειώσεων και τώρα την αναδυόμενη χρήση των GIF και του Giphy. Με την κλιμάκωση των επικοινωνιών ήχου παγκοσμίως, η σημασία του τρόπου χρήσης του ήχου αυξάνεται. Η αποστολή μιας ακουστικής αντίδρασης στο αστείο του φίλου σας μπορεί να πει πολλά περισσότερα για την ωμή, ειλικρινή αντίδρασή σας από το να πληκτρολογήσετε απλώς μια πρόταση. Φανταστείτε τη διαφορά ανάμεσα στο άκουσμα του ήχου των γρύλων και μπα ντουμ τσς! Όλα έχουν πολύ διαφορετικές έννοιες και συναισθήματα που μπορείτε εύκολα να επικοινωνήσετε με ένα μόνο κλικ.

Θέλουμε να κάνουμε όσο το δυνατόν πιο εύκολο για τους χρήστες να χρησιμοποιούν φωνές, φωνητικά εφέ και ακουστικά emoji για να έχουν πιο ελκυστικές ηχητικές συνομιλίες με φίλους, οικογένεια ή αγνώστους.

Ποιες είναι μερικές από τις τεχνολογίες μηχανικής εκμάθησης πίσω από την εφαρμογή Voicemod, συμπεριλαμβανομένης της δυνατότητας στους χρήστες να ακούγονται καλύτερα και να προσαρμόζουν τη φωνή τους βασισμένη στην πραγματική τους φωνή;

Η μηχανική εκμάθηση βρίσκεται στο επίκεντρο των περισσότερων από τις νέες δυνατότητες του Voicemod.

Όσον αφορά τη δημιουργική πλευρά, το Voicemod's Voicelab δημιούργησε την πρώτη τεχνολογία μετατροπής φωνής σε πραγματικό χρόνο στην αγορά που θα επιτρέπει στους χρήστες να επιλέξουν τη δική τους ηχητική ταυτότητα, δημιουργώντας προσωπικές φωνές για τον καθένα.

Με τη νέα, προηγμένη τεχνολογία που θα κυκλοφορήσει σύντομα, δημιουργούμε φωνές που δεν έχουν ακουστεί ποτέ με μοναδικά χαρακτηριστικά που θα βοηθήσουν στην προστασία του απορρήτου και της ασφάλειας των χρηστών, ενώ ταυτόχρονα θα τους επιτρέψουν να δημιουργήσουν την επιθυμητή προσωπικότητά τους μέσω του ήχου.

Παρατηρήσαμε επίσης ότι αναδύονται μεθοδολογίες βαθιάς μάθησης που βασίζονται σε δεδομένα τα τελευταία χρόνια. Αυτά μας επιτρέπουν να μάθουμε αφηρημένες κρυφές δομές μέσα στα σήματα ομιλίας που σχετίζονται με αντιληπτικά χαρακτηριστικά της φωνής όπως η φωνολογία, το περιεχόμενο, η ταυτότητα, η πρόθεση και η διάθεση. Αξιοποιώντας αυτές τις τεχνολογίες, μπορούμε να ελέγξουμε και να τροποποιήσουμε τις αντιληπτικές πτυχές του σήματος. Αυτό μας επιτρέπει να σχεδιάζουμε τεχνολογίες που δίνουν στους χρήστες περισσότερο έλεγχο των αντιληπτών φωνητικών ταυτοτήτων τους με τρόπο που δεν ήταν δυνατό πριν.

Ποιες είναι μερικές από τις περιπτώσεις χρήσης για την εφαρμογή Voicemod;

Το υπέροχο με το Voicemod είναι ότι τα εργαλεία του εξυπηρετούν μια μεγάλη ποικιλία αναγκών και σεναρίων. Οι πιο συνηθισμένες καταστάσεις θα ήταν για τη δημιουργία περιεχομένου, το παιχνίδι με φίλους, τη συνομιλία με την οικογένεια ή τους φίλους, τη δημιουργία καθηλωτικών περιβαλλόντων ρόλων ή ακόμα και για εργασία και επιχείρηση – όπου οι χρήστες χρησιμοποιούν κυρίως τα εργαλεία ακύρωσης θορύβου και βελτίωσης ήχου.

Θα μπορούσατε να συζητήσετε μερικές από τις προκλήσεις και τα οφέλη της έναρξης μιας startup με αδέρφια;

Ειλικρινά θα ήθελα πολύ, και ξέρω ότι φυσικά όλοι αντιμετωπίζουν προκλήσεις με κάποιους τρόπους, αλλά πραγματικά δεν μπορώ να θυμηθώ πολλές στην περίπτωσή μας. Ο λόγος είναι ότι προερχόμαστε από μια πολύ μεγάλη οικογένεια. Πάντα κάναμε κάτι μαζί, από παιδικά έργα μέχρι μουσική και δημιουργία. Ήταν φυσικό να καταλήξουμε να δουλεύουμε μαζί. Τα αδέρφια μου Φερνάντο και Χουάν - που όπως ανέφερα συνίδρυσαν τη Voicemod μαζί μου - είχαν ήδη πολλές εταιρείες μαζί, επομένως είχαν αρκετή εμπειρία σε αυτό το θέμα. Ήμουν μαζί τους το 2010 στην παρέα τους, η οποία ήταν η 2taptap, οπότε το πήρα και εγώ μια αίσθηση. Αυτό σημαίνει ότι όταν δημιουργήσαμε το Voicemod το κάναμε απόλυτα ευθυγραμμισμένο με το τι θέλουμε να επιτύχουμε και το πιο σημαντικό πώς θέλουμε να το πετύχουμε. Ως εκ τούτου, βοήθησε πραγματικά να φέρουμε μια πολύ ισχυρή κουλτούρα ευθυγραμμισμένων αξιών στο Voicemod, η οποία ήταν ένα πραγματικό κλειδί για την επιτυχία μας.

Υπάρχει κάτι άλλο που θα θέλατε να μοιραστείτε σχετικά με το Voicemod;

Υπάρχουν πολλά που συμβαίνουν στα παρασκήνια, αλλά σύμφωνα με εμάς που θέλουμε να εξελίξουμε τον ήχο για όλοι, αυτήν τη στιγμή εργαζόμαστε πάνω σε κάτι που θα κάνει την τεχνολογία μας ακόμα πιο... προσβάσιμη. Ένας τρόπος για κάθε προγραμματιστή να χρησιμοποιήσει την τεχνολογία μας στο προϊόν του

Γνωρίζουμε ότι οι άνθρωποι περνούν τον περισσότερο χρόνο της αφύπνισης στο διαδίκτυο, συνδεδεμένοι, εκφράζοντας τον εαυτό τους σε διάφορες πλατφόρμες και εφαρμογές. Σε διαδικτυακά περιβάλλοντα, το «άβαταρ» σας είναι ολόκληρη η αυτο-αναπαράσταση σας. Και αλήθεια, ποιος είναι αυτός ο άνθρωπος χωρίς φωνή;

Η δημιουργία τεχνολογίας αλλαγής φωνής σε πραγματικό χρόνο και η ανάπτυξη ενός συστήματος πλήρως προσαρμόσιμων ηχητικών εκφράσεων είναι πολλή δουλειά. Η ομάδα μας έκανε αυτό το βήμα έξω από την εξίσωση σχεδιάζοντας ένα ολόκληρο κιτ που μπορεί εύκολα να ενσωματωθεί από προγραμματιστές οπουδήποτε. Είμαστε εξαιρετικά ενθουσιασμένοι που κάνουμε την τεχνολογία μας προσβάσιμη σε προγραμματιστές και χρήστες σε όλο τον κόσμο, καθώς συνεχίζουμε να χτίζουμε το μέλλον των κοινωνικών εμπειριών ήχου!

Σας ευχαριστούμε για την υπέροχη συνέντευξη, οι αναγνώστες που επιθυμούν να μάθουν περισσότερα πρέπει να το επισκεφτούν Φωνητικό σύστημα

Ιδρυτικός συνεργάτης της unite.AI & μέλος της Τεχνολογικό Συμβούλιο Forbes, Ο Αντουάν είναι α μελλοντιστής που είναι παθιασμένος με το μέλλον της τεχνητής νοημοσύνης και της ρομποτικής.

Είναι επίσης ο Ιδρυτής του Securities.io, ένας ιστότοπος που εστιάζει στην επένδυση σε ανατρεπτική τεχνολογία.