στέλεχος Pavel Osokin, Συνιδρυτής & Διευθύνων Σύμβουλος της AMAI - Σειρά Συνεντεύξεων - Unite.AI
Συνδεθείτε μαζί μας

συνεντεύξεις

Pavel Osokin, Συνιδρυτής & Διευθύνων Σύμβουλος της AMAI – Σειρά Συνεντεύξεων

mm

Δημοσιευμένα

 on

Ο Pavel Osokin είναι ο συνιδρυτής και διευθύνων σύμβουλος της AMAI, μια startup με έδρα το Σαν Φρανσίσκο που παράγει μηχανές φωνής AI. Η Pavel ηγείται της λειτουργίας και της στρατηγικής της Amai με επαγγελματική φιλοδοξία να εγκαταστήσει την τεχνολογία φωνής της σε κάθε τηλέφωνο στον κόσμο. Στο AMAI ανέπτυξαν μια φωνή AI που δεν μπορούσε να διακριθεί από μια πραγματική ανθρώπινη ομιλία από το 97% των χρηστών.

Υπήρξατε δια βίου επιχειρηματίας έχοντας ξεκινήσει την πρώτη σας εταιρεία σε ηλικία 13 ετών, ποια ήταν η πρώτη σας επιχειρηματική απόπειρα και τι πιστεύετε ότι σας ώθησε αυτή την επιχειρηματική νοοτροπία;

Δεν το έλεγα πραγματικά εταιρεία, αλλά έβγαλα τα πρώτα μου χρήματα μεταπωλώντας κάποια πράγματα ή απλώς πλένοντας αυτοκίνητα στο δρόμο με έναν κουβά. Το κίνητρό μου ήταν ότι ήθελα μια κόκα κόλα ή ένα Snickers και οι γονείς μου δεν είχαν χρήματα. Θα μπορούσα είτε να περιμένω να εμφανιστούν τα χρήματα είτε να τα κερδίσω εγώ. Η αναμονή δεν με ενδιαφέρει.

Θα μπορούσατε να μοιραστείτε την ιστορία γένεσης πίσω από το AMAI;

Ρώτησα τον συνεργάτη μου, «Τι χρειάζονται οι εταιρείες σε όλο τον κόσμο;» Σε αυτή τη συζήτηση, συνειδητοποίησα ότι κάθε επιχείρηση αναζητά μια «πώληση». Ξεκινήσαμε να φτιάχνουμε ρομπότ που μπορούσαν να αλληλογραφούν με πελάτες και να πουλήσουν προϊόντα μέσω ταχυδρομείου και μηνυμάτων. Από την άλλη, δεν ήταν κάτι ιδιαίτερα νέο καθώς υπάρχουν πολλά διαθέσιμα chatbot. Έτσι, σκεφτήκαμε ότι αν αυτά τα ρομπότ μπορούσαν επίσης να κάνουν κλήσεις, θα ήταν ωραίο. Καθώς υπήρχαν λίγες καλές λύσεις στην αγορά, δημιουργήσαμε ένα πρωτότυπο της δικής μας συνθετικής φωνής και μετά τις πρώτες πωλήσεις, εγκαταλείψαμε το ρομπότ και επικεντρωθήκαμε στο TTS.

Τι σημαίνει συγκεκριμένα το AMAI; 

Αυτό σημαίνει I'm AI (Είμαι τεχνητή νοημοσύνη).

Θα μπορούσατε να συζητήσετε μερικές από τις προκλήσεις πίσω από τη σχεδίαση της τελευταίας τεχνολογίας τεχνολογίας Text-to-Speech;

Ο σχεδιασμός TTS τελευταίας τεχνολογίας προσφέρει πολλές προκλήσεις. Το πρώτο είναι η συλλογή συνόλων δεδομένων. Η εκπαίδευση ενός νευρωνικού δικτύου απαιτεί γυναικείες και ανδρικές φωνές διαφόρων ηλικιών, και όσο περισσότερες, τόσο το καλύτερο. Δεύτερον, πρέπει να επιτύχετε μια πολύ στενή ομοιότητα με μια φυσική φωνή. Η καλύτερη μέθοδος είναι να δοκιμάζετε διαφορετικά μοντέλα μηχανικής εκμάθησης και να πειραματίζεστε συνεχώς με διαφορετικές περιπτώσεις χρήσης φωνής: συγκεκριμένα, πρέπει να βρείτε το πιο προβληματικό δείγμα και να το επεξεργαστείτε ξεχωριστά. Μιλώντας για μακροπρόθεσμες προκλήσεις, μπορεί να είναι δύσκολο να εκτιμηθεί εάν η φωνή έχει γίνει καλύτερη ή χειρότερη και προς ποια κατεύθυνση πρέπει να βελτιωθεί.

Ποιες είναι μερικές από τις προκλήσεις πίσω από την αναγνώριση ομιλίας όταν πρόκειται για ανθρώπους που αλληλεπιδρούν με το φωνητικό AI AMAI;

Υπάρχουν εκατοντάδες εταιρείες που εργάζονται για την αναγνώριση φωνής επειδή είναι πιο εύκολο να αναπτυχθεί. Το πρόβλημα που αυτή τη στιγμή δεν έχει λύση είναι η αναγνώριση της φωνής ενός παιδιού. Τα παιδιά έχουν πολλά χαρακτηριστικά λόγου σε νεαρή ηλικία, επομένως είναι δύσκολο να τα λάβουμε όλα υπόψη. Ωστόσο, εργαζόμαστε για μια λύση σε αυτό το πρόβλημα και είμαστε πολύ κοντά στο να ανακοινώσουμε το αποτέλεσμα – τόσο σύντομα, η τεχνητή νοημοσύνη μας δεν θα έχει προβλήματα αλληλεπίδρασης όχι μόνο με ενήλικες, αλλά και με παιδιά.

Ποιες είναι μερικές δημοφιλείς περιπτώσεις χρήσης για το AMAI;

Αυτήν τη στιγμή, είναι η μεταγλώττιση ηχητικών βιβλίων και η εταιρική χρήση σε τηλεφωνικά κέντρα.

Ποιες γλώσσες προσφέρονται επί του παρόντος και σε ποιες γλώσσες εργάζονται αυτήν τη στιγμή;

Το σύστημα πολλαπλών ομιλητών μας περιλαμβάνει δύο γλώσσες, τα ρωσικά και τα αγγλικά. Η ιδέα είναι ότι μια φωνή που δημιουργείται σε μια γλώσσα μπορεί να μιλήσει και όλες τις άλλες γλώσσες στο μοντέλο μας. Αυτήν τη στιγμή, συλλέγουμε δεδομένα για 40 ακόμη γλώσσες και πολύ σύντομα θα έχουμε 42.

Ποιο είναι το όραμά σας για το μέλλον των φωνητικών βοηθών AI;

Πιστεύω ότι οι βοηθοί φωνής θα περάσουν στο μετασύμπαν, και μελετάμε αυτές τις ευκαιρίες τώρα. Εάν ενσωματώσετε τον βοηθό με έξυπνα ηχεία ή το πρόγραμμα περιήγησης ιστού, περισσότερα άτομα θα χρησιμοποιούν τη φωνητική αναζήτηση και θα αλληλεπιδρούν με τον βοηθό καθημερινά. Μπορείτε να μιλήσετε με το ψυγείο ή την τηλεόρασή σας.

Υπάρχει κάτι άλλο που θα θέλατε να μοιραστείτε για το AMAI;

Η AMAI χρησιμοποιεί μόνο τις δικές της ιδιόκτητες τεχνολογίες.

Σας ευχαριστούμε για τη συνέντευξη, οι αναγνώστες που επιθυμούν να μάθουν περισσότερα πρέπει να το επισκεφτούν AMAI.

Ιδρυτικός συνεργάτης της unite.AI & μέλος της Τεχνολογικό Συμβούλιο Forbes, Ο Αντουάν είναι α μελλοντιστής που είναι παθιασμένος με το μέλλον της τεχνητής νοημοσύνης και της ρομποτικής.

Είναι επίσης ο Ιδρυτής του Securities.io, ένας ιστότοπος που εστιάζει στην επένδυση σε ανατρεπτική τεχνολογία.