Wywiady
Pavel Osokin, Współzałożyciel i CEO AMAI – Seria wywiadów

Pavel Osokin jest Współzałożycielem i CEO AMAI, startupem z siedzibą w San Francisco, który produkuje silniki głosowe AI. Pavel kieruje operacjami i strategią Amai z profesjonalną ambicją, aby zainstalować swoją technologię głosową w każdym telefonie na świecie. W AMAI opracowano głos AI, który nie mógł być odróżniony od prawdziwej mowy ludzkiej przez 97% użytkowników.
Byłeś przedsiębiorcą przez całe życie, rozpoczynając swoją pierwszą firmę w wieku 13 lat, jaki był twój pierwszy prób w biznesie i co motywowało cię do przyjęcia tego przedsiębiorczego nastawienia?
Nie nazywałem tego firmą, ale zarobiłem swoje pierwsze pieniądze, sprzedając różne rzeczy lub myjąc samochody na ulicy z wiadrem. Moją motywacją było to, że chciałem Colę lub Snickersa, a moi rodzice nie mieli pieniędzy. Mogłem albo czekać, aż pieniądze się pojawią, albo sam je zarobić. Czekanie nie jest dla mnie atrakcyjne.
Czy mógłbyś podzielić się historią powstania AMAI?
Zapytałem mojego partnera: “Czego potrzebują firmy na całym świecie?” W trakcie tej rozmowy zrozumiałem, że każda firma szuka “sprzedaży”. Zaczęliśmy tworzyć roboty, które mogłyby korespondować z klientami i sprzedawać produkty za pośrednictwem poczty i komunikatorów. Z drugiej strony, nie było to coś szczególnie nowego, ponieważ istnieje wiele dostępnych chatbotów. Pomyśleliśmy, że jeśli te roboty mogłyby również wykonywać połączenia, byłoby to fajne. Ponieważ na rynku było niewiele dobrych rozwiązań, stworzyliśmy prototyp naszego syntetyzowanego głosu, a po pierwszych sprzedażach porzuciliśmy robota i skupiliśmy się na TTS.
Co dokładnie oznacza AMAI?
To oznacza Jestem AI (I’m artificial intelligence).
Czy mógłbyś omówić niektóre z wyzwań związanych z projektowaniem najnowocześniejszej technologii Text-to-speech?
Tworzenie najnowocześniejszej technologii TTS wiąże się z kilkoma wyzwaniami. Pierwszym z nich jest zebranie danych. Szkolenie sieci neuronowej wymaga głosów kobiet i mężczyzn w różnym wieku, a im więcej, tym lepiej. Po drugie, należy osiągnąć bardzo bliskie podobieństwo do naturalnego głosu. Najlepszą metodą jest testowanie różnych modeli uczenia maszynowego i ciągłe eksperymentowanie z różnymi przypadkami użycia głosu: w szczególności należy znaleźć najbardziej problematyczny przykład i przetworzyć go oddzielnie. Mówiąc o długoterminowych wyzwaniach, może być trudno ocenić, czy głos stał się lepszy czy gorszy, a w jakim kierunku powinien być udoskonalony.
Jakie są niektóre z wyzwań związanych z rozpoznawaniem mowy, gdy ludzie wchodzą w interakcję z głosem AI AMAI?
Istnieje wiele firm zajmujących się rozpoznawaniem głosu, ponieważ jest to łatwiejsze do opracowania. Problem, który obecnie nie ma rozwiązania, to rozpoznawanie głosu dziecka. Dzieci mają wiele cech mowy w młodym wieku, więc trudno wziąć pod uwagę wszystkie z nich. Niemniej jednak pracujemy nad rozwiązaniem tego problemu i jesteśmy bardzo blisko ogłoszenia wyniku – więc wkrótce nasz AI nie będzie miał żadnych problemów z interakcją nie tylko z dorosłymi, ale także z dziećmi.
Jakie są popularne przypadki użycia AMAI?
Aktualnie są to dubbing książek audio i użycie w przedsiębiorstwach w centrach kontaktowych.
Jakie języki są obecnie dostępne, a jakie języki są obecnie opracowywane?
Nasz system wielu głosów obejmuje dwa języki, rosyjski i angielski. Pomysł polega na tym, że głos utworzony w jednym języku może mówić wszystkimi innymi językami w naszym modelu. Aktualnie zbieramy dane dla 40 innych języków i wkrótce będziemy mieli 42.
Jaka jest twoja wizja przyszłości asystentów głosowych AI?
Uważam, że asystenci głosowi przeniosą się do metaverse, a my obecnie badamy te możliwości. Jeśli zintegrujesz asystenta z głośnikami inteligentnymi lub przeglądarką internetową, więcej ludzi będzie używać wyszukiwania głosowego i wchodzić w interakcję z asystentem każdego dnia. Możesz rozmawiać ze swoim lodówką lub telewizorem.
Czy jest coś jeszcze, co chciałbyś podzielić się o AMAI?
AMAI używa tylko swoich własnych technologii.
Dziękujemy za wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić AMAI.












