Wywiady

Vikrant Tomar, dyrektor ds. technicznych i założyciel Fluent.ai – seria wywiadów

Zaktualizowano on 9 grudnia 2022 r.

Vikrant Tomar, jest dyrektorem technicznym i założycielem firmy Fluent.ai, oprogramowanie do rozumienia mowy i interfejsu użytkownika głosowego dla producentów OEM urządzeń i dostawców usług.

Co początkowo przyciągnęło Cię do studiowania modelowania akustycznego na potrzeby rozpoznawania mowy?

Naprawdę, możemy rozmawiać z urządzeniami w ten sam sposób, w jaki rozmawiamy z drugim człowiekiem. Ta wizja była dla mnie fascynująca. Naukę rozpoznawania mowy rozpoczęłam na ostatnim roku studiów licencjackich. Wtedy też zacząłem interesować się badaniami, więc wziąłem udział w kursie rozpoznawania mowy i powiązanym projekcie badawczym. Na podstawie tej pracy udało mi się opublikować artykuł badawczy na konferencji InterSpeech, jednej z największych i najbardziej renomowanych konferencji dotyczących rozpoznawania mowy. Wszystko to zmotywowało mnie do wybrania badań nad rozpoznawaniem mowy jako celów długoterminowych i stąd doktorat.

W 2015 roku uruchomiłeś Fluent.ai. Czy możesz podzielić się historią powstania tego startupu?

Od dawna nosiłem w sobie chęć do przedsiębiorczości. Wraz z dwoma innymi przyjaciółmi próbowaliśmy założyć firmę po ukończeniu studiów licencjackich, jednak z kilku powodów nie powiodło się to. Podczas doktoratu w McGill obserwowałem scenę startupową w Montrealu. W tym czasie zdarzyło mi się też nawiązać kontakt z ludźmi z TandemLaunch – startupowej fundacji, w której stworzyłem Fluent.ai. Byłem już pod koniec doktoratu i poważnie myślałem o ponownym spróbowaniu swoich sił w przedsiębiorczości. Dzięki mojemu doświadczeniu zawodowemu, badaniom i współpracy z innymi grupami zajmującymi się badaniami mowy zdałem sobie sprawę, że większość tych doświadczeń skupiała się na rozpoznawaniu mowy w określony sposób: przejściu od mowy do transkrypcji tekstu, a następnie przetwarzania języka naturalnego. Pozostawiło to jednak lukę w użyteczności. Duża część populacji nie może korzystać z opracowanych w ten sposób rozwiązań mowy. Ilość danych wymaganych do stosowania takich metod jest tak duża, że opracowywanie oddzielnych modeli dla języków, w których mówi mniej osób, nie miałoby sensu finansowego. Co więcej, wiele dialektów i języków nie ma odrębnej formy pisanej. Nawet moja własna rodzina nie była w stanie posługiwać się opracowanymi przeze mnie narzędziami (mówią dialektem języka hindi). Biorąc to wszystko pod uwagę, zacząłem myśleć o różnych sposobach tworzenia modeli mowy, w których ilość wymaganych danych byłaby mniejsza i/lub użytkownik końcowy mógłby sam wyszkolić lub zaktualizować modele. Zdawałem sobie sprawę, że prace wykonane na Uniwersytecie KU Leuven (KUL) mogą spełniać niektóre z tych wymagań. Dzięki części technologii pochodzącej z KUL mogliśmy postawić pierwsze kroki w stronę tego, czym dzisiaj jest Fluent.

Czy mógłbyś rozwinąć temat intuicyjnych rozwiązań Fluent.ai do rozumienia mowy?

Rozwiązania Fluent.ai do rozpoznawania mowy inspirowane są sposobem, w jaki ludzie nabywają i rozpoznają języki. Konwencjonalne systemy rozpoznawania mowy najpierw dokonują transkrypcji mowy wejściowej na tekst, a następnie wydobywają z niego znaczenie. Nie w ten sposób ludzie rozpoznają mowę. Weźmy przykład dzieci, zanim nauczą się czytać i pisać: mimo że nie mają żadnej wiedzy na temat pisemnej reprezentacji języków, z łatwością potrafią rozmawiać. W podobny sposób modele oparte na głębokich sieciach neuronowych Fluent są w stanie bezpośrednio wydobywać znaczenie z dźwięków mowy bez konieczności wcześniejszej transkrypcji ich na tekst. Technicznie rzecz biorąc, jest to prawdziwe rozumienie języka mówionego. To podejście ma wiele zalet. Tradycyjne rozpoznawanie mowy jest uciążliwym podejściem, w którym kilka modułów, które są szkolone rozłącznie, jest splatanych ze sobą w celu zapewnienia ostatecznej odpowiedzi. Prowadzi to do nieoptymalnego rozwiązania, na które wpływają różnice w wynikach w zakresie akcentów, hałasu, warunków tła itp. System automatycznego rozpoznawania zamiarów (AIR) firmy Fluent jest kompleksowo zoptymalizowany; jest to całkowicie architektura oparta na sieci neuronowej, w której wszystkie moduły są wspólnie szkolone, aby zapewnić najbardziej optymalne rozwiązanie. Ponadto jesteśmy w stanie usunąć wiele modułów obciążających obliczeniowo, powszechnie występujących w konwencjonalnym systemie rozpoznawania mowy. Pozwala nam to tworzyć niewielkie systemy rozpoznawania mowy, które mogą działać w zaledwie 40 KB pamięci RAM na mikrokontrolerze o niskim poborze mocy i pracującym z częstotliwością 50 MHz. Wreszcie, nasze systemy AIR oparte na rozumieniu języka mówionego potrafią wykorzystywać podobieństwa między różnymi językami w unikalny sposób, aby zapewnić niezrównane funkcje, takie jak możliwość rozpoznawania wielu języków w tym samym modelu.

Jakie wyzwania związane ze sztuczną inteligencją stoją za rozwiązaniem problemu hałasu otoczenia?

Hałas jest jednym z największych wyzwań w zakresie rozpoznawania mowy. Problem ten jest naprawdę trudny, ponieważ istnieje wiele różnych rodzajów hałasu, które w różny sposób wpływają na spektrum mowy. Czasami hałas może mieć wpływ na reakcję mikrofonu. W wielu przypadkach nie jest możliwe oddzielenie źródeł mowy od źródeł hałasu. W niektórych przypadkach szum powoduje maskowanie informacji dostępnych w widmie mowy, w innych może całkowicie usunąć przydatne informacje. Obydwa skutkują niską dokładnością. Chociaż łatwo jest usunąć spójne rodzaje hałasu, takie jak hałas wentylatora, niektóre rodzaje hałasu, takie jak bełkot, ludzie rozmawiający w tle lub muzyka, są bardzo trudne do usunięcia ze względu na ich wpływ na spektrum mowy.

Czy możesz zdefiniować, czym jest Edge AI i w jaki sposób Fluent.ai wykorzystuje tego typu sztuczną inteligencję?

Edge AI to ogólny termin używany do określenia wielu różnych sposobów przenoszenia aplikacji AI na urządzenia o niskim poborze mocy. Coraz częściej termin ten jest używany w przypadkach, gdy urządzenia brzegowe same wykonują pewne inteligentne obliczenia. W Fluent koncentrujemy się na zapewnieniu najwyższej jakości zrozumienia języka mówionego. Opracowaliśmy wydajne algorytmy, które umożliwiają urządzeniom obliczeniowym o niskim poborze mocy samodzielne rozpoznawanie mowy wejściowej bez konieczności wysyłania danych do serwera w chmurze w celu przetworzenia. Korzyści są dwojakie: po pierwsze, prywatność użytkownika nie jest zagrożona poprzez przesyłanie strumieniowe i przechowywanie danych głosowych w chmurze. Po drugie, takie podejście zmniejsza opóźnienia, ponieważ dane mowy i odpowiedź nie muszą podróżować między serwerem w chmurze a urządzeniem.

Jakie inne rodzaje technologii uczenia maszynowego są stosowane?

Skupiamy się przede wszystkim na podejściach do rozpoznawania mowy opartych na głębokim uczeniu się. Stosujemy metody RL (uczenie się przez wzmacnianie), np. NASIL[1], aby odkryć nowe, nieznane wcześniej architektury modeli AI (a więc w pewnym sensie AI tworzące AI). Używamy AutoML do dostrajania naszych wcześniej określonych modeli sztucznej inteligencji w celu uzyskania wiarygodnych wyników w różnych zastosowaniach, zwiększając w ten sposób niezawodność i powtarzalność. Kompresja modelu i inne podejścia matematyczne dodatkowo pomagają zoptymalizować wydajność modelu.

Co według Ciebie wydarzy się w ciągu najbliższych 5 lat w przypadku obu stron rozumienie języka naturalnego i przetwarzanie języka naturalnego?

Myślę, że systemy będą ewoluować, aby zapewnić bardziej naturalne interakcje. Pomimo postępu, jaki nastąpił w ostatnich latach, większość obecnych systemów może albo odpowiadać jedynie na proste zapytania, albo przeprowadzać wyszukiwanie w Internecie aktywowane głosem. Będziemy widzieć coraz więcej rozwiązań, które potrafią uzasadnić i odpowiedzieć na całe zapytanie za osobę, zamiast po prostu działać jako chwalebna wyszukiwarka głosowa.

Innym interesującym aspektem jest prywatność. Obecnie popularne rozwiązania to przede wszystkim urządzenia podłączone do Internetu, które przesyłają strumieniowo wszystkie dane głosowe użytkownika do serwera w chmurze. Problemem staje się jednak prywatność takich rozwiązań. Zaczynamy również dostrzegać zastosowania interfejsu głosowego poza elektroniką użytkową, w zastosowaniach przemysłowych, w profesjonalnej przestrzeni audio, a także w hotelach i salach konferencyjnych. Kluczowym wymaganiem dla tych aplikacji jest prywatność, dlatego obecne rozwiązania połączone nie wystarczą – dlatego zobaczymy znacznie więcej rozwiązań opartych na sztucznej inteligencji lub rozwiązaniach opartych na języku naturalnym na urządzeniu.

Jak wspomniałem wcześniej, rozwiązania związane z mową i językiem naturalnym pozostają niedostępne dla dużej części światowej populacji. Dużo pracy wymaga stworzenie nowego rodzaju modeli sztucznej inteligencji, które mogą trenować z niewielką ilością danych, co skutkuje obniżonymi kosztami rozwoju, a z kolei umożliwia opracowywanie modeli w językach, w których jest mniej użytkowników. W tym samym modelu zobaczymy rozwiązania, które mogą nauczyć się rozpoznawać wiele języków w tym samym modelu. Ogólnie rzecz biorąc, będziemy coraz częściej wdrażać wielojęzyczne modele sztucznej inteligencji, które będą w stanie odpowiedzieć na zapytanie użytkownika w jego ojczystym języku.

Czy jest coś jeszcze, czym chciałbyś się podzielić na temat Fluent.ai?

Technologia mowy przeszła długą drogę w ciągu ostatnich kilku lat i ma ogromny potencjał wzrostu w przyszłości. We Fluent.ai zawsze szukamy nowych zastosowań naszej istniejącej technologii, jednocześnie stale wprowadzając innowacje wewnętrznie. Pandemia COVID-19 spowodowała zwiększoną wrażliwość na obszary często dotykane, takie jak przyciski wind, kioski w restauracjach i inne, co wywołało nowe zapotrzebowanie na technologię obsługującą głos. Fluent.ai ma nadzieję pomóc wypełnić te luki, ponieważ nasze rozwiązania są wielojęzyczne, a zatem bardziej integracyjne, a także działają w trybie offline, oferując dodatkową warstwę prywatności. Jak już wspomniano, funkcje te prawdopodobnie będą przyszłością technologii mowy.

Dziękuję za wspaniały wywiad. Czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić r of Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Powiązane tematy:Wywiad

W przyszłym

Jak sztuczna inteligencja zmieni to, co to znaczy być nauczycielem

Nie przegap

Neurolodzy projektują model odzwierciedlający ludzkie uczenie się wizualne

Antoniego Tardif

Partner-założyciel unite.AI i członek Rada Technologiczna Forbesa, Antoine jest futurysta który jest pasjonatem przyszłości sztucznej inteligencji i robotyki.

Jest także Założycielem Securities.io, witryna internetowa skupiająca się na inwestowaniu w przełomowe technologie.

Zjednoczyć.AI

Vikrant Tomar, dyrektor ds. technicznych i założyciel Fluent.ai – seria wywiadów

Wywiady

Vikrant Tomar, dyrektor ds. technicznych i założyciel Fluent.ai – seria wywiadów

Spis treści

Najnowsze posty

Zjednoczyć.AI

Vikrant Tomar, dyrektor ds. technicznych i założyciel Fluent.ai – seria wywiadów

Spis treści

Możesz polubić

Najnowsze posty