stub Thuy Le, szef produktu w firmie Speechmatics — seria wywiadów — Unite.AI
Kontakt z nami

Wywiady

Thuy Le, szef produktu w Speechmatics – seria wywiadów

mm

Opublikowany

 on

Thuy Le jest dyrektorem ds. produktu w firmie MowaThuy ma ponad dwudziestoletnie doświadczenie w technologii i opracowywaniu innowacyjnych pomysłów, a także tytuł licencjata z inżynierii mechanicznej na MIT i tytuł magistra w dziedzinie projektowania produktów na Uniwersytecie Stanforda. Thuy ma szerokie doświadczenie w zakresie zarządzania produktami, projektowania i rozwoju, a także badań i rozwoju, inżynierii, rozwoju mediów i strategii biznesowej. W Speechmatics ma za zadanie wprowadzać innowacyjne produkty i usługi, aby zapewnić firmie utrzymanie wiodącej pozycji na rynku we wszystkim, czym się zajmuje.

Dołączyłeś do Speechmatics w listopadzie 2019 r. po pracy w różnych branżach, w tym w pojazdach autonomicznych i oprogramowaniu analitycznym B2B. Co przyciągnęło Cię do pracy przy rozpoznawaniu mowy?

Zawsze pociągało mnie zastosowanie nowych technologii ze względu na ciekawe zastosowania i znaczący wpływ. Rozpoznawanie mowy, szczególnie w Speechmatics, spełnia te kryteria. Rzeczywiście, wspaniale było pomóc naszym klientom wykorzystać wartość zamiany mowy na tekst w ich własnych, różnorodnych ofertach produktów.

Jak wygląda Twój dzień, jako Head of Product w Speechmatics? 

Firma Speechmatics rozwija się coraz bardziej, a nasz zespół ds. produktu jest niewielki (i rośnie!), więc nie ma dwóch takich samych dni i każdy może wnieść swój wkład tam, gdzie to konieczne. Jako szef produktu wszystko, począwszy od strategii firmy i produktu wyższego szczebla, poprzez typowe obowiązki związane z produktem, takie jak ustalanie priorytetów w planie działania i interakcje z klientami, aż po szczegółowe, praktyczne rozwiązywanie problemów związanych z dostawą, jest uczciwą grą. Oczywiście budowanie relacji pomiędzy różnymi funkcjami w organizacji i rekrutacja również stanowią ważną część tej roli.

Czy mógłbyś omówić wyzwania związane z dostępem do zbiorów danych przy użyciu różnych dialektów i akcentów? 

W technologii mowy silnik jest zwykle budowany poprzez uczenie go jednego dialektu języka, dzięki czemu ten dialekt jest najdokładniej rozpoznawany i transkrybowany. W języku angielskim jest to amerykański angielski, a współczynniki błędów są zazwyczaj wyższe w przypadku akcentów australijskich, akcentów brytyjskich, akcentów jamajskich i tak dalej. Zatem dla firm wykorzystujących tę technologię do interakcji z globalną bazą klientów stanowi to ogromne wyzwanie. Trzy lata temu, w 2018 r., wprowadziliśmy na rynek Global English, nasz wiodący w branży pakiet językowy, który rozumie każdy angielski akcent i dialekt, a w zeszłym roku kontynuowaliśmy tę misję, wprowadzając Global hiszpański. Wierzymy, że aby technologia mowy mogła osiągnąć swój najwyższy potencjał, musi rozumieć wszystkich, z którymi wchodzi w interakcję. Nie możemy się doczekać dalszego zmniejszania „luki w akcentowaniu” sztucznej inteligencji dzięki kolejnym innowacjom, które pojawią się jeszcze w tym roku.

Jakie metodologie uczenia maszynowego są używane do uczenia się na podstawie tych zbiorów danych? 

W naszym silniku używamy znanych technik nadzorowanego głębokiego uczenia się i sieci neuronowych. Stale badamy także nowe podejścia, w szczególności sposoby zmniejszania ilości oznakowanych danych potrzebnych w modelach ASR. Dane odgrywają kluczową rolę w budowaniu technologii rozpoznawania mowy, dlatego niezbędny jest postęp badań, które pozwolą nam poszerzyć zasięg danych. Zastosowanie sieci neuronowych w naszym silniku pozwala nam lepiej uogólniać w różnych kontekstach i językach.

Speechmatics jest obecnie liderem w branży, a testy wykazały, że globalny język hiszpański jest o 3–20% dokładniejszy niż oferta Google i 4–13% dokładniejszy niż porównywalny produkt firmy Microsoft. Czemu przypisujesz ten sukces? 

Jak wspomniałem wcześniej, aby technologia mowy naprawdę była wartością dla firm, musi pomóc im zrozumieć całą bazę klientów, niezależnie od tego, w jakim języku mówią i jakiego dialektu używają. Leży to u podstaw innowacji Speechmatics i jesteśmy zaangażowani w rozwiązywanie tych złożonych wyzwań. Mamy też niesamowity zespół, którego pasją, motywacją i zaangażowaniem jest wykorzystywanie najnowszych technik głębokiego uczenia się, aby oferować naszym klientom najlepszą technologię na rynku.

Jakie języki są obecnie oferowane i jakie języki są obecnie badane pod kątem ich dodania? 

Obecnie oferujemy ponad 30 języków komercyjnych, od arabskiego po mandaryński, polski po portugalski i wiele innych. Ale to nasze pakiety językowe po angielsku i hiszpańsku są globalne. Patrząc w przyszłość, szukamy nowych technik, które nie tylko pozwolą nam szybciej dodawać nowe języki, ale także częściej ulepszać nasze istniejące języki.

Jakie jest Twoje zdanie na temat przyszłości opartej na mowie, w której głos jest podstawową formą komunikacji? 

Firmy w coraz większym stopniu dostrzegają wartość w technologii rozpoznawania mowy: w 2020 r. odnotowano wyraźny wzrost wykorzystania tej technologii wśród przedsiębiorstw – 68% respondentów stwierdziło, że ich firma posiada strategię dotyczącą technologii głosowych — co stanowi wzrost o 18% w porównaniu z rokiem ubiegłym. Aby jednak osiągnęła maksymalny potencjał wartości, technologia wymaga udoskonalenia. Rozmowa to coś więcej niż tylko słowa — składają się na nią także wskazówki kontekstowe, takie jak nastroje, rytm, interpunkcja, szum tła, ton, zmiana głośników i inne. Chociaż sam tekst pochodzący z technologii rozpoznawania mowy ma dużą wartość, w przypadku plików audio, a nawet plików wideo, nagrana mowa może teraz wykraczać poza słowa. Przyszłość technologii rozpoznawania mowy uwzględni wszystkie te czynniki. Tylko wtedy nie będzie chodziło tylko o przekształcenie mowy w tekst, ale o przekształcenie mowy w wartość i prawdziwe zrozumienie każdego głosu.

Czy jest coś jeszcze, czym chciałbyś się podzielić na temat Speechmatics? 

Mamy dla Was kilka naprawdę ekscytujących osiągnięć, które pojawią się jeszcze w tym roku i z radością się nimi podzielimy, więc wypatrujcie ich!

Dziękuję za wspaniały wywiad. Czytelnicy chcący dowiedzieć się więcej powinni odwiedzić nas Mowa.

Partner-założyciel unite.AI i członek Rada Technologiczna Forbesa, Antoine jest futurysta który jest pasjonatem przyszłości sztucznej inteligencji i robotyki.

Jest także Założycielem Securities.io, witryna internetowa skupiająca się na inwestowaniu w przełomowe technologie.