výhonek Thuy Le, vedoucí produktu ve společnosti Speechmatics - Interview Series - Unite.AI
Spojte se s námi

rozhovory

Thuy Le, vedoucí produktu společnosti Speechmatics – série rozhovorů

mm

Zveřejněno

 on

Thuy Le je vedoucí produktu ve společnosti SpeechmaticsThuy má více než dvě desetiletí zkušeností v oblasti technologií a vývoje inovativních nápadů, stejně jako titul BS v oboru strojírenství na MIT a titul MS v produktovém designu ze Stanfordu. Thuy má širokou škálu zkušeností v oblasti produktového managementu, designu a vývoje, jakož i výzkumu a vývoje, inženýrství, mediálního vývoje a obchodní strategie. Ve společnosti Speechmatics je pověřena zaváděním inovativních produktů a služeb, aby bylo zajištěno, že firma zůstane vedoucí na trhu ve všem, co dělá.

Ke Speechmatics jste nastoupil v listopadu 2019 poté, co jste pracoval v různých odvětvích, včetně samořídících vozidel a B2B analytického softwaru. Co vás zaujalo na práci v rozpoznávání řeči?

Vždy mě přitahovalo použití nových technologií pro zajímavé případy použití a smysluplný dopad. Rozpoznávání řeči, zejména v Speechmatics, tato kritéria splňuje. Je skvělé, že jsme našim zákazníkům umožnili využít hodnotu převodu řeči na text v jejich vlastní rozmanité nabídce produktů.

Z čeho se jako vedoucí produktu Speechmatics skládá váš každodenní život? 

Speechmatics je rozšířená a náš produktový tým je malý (a roste!), takže žádné dva dny nejsou podobné a každý se zapojí tam, kde je to nutné. Jako vedoucí produktu je vše od vyšší úrovně společnosti a produktové strategie přes vaše typické produktové povinnosti spočívající v stanovení priorit a interakce se zákazníky až po podrobné praktické řešení problémů s dodávkami férovou hrou. Je zřejmé, že důležitou součástí této role je také budování vztahů mezi různými funkcemi v organizaci a nábor.

Mohl byste probrat problémy spojené s přístupem k datovým sadám s různými dialekty a přízvuky? 

V technologii řeči je motor obvykle postaven tak, že se trénuje na jednom dialektu jazyka, takže tento dialekt je tím, který nejpřesněji rozpozná a přepíše. V angličtině je to americká angličtina a chybovost je obvykle vyšší u australských přízvuků, britských přízvuků, jamajských přízvuků a tak dále. Pro společnosti využívající technologii k interakci s globální zákaznickou základnou to tedy představuje obrovskou výzvu. Před třemi lety, v roce 2018, jsme spustili Global English, náš špičkový jazykový balíček, který rozumí každému anglickému přízvuku a dialektu, a v loňském roce jsme v této misi pokračovali spuštěním Global Spanish. Věříme, že aby technologie řeči dosáhla svého nejvyššího potenciálu, musí rozumět každému, s kým je v kontaktu. Těšíme se na další uzavírání mezery v „akcentu“ AI s dalšími inovacemi, které přijdou později v tomto roce.

Jaké jsou některé z metod strojového učení, které se používají k trénování z těchto datových sad? 

V našem enginu používáme známé techniky hlubokého učení pod dohledem a neuronové sítě. Neustále také zkoumáme nové přístupy, zejména jak snížit množství značených dat potřebných v modelech ASR. Data jsou králem při vytváření technologie rozpoznávání řeči, takže pokrok ve výzkumu, který nám umožní rozšířit dosah dat, je zásadní. Použití neuronových sítí v našem enginu nám umožňuje lépe zobecňovat napříč různými kontexty a jazyky.

Speechmatics je v současné době lídrem v oboru a testování zjistilo, že Global Spanish je o 3–20 % přesnější než nabídka Google a o 4–13 % přesnější než srovnatelný produkt Microsoftu. Čemu tento úspěch přičítáte? 

Jak jsem již zmínil dříve, má-li být technologie řeči pro podniky skutečně přínosem, musí jim pomoci porozumět celé zákaznické základně bez ohledu na to, jakým jazykem mluví nebo jaký dialekt používají. To je jádro inovací Speechmatics a my jsme odhodláni tyto složité výzvy řešit. A máme úžasný tým, který je zapálený, řízený a investovaný do používání nejnovějších technik hlubokého učení, abychom našim zákazníkům nabídli nejlepší technologii na trhu.

Jaké jazyky jsou v současné době nabízeny a jaké jazyky jsou v současné době zkoumány, aby mohly být přidány? 

V současné době nabízíme více než 30 komerčních jazyků, od arabštiny po mandarínštinu, polštinu po portugalštinu a mnoho dalších. Ale jsou to naše anglické a španělské jazykové balíčky, které jsou globální. Do budoucna se díváme na nové techniky, které nám umožní nejen rychleji přidávat nové jazyky, ale také pravidelněji vylepšovat naše stávající jazyky.

Jaký je váš názor na budoucnost s podporou řeči, kde je hlas primární formou komunikace? 

Firmy stále více vnímají hodnotu technologie rozpoznávání řeči: v roce 2020 došlo k výraznému nárůstu přijetí této technologie mezi podniky, přičemž 68 % respondentů uvedlo, že jejich společnost má strategii hlasových technologií – o 18 % více než v loňském roce. Aby však dosáhla maximálního potenciálu hodnoty, je třeba technologii uplevelovat. Konverzace je o více než jen slovech – skládá se také z kontextových vodítek, jako je sentiment, kadence, interpunkce, hluk na pozadí, tón, změny reproduktorů a další. Zatímco text z technologie rozpoznávání řeči sám o sobě poskytuje velkou hodnotu, pokud jde o zvukové soubory nebo dokonce videosoubory, skutečná zaznamenaná řeč nyní může přesahovat jen slova. Budoucnost technologie rozpoznávání řeči bude brát v úvahu všechny tyto další faktory. Teprve pak to nebude jen o přeměně řeči na text, ale přeměně řeči v hodnotu a opravdovém porozumění každému hlasu.

Je ještě něco, co byste chtěli o Speechmatice sdílet? 

Koncem tohoto roku vyjdou některé opravdu vzrušující novinky, o které se rádi podělíme, takže na ně dávejte pozor!

Děkuji za skvělý rozhovor, čtenáři, kteří se chtějí dozvědět více, by měli navštívit Speechmatics.

Zakládající partner unite.AI a člen Technologická rada Forbes, Antoine je a futurista který je zapálený pro budoucnost umělé inteligence a robotiky.

Je také zakladatelem Cenné papíry.io, web, který se zaměřuje na investice do převratných technologií.