Rozhovory

Nikola Mrksic, spoluzakladatel a CEO PolyAI – Interview Series

Published February 18, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikola Mrksic je spoluzakladatel a CEO PolyAI, předního dodavatele podnikových hlasových asistentů pro automatizovanou zákaznickou službu.

Co vás zpočátku přitáhlo k umělým inteligencím?

Byl jsem již od velmi útlého věku fascinován matematikou a počítačovými vědami. Během svých studií v Cambridgi jsem měl možnost pracovat s několika předními výzkumníky v oblasti strojového učení, včetně Steva Younga a Zoubina Ghahramaniho. Steve mě přesvědčil, abych se připojil k jeho startupu, VocalIQ, a pracoval na vývoji systémů pro rozpoznávání mluvené řeči. Později jsem dokončil doktorát se Stevem, zaměřený na vývoj datově řízených modelů pro porozumění jazyku, které fungují napříč různými použití a jazyky. Konverzační AI je opravdu obtížné a komplexní odvětví, s mnoha vědeckými a inženýrskými průlomy, které nás ještě čekají, a od té doby mě to udržuje v pracovním procesu.

V roce 2017 jste spustil PolyAI, společnost pro konverzační AI, můžete diskutovat o příběhu vzniku PolyAI?

Moi spoluzakladatelé, Shawn Wen, Eddy Su a já jsme dokončili doktorát v Cambridgi ve stejnou dobu. Pracovali jsme na systémech pro dialogy po mnoho let, ale brzy jsme si uvědomili, že typy sofistikovaných systémů, na kterých jsme pracovali, měly velmi málo komerčních aplikací. Takže jsme se spojili, abychom vytvořili konverzační AI řešení, které by bylo prospěšné ve skutečném světě. Viděli jsme příležitost pro skutečně konverzační, víceuživatelské, transakční dialogové systémy, které by mohly interagovat s opravdovými lidmi v každodenním životě.

Soustředili jsme se na zákaznickou službu, protože jsme cítili, že současné technologické schopnosti a požadavky zákazníků byly dobře sladěny.

Můžete diskutovat o některých technologiích strojového učení a zpracování přirozeného jazyka, které se používají?

Naše hlavní tajemství je naše sada různých proprietárních modelů encoderů. Tyto modely jsme předtrénovali na miliardách přirozených konverzací, takže mohou extrahovat záměr i v případě, že vstupní řeč používá slang nebo idiomy. To je nesmírně důležité pro komunikaci po telefonu. Zákazníci nemluví v klíčových slovech; vyprávějí příběhy, přerušují, kladou otázky a obecně chtějí převzít kontrolu nad konverzací.

Nedávno jsme oznámili náš model ConVEx, extrémně datově efektivní extraktor entit, který nám umožňuje přesně extrahovat hodnoty z konverzací.

Naše orchestrace procesu ASR zahrnuje použití jemného ladění platform pro rozpoznávání řeči, aby se neutralizoval šum způsobený různými akcenty, stejně jako jemné ladění pro různé kontexty.

Vyvinuli jsme také bastante robustní knihovnu dialogových politik s předem navržených případech použití, které zahrnují všechny běžné transakce zákaznické služby, takže můžeme velmi rychle spustit nový hlasový asistent pro klienty.

Podle vašeho názoru, co odlišuje dobrý konverzační AI produkt od špatného?

Dobrý produkt bude konzistentně rozumět tomu, co uživatelé myslí, a nikdy je nebude nutit opakovat se. Hovory se často odehrávají v hlučných prostředích, takže produkty musí být odolné vůči znečištěným vstupům. Když značky oslovují velké trhy, produkty musí rozumět různým akcentům a způsobům formulace záměrů. Obě tyto věci vyžadují, aby produkty garantovaly robustní schopnosti rozpoznávání řeči, odolné klasifikace záměrů a extrakce entit.

Skvělé produkty budou pro uživatele aktivně zapojeny. Budou sledovat myšlenkový proces uživatele a budou schopny zvládnout komplexní, každodenní případy, kdy uživatelé mohou sdílet více záměrů a kusů informací současně, a mohou skákat mezi různými kontexty. To vyžaduje robustní multi-label klasifikaci a správu kontextu.

Zapojený produkt bude zobrazovat lidské charakteristiky, aniž by byl nehezký nebo příliš robotický. To znamená rychlé interakce, skutečné hlasy, nepřetržité signály zpětné vazby a určitou míru náhodnosti a nedokonalostí.

Nakonec, skvělé konverzační AI produkty budou interagovat s uživateli, kdekoliv jsou, a nabízet bezproblémový, platformově specifický zážitek, který může zahrnovat hlas, SMS, chat nebo sociální kanály pro zasílání zpráv. Interakční paradigmata by měla zahrnovat specifičnost každé komunikační platformy.

Jaké jsou některé výhody použití konverzační AI místo pokusu o směrování dotazů na chatboty?

Zákaznický zážitek je kritický a stal se klíčovým faktorem pro udržení zákazníků. Hlavním cílem by mělo být usnadnění zákazníkům to, co potřebují udělat.

Telefon je stále nejpreferovanějším kanálem pro kontakt se společností pro většinu zákazníků. Až 65 % všech interakcí se zákazníky stále probíhá po telefonu. Během pandemie COVID-19 byly kontaktní centra vytlačena na extrém, s více zákazníky než kdykoli dříve, kteří volají o podporu.

Samozřejmě, že skvělé zkušenosti umožňují zákazníkům komunikovat, jakýmikoliv způsobem chtějí, takže pro každého, kdo preferuje asynchronní komunikaci, děláme to jednoduché pro značky, aby nabídly stejnou úroveň zážitku napříč textovými kanály.

Jak velkou výzvou je detekce záměru toho, co se zákazník snaží říci?

Existuje řada výzev při porozumění zákazníkům prostřednictvím hlasových kanálů. Přesné a konzistentní porozumění uživatelům vyžaduje, aby mnoho komponent fungovalo dobře вместе.

Nejdříve je rozpoznávání řeči obtížné, zejména když lidé volají z hlučných prostředí, jako když jsou na handsfree, nebo když jedou skrz dopravu nebo tunelem. Rozpoznávání řeči může být také obtížné v regionech s různými akcenty a dialekty. Vyvinuli jsme účinný způsob, jak biasovat modely rozpoznávání řeči pro daný kontext, aby se optimalizovalo rozpoznávání řeči.

Protože náš model ConveRT byl trénován na tak obrovském množství konverzačních dat, je schopen detekovat záměr i na slabých signálech, stejně jako lidé obecně rozumíme tomu, co někdo říká, i když jsme mohli minout jedno nebo dvě slova.

Další úvahou je porozumění, kdy uživatelé chtějí provádět několik akcí najednou. Například někdo může říci: “Ztratil jsem kartu. Můžete mi říci, zda byla použita a zablokovat ji?” V tomto případě model potřebuje rozpoznat dva záměry a jednat na nich v pořadí, které dává smysl.

Model také potřebuje být schopen extrahovat a porozumět entitám, které zákazníci poskytují. Například “Máte stůl v sobotu na oběd pro mě, mou manželku a naše 2 děti?” Povrchový záměr zde je zkontrolovat dostupnost stolu, ale model potřebuje vybrat datum (sobota) a počet lidí (4) a jakékoli další potenciální informace, které mohou být relevantní (například děti jsou povoleny pouze v restaurační části a nemohou být usazeny v baru).

Nakonec, konverzace nejsou vždy lineární. Zákazníci mohou přerušit otázkami nesouvisejícími s výzvou hlasového asistenta, takže asistent potřebuje “poslouchat” jeden typ vstupu, zatímco je otevřen pro různé spouštěče, jako jsou časté otázky nebo změny informací, které uživatel dříve poskytl.

Jaký je proces a časový rámec pro společnost, která chce spustit konverzační AI bot s PolyAI?

Jsme zde, abychom poskytli hlasové asistenty, které mají hmatatelný obchodní dopad. Takže začínáme každou spolupráci s objevováním, kde pomáháme klientům identifikovat a formulovat jejich cíle zákaznické zkušenosti, klíčové metriky a podpůrné procesy. To je místo, kde definujeme cesty, kterými bude hlasový asistent doprovázet zákazníky. To, plus náš předtrénovaný model ConveRT, znamená, že nepotřebujeme obrovské množství konverzačních dat od klientů.

Odtud jsme schopni vyvinout hlasového asistenta s velmi malým vstupem potřebným od klienta, takže to není vůbec náročné na interní IT týmy.

V závislosti na složitosti můžeme spustit proof of value za pouhé 2 týdny a plně nasazenou implementaci za 2 měsíce.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit PolyAI.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.

Unite.AI

Nikola Mrksic, spoluzakladatel a CEO PolyAI – Interview Series

You may like