Rozhovory

James Kaplan, CEO & Co-Founder of MeetKai Metaverse – Interview Series

mm

James Kaplan, je CEO & Co-Founder of MeetKai an Artificial Intelligence, VR, and Conversational Search Company based in Los Angeles, California, currently leading the AI speech race with never-before-seen features. Its conversational AI can understand more complex speech and give personalized results in a natural conversation about many subjects, in different realities. MeetKai’s technology is deployed globally through iOS, Google Play, and AppGallery.

Měli jste vášeň pro AI již ve velmi raném věku 6 let, jak jste se poprvé setkal s touto technologií?

Mé seznámení s AI přišlo z videoher. První bylo z pokusu pochopit, jak funguje AI ve hře Oregon Trail — nebylo to příliš inteligentní, ale přesto to byla forma AI. Od té doby můj zájem o AI dále rostl, když jsem se dostal do MMORPG. Měl jsem rád hraní online her, ale nenáviděl jsem sbírání předmětů. Proto jsem se začal věnovat psaní Botů.

Jaké byly některé z prvních AI aplikací, které jste naprogramovali?

Psaní botů pro MMO bylo skutečně můj první pokus o vývoj specifické formy AI. Na začátku byli moji boti bastante jednoduchí a blížili se více k makrům než umělé inteligenci. Ale když jsem starší a když bot detekce v mnoha hrách se zlepšila, začala to vyžadovat, aby boti vypadali více jako hráči. Měl jsem rád psaní botů — nakonec jsem napsal bot, aby vyhrál soutěž Taylor Swift, zatímco jsem byl ve škole (a ona skutečně přišla vystupovat!). Stejně tak jsem napsal prvního bota Pokémon Go a lituji, že mnoho lidí bylo zabanováno, když jsem ztratil zájem o vyhýbání se detekci.

Spustil jste MeetKai v roce 2018 po frustraci s aktuálními AI hlasovými asistenty. Proč většina AI asistentů nabízí nedostatečný zážitek?

Jádrem problému je, že většina AI asistentů závisí příliš na externích API pro plnění. I když ovládají plnění, jako je Alexa pro e-commerce search, trpí stejnými problémy. Jednoduše řečeno, jak můžete očekávat, že hlasový asistent bude chytrý, když vše, co dělá, je převést řeč na text a vložit tento text do textového vyhledávače? Začali jsme MeetKai s myšlenkou, že můžeme poskytnout “překvapivého” AI asistenta tím, že budeme ovládat celý koncový proces zpracování, který tvoří hlasového asistenta. Vyvinuli jsme konverzační vyhledávač místo založeného na klíčových slovech, abychom podpořili složitější dotazy a konverzace. Jiní asistenti jsou uvězněni s nedostatečnými zkušenostmi, protože nemohou postavit podporu pro více konverzací na tak omezených faktorech. Naším cílem je dostat se tam, ale jsme stále ve velmi rané fázi rozšiřování naší technologie, abychom mohli splnit stejné množství domén jako stávající hráči.

Jaké jsou některé z přirozeného jazykového porozumění a přirozeného jazykového zpracování výzev za stavbou špičkového hlasového asistenta?

Jednou z hlavních výzev pro next-gen NLU je přesunout se za intents a entity. Most NLU se zaměřuje na tradiční přístup k jazykovému porozumění. Každý vstupní výrok je klasifikován do intentu a poté jsou tokeny uvnitř označeny jako entity pomocí modelu sekvenční značkování. Mohl bych vyjmenovat desítky problémů s tímto standardním přístupem. Nicméně, nejkritičtější z nich jsou:

  1. Intent klasifikace, která je kontextově volná, selhává při zpracování víceuživatelské konverzace. Most přístupy se zajímají pouze o surový text, který byl přepisován. Nezajímají se o kontext — ani o to, kdo je uživatel, ani co uživatel rád má, pouze o to, co právě požádal o.
  2. Modely rozpoznávání entity dělají špatnou práci s tím, co není kategoriální hodnotou. Velké jazykové modely nejsou schopny přizpůsobit se dostatečně rychle novým entitám, které jsou v divočině, protože nejsou v datové sadě. AI potřebuje mít mnohem sofistikovanější způsob, jak rozpoznat entity, přičemž zvažuje mnohem hlubší kontext. Například, umístění uživatele by mělo silně ovlivnit, zda je něco názvem restaurace nebo něčím jiným.
  3. Entity vztahy nejsou dobře zvažovány. Můj oblíbený příklad je, jak často většina vyhledávačů selhává, když se jedná o negaci. Zkuste vyhledat film bez romance na jiných hlasových asistentech a uvidíte, co tím myslím.

Prakticky všichni hlasoví asistenti jednoduše překládají hlas na text a provádějí vyhledávání na Google. Jak MeetKai AI funguje jinak?

Hlavní rozdíl mezi MeetKai a Google, pokud jde o vyhledávání, spočívá v tom, že využíváme mnohem bohatšího jazykového modelu porozumění k vyhledávání samotných položek, spíše než pouze webových stránek. Když vyhledáte “Tom Cruise filmy bez akční”, Google hledá stránky, které mají tento soubor tokenů (Tom Cruise, filmy, akční). U MeetKai správně rozumíme, že Tom Cruise je herec, filmy jsou třída média, kterou hledáte, a že akční je nežádoucí žánr. S tím můžeme provádět mnohem inteligentnější vyhledávání.

Meetkai nedávno spustil svou první životní VR svět: MeetKai Metaverse. Můžete diskutovat, co je tato aplikace specificky?

Most společností v metaverse prostoru pracuje na interakci osob s osobami. Kromě toho je obsah také většinou buď karikaturou nebo je to pouze 360° video. Naším cílem s MeetKai Metaverse je zaměřit se na zcela jinou úhel — osobu a AI. Rozvíjíme metaverz, kde postavy, se kterými interagujete, jsou všechny poháněny naší špičkovou Konverzační AI. Kromě toho pracujeme na procedurální generaci prostředí, aby vypadalo mnohem realističtěji a imerzivněji ve srovnání s ostatními společnostmi v tomto prostoru. Dvě počáteční světy dostupné k prozkoumání v našem metaverzu jsou pro dvě počáteční použití: meditaci a muzea. V prvním případě jsme digitalizovali odborníka na Wing Chun a poprvé jsme vytvořili AI postavu, která je schopna instruovat uživatele, jak používat revoluční meditační techniky k dosažení stavu relaxace. V druhém případě jsme vytvořili stále rostoucí umělecké muzeum a poskytli AI poháněného kurátora, který je schopen odpovědět na otázky o umění v prostoru a poskytnout prohlídky.

Jaké jsou některé příklady toho, jak je AI využívána v tomto Metaverzu?

Využíváme AI na třech místech:

  1. K pohonu konverzačních schopností každé postavy v našem metaverzu.
  2. K dynamickému vytváření obsahu, který je k dispozici uživateli prostřednictvím hlasového vedení. Příklady zahrnují meditační sezení a prohlídky uměleckých galerií v našich prvních dvou zkušenostech.
  3. K vytvoření 3D prostoru procedurálně, spíše než vyžadovat ruční rozložení.

Co je váš výhled do budoucnosti hlasových asistentů?

Aby hlasoví asistenti měli budoucnost, musí se vyvinout v něco mnohem více nežli příkazový systém. To znamená získat hluboké znalosti a schopnosti v mnoha specifických doménách. Domnívám se, že sestavení různých doménově specifických hlasových asistentů bude klíčem k budování všestranného inteligentního meta asistenta. To je v ostrém kontrastu s pokusy “udělat vše najednou”, které jsme viděli, od doby, kdy hlasoví asistenti vstoupili do prostoru.

Je něco jiného, co byste rádi sdíleli o MeetKai nebo MeetKai Metaverse?

Jsme stále na velmi počáteční fázi naší metaverse roadmap. Naším konečným cílem je, že chceme být schopni replikovat jakoukoli zkušenost, kterou máte ve skutečném světě s metaverzem, a pak jít za ním. To znamená, že chceme eliminovat náklady a časově omezující faktory, které omezují stejné zkušenosti ve skutečnosti. Metaverz může umožnit žít mnohem bohatší životy, ne nahradit je. Máme několik technických výzev, které ještě musí být vyřešeny, nicméně, máme jasnou sadu milníků, které jsou dosažitelné, pokud se předpokládá, že hardwarová výbava bude pokračovat. Pracujeme úzce s hardwarovými partnery, aby zajistili, že VR prostor se bude vyvíjet rychle. Kromě VR chceme udělat naše metaverse zkušenost možnou mimo VR. Bude oznámeno více informací o tomto v následujících měsících.

Děkuji za skvělý rozhovor, těším se na sledování vašeho pokroku na vaší verzi metaverzu. Čtenáři, kteří chtějí se dozvědět více, by měli navštívit MeetKai.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.