Interviews
James Kaplan, CEO & Co-Founder van MeetKai Metaverse – Interview Serie

James Kaplan, is de CEO & Co-Founder van MeetKai een Artificial Intelligence, VR, en Conversational Search Company gevestigd in Los Angeles, Californië, die momenteel de AI-speech race leidt met nog nooit eerder gezien functionaliteiten. De conversational AI kan complexere spraak begrijpen en persoonlijke resultaten geven in een natuurlijk gesprek over veel onderwerpen, in verschillende realiteiten. MeetKai’s technologie wordt wereldwijd geïmplementeerd via iOS, Google Play en AppGallery.
U had al op jonge leeftijd van 6 een passie voor AI, hoe kwam u voor het eerst in aanraking met deze technologie?
Mijn introductie tot AI kwam van videospellen. Eerst was het proberen te begrijpen hoe de AI werkte in het spel Oregon Trail – niet zo intelligent, maar toch een vorm van AI. Van daaruit groeide mijn interesse in AI verder toen ik MMORPG’s ging spelen. Ik vond het echt leuk om online games te spelen, maar ik haatte het grinden voor items. Daarom begon ik met het schrijven van bots.
Wat waren enkele van de eerste AI-toepassingen die u codeerde?
Het schrijven van bots voor MMORPG’s was echt mijn eerste stap in het ontwikkelen van een specifieke vorm van AI. Aanvankelijk waren mijn bots vrij eenvoudig en leken meer op macros dan op kunstmatige intelligentie. Maar toen ik ouder werd en de bot-detectie in veel games beter werd, moesten de bots steeds meer lijken op een speler. Ik heb altijd genoten van het schrijven van bots – ik schreef zelfs een bot om een Taylor Swift-wedstrijd te winnen toen ik op school zat (en ze kwam zelfs optreden!). Ik schreef ook de eerste Pokémon Go-bot en kreeg helaas veel mensen geband toen ik mijn interesse verloor in het ontwijken van detectie.
U lanceerde MeetKai in 2018 nadat u gefrustreerd was geraakt door de huidige AI-stemassistenten. Waarom bieden de meeste AI-assistenten een teleurstellende ervaring?
Het kernprobleem is dat de meeste AI-assistenten te veel afhankelijk zijn van externe API’s voor vervulling. Zelfs wanneer ze de vervulling controleren, zoals Alexa voor e-commerce-zoekopdrachten, lijden ze aan dezelfde problemen. Hoe kunt u verwachten dat een stemassistent slim is als hij niets anders doet dan spraak naar tekst omzetten en die tekst in een tekstgebaseerde zoekmachine stoppen? We startten MeetKai met het idee dat we een “leapfrog”-AI-assistent konden bieden door de hele eind-tot-eind-verwerkingpijplijn te controleren die een stemassistent vormt. We ontwikkelden een conversational search engine in plaats van een keyword-gebaseerde om meer complexe queries en gesprekken te ondersteunen. Andere assistenten zitten vast met een teleurstellende ervaring omdat ze geen multi-turn-conversatie-ondersteuning kunnen bouwen op basis van dergelijke beperkende factoren. Ons doel is om daar te komen, maar we zijn nog steeds in de allereerste fase van het opschalen van onze technologie om hetzelfde aantal domeinen te ondersteunen als bestaande spelers.
Wat zijn enkele van de natuurlijke taalbegrips- en natuurlijke taalverwerking-uitdagingen achter het bouwen van een state-of-the-art-stemassistent-ervaring?
Een van de primaire uitdagingen met next-gen NLU is om verder te gaan dan intenties en entiteiten. De meeste NLU is gericht op het hebben van een zeer traditionele aanpak van taalbegrip. Elke invoer-uitspraak wordt geclassificeerd in een intentie, en vervolgens worden de tokens daarin gelabeld in entiteiten met behulp van een sequentiële label-model. Ik kan tientallen problemen met deze standaardaanpak opsommen. De meest kritieke zijn:
- Een intent-classificatie die context-vrij is, faalt om een multi-turn-conversatie te behandelen. De meeste benaderingen zorgen alleen voor de ruwe tekst die werd getranscribeerd. Ze zorgen niet voor context – niet wie de gebruiker is, niet wat de gebruiker leuk vindt, alleen wat ze net vroegen. Dit is vooral belangrijk wanneer de gebruiker iets kort en bondig zegt. Als iemand bijvoorbeeld “cosmopolitan” zegt, kan dit het drankje of het tijdschrift betekenen en is het sterk afhankelijk van de persoon.
- Entity-herkenning-modellen doen een slechte job met alles wat geen categorale waarde is. Grote taalmodellen kunnen niet snel genoeg aanpassen aan nieuwe entiteiten in het wild omdat ze niet in de dataset zitten. AI moet een veel meer geavanceerde manier hebben om entiteiten te herkennen door een veel diepere context te overwegen. Als voorbeeld moet de locatie van een gebruiker zwaar meewegen of iets een restaurantnaam is of iets anders.
- Entity-relaties worden niet goed overwogen. Mijn favoriete voorbeeld is hoe vaak de meeste zoekmachines falen als het gaat om ontkenning. Probeer op andere stemassistenten te zoeken naar een film zonder romance, en u zult zien wat ik bedoel.
Hoe werkt MeetKai AI anders dan de meeste stemassistenten die simpelweg spraak naar tekst vertalen en een Google-zoekopdracht uitvoeren?
Het primaire verschil tussen MeetKai en Google als het gaat om zoekopdrachten is dat we een veel rijker taalbegripsmodel gebruiken om naar items zelf te zoeken in plaats van alleen naar webpagina’s. Wanneer u zoekt naar “Tom Cruise-films zonder actie”, zoekt Google naar pagina’s die die set tokens bevatten (Tom Cruise, films, actie). Bij MeetKai begrijpen we correct dat Tom Cruise een acteur is, films de klasse media zijn die ze zoeken, en dat actie het ongewenste genre is. Met dit kunnen we veel slimmere zoekopdrachten uitvoeren.
MeetKai lanceerde onlangs zijn eerste lifestyle-VR-wereld: MeetKai Metaverse. Kunt u praten over wat deze applicatie specifiek is?
De meeste bedrijven in de metaverse-ruimte werken aan persoon-persoon-interactie. Buiten dat is de content ook meestal cartoon-achtig of is het gewoon een 360°-video. Ons doel met de MeetKai Metaverse is om een heel andere hoek te belichten – persoon-AI. We ontwikkelen een metaverse waarin de personages waarmee u interacteert, allemaal worden aangedreven door onze cutting-edge Conversational AI. Bovendien werken we aan het procedurally genereren van de omgeving om deze veel realistischer en immersiever te maken in vergelijking met andere bedrijven in de ruimte. De twee eerste werelden die beschikbaar zijn om te verkennen in onze metaverse zijn voor twee eerste use-cases: meditatie en musea. In het eerste geval hebben we een Wing Chun-expert gedigitaliseerd, en voor het eerst hebben we een AI-personage gemaakt dat gebruikers kan instrueren over hoe ze revolutionaire meditatie-technieken kunnen gebruiken om een staat van ontspanning te bereiken. In het tweede geval hebben we een altijd groeiende kunstmuseum gemaakt en een AI-aangedreven curator die vragen over de kunst in de ruimte kan beantwoorden en rondleidingen kan geven.
Wat zijn enkele voorbeelden van hoe AI wordt gebruikt in deze Metaverse?
We gebruiken AI op drie plaatsen:
- Om de conversational capabilities van elk personage in onze metaverse aan te drijven.
- Om de content dynamisch te creëren die beschikbaar wordt gesteld aan de gebruiker via voice-guidance. Voorbeelden hiervan zijn meditatie-sessies en kunstgalerij-tours in onze eerste twee ervaringen.
- Om de 3D-ruimte procedurally te creëren in plaats van een handmatige lay-out te vereisen.
Wat is uw visie op de toekomst van stemassistenten?
Voor stemassistenten om een toekomst te hebben, moeten ze evolueren tot iets veel meer dan een opdracht-gebaseerd systeem. Dit betekent dat ze diepe expertise en capaciteiten in veel specifieke domeinen moeten krijgen. Ik denk dat het assembleren van verschillende domein-specifieke stemassistenten de sleutel zal zijn tot het bouwen van een all-intelligent meta-assistent. Dit staat in schril contrast met de pogingen om “het allemaal tegelijk” te doen die we hebben gezien sinds stemassistenten voor het eerst de ruimte betraden.
Is er nog iets anders dat u zou willen delen over MeetKai of de MeetKai Metaverse?
We zijn nog maar aan het begin van onze metaverse-roadmap. Ons uiteindelijke doel is dat we elke ervaring die u in de echte wereld heeft, kunnen repliceren met de metaverse, en dan verder gaan. Dit betekent dat we de kosten- en tijdbeperkende factoren die deze ervaringen in de realiteit beperken, willen elimineren. De metaverse kan ons veel rijker leven laten leven, niet vervangen. We hebben nog enkele technische uitdagingen die moeten worden opgelost, maar we hebben een duidelijke set van mijlpalen die haalbaar zijn, onder voorbehoud dat de hardware blijft verbeteren. We werken nauw samen met hardware-partners om ervoor te zorgen dat de VR-ruimte snel vooruitgaat. Buiten VR om willen we ervoor zorgen dat onze metaverse-ervaring mogelijk is. We zullen binnenkort meer informatie aankondigen over dit onderwerp.
Bedankt voor het geweldige interview, ik kijk uit naar het volgen van uw voortgang op uw versie van de metaverse. Lezers die meer willen leren, moeten MeetKai bezoeken.












