Intervjuer

James Kaplan, VD & medgrundare av MeetKai Metaverse – Intervjuserie

Published January 21, 2022

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

James Kaplan, är VD & medgrundare av MeetKai ett företag inom artificiell intelligens, VR och konversationsbaserad sökning med säte i Los Angeles, Kalifornien, som för närvarande leder racet för taligenkänning med aldrig tidigare skådade funktioner. Deras konversationsbaserade AI kan förstå mer komplexa uttryck och ge personanpassade resultat i en naturlig konversation om många ämnen, i olika verkligheter. MeetKais teknologi distribueras globalt via iOS, Google Play och AppGallery.

Du hade en passion för AI redan vid sex års ålder, hur blev du först introducerad till denna teknik?

Min introduktion till AI kom från videospel. Först var det från att försöka förstå hur AI fungerade i spelet Oregon Trail — inte särskilt intelligent, men ändå en form av AI. Från där växte mitt intresse för AI ytterligare när jag började spela MMORPG. Jag tyckte om att spela online-spel, men jag hatade att “grinda” för föremål. Därför började jag skriva botar.

Vilka var några av de första AI-applikationerna som du kodade?

Att skriva botar för MMORPG var verkligen min första ingång till att utveckla en specifik form av AI. I början var mina botar ganska enkla och mer liknande makron än artificiell intelligens. Men när jag blev äldre och bot-detektering blev bättre i många spel, började detta kräva att botarna såg ut som en spelare. Jag har alltid tyckt om att skriva botar — jag skrev till och med en bot för att vinna en Taylor Swift-tävling medan jag gick i skolan (och hon kom faktiskt och uppträdde!). Likaså skrev jag den första Pokémon Go-boten och fick tyvärr många människor bannade när jag tappade intresset för att undvika upptäckt.

Du lanserade MeetKai 2018 efter att ha blivit frustrerad över nuvarande röstassistenter. Varför erbjuder de flesta röstassistenter en undermålig upplevelse?

Kärnan i problemet är att de flesta röstassistenter är alltför beroende av externa API:er för fullföljande. Även när de kontrollerar fullföljandet, som Alexa för e-handelssökning, lider de av samma problem. Hur kan man förvänta sig att en röstassistent ska vara smart när allt den gör är att omvandla tal till text och lägga texten i en textbaserad sökmotor? Vi startade MeetKai med idén att vi kunde tillhandahålla en “leapfrog”-röstassistent genom att kontrollera hela slut-till-slut-processen som utgör en röstassistent. Vi utvecklade en konversationsbaserad sökmotor istället för en nyckelordsbaserad för att stödja mer komplicerade frågor och samtal. Andra assistenter är fast i undermåliga upplevelser eftersom de inte kan bygga multi-turn-samtal på toppen av sådana begränsande faktorer. Medan vårt mål är att komma dit, är vi fortfarande i ett mycket tidigt skede av att skala ut vår teknik för att uppfylla samma antal domäner som befintliga aktörer.

Vilka är några av de naturliga språkförståelse- och naturliga språkbehandlingsutmaningarna bakom att bygga en toppmoderna röstassistent?

En av de primära utmaningarna med nästa generations NLU är att gå utöver avsikter och entiteter. De flesta NLU fokuserar på att ha en mycket traditionell tillvägagångssätt för språkförståelse. Varje indatauttalande klassificeras i avsikt, och sedan märks token inom med entiteter med hjälp av en sekvensmärkningsmodell. Jag kunde räkna upp dussintals problem med detta standardtillvägagångssätt. Men de viktigaste är:

En avsiktsklassificering som är kontextfri misslyckas med att hantera ett multi-turn-samtal. De flesta tillvägagångssätt bryr sig bara om den råa texten som transkriberades. De bryr sig inte om kontext — inte vem användaren är, inte vad användaren gillar, bara vad de just frågade om. Detta är särskilt viktigt när användaren säger något kort och gott. Till exempel, om någon säger “kosmopolit”, kan det betyda antingen drycken eller tidskriften och är starkt beroende av personen.
Entitetsigenkänningsmodeller gör en dålig jobb med allt som inte är en kategorivärde. Stora språkmodeller kan inte anpassa sig tillräckligt snabbt till nya entiteter som finns i vildmarken eftersom de inte finns i datamängden. AI behöver ha ett mycket mer sofistikerat sätt att känna igen entiteter genom att överväga ett mycket djupare sammanhang. Till exempel bör en användares plats starkt påverka om något är ett restaurangnamn eller något annat.
Entitetsrelationer beaktas inte tillräckligt. Mitt favoritexempel är hur ofta de flesta sökmotorer misslyckas när det gäller negation. Försök att söka efter en film utan romantik på andra röstassistenter, och du kommer att se vad jag menar.

För närvarande översätter de flesta röstassistenter enbart röst till text och genomför en Google-sökning. Hur fungerar MeetKai AI annorlunda än detta?

Den primära skillnaden mellan MeetKai och Google när det gäller sökning är att vi använder en mycket rikare språkförståelsemodell för att söka efter föremål i sig själva snarare än bara webbsidor. När du söker efter “Tom Cruise-filmer utan action” letar Google efter sidor som har den uppsättningen token som visas på sidan (Tom Cruise, filmer, action). På MeetKai förstår vi korrekt att Tom Cruise är en skådespelare, filmer är den klass av media de letar efter, och att action är den oönskade genren. Med detta kan vi genomföra mycket intelligentare sökningar.

MeetKai lanserade nyligen sin första livsstils-VR-värld: MeetKai Metaverse. Kan du diskutera vad denna applikation är specifikt?

De flesta företag inom metaverse-området arbetar med person-till-person-interaktion. Utöver detta är innehållet också till stor del antingen tecknat eller är bara en 360°-video. Vårt mål med MeetKai Metaverse är att fokusera på en helt annan vinkel — person-till-AI. Vi utvecklar en metaverse där karaktärerna du interagerar med alla är drivna av vår banbrytande konversationsbaserade AI. Dessutom arbetar vi med att genomföra procedurgenerering av miljön för att göra den mycket mer realistisk och immersiv jämfört med andra företag inom området. De två första världarna som finns tillgängliga att utforska i vår metaverse är för två första användningsfall: meditation och museer. I det första har vi digitaliserat en Wing Chun-expert, och för första gången skapade vi en AI-karaktär som kan instruera användare om hur man använder revolutionerande meditationstekniker för att komma in i en tillstånd av avslappning. I det senare har vi skapat ett alltmer växande konstmuseum och tillhandahållit en AI-driven kurator som kan svara på frågor om konsten i utrymmet och ge guidade turer.

Vilka är några exempel på hur AI används i denna Metaverse?

Vi använder AI på tre ställen:

För att driva de konversationsmässiga förmågorna hos varje karaktär i vår metaverse.
För att dynamiskt skapa innehållet som görs tillgängligt för användaren genom röstvägledning. Exempel på detta inkluderar meditationsessioner och konstgalleriturer i våra två första upplevelser.
För att skapa den 3D-miljön procedurellt snarare än att kräva en manuell layout.

Vad är din vision för framtiden för röstassistenter?

För att röstassistenter ska ha en framtid måste de utvecklas till något mycket mer än ett kommandobaserat system. Detta innebär att skaffa sig djup expertis och förmågor inom många specifika domäner. Jag tror att att montera olika domänspecifika röstassistenter kommer att vara nyckeln till att bygga ut en all-intelligent meta-assistent. Detta är i skarp kontrast till försöken att “göra allt på en gång” som vi har sett sedan röstassistenter först kom in på marknaden.

Finns det något annat som du vill dela om MeetKai eller MeetKai Metaverse?

Vi är fortfarande i början av vår metaverse-vägkarta. Vårt slutgiltiga mål är att vi vill kunna replikera vilken upplevelse som helst du har i den verkliga världen med metaverse, och sedan gå utöver det. Detta innebär att vi vill eliminera de kostnads- och tidskrävande faktorerna som begränsar samma upplevelser i verkligheten. Metaverse kan låta oss leva mycket rikare liv, inte ersätta dem. Vi har flera tekniska utmaningar som fortfarande måste lösas, men vi har en tydlig uppsättning milstolpar som är uppnåeliga under förutsättning att hårdvaran fortsätter att förbättras. Vi arbetar nära med hårdvarupartner för att säkerställa att VR-utrymmet utvecklas snabbt. Utöver bara VR vill vi göra vår metaverse-upplevelse möjlig utanför VR. Vi kommer att meddela mer information om detta under de kommande månaderna.

Tack för den underbara intervjun, jag ser fram emot att följa er progression på er version av metaverse. Läsare som vill lära sig mer bör besöka MeetKai.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI

James Kaplan, VD & medgrundare av MeetKai Metaverse – Intervjuserie

You may like