Wywiady

James Kaplan, CEO & Co-Founder of MeetKai Metaverse – Wywiad z serii

Published January 21, 2022

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

James Kaplan, jest CEO & Co-Founder of MeetKai firmy zajmującej się Sztuczną Inteligencją, VR i Wyszukiwaniem Konwersacyjnym z siedzibą w Los Angeles, Kalifornia, obecnie prowadzącej wyścig z AI speech z nigdy wcześniej nie widzianymi funkcjami. Ich konwersacyjny AI może zrozumieć bardziej złożoną mowę i dać spersonalizowane wyniki w naturalnej rozmowie o wielu tematach, w różnych rzeczywistościach. Technologia MeetKai jest wdrożona na całym świecie za pośrednictwem iOS, Google Play i AppGallery.

Miałeś pasję do AI już w wieku 6 lat, jak po raz pierwszy zostałeś wprowadzony w tę technologię?

Moje wprowadzenie do AI pochodziło z gier wideo. Najpierw było to zrozumienie, jak działa AI w grze Oregon Trail – nie było to zbyt inteligentne, ale było to forma AI. Od tego momentu moje zainteresowanie AI rosło, gdy zacząłem grać w MMORPG. Lubiłem grać w gry online, ale nienawidziłem zbierania przedmiotów. Dlatego zacząłem pisać Bots.

Jakie były niektóre z pierwszych aplikacji AI, które napisałeś?

Pisanie botów dla MMO było moim pierwszym podejściem do opracowania określonej formy AI. Na początku moi boty były dość proste i bliższe makrom niż sztucznej inteligencji. Ale gdy dorastałem i gdy wykrywanie botów stało się lepsze w wielu grach, zaczęło wymagać, aby boty wyglądały coraz bardziej jak gracze. Zawsze lubiłem pisać boty – napisałem nawet bota, który wygrał konkurs Taylor Swift, gdy byłam w szkole (i ona sama przyszła wystąpić!). Podobnie, napisałem pierwszego bota Pokémon Go i żałuję, że wielu ludzi zostało zbanowanych, gdy straciłem zainteresowanie unikaniem wykrycia.

Uruchomiłeś MeetKai w 2018 roku, będąc sfrustrowanym obecnymi asystentami głosowymi AI. Dlaczego większość asystentów AI oferuje doświadczenie na niskim poziomie?

Istotą problemu jest to, że większość asystentów AI opiera się zbyt mocno na zewnętrznych API do wypełniania. Nawet gdy kontrolują wypełnianie, tak jak Alexa dla wyszukiwania e-commerce, cierpią na te same problemy. Po prostu, jak można oczekiwać, że asystent głosowy będzie mądry, gdy wszystko, co robi, to zamienia mowę na tekst i umieszcza ten tekst w silniku wyszukiwania opartym na tekście? Zaczęliśmy MeetKai z pomysłem, że możemy zapewnić „przeskok” asystenta AI, kontrolując cały proces przetwarzania końca do końca, który tworzy asystenta głosowego. Opracowaliśmy silnik wyszukiwania konwersacyjnego, a nie oparty na słowach kluczowych, aby obsłużyć bardziej skomplikowane zapytania i rozmowy. Inni asystenci są uwięzieni w doświadczeniach na niskim poziomie, ponieważ nie mogą zbudować wsparcia dla wieloobrotowych rozmów na podstawie tak ograniczających czynników. Chociaż naszym celem jest dotarcie tam, jesteśmy nadal na bardzo wczesnym etapie skalowania naszej technologii, aby zaspokoić tyle samo domen, co istniejący gracz.

Jakie są niektóre z naturalnego zrozumienia języka i przetwarzania języka naturalnego wyzwania związane z budową asystenta głosowego o wysokiej jakości?

Jednym z głównych wyzwań związanych z następną generacją NLU jest przeniesienie się poza intencje i jednostki. Większość NLU koncentruje się na bardzo tradycyjnym podejściu do zrozumienia języka. Każde wejściowe zdanie jest klasyfikowane jako intencja, a następnie tokeny wewnątrz są oznaczone jako jednostki przy użyciu modelu oznaczania sekwencji. Mogę wyliczyć dziesiątki problemów z tym standardowym podejściem. Jednak najważniejsze z nich to:

Klasyfikacja intencji, która jest pozbawiona kontekstu, nie potrafi obsłużyć rozmowy wieloobrotowej. Większość podejść troszczy się tylko o surowy tekst, który został przepisany. Nie dbają o kontekst – nie o to, kim jest użytkownik, nie o to, co użytkownik lubi, tylko o to, o czym właśnie spytał. Jest to szczególnie ważne, gdy użytkownik mówi coś bardzo krótkiego. Na przykład, jeśli ktoś mówi „kosmopolita”, może to oznaczać napój lub magazyn i jest silnie uzależnione od osoby.
Modele rozpoznawania jednostek robią słabą robotę z wszystkim, co nie jest wartością kategorialną. Duże modele językowe nie są w stanie dostosować się wystarczająco szybko do nowych jednostek, które są w świecie, ponieważ nie są one w zestawie danych. AI musi mieć o wiele bardziej zaawansowany sposób rozpoznawania jednostek, biorąc pod uwagę znacznie głębszy kontekst. Na przykład, lokalizacja użytkownika powinna silnie wpływać na to, czy coś jest nazwą restauracji, czy czymś innym.
Relacje między jednostkami nie są dobrze rozważane. Mój ulubiony przykład to to, jak często większość silników wyszukiwania zawodzi, gdy chodzi o negację. Spróbuj wyszukać film bez romansu w innych asystentach głosowych, a zobaczysz, co mam na myśli.

Obecnie większość asystentów głosowych po prostu tłumaczy głos na tekst i przeprowadza wyszukiwanie Google. Jak MeetKai AI działa inaczej niż to?

Główna różnica między MeetKai a Google, jeśli chodzi o wyszukiwanie, polega na tym, że wykorzystujemy znacznie bogatszy model zrozumienia języka, aby wyszukiwać same elementy, a nie tylko strony internetowe. Gdy wyszukujesz „filmy z Toma Cruise’a bez akcji”, Google szuka stron, które mają ten zestaw tokenów (Tom Cruise, filmy, akcja). W MeetKai poprawnie rozumiemy, że Tom Cruise jest aktorem, filmy są klasą mediów, które są wyszukiwane, a akcja jest niepożądanym gatunkiem. Z tym możemy przeprowadzać znacznie bardziej inteligentne wyszukiwania.

Meetkai niedawno uruchomił swój pierwszy świat VR: MeetKai Metaverse. Czy mógłbyś omówić, co to jest ta aplikacja?

Większość firm w przestrzeni metaverse pracuje nad interakcją osoba-osoba. Poza tym, treści są również w dużej mierze albo kreskówkowe, albo są tylko filmem 360°. Naszym celem z MeetKai Metaverse jest skoncentrowanie się na całkowicie innym kącie – osoba-AI. Rozwijamy metaverse, w którym postacie, z którymi wchodzisz w interakcję, są wszystkie napędzane przez naszą najnowocześniejszą Conversational AI. Ponadto pracujemy nad proceduralną generacją środowiska, aby uczynić je znacznie bardziej realistycznym i immersyjnym w porównaniu z innymi firmami w tej przestrzeni. Dwa początkowe światy dostępne do eksploracji w naszym metaverse są dla dwóch początkowych przypadków użycia: medytacji i muzeów. W pierwszym przypadku zdigitalizowaliśmy eksperta Wing Chun, a po raz pierwszy stworzyliśmy postać AI, która może instruować użytkowników, jak używać rewolucyjnych technik medytacji, aby wejść w stan relaksu. W drugim przypadku stworzyliśmy rosnące muzeum sztuki i zapewniliśmy kuratora AI, który może odpowiadać na pytania o sztuce w przestrzeni i zapewniać wycieczki.

Jakie są niektóre przykłady tego, jak AI jest używana w tym Metaverse?

Używamy AI w trzech miejscach:

Aby napędzić możliwości konwersacyjne każdej postaci w naszym metaverse.
Aby dynamicznie tworzyć treści, które są dostępne dla użytkownika za pomocą wskazówek głosowych. Przykładami tego są sesje medytacyjne i wycieczki z przewodnikiem po galerii sztuki w naszych dwóch początkowych doświadczeniach.
Aby stworzyć przestrzeń 3D proceduralnie, zamiast wymagać ręcznego układu.

Jakie jest twoje wizja przyszłości asystentów głosowych?

Aby asystenci głosowi mieli przyszłość, muszą ewoluować w coś znacznie więcej niż system oparty na poleceniach. Oznacza to uzyskanie głębokiej ekspertyzy i zdolności w wielu konkretnych dziedzinach. Uważam, że zbudowanie różnych asystentów głosowych specyficznych dla domeny będzie kluczem do zbudowania całkowicie inteligentnego meta-asystenta. Jest to w wyraźnym przeciwieństwie do prób „zrobienia wszystkiego na raz” w przestrzeni asystentów głosowych.

Czy jest coś jeszcze, co chciałbyś podzielić się na temat MeetKai lub MeetKai Metaverse?

Jesteśmy nadal na samym początku naszej mapy drogowej metaverse. Naszym ostatecznym celem jest to, abyśmy mogli odtworzyć każde doświadczenie, które masz w świecie rzeczywistym, w metaverse, a następnie pójść ponad to. Oznacza to, że chcemy wyeliminować czynniki kosztu i czasu, które ograniczają te same doświadczenia w rzeczywistości. Metaverse może pozwolić nam żyć bogatszym życiem, nie zastępując go. Mamy kilka technicznych wyzwań, które nadal muszą być rozwiązane, jednak mamy wyraźny zestaw kamieni milowych, które są osiągalne, zakładając, że sprzęt będzie nadal się poprawiać. Pracujemy ściśle z partnerami sprzętowymi, aby zapewnić, że przestrzeń VR będzie się rozwijać szybko. Poza samym VR chcemy uczynić nasze doświadczenie metaverse możliwe poza VR. Ogłosimy więcej informacji na ten temat w nadchodzących miesiącach.

Dziękuję za wspaniały wywiad, czekam na śledzenie twoich postępów w twojej wersji metaverse. Czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić MeetKai.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.

Unite.AI

James Kaplan, CEO & Co-Founder of MeetKai Metaverse – Wywiad z serii

You may like