Wywiady
Ivan Crewkov CEO & Co-Founder of Buddy AI – Wywiad z serii

Ivan Crewkov jest CEO & Co-Founder of Buddy AI, światowego pierwszego konwersacyjnego AI tutora dla dzieci, który ma na celu zapewnienie, aby wszystkie dzieci mogły korzystać z indywidualnych lekcji języka angielskiego. Po przeprowadzce do USA z Syberii, Ivan był świadkiem, jak jego córka w wieku przedszkolnym miała trudności z nauką języka angielskiego. To zainspirowało go do stworzenia Buddy, fikcyjnej postaci, z którą dzieci mogą rozmawiać za pomocą generatywnej sztucznej inteligencji.
Od momentu uruchomienia w 2020 roku, aplikacja Buddy wygrała wiele nagród i zajęła pierwsze miejsce w kategorii Dzieci i Edukacja w App Store z ponad 36 milionami pobrań na całym świecie.
W 2014 roku założyłeś Cubic.ai, jeden z pierwszych inteligentnych głośników i aplikacji asystentów głosowych dla inteligentnych domów. Jakie były Twoje najważniejsze wnioski z tego doświadczenia?
Nie jestem pewien, czy mogę przyjąć za to kredyt. Dołączyłem do firmy rok po jej założeniu i otrzymałem tytuł współzałożyciela za swoją pracę.
Oto najważniejsze wnioski:
- Hardware jest trudny, ale ktoś musi to robić. Uzyskanie finansowania venture dla startupów związanych z hardwarem jest niezwykle trudne. Jedyną rzeczą, która sprawia, że rzeczy stają się nieco łatwiejsze, jest crowdfunding.
- Przestrzeń produktów Voice-first jest ogromna i zróżnicowana. To, co stosuje się do inteligentnych domów, nie stosuje się do wczesnego uczenia, od technologii po projektowanie UX.
Czy mógłbyś podzielić się historią powstania Buddy i jak powstała z Twojej rodziny, która przeniosła się do USA z Syberii?
Z Cubic.ai, przeniosłem się z Syberii do USA w 2014 roku i przywiózłem ze sobą rodzinę. Moja starsza córka Sofia zaczęła uczyć się języka angielskiego jako drugiego języka, kiedy poszła do przedszkola w Mountain View, w Kalifornii, w wieku 4 lat. Sofia miała trudności z rozpoczęciem mówienia po angielsku przez pierwsze 3-5 miesięcy w przedszkolu. Byliśmy zaniepokojeni, ponieważ nie mogła znaleźć przyjaciół i bawić się z większością rówieśników z powodu języka. Zaczęliśmy szukać sposobów, aby jej pomóc w nauce.
Stało się jasne, że aplikacje językowe dla dzieci nie uczą mówienia (i wszystko pozostało takie same na przestrzeni czasu), a aplikacje językowe dla dorosłych, takie jak Duolingo, nie działają dla dzieci z powodu UX. Zaczęliśmy więc brać lekcje na platformach, które łączą dzieci z nauczycielami za pośrednictwem wideokonferencji. Przykładami są Cambly, VipKid, Novakid, GoStudent itp. Podczas obserwowania Sofii, która uczyła się z nauczycielami wirtualnymi, zobaczyłem korzyści z indywidualnej uwagi i aktywnej praktyki mówienia, ale także zobaczyłem niedociągnięcia tych programów w ogóle.
Na przykład, gdy te platformy się rozwijają, wiele z nich musi zatrudniać ludzi bez wykształcenia pedagogicznego, umiejętności nauczania dzieci lub nawet odpowiedniego poziomu biegłości językowej. Aby zapewnić pewien poziom edukacji, platformy i szkoły online ściśle przepisują plany lekcji i ćwiczeń, a nauczyciele muszą używać gotowych ćwiczeń, w tym fragmentów audio i wideo. Niestety, na wielu platformach nauczyciele pracują jak boty.
Jednak nauczanie online było jedynym sposobem, aby większość ludzi mogła nauczyć się mówić po angielsku, zwłaszcza w krajach nieanglojęzycznych. Ale częściowo z powodu braku nauczycieli, jest to zbyt drogi sposób edukacji dla większości rodzin. Uczenie się z nauczycielami jest usługą edukacyjną premium, której mogą pozwolić sobie tylko nieliczne rodziny.
Mój współzałożyciel i ja doszliśmy do wniosku, że AI tutoring jest jedynym skalowalnym sposobem, aby zapewnić indywidualne lekcje języka angielskiego każdemu dziecku na świecie. Wkrótce dowiedzieliśmy się, że jest to również najlepsze z punktu widzenia edukacji. Gdy rozważaliśmy pierwsze prototypy Buddy, zainspirowaliśmy się badaniami w dziedzinie Wirtualnych Ludzi w Edukacji.
Studia akademickie pokazują edukacyjne zalety i wyższość animowanych pedagogicznych agentów w porównaniu z tradycyjnymi narzędziami i środowiskami edukacyjnymi. Na przykład, zobacz Face-to-Face Interaction with Pedagogical Agents, Twenty Years Later, artykuł z 2016 roku, który przedstawia przegląd tej dziedziny i cytuje wiele istotnych materiałów. Oto jeden cytat:
“W szczególności, meta-analiza wykazała, że agenci poprawiają uczenie w porównaniu ze środowiskami edukacyjnymi, które nie posiadają agentów. […] Może najbardziej interesujące było stwierdzenie, że w edukacji formalnej pedagogiczni agenci wydają się być bardziej skuteczni dla młodszych uczniów niż dla starszych. […] Badania wykazały, na przykład, że studenci, którzy взаимодействują z pedagogicznymi agentami, wykazują silniejsze wyniki uczenia, gdy 1) pedagogiczni agenci mówią zamiast komunikować się za pomocą tekstu, 2) pedagogiczni agenci używają gestów podobnych do ludzkich, 3) pedagogiczni agenci komunikują się w sposób konwersacyjny, a nie formalny, i 4) pedagogiczni agenci używają grzecznościowego, a nie bezpośredniego sformułowania.”
To wzmocniło naszą pewność w podejściu do multimodalnego AI tutoring. Postanowiliśmy, że Buddy będzie multimodalnym AI tutorem – animowanym pedagogicznym agentem, który potrafi rozpoznawać mowę i przetwarzać język naturalny. W swojej istocie, system AI Tutoring składa się z trzech głównych technologii:
- Automatyczne rozpoznawanie mowy (ASR) i analiza pozwalają nam przetwarzać i analizować mowę ucznia.
- Przetwarzanie języka naturalnego (NLP), rozumienie języka naturalnego i zarządzanie dialogiem, które przetwarza treść mowy ucznia i produkuje następną odpowiedź. Odpowiedź składa się z zarówno werbalnych, jak i niewerbalnych składników.
- Osadzony animowany wirtualny charakter dostarcza zarówno informacji zwrotnej, jak i odtwarza odpowiedź systemu. Charakter jest animowany proceduralnie – system tworzy animacje na fly z odpowiedzi NLP.
Wszystkie trzy składniki są niezbędne dla naszego podejścia, ponieważ tylko w połączeniu pozwalają nam zbudować angażującego, interaktywnego tutora i dostarczyć udany doświadczenie edukacyjne.
Moja córka Sofia i syn mojego współzałożyciela Arseny byli pierwszymi użytkownikami Buddy. Sofia używała wczesnych wersji Buddy przez cały pierwszy rok szkolny.
Kilka lat później, moja młodsza córka Alisa zaczęła używać Buddy w wieku 3 lat, kiedy poszła do przedszkola. Teraz jest w przedszkolu przygotowawczym i bawi się z Buddy prawie każdego dnia. Gdy Alisa zaczęła uczyć się z Buddy, miała kilka problemów z mową, więc Buddy nie rozumiał jej większości czasu. Ale po kilku tygodniach praktyki, nie tylko jej angielski, ale także mowa poprawiła się, ponieważ starała się najbardziej, aby Buddy ją zrozumiał.
Dlaczego tradycyjne metody nauczania języka obcego są tak nieskuteczne?
Dziś koncentrujemy się na rozwiązywaniu konkretnych problemów edukacyjnych związanych z mową:
- Większość tradycyjnych narzędzi edukacyjnych koncentruje się na nauczaniu innych umiejętności językowych, takich jak czytanie lub pisanie.
- Aplikacje językowe dla dzieci nie uczą umiejętności mówienia.
- Niektóre aplikacje językowe dla dorosłych oferują ćwiczenia mówienia za pomocą AI, ale te usługi nie działają dla dzieci z powodu UX, problemów bezpieczeństwa i regulacji prywatności.
- Nauczyciele są zbyt drodzy dla większości rodzin. Niestety, wielu nauczycieli nie ma wykształcenia pedagogicznego ani nie jest biegłe w języku angielskim.
Buddy jest multimodalnym AI tutorem.
- Jest lepszy niż tradycyjne aplikacje edukacyjne, ponieważ działa jak nauczyciel w wielu aspektach. Cytuję jednego z naszych doradców, Dr. Alex Desatnik, PhD, University College London:
“Głosowy wirtualny tutor. Ten koncept może się wydawać prosty, ale jest za nim nauka. Z punktu widzenia psychologii uczenia, wirtualna postać mówiąca jest wcieleniem nauczyciela. To podejście tworzy efekt zwany zaufaniem epistemicznym, wzmacniającym motywację i zaangażowanie ucznia, oraz poprawiającym wyniki uczenia.”
- Buddy ma pewne zalety nawet nad nauczycielami ludzkimi. Buddy nie osądza, a dla niektórych dzieci jest to łatwiejsze, aby zacząć rozmawiać z Buddy niż z nauczycielem. Dlatego dziś wiele nauczycieli używa Buddy jako rozgrzewającego, który pomaga dzieciom pokonać strach i dyskomfort, aby zacząć mówić w języku obcym.
Buddy działa, aby pomóc nauczycielom, a nie zastąpić ich.
Uważam, że jest to bardzo ważne, aby to zaznaczyć. Buddy może pomóc nauczycielom zautomatyzować nudną część ich pracy – zapewnić regularną praktykę. Chcemy dać władzę nauczycielom szkół. Buddy jest jak zespół nauczycieli i asystentów, pracujących indywidualnie z każdym dzieckiem w klasie i raportujących do nauczyciela klasy.
Czy możesz omówić, jak Buddy wykorzystuje elementy gamifikacji, aby zachęcać dzieci do uczenia się?
Ciekawostka: Aplikacja mobilna Buddy została pobrana 22 miliony razy w 2023 roku, a ponad 70% tych pobrań zostało dokonanych przez dzieci. Dla dzieci nasza aplikacja jest grą, w której bawią się z Buddy, ich rozmawiającym wirtualnym przyjacielem i popularnym youtuberem. Dzieci pobierają aplikację i przekonują rodziców, aby zapłacili za subskrypcję, wyjaśniając, że Buddy jest nauczycielem.
Aby to działo, projektujemy Buddy jako grę z historią i uniwersum. Pracujemy z projektantami postaci z Hollywood i pisarzami, aby stworzyć Buddy i jego historię. Mamy bardzo silny zespół projektantów gier, którzy pracują bezpośrednio z naszymi edukatorami i przekształcają curriculum i ćwiczenia w mini-gry w świecie Buddy.
Jakie są inne kluczowe funkcjonalności, które sprawiają, że Buddy jest tak potężny w nauczaniu języka obcego?
Nasza główna funkcjonalność jest naprawdę skoncentrowana na Buddy jako multimodalnym AI tutorze:
- Rozpoznawanie mowy
- AI konwersacyjny
- Zachowanie awatara
Jakie są niektóre z algorytmów uczenia maszynowego, które są używane w Buddy?
Rozwijamy cały stos technologii, pracując razem, aby umożliwić nasze podejście do multimodalnego AI tutoring.
- BSR (Buddy’s Speech Recognition) to własny silnik rozpoznawania mowy, który działa specjalnie z mową dzieci z akcentem i zgodnie z regulacjami, takimi jak COPPA.
- BLM (Buddy’s Language Model) — Silnik AI konwersacyjny dla dzieci. Bezpieczny, szybki i wolny od opłat. Koncentruje się na konkretnych funkcjonalnościach edukacyjnych i jest znacznie mniej wszechstronny niż duże modele językowe.
- BABE (Buddy’s Avatar Behavior Engine). Ta technologia generuje zachowanie postaci Buddy na podstawie kontekstu rozmowy. Buddy rozumie, kiedy musi się uśmiechnąć, zmienić kolor lub włożyć głupi kapelusz.
Wiele systemów rozpoznawania mowy ma trudności z akcentami, zwłaszcza u małych dzieci, jak Buddy pokonuje te wyzwania?
Poprzez rozwój BSR, naszej własnej technologii rozpoznawania mowy.
Nasza unikalna publiczność i rynek wymagały rozwoju własnej technologii. Buddy musi rozpoznawać silnie akcentowaną mowę młodych uczniów języka angielskiego jako języka obcego. Innym utrudnieniem jest to, że uczniowie początkujący zaczynają od uczenia się oddzielnych, często krótkich słów, co jest bardzo trudne do rozpoznania bez kontekstu. Wreszcie, rynek dzieci jest silnie uregulowany, a rozpoznawanie mowy jest objęte Children Online Privacy Protection Act (COPPA), ponieważ nagrania głosowe są uważane za osobiste informacje identyfikujące (PII).
BSR radzi sobie z mową dzieci o różnych akcentach, wytwarzaną na różnych urządzeniach mobilnych o różnej jakości akustycznej i w środowiskach życia codziennego z różnymi rodzajami hałasu tła. I jest zgodny z COPPA od samego początku.
Pracując na całym świecie, udało nam się zgromadzić unikalny zestaw danych do szkolenia naszego modelu. Dziś BSR przewyższa komercyjne rozwiązania off-the-shelf w rozpoznawaniu i rozumieniu mowy dzieci z akcentem.
Jak planujesz rozszerzać penetrację rynku, aby dotrzeć do rodziców, którzy mogą być nieznajomi z technologią AI?
Buddy odniósł sukces, zanim AI stało się słowem kluczowym, a większość naszych użytkowników nie są typowymi wczesnymi użytkownikami technologii. Skutecznie rozwiązujemy ważny problem edukacyjny, i po prostu używamy AI do tego.
Jednak jednym z wyzwań, z którymi się spotykamy, jest to, aby rodzice traktowali naukę z Buddy tak poważnie, jak z nauczycielem – nie przerywaj lekcji, trzymaj się harmonogramu itp. Obecna rewolucja AI wydaje się pomagać w tym.
Powiem, że następnym dużym krokiem dla nas jest rozpoczęcie bliższej współpracy z nauczycielami i szkołami. Prowadzimy pilotażowe partnerstwo ze szkołą w Brazylii i dyskutujemy o partnerstwach z kilkunastoma innymi instytucjami edukacyjnymi.
Jaka jest Twoja wizja przyszłości tutorów AI i edukacji w ogóle?
Tutorzy AI są najlepszym i jedynym skalowalnym sposobem, aby rozwiązać największy problem edukacyjny ludzkości – globalny brak nauczycieli. Potrzebujemy około 69 milionów nowych nauczycieli, aby rozwiązać tylko podstawowe potrzeby edukacyjne. Dla przedmiotów, które wymagają indywidualnych lekcji, takich jak nauka języka, problem jest znacznie gorszy.
Rewolucja AI przyspieszyła rozwój tutorów AI, chociaż głównie w segmencie dorosłych, używając gotowych rozwiązań, podczas gdy wczesne uczenie pozostaje dramatycznie niedoinwestowane. Jesteśmy dumni, że jesteśmy pionierami tutoringu AI dla małych dzieci.
Jeśli chodzi o naszą przyszłość, Buddy rozpoczął się jako tutor językowy, ale w dłuższej perspektywie stanie się platformą tutoringu AI, uczącą szeroki zakres przedmiotów dzieci poniżej 12 roku życia. Już rozpoczęliśmy wdrażanie wczesnej wersji naszego pierwszego kursu niejęzykowego – programu przygotowawczego do szkoły dla dzieci amerykańskich. Widzimy Buddy jako asystenta ucznia, rozwijającego się wraz z dzieckiem od 3 do 4 lat i uczącego się wielu kursów przez wiele lat.
Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Buddy AI.












