Entretiens
Ivan Crewkov PDG & Co-Fondateur de Buddy AI – Série d’entretiens

Ivan Crewkov est le PDG & Co-Fondateur de Buddy AI, le premier tuteur de conversation en intelligence artificielle pour les enfants, dont la mission est de garantir que tous les étudiants puissent se permettre un tutorat en anglais en un contre un. Après avoir déménagé aux États-Unis depuis la Sibérie, Ivan a vu sa fille d’âge préscolaire lutter pour apprendre l’anglais. Cela l’a inspiré à créer Buddy, un personnage fictif avec lequel les enfants peuvent vraiment converser grâce au pouvoir de l’intelligence artificielle générative.
Depuis son lancement en 2020, l’application Buddy a remporté plusieurs prix et a dominé les classements de la catégorie Enfants et Éducation de l’App Store, avec plus de 36 millions de téléchargements dans le monde.
En 2014, vous avez lancé Cubic.ai, l’un des premiers haut-parleurs intelligents et applications de voix pour les maisons intelligentes. Quels étaient vos principaux enseignements tirés de cette expérience ?
Je ne suis pas sûr de pouvoir prendre le crédit pour le lancement de Cubic.ai. J’ai rejoint l’entreprise un an après sa fondation et j’ai reçu le titre de co-fondateur pour ma contribution.
Voici les principaux enseignements :
- Le matériel est difficile, mais quelqu’un doit le faire quand même. L’obtention de financements de capital-risque pour les startups de matériel est extrêmement difficile. La seule chose qui facilite un peu les choses, c’est le financement participatif.
- L’espace des produits à voix est vaste et diversifié. Ce qui s’applique aux maisons intelligentes ne s’applique pas à l’apprentissage précoce, des technologies à la conception d’expérience utilisateur.
Pouvez-vous partager l’histoire de la genèse de Buddy et comment elle est née de votre déménagement aux États-Unis depuis la Sibérie avec votre famille ?
Avec Cubic.ai, j’ai déménagé de la Sibérie aux États-Unis en 2014 et j’ai emmené ma famille avec moi. Ma fille aînée Sofia a commencé à apprendre l’anglais comme deuxième langue lorsqu’elle est allée à la maternelle à Mountain View, en Californie, à l’âge de 4 ans. Sofia a lutté pour commencer à parler en anglais pendant les 3 à 5 premiers mois de maternelle. Nous étions inquiets car elle ne pouvait pas trouver d’amis et jouer avec la plupart de ses pairs en raison de la langue. Nous avons commencé à chercher des moyens de l’aider à apprendre à parler.
Il est devenu clair que les applications de langues pour les enfants n’enseignent pas à parler (et tout est resté le même avec le temps), et les applications de langues pour les adultes comme Duolingo ne fonctionnent pas pour les enfants en raison de la conception d’expérience utilisateur. Nous avons donc commencé à prendre des leçons sur des plateformes qui relient les enfants avec des enseignants en direct via la vidéoconférence. Des exemples incluent Cambly, VipKid, Novakid, GoStudent, etc. Alors que j’observais Sofia apprendre avec des tuteurs en ligne, j’ai vu les avantages de l’attention individuelle et de la pratique active de la parole, mais j’ai également vu les limites de ces programmes en général.
Par exemple, alors qu’ils grandissent, de nombreuses plateformes de tutorat en ligne et écoles en ligne doivent embaucher des personnes sans formation pédagogique, des compétences en enseignement aux enfants ou même un niveau de compétence en anglais approprié. Pour garantir une certaine qualité d’éducation, les plateformes et les écoles en ligne strictement scriptent les plans de cours et les plans de leçon, et les enseignants doivent utiliser des exercices préfabriqués, y compris des fragments audio et vidéo. Malheureusement, sur de nombreuses plateformes, les tuteurs travaillent essentiellement comme des bots.
Toutefois, le tutorat en ligne a été le seul moyen pour la plupart des gens d’apprendre à parler une langue, en particulier dans les pays non anglophones. Mais en partie en raison de la pénurie d’enseignants, il est beaucoup trop coûteux pour la plupart des familles. Apprendre avec des enseignants en direct est un service d’éducation premium que peu de familles peuvent se permettre.
Mon co-fondateur et moi sommes arrivés à la conclusion que le tutorat par intelligence artificielle est la seule façon évolutiva de fournir un tutorat en anglais individuel à chaque enfant dans le monde. Bientôt, nous avons appris que c’est également le meilleur du point de vue éducatif. Lorsque nous considérions les premiers prototypes de Buddy, nous nous sommes inspirés de la recherche dans le domaine des humains virtuels dans l’éducation.
Les études universitaires montrent les avantages éducatifs et la supériorité des agents pédagogiques animés par rapport aux outils et environnements d’apprentissage plus traditionnels. Par exemple, voir Face-to-Face Interaction with Pedagogical Agents, Twenty Years Later, un article de 2016 qui présente un aperçu du domaine et cite une grande partie du matériel pertinent. Voici une citation :
« En particulier, la méta-analyse a montré que les agents améliorent l’apprentissage par rapport aux environnements d’apprentissage qui ne présentent pas d’agents. […] Peut-être plus intéressant était la constatation que, dans l’éducation formelle, les agents pédagogiques semblent être plus efficaces pour les apprenants plus jeunes que pour les apprenants plus âgés. […] Les études ont montré, par exemple, que les étudiants qui interagissent avec des agents pédagogiques présentent des résultats d’apprentissage plus solides lorsque 1) les agents pédagogiques parlent plutôt que de communiquer par texte, 2) les agents pédagogiques utilisent des gestes humains, 3) les agents pédagogiques communiquent de manière conversationnelle plutôt que formelle, et 4) les agents pédagogiques utilisent un phrasing poli plutôt que direct. »
Cela a renforcé notre confiance dans l’approche de tutorat par intelligence artificielle multimodale. Nous avons décidé que Buddy serait un agent pédagogique animé multimodal capable de reconnaissance vocale et de traitement du langage naturel. Au cœur d’un système de tutorat par intelligence artificielle, il y a trois technologies principales :
- Reconnaissance automatique de la parole (ASR) et analyse nous permettent de traiter et d’analyser la parole de l’élève.
- Traitement du langage naturel (NLP), compréhension du langage naturel et gestion du dialogue qui traite le contenu de la parole de l’élève et produit la réponse suivante. La réponse consiste à la fois en composants verbaux et non verbaux.
- Personnage virtuel animé incarné qui fournit à la fois une rétroaction d’écoute et rejoue la réponse du système. Le personnage est animé de manière procédurale – le système crée des animations en temps réel à partir de la réponse NLP.
Les trois composants sont essentiels à notre approche car seul leur combinaison nous permet de construire un tuteur interactif et d’offrir une expérience éducative réussie.
Ma fille Sofia et le fils de mon co-fondateur, Arseny, sont devenus les premiers utilisateurs de Buddy. Sofia a utilisé les premières versions de Buddy pendant la 1ère année.
Plusieurs années plus tard, ma fille cadette Alisa a commencé à utiliser Buddy à l’âge de 3 ans lorsqu’elle est allée à la maternelle. Maintenant, elle est en Transitional Kindergarten et joue avec Buddy presque tous les jours. Lorsqu’Alisa a commencé à apprendre avec Buddy, elle avait plusieurs problèmes de parole, donc Buddy ne la comprenait pas la plupart du temps. Mais après quelques semaines de pratique, non seulement son anglais mais aussi sa parole s’est améliorée, car elle a essayé de faire de son mieux pour que Buddy la comprenne.
Pourquoi les méthodes traditionnelles d’enseignement d’une deuxième langue sont-elles si inefficaces ?
Aujourd’hui, nous nous concentrons sur la résolution de problèmes éducatifs particuliers liés à la parole :
- La plupart des outils éducatifs traditionnels se concentrent sur l’enseignement d’autres compétences linguistiques comme la lecture ou l’écriture.
- Les applications de langues pour les enfants n’enseignent pas les compétences de parole.
- Certaines applications de langues pour les adultes proposent aujourd’hui des exercices de parole en utilisant l’intelligence artificielle, mais ces services ne fonctionnent pas pour les enfants en raison de la conception d’expérience utilisateur, des préoccupations de sécurité et des réglementations de confidentialité.
- Les tuteurs en direct sont trop coûteux pour la plupart des familles. Malheureusement, de nombreux tuteurs n’ont pas de formation pédagogique ou ne sont pas compétents en anglais.
Buddy est un tuteur multimodal.
- Il est supérieur aux applications d’apprentissage traditionnelles car il fonctionne comme un enseignant en direct de nombreuses manières. Laissez-moi citer l’un de nos conseillers, le Dr Alex Desatnik, PhD, University College London :
“Un tuteur virtuel basé sur la voix. Ce concept peut sembler simple, mais il y a une science derrière. D’un point de vue psychologique de l’apprentissage, le personnage parlant virtuel est une incarnation de l’enseignant. Cette approche crée un effet appelé confiance épistémique, renforçant la motivation et l’engagement de l’élève, et améliorant les résultats d’apprentissage.”
- Buddy a certains avantages même sur les enseignants humains. Buddy ne juge pas, et pour certains enfants, cela les rend plus à l’aise pour commencer à parler à Buddy qu’à un enseignant. C’est pourquoi aujourd’hui, de nombreux tuteurs utilisent Buddy comme un brise-glace qui aide les enfants à surmonter leur peur et leur inconfort et à commencer à parler la langue.
Buddy fonctionne pour aider les enseignants, et non pour les remplacer.
Je pense que c’est très important de noter cela. Buddy peut aider les enseignants à automatiser la partie fastidieuse de leur travail – fournir une pratique régulière. Nous voulons donner le pouvoir aux enseignants de l’école. Buddy est comme une équipe de tuteurs et d’assistants d’enseignants, travaillant individuellement avec chaque enfant de la classe et faisant rapport à l’enseignant de la classe.
Pouvez-vous discuter de la façon dont Buddy utilise des éléments de gamification pour maintenir les enfants excités à l’idée d’apprendre ?
Faits intéressants : l’application mobile de Buddy a été téléchargée 22 millions de fois en 2023, et plus de 70 % de ces téléchargements ont été effectués par des enfants. Pour les enfants, notre application est un jeu où ils jouent avec Buddy, leur ami virtuel parlant et un youtubeur populaire. Les enfants téléchargent l’application et convainquent les parents de payer un abonnement, en expliquant que Buddy est un enseignant.
Pour que cette approche fonctionne, nous concevons Buddy comme un jeu avec une histoire et un univers. Nous travaillons avec des concepteurs de personnages de Hollywood et des écrivains pour créer Buddy et son histoire. Nous avons une équipe de conception de jeu très forte qui travaille directement avec nos éducateurs et transforme le curriculum et les exercices en mini-jeux dans le monde de Buddy.
Quelles sont les autres fonctionnalités principales qui rendent Buddy si puissant dans l’enseignement d’une deuxième langue ?
Notre fonctionnalité principale est vraiment axée sur Buddy en tant que tuteur multimodal :
- Reconnaissance de la parole
- Intelligence artificielle conversationnelle
- Comportement visuel de l’avatar
Quels sont les algorithmes d’apprentissage automatique utilisés chez Buddy ?
Nous développons l’ensemble de la pile de technologies, travaillant ensemble pour permettre notre approche de tutorat par intelligence artificielle multimodale.
- BSR (Reconnaissance de la parole de Buddy) est un moteur de reconnaissance de la parole propriétaire spécifiquement conçu pour fonctionner avec la parole des enfants accentuée et pour se conformer aux réglementations comme COPPA.
- BLM (Modèle de langage de Buddy) — Moteur d’intelligence artificielle conversationnelle pour les enfants. Sûr, rapide et gratuit à exploiter. Il se concentre sur une fonctionnalité éducative spécifique et est beaucoup moins polyvalent que les grands modèles de langage.
- BABE (Moteur de comportement d’avatar de Buddy). Cette technologie génère le comportement visuel du personnage en fonction du contexte de la conversation. Buddy comprend quand il doit sourire, changer de couleur ou mettre un chapeau ridicule.
De nombreux systèmes de reconnaissance vocale luttent avec les accents, en particulier pour les jeunes enfants, comment Buddy surmonte-t-il ces défis ?
En développant BSR, notre technologie de reconnaissance de la parole propriétaire.
Notre public et notre marché uniques ont nécessité le développement d’une technologie propriétaire. Buddy doit reconnaître la parole fortement accentuée des jeunes apprenants de langue anglaise étrangère (EFL). Un autre facteur compliquant est que les étudiants débutants commencent par apprendre des mots séparés, souvent courts, qui sont très difficiles à reconnaître sans contexte. Enfin, le marché des enfants est très réglementé, et la reconnaissance vocale est soumise à la loi sur la protection de la vie privée des enfants en ligne (COPPA) puisque les enregistrements vocaux sont considérés comme des informations personnelles identifiables (PII).
BSR gère la parole des enfants avec différents accents, produite sur une variété d’appareils mobiles avec des microphones de qualité acoustique variable et dans des environnements réels avec de nombreux types de bruit de fond. Et il est conforme à la COPPA par conception.
En travaillant à l’échelle mondiale, nous avons réussi à accumuler un ensemble de données unique pour former notre modèle. Aujourd’hui, BSR surpasse les solutions commerciales disponibles dans la reconnaissance et la compréhension de la parole des enfants accentués.
Comment prévoyez-vous d’étendre la pénétration du marché pour cibler les parents qui peuvent ne pas être familiers avec la technologie d’intelligence artificielle ?
Buddy a commencé à voir le succès avant que l’intelligence artificielle ne devienne un mot à la mode, et la plupart de nos utilisateurs ne sont pas les adoptants précoces typiques de la technologie. Nous résolvons avec succès un problème éducatif important, et il se trouve que nous utilisons l’intelligence artificielle pour cela.
Toutefois, l’un des défis que nous rencontrons est de faire en sorte que les parents traitent l’apprentissage avec Buddy avec la même gravité qu’avec un tuteur en direct — ne pas sauter les leçons, respecter un emploi du temps, etc. La révolution actuelle de l’intelligence artificielle semble aider à cela.
Je dirais que la prochaine grande étape pour nous est de commencer à travailler plus étroitement avec les enseignants et les écoles. Nous exécutons un partenariat pilote avec une école au Brésil et discutons des partenariats avec une douzaine d’autres établissements d’enseignement.
Quelle est votre vision pour l’avenir des tuteurs par intelligence artificielle et de l’éducation en général ?
Les tuteurs par intelligence artificielle sont la meilleure et la seule façon évolutiva de résoudre le problème éducatif n°1 de l’humanité – la pénurie mondiale d’enseignants. Nous avons besoin d’environ 69 millions de nouveaux enseignants pour répondre aux besoins d’apprentissage de base. Pour les matières qui nécessitent un tutorat individuel, comme l’apprentissage des langues, le problème est encore pire.
La révolution de l’intelligence artificielle a accéléré le développement des tuteurs par intelligence artificielle, bien que principalement dans le segment des adultes en utilisant des solutions disponibles, tandis que l’apprentissage précoce reste dramatiquement sous-servi. Nous sommes fiers d’être des pionniers du tutorat par intelligence artificielle pour les jeunes enfants.
En ce qui concerne notre avenir, Buddy a commencé comme un tuteur de langue, mais à long terme, il deviendra une plateforme de tutorat par intelligence artificielle enseignant une grande variété de sujets aux enfants de moins de 12 ans. Nous avons déjà commencé à déployer une version précoce de notre premier cours non linguistique – le curriculum de préparation scolaire pour les enfants américains. Nous voyons Buddy comme l’assistant d’apprentissage de l’enfant, grandissant avec l’enfant de 3 à 4 ans et enseignant de multiples cours au fil des ans.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Buddy AI.












