Interviews
Ivan Crewkov PDG et co-fondateur de Buddy AI – Série d'interviews

Ivan Crewkov est le PDG et co-fondateur de Copain IA, le premier tuteur d'IA conversationnelle au monde pour les enfants, dont la mission est de garantir que tous les élèves puissent se permettre un tutorat d'anglais individuel. Après avoir quitté la Sibérie pour s'installer aux États-Unis, Ivan a vu sa fille d'âge préscolaire avoir du mal à apprendre l'anglais. Cela l’a inspiré à créer Buddy, un personnage fictif avec lequel les enfants peuvent réellement converser grâce à la puissance de l’IA générative.
Depuis son lancement en 2020, l'application Buddy a remporté plusieurs prix et a dominé les classements dans la catégorie Enfants et Éducation de l'App Store avec plus de 36 millions de téléchargements dans le monde.
En 2014, vous avez lancé Cubic.ai, l'une des premières applications de haut-parleurs et d'assistants vocaux intelligents pour les maisons intelligentes. Quels ont été les principaux enseignements que vous avez tirés de cette expérience ?
Je ne suis pas sûr de pouvoir m'attribuer le mérite du lancement de Cubic.ai. J'ai rejoint l'entreprise un an après sa création et j'ai reçu mon titre de co-fondateur pour ma contribution.
Voici les principaux points Ă retenir:
- Le matériel est difficile, mais quelqu'un doit quand même le faire. Il est extrêmement difficile d’obtenir un financement de capital-risque pour les startups de matériel informatique. La seule chose qui facilite un peu les choses est le financement participatif.
- L’espace des produits Voice-first est vaste et diversifié. Ce qui s’applique aux maisons intelligentes ne s’applique pas à l’apprentissage préscolaire, des technologies à la conception UX.
Pourriez-vous partager l'histoire de la genèse de Buddy et comment elle est née du déménagement de votre famille aux États-Unis depuis la Sibérie ?
Grâce à Cubic.ai, j'ai quitté la Sibérie pour les États-Unis en 2014, emmenant ma famille avec moi. Ma fille aînée, Sofia, a commencé à apprendre l'anglais langue seconde à l'âge de 4 ans, à l'école maternelle de Mountain View, en Californie. Sofia a eu du mal à parler anglais pendant les 3 à 5 premiers mois de sa scolarité. Nous étions inquiets car elle ne pouvait pas se faire d'amis ni jouer avec la plupart de ses camarades à cause de la langue. Nous avons donc cherché des moyens de l'aider à apprendre à parler.
Il est devenu évident que les applications linguistiques pour enfants n'apprennent pas à parler (et tout est resté pareil au fil du temps), et que les applications linguistiques pour adultes comme Duolingo ne fonctionnent pas pour les enfants à cause de l'UX. Nous avons donc commencé à suivre des cours sur des plateformes qui connectent les enfants avec des enseignants en direct via vidéoconférence. Les exemples sont Cambly, VipKid, Novakid, GoStudent, etc. En observant Sofia apprendre virtuellement avec des tuteurs en direct, j'ai vu les avantages d'une attention individuelle et d'une pratique orale active, mais j'ai également vu les lacunes de ces programmes en général.
Par exemple, à mesure qu’elles évoluent, de nombreuses plateformes de tutorat en ligne et écoles en ligne doivent embaucher des personnes sans formation pédagogique, sans compétences pour enseigner aux enfants, ni même sans niveau de maîtrise de l’anglais. Ainsi, pour garantir une certaine qualité d’éducation, les plateformes en ligne et les écoles écrivent strictement les programmes et les plans de cours, et les enseignants doivent utiliser des exercices prédéfinis, notamment des fragments audio et vidéo. Malheureusement, sur de nombreuses plateformes, les tuteurs fonctionnent essentiellement comme des robots.
Pourtant, le tutorat en ligne reste le seul moyen pour la plupart des gens d’apprendre à PARLER anglais, en particulier dans les pays non anglophones. Mais en partie à cause du manque d'enseignants, cela coûte beaucoup trop cher à la plupart des familles. Apprendre avec des professeurs en direct est un service éducatif haut de gamme que peu de familles peuvent se permettre.
Mon cofondateur et moi avons réalisé que le tutorat par IA était la seule solution évolutive pour offrir un soutien scolaire individuel en anglais à tous les enfants du monde. Nous avons rapidement compris que c'était aussi la meilleure solution d'un point de vue pédagogique. Lorsque nous avons réfléchi aux premiers prototypes de Buddy, nous nous sommes inspirés des recherches sur les humains virtuels dans l'éducation.
Des études universitaires démontrent les avantages et la supériorité pédagogiques des agents pédagogiques animés par rapport aux outils et environnements d'apprentissage plus traditionnels. Voir par exemple : Interaction en face-à -face avec les agents pédagogiques, vingt ans après, un article de 2016 qui donne un aperçu du domaine et cite de nombreux documents pertinents. Voici une citation :
« En particulier, la méta-analyse a révélé que les agents améliorent l'apprentissage par rapport aux environnements d'apprentissage qui ne comportent pas d'agents. […] Le plus intéressant est peut-être la découverte selon laquelle, dans l’éducation formelle, les agents pédagogiques semblent être plus efficaces pour les apprenants plus jeunes que pour les apprenants plus âgés. […] Des études ont montré, par exemple, que les étudiants qui interagissent avec des agents pédagogiques présentent de meilleurs résultats d'apprentissage lorsque 1) les agents pédagogiques parlent plutôt que de communiquer avec un texte, 2) les agents pédagogiques utilisent des gestes semblables à ceux des humains, 3) les agents pédagogiques communiquent de manière conversationnelle plutôt que formellement, et 4) les agents pédagogiques utilisent une formulation polie plutôt que directe.
Cela a renforcé notre confiance dans l’approche tutorale multimodale de l’IA. Nous avons décidé que Buddy serait un tuteur IA multimodal – un agent pédagogique animé capable de reconnaissance vocale et de traitement du langage naturel. À la base, un système de tutorat IA se compose de trois technologies principales :
- Reconnaissance automatique de la parole (ASR) et analyse nous permettent de traiter et d'analyser le discours de l'étudiant.
- Traitement du langage naturel (NLP), compréhension du langage naturel et gestion du dialogue qui traite le contenu du discours de l'élève et produit la réponse suivante. La réponse comprend des composantes verbales et non verbales.
- Personnage virtuel animé incarné qui fournit à la fois un retour d'écoute et la lecture de la réponse du système. Le personnage est animé de manière procédurale : le système crée des animations à la volée à partir de la réponse du traitement du langage naturel.
Ces trois composants sont cruciaux pour notre approche car ce n’est qu’en combinaison qu’ils nous permettent de créer un tuteur engageant et interactif et d’offrir une expérience éducative réussie.
Ma fille Sofia et le fils de mon cofondateur, Arseny, sont devenus les premiers utilisateurs de Buddy. Sofia a utilisé les premières versions de Buddy jusqu'au CP.
Plusieurs années plus tard, ma plus jeune fille, Alisa, a commencé à utiliser Buddy à l'âge de trois ans, alors qu'elle allait à l'école maternelle. Maintenant, elle est à la maternelle de transition et joue avec Buddy presque tous les jours. Quand Alisa a commencé à apprendre avec Buddy, elle avait plusieurs problèmes d'élocution, donc Buddy ne la comprenait pas la plupart du temps. Mais après quelques semaines de pratique, non seulement son anglais mais aussi son élocution se sont améliorés, alors qu'elle faisait de son mieux pour que Buddy la comprenne.
Pourquoi les anciennes méthodes d’enseignement d’une langue seconde sont-elles si inefficaces ?
Aujourd'hui, nous nous concentrons sur la résolution de problèmes éducatifs spécifiques liés à l'expression orale. On ne peut apprendre à parler sans s'entraîner :
- La plupart des outils pédagogiques traditionnels se concentrent sur l’enseignement d’autres compétences linguistiques comme la lecture ou l’écriture.
- Les applications linguistiques pour enfants n’enseignent pas les compétences orales.
- Certaines applications linguistiques pour adultes proposent aujourd'hui des exercices d'expression orale à l'aide de l'IA, mais ces services ne fonctionnent pas pour les enfants en raison de l'expérience utilisateur, des problèmes de sécurité et des réglementations en matière de confidentialité.
- Les cours particuliers en présentiel sont trop chers pour la plupart des familles. Malheureusement, beaucoup de professeurs particuliers n'ont pas de formation pédagogique ou ne maîtrisent pas l'anglais.
Buddy est un tuteur d'IA multimodal.
- C'est supérieur aux applications d'apprentissage traditionnelles, car il fonctionne comme un enseignant en direct à bien des égards. Permettez-moi de citer l'un de nos conseillers, le Dr Alex Desatnik, PhD, de l'University College London :
Tuteur virtuel vocal. Ce concept peut paraître simple, mais il repose sur des données scientifiques. Du point de vue de la psychologie de l'apprentissage, le personnage virtuel parlant incarne l'enseignant. Cette approche crée un effet appelé confiance épistémique, qui renforce la motivation et l'engagement de l'élève et améliore ses résultats d'apprentissage.
- Buddy présente certains avantages, même par rapport aux enseignants. Il ne juge pas et, pour certains enfants, il est plus facile de commencer à parler avec lui qu'avec un enseignant. C'est pourquoi aujourd'hui, de nombreux tuteurs utilisent Buddy comme un brise-glace pour aider les enfants à surmonter leur peur et leur malaise et à commencer à parler la langue.
Buddy travaille pour aider les enseignants, pas pour les remplacer.
Je pense qu'il est très important de le noter. Buddy peut aider les enseignants à automatiser la partie banale de leur travail, en leur proposant une pratique régulière. Nous voulons donner du pouvoir aux enseignants des écoles. Buddy est comme une équipe de tuteurs et d’assistants enseignants, travaillant individuellement avec chaque enfant de la classe et relevant du professeur.
Pouvez-vous nous expliquer comment Buddy utilise des éléments de gamification pour garder les enfants motivés à apprendre ?
Fait amusant : l'application mobile de Buddy a été téléchargée 22 millions de fois en 2023, et plus de 70 % de ces téléchargements ont été effectués par des enfants. Pour les enfants, notre application est un jeu dans lequel ils jouent avec Buddy, leur ami virtuel parlant et un Youtuber populaire. Les enfants téléchargent l'application et convainquent les parents de payer un abonnement, en expliquant que Buddy est enseignant.
Pour que cette approche fonctionne, nous concevons Buddy comme un jeu avec une histoire et un univers. Nous travaillons avec des créateurs de personnages et des écrivains hollywoodiens pour créer Buddy et son histoire. Nous disposons d'une équipe de conception de jeux très solide qui travaille directement avec nos éducateurs et transforme les programmes et les exercices en mini-jeux dans le monde de Buddy.
Quelles sont les autres fonctionnalités de base qui rendent Buddy si puissant pour enseigner une langue seconde ?
Notre fonctionnalité principale est vraiment axée sur Buddy en tant que tuteur d'IA multimodal :
- Reconnaissance de la parole
- IA conversationnelle
- Comportement visuel de l'avatar
Quels sont certains des algorithmes d'apprentissage automatique utilisés chez Buddy ?
Nous développons l’ensemble des technologies et travaillons ensemble pour permettre notre approche multimodale de tutorat en IA.
- BSR (Buddy's Speech Recognition) est un moteur de reconnaissance vocale propriétaire spécialement conçu pour fonctionner avec la parole des enfants accentués et se conformer aux réglementations telles que COPPA.
- BLM (Modèle de langage de Buddy) — Moteur d'IA conversationnelle pour enfants. Sûr, rapide et gratuit. Il se concentre sur des fonctionnalités éducatives spécifiques et est beaucoup moins polyvalent que les grands modèles de langage.
- BÉBÉ (Moteur de comportement d'avatar de Buddy). Cette technologie génère le comportement visuel de notre personnage en fonction du contexte de la conversation. Buddy comprend quand il doit sourire, changer de couleur ou porter un chapeau rigolo.
De nombreux systèmes de reconnaissance vocale ont du mal avec les accents, en particulier pour les jeunes enfants. Comment Buddy surmonte-t-il ces défis ?
En développant BSR, notre technologie propriétaire de reconnaissance vocale.
Notre public et notre marché uniques ont nécessité le développement d'une technologie propriétaire. Buddy doit reconnaître l'accent prononcé des jeunes apprenants d'anglais langue étrangère (EFL). Autre facteur de complication : les élèves débutants commencent par apprendre des mots séparés, souvent courts, très difficiles à reconnaître hors contexte. Enfin, le marché des enfants est très réglementé, et la reconnaissance vocale est soumise à la loi COPPA (Children Online Privacy Protection Act), car les enregistrements vocaux sont considérés comme tels. Informations personnelles identifiables (PII).
BSR gère les discours d'enfants avec différents accents, produits sur divers appareils mobiles avec des microphones de qualités acoustiques variées et dans des environnements réels avec divers types de bruits de fond. De plus, il est conçu conformément à la loi COPPA.
Grâce à notre travail international, nous avons réussi à constituer un ensemble de données unique pour l'entraînement de notre modèle. Aujourd'hui, BSR surpasse les solutions commerciales standard en matière de reconnaissance et de compréhension du langage des enfants accentués.
Comment comptez-vous étendre la pénétration du marché pour cibler les parents qui ne sont peut-être pas familiers avec la technologie de l’IA ?
Buddy a connu du succès avant que l'IA ne devienne un terme à la mode, et la plupart de nos utilisateurs ne sont pas des adeptes précoces de la technologie. Nous résolvons avec succès un problème éducatif important, et il se trouve que nous utilisons l'IA pour y parvenir.
Cependant, l’un des défis auxquels nous sommes confrontés est de faire en sorte que les parents prennent l’apprentissage avec Buddy aussi au sérieux qu’avec un tuteur en direct : ne sautez pas de cours, respectez un horaire, etc. La révolution actuelle de l’IA semble y contribuer.
Je dirais que la prochaine étape importante pour nous est de collaborer plus étroitement avec les enseignants et les écoles. Nous menons un partenariat pilote avec une école au Brésil et envisageons des partenariats avec une douzaine d'autres établissements d'enseignement.
Quelle est votre vision de l’avenir des tuteurs en IA et de l’éducation en général ?
Les tuteurs IA constituent la meilleure solution, et la seule solution évolutive, pour résoudre le principal problème éducatif de l'humanité : la pénurie mondiale d'enseignants. Nous avons besoin d'environ 1 millions de nouveaux enseignants pour répondre aux besoins d'apprentissage de base. Pour les matières nécessitant un tutorat individuel, comme l'apprentissage des langues, le problème est bien plus grave.
La révolution de l’IA a accéléré le développement des tuteurs IA, mais principalement dans le segment des adultes utilisant des solutions prêtes à l’emploi, tandis que l’apprentissage précoce reste dramatiquement sous-exploité. Nous sommes fiers d'être des pionniers du tutorat en IA pour les jeunes enfants.
Concernant notre avenir, Buddy a débuté comme tuteur en langues, mais à plus long terme, il deviendra une plateforme de tutorat par IA enseignant une grande variété de matières aux enfants de moins de 12 ans. Nous avons déjà commencé à déployer une première version de notre premier cours non linguistique : le programme de préparation à l'école pour les enfants américains. Nous voyons Buddy comme un assistant d'apprentissage, accompagnant chaque enfant de 3 à 4 ans et dispensant plusieurs cours sur plusieurs années.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Copain IA.












