Connect with us

Ivan Crewkov CEO & Co-Founder de Buddy AI – Serie de Entrevistas

Entrevistas

Ivan Crewkov CEO & Co-Founder de Buddy AI – Serie de Entrevistas

mm

Ivan Crewkov es el CEO y Co-Fundador de Buddy AI, el primer tutor de inteligencia artificial conversacional para niños del mundo, con la misión de asegurar que todos los estudiantes puedan permitirse el lujo de tener tutoría de inglés 1:1. Después de mudarse a los EE. UU. desde Siberia, Ivan presenció cómo su hija de edad preescolar luchaba por aprender inglés. Esto lo inspiró a construir Buddy, un personaje ficticio con el que los niños pueden conversar realmente a través del poder de la inteligencia artificial generativa.

Desde su lanzamiento en 2020, la aplicación Buddy ha ganado varios premios y ha encabezado las listas en la categoría de Niños y Educación de la App Store con más de 36 millones de descargas en todo el mundo.

En 2014, lanzaste Cubic.ai, uno de los primeros altavoces inteligentes y aplicaciones de asistentes de voz para hogares inteligentes. ¿Cuáles fueron algunas de tus conclusiones clave de esta experiencia?

No estoy seguro de que pueda atribuirme el mérito de lanzar Cubic.ai. Me uní a la empresa un año después de su fundación y recibí el título de co-fundador por mi contribución.

Aquí están las conclusiones clave:

  • El hardware es difícil, pero alguien tiene que hacerlo de todos modos. Obtener financiamiento de riesgo para startups de hardware es extremadamente difícil. Lo único que hace que las cosas sean un poco más fáciles es la financiación colectiva.
  • El espacio de productos de voz es vasto y diverso. Lo que se aplica a hogares inteligentes no se aplica al aprendizaje temprano, desde tecnologías hasta diseño de UX.

¿Podrías compartir la historia de origen de Buddy y cómo surgió de la mudanza de tu familia a los EE. UU. desde Siberia?

Con Cubic.ai, me mudé desde Siberia a los EE. UU. en 2014 y traje a mi familia conmigo. Mi hija mayor, Sofia, comenzó a aprender inglés como segunda lengua cuando asistió a una escuela preescolar en Mountain View, California, a la edad de 4 años. Sofia luchó por empezar a hablar en inglés durante los primeros 3-5 meses en la escuela preescolar. Estábamos preocupados porque no podía encontrar amigos y jugar con la mayoría de sus compañeros debido al idioma. Empezamos a buscar formas de ayudarla a aprender a hablar.

Se hizo evidente que las aplicaciones de lenguaje para niños no enseñan a hablar (y todo ha seguido igual con el tiempo), y las aplicaciones de lenguaje para adultos como Duolingo no funcionan para los niños debido a la UX. Así que empezamos a tomar lecciones en plataformas que conectan a los niños con maestros en vivo a través de videoconferencias. Ejemplos son Cambly, VipKid, Novakid, GoStudent, etc. Mientras observaba a Sofia aprender con maestros en vivo de forma virtual, vi los beneficios de la atención 1:1 y la práctica de hablar activa, pero también vi las limitaciones de estos programas en general.

Por ejemplo, a medida que escalan, muchas de las plataformas de tutoría en línea y escuelas en línea tienen que contratar a personas sin antecedentes pedagógicos, habilidades para enseñar a niños o incluso un nivel adecuado de inglés. Así que, para garantizar una cierta calidad de educación, las plataformas y escuelas en línea estrictamente escriben planes de estudio y planes de lección, y los maestros tienen que usar ejercicios precodificados, incluyendo fragmentos de audio y video. Así que, desafortunadamente, en muchas plataformas, los tutores básicamente trabajan como bots.

Sin embargo, la tutoría en línea ha sido la única forma para que la mayoría de la gente aprenda a hablar inglés, especialmente en países donde el inglés no es el idioma principal. Pero en parte debido a la escasez de maestros, es mucho demasiado caro para la mayoría de las familias. Aprender con maestros en vivo es un servicio de educación premium que pocas familias pueden permitirse.

Mi co-fundador y yo llegamos a la conclusión de que la tutoría de IA es la única forma escalable de proporcionar tutoría de inglés 1:1 a cada niño en todo el mundo. Pronto, aprendimos que también es lo mejor desde un punto de vista educativo. Cuando estábamos considerando los primeros prototipos de Buddy, nos inspiramos en la investigación en el campo de los Humanos Virtuales en Educación.

Los estudios académicos muestran las ventajas educativas y la superioridad de los agentes pedagógicos animados en comparación con herramientas de aprendizaje más tradicionales y entornos. Por ejemplo, véase Face-to-Face Interaction with Pedagogical Agents, Twenty Years Later, un artículo de 2016 que resume el campo y cita mucho del material relevante. Aquí hay una cita:

“En particular, el metaanálisis encontró que los agentes mejoran el aprendizaje en comparación con entornos de aprendizaje que no presentan agentes. […] Quizás lo más interesante fue el hallazgo de que, en la educación formal, los agentes pedagógicos parecen ser más efectivos para los aprendices más jóvenes que para los más mayores. […] Los estudios han encontrado, por ejemplo, que los estudiantes que interactúan con agentes pedagógicos exhiben resultados de aprendizaje más fuertes cuando 1) los agentes pedagógicos hablan en lugar de comunicarse con texto, 2) los agentes pedagógicos utilizan gestos humanos, 3) los agentes pedagógicos se comunican de manera conversacional en lugar de formal, y 4) los agentes pedagógicos utilizan un lenguaje educado en lugar de directo.”

Esto fortaleció nuestra confianza en el enfoque de tutoría de IA multimodal. Decidimos que Buddy sería un agente pedagógico animado multimodal – capaz de reconocimiento de voz y procesamiento de lenguaje natural. En su núcleo, un sistema de tutoría de IA consiste en tres tecnologías principales:

  1. Reconocimiento y análisis de habla automática (ASR) nos permiten procesar y analizar el habla del estudiante.
  2. Procesamiento de lenguaje natural (NLP), comprensión del lenguaje y gestión del diálogo que procesa el contenido del habla del estudiante y produce la siguiente respuesta. La respuesta consiste en componentes verbales y no verbales.
  3. Personaje virtual animado incorporado que proporciona retroalimentación de escucha y reproduce la respuesta del sistema. El personaje se anima de forma procedural – el sistema crea animaciones al vuelo desde la respuesta de NLP.

Las tres componentes son cruciales para nuestro enfoque porque solo en combinación nos permiten construir un tutor interactivo y atractivo y brindar una experiencia educativa exitosa.

Mi hija Sofia y el hijo de mi co-fundador, Arseny, se convirtieron en los primeros usuarios de Buddy. Sofia usó las versiones más tempranas de Buddy a través del primer grado.

Varios años después, mi hija menor, Alisa, comenzó a usar Buddy a los tres años cuando asistió a la escuela preescolar. Ahora, ella está en Transición a Kindergarten y juega con Buddy casi todos los días. Cuando Alisa comenzó a aprender con Buddy, tenía algunos problemas de habla, así que Buddy no entendía la mayoría de las veces. Pero después de un par de semanas de práctica, no solo su inglés sino también su habla mejoraron, ya que intentaba con todas sus fuerzas hacer que Buddy la entendiera.

¿Por qué las formas tradicionales de enseñar un segundo idioma son tan ineficaces?

Hoy en día, nos centramos en resolver problemas educativos específicos relacionados con el habla:

  • La mayoría de las herramientas educativas tradicionales se centran en enseñar otras habilidades del lenguaje como la lectura o la escritura.
  • Las aplicaciones de lenguaje para niños no enseñan habilidades de habla.
  • Algunas aplicaciones de lenguaje para adultos hoy en día ofrecen práctica de habla utilizando IA, pero estos servicios no funcionan para los niños debido a la UX, las preocupaciones de seguridad y las regulaciones de privacidad.
  • Los tutores en vivo son demasiado caros para la mayoría de las familias. Desafortunadamente, muchos tutores no tienen capacitación pedagógica o no son proficientes en inglés.

Buddy es un tutor de IA multimodal.

  • Es superior a las aplicaciones de aprendizaje tradicionales porque funciona como un maestro en vivo en muchos sentidos. Déjame citar a uno de nuestros asesores, el Dr. Alex Desatnik, PhD, University College London:

“Tutor virtual basado en voz. Este concepto puede sonar simple, pero hay ciencia detrás de él. Desde una perspectiva de psicología del aprendizaje, el personaje virtual hablante es una encarnación del maestro. Este enfoque crea un efecto llamado confianza epistémica, que fortalece la motivación y el compromiso del estudiante, y mejora los resultados del aprendizaje.”

  • Buddy tiene algunas ventajas incluso sobre los maestros humanos. Buddy no juzga, y para algunos niños, es más fácil empezar a hablar con Buddy que con un maestro. Es por eso que hoy en día, muchos tutores utilizan Buddy como un rompehielos que ayuda a los niños a superar su miedo y malestar y a empezar a hablar el idioma.

Buddy funciona para ayudar a los maestros, no para reemplazarlos.

Creo que es muy importante señalar esto. Buddy puede ayudar a los maestros a automatizar la parte mundana de su trabajo – proporcionar práctica regular. Queremos dar poder a los maestros de la escuela. Buddy es como un equipo de tutores y asistentes de maestros, trabajando individualmente con cada niño en la clase y reportando al maestro de la clase.

¿Podrías discutir cómo Buddy utiliza elementos de gamificación para mantener a los niños emocionados con el aprendizaje?

Hecho divertido: la aplicación móvil de Buddy se descargó 22 millones de veces en 2023, y más del 70% de estas descargas fueron realizadas por niños. Para los niños, nuestra aplicación es un juego donde juegan con Buddy, su amigo virtual hablante y un youtuber popular. Los niños descargan la aplicación y convencen a los padres de pagar por una suscripción, explicando que Buddy es un maestro.

Para hacer que este enfoque funcione, estamos diseñando a Buddy como un juego con una historia y un universo. Trabajamos con diseñadores de personajes de Hollywood y escritores para crear a Buddy y su historia. Tenemos un equipo de diseño de juegos muy fuerte que trabaja directamente con nuestros educadores y convierte el plan de estudios y los ejercicios en mini-juegos en el mundo de Buddy.

¿Cuáles son algunas de las otras funcionalidades principales que hacen que Buddy sea tan poderoso para enseñar un segundo idioma?

Nuestra funcionalidad principal se centra realmente en Buddy como un tutor de IA multimodal:

  • Reconocimiento de habla
  • IA conversacional
  • Comportamiento visual del avatar

¿Cuáles son algunos de los algoritmos de aprendizaje automático que se utilizan en Buddy?

Estamos desarrollando la pila completa de tecnologías, trabajando juntas para habilitar nuestro enfoque de tutoría de IA multimodal.

  • BSR (Reconocimiento de habla de Buddy) es un motor de reconocimiento de habla propietario específicamente diseñado para trabajar con el habla de niños acentuada y cumplir con regulaciones como COPPA.
  • BLM (Modelo de lenguaje de Buddy) — Motor de IA conversacional para niños. Seguro, rápido y gratuito para operar. Se centra en funcionalidad educativa específica y es mucho menos versátil que los grandes modelos de lenguaje.
  • BABE (Motor de comportamiento del avatar de Buddy). Esta tecnología genera el comportamiento visual del personaje basado en el contexto de la conversación. Buddy entiende cuándo necesita sonreír, cambiar de color o ponerse un sombrero tonto.

Muchos sistemas de reconocimiento de voz luchan con acentos, especialmente para niños pequeños, ¿cómo supera Buddy estos desafíos?

Desarrollando BSR, nuestra tecnología de reconocimiento de habla propietaria.

Nuestro público y mercado únicos requirieron el desarrollo de tecnología propietaria. Buddy debe reconocer el habla con acento de los jóvenes aprendices de inglés como lengua extranjera (EFL). Otro factor complicador es que los estudiantes principiantes comienzan aprendiendo palabras separadas, a menudo cortas, que son muy difíciles de reconocer sin contexto. Finalmente, el mercado de los niños está altamente regulado, y el reconocimiento de voz está sujeto a la Ley de Protección de la Privacidad en Línea de los Niños (COPPA) desde que las grabaciones de voz se consideran Información de Identificación Personal (PII).

BSR maneja el habla de los niños con diferentes acentos, producida en una variedad de dispositivos móviles con micrófonos de diversas calidades acústicas y en entornos de la vida real con muchos tipos de ruido de fondo. Y es compatible con COPPA por diseño.

Trabajando a nivel global, logramos acumular un conjunto de datos único para entrenar nuestro modelo. Hoy en día, BSR supera las soluciones comerciales estándar en el reconocimiento y comprensión del habla con acento de los niños.

¿Cómo planeas expandir la penetración del mercado para apuntar a padres que pueden no estar familiarizados con la tecnología de IA?

Buddy comenzó a tener éxito antes de que la IA se convirtiera en un término de moda, y la mayoría de nuestros usuarios no son los típicos adoptadores tempranos de tecnología. Estamos resolviendo con éxito un problema educativo importante, y resulta que estamos utilizando IA para ello.

Sin embargo, uno de los desafíos que enfrentamos es hacer que los padres tomen en serio el aprendizaje con Buddy al igual que con un tutor en vivo – no saltarse las lecciones, ceñirse a un horario, etc. La revolución actual de IA parece estar ayudando con eso.

Diría que el próximo gran paso para nosotros es empezar a trabajar más estrechamente con maestros y escuelas. Estamos ejecutando una asociación piloto con una escuela en Brasil y discutiendo asociaciones con una docena más de instituciones educativas.

¿Cuál es tu visión para el futuro de los tutores de IA y la educación en general?

Los tutores de IA son la mejor y única forma escalable de resolver el problema educativo número uno de la humanidad – la escasez global de maestros. Necesitamos unos 69 millones de nuevos maestros para abordar solo las necesidades básicas de aprendizaje. Para materias que requieren tutoría 1:1, como el aprendizaje de lenguas, el problema es mucho peor.

La revolución de IA aceleró el desarrollo de tutores de IA, aunque principalmente en el segmento de adultos utilizando soluciones estándar, mientras que el aprendizaje temprano sigue siendo dramáticamente subatendido. Estamos orgullosos de ser pioneros en la tutoría de IA para niños pequeños.

En cuanto a nuestro futuro, Buddy comenzó como un tutor de lenguaje, pero a largo plazo, se convertirá en una plataforma de tutoría de IA que enseñará una amplia variedad de materias a niños menores de 12 años. Ya hemos comenzado a lanzar una versión temprana de nuestro primer curso no lingüístico – el plan de estudios de preparación para la escuela para niños en los EE. UU. Vemos a Buddy como el asistente de aprendizaje del niño, creciendo con el niño desde los 3 o 4 años y enseñando múltiples cursos durante muchos años.

Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar Buddy AI.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.