Inteligencia artificial
Paolo Pirjanian, CEO y Fundador de Embodied – Serie de Entrevistas

Paolo Pirjanian es un armenio nacido en Irán y que huyó a Dinamarca cuando era adolescente. Desde que era joven, estuvo fascinado por las computadoras y comenzó a programar en su habitación. Después de obtener su doctorado en robótica, Paolo se convirtió en un líder temprano en el campo de la robótica de consumo, con más de 16 años de experiencia en el desarrollo y comercialización de robots de vanguardia para el hogar. Trabajó en la NASA JPL y lideró equipos y empresas de clase mundial en iRobot, Evolution Robotics y otras. En 2016, Paolo fundó Embodied, Inc. con la visión de construir compañeros digitales social y emocionalmente inteligentes que mejoren el cuidado y el bienestar, y apoyen a las personas para vivir mejores vidas todos los días.
¿Qué te atrajo inicialmente a la IA y la robótica!
Mi fascinación por la IA y la robótica se remonta a mi infancia. Me desplacé de un país a otro varias veces hasta que mi familia se mudó a Dinamarca. Por casualidad, descubrí una computadora. Me fasciné tanto que me encerré en mi habitación y comencé a programar día y noche durante meses. Mis padres pensaron que estaba deprimido o drogado, pero no era nada de eso. Estaba completamente fascinado por la computadora.
En ese mismo tiempo, vi un documental en la televisión de Pixar. Pixar presentaba su primer corto animado, Luxo Jr., un corto de dos minutos sobre dos lámparas de mesa que corrían y jugaban con una pelota. Me fasciné tanto que me asombré de que una computadora que estaba aprendiendo a programar pudiera generar personajes tan encantadores en la televisión que evocaban tanta emoción en mí. Así que desde entonces, decidí ir a la escuela para estudiar robótica, eventualmente obteniendo mi doctorado.
Luego me mudé a Estados Unidos para trabajar en rovers de Marte en la NASA, que era un trabajo de sueño de la infancia. Finalmente, me metí en el espíritu empresarial para desarrollar tecnología de navegación SLAM que ahora permite a los productos de iRobot.
Pero mirando hacia atrás, me di cuenta de que mi inspiración para este viaje fue en realidad la animación corta de Pixar de dar vida a objetos inanimados. Así que, eso es por lo que creamos Embodied, para dar vida a robots que puedan interactuar con las personas, centrándonos en ayudar a los niños con el desarrollo socio-emocional.
¿Cuándo te encontraste por primera vez con el concepto de lanzar Evolution Robotics?
Evolution Robotics se inició originalmente por Bill Gross de Idealab en 2001 para convertirse en la Microsoft de la robótica, una visión audaz que resultó ser demasiado temprana y finalmente fracasó. Fui el CTO y GM en Evolution Robotics, y después de su fracaso, negocié con Idealab para sacar algunas de las tecnologías centrales que mi equipo y yo habíamos desarrollado y comenzar una nueva empresa. En 2008, la nueva entidad, también conocida como Evolution Robotics, comenzó a desarrollar productos que utilizaban nuestras tecnologías de navegación centrales, incluyendo NorthStar y vSLAM, que eran enfoques innovadores para el mapeo espacial y la navegación autónoma, similares a lo que estamos viendo en los automóviles autónomos, pero dirigidos a productos de electrónica de consumo de bajo costo.
Desarrollamos una línea de productos para el barrido y la limpieza automática de suelos duros llamada Mint, que lanzamos en 2010. Para 2011, crecimos rápidamente a $25 millones en ventas y fuimos adquiridos por iRobot en 2012 por nuestros ingresos por productos y nuestra tecnología de navegación vSLAM, que ahora alimenta las líneas de productos Roomba y Braava de iRobot.
En ese momento, te convertiste en el CTO de iRobot. ¿Puedes hablar sobre tu experiencia en iRobot y qué aprendiste de tu experiencia?
Como CTO de iRobot, pude integrar rápidamente vSLAM en la línea de productos Roomba para lanzar un nuevo modelo que pudiera cubrir sistemáticamente todo el plano del piso sin perder un punto. Eso ayudó a la empresa a mantenerse por delante de la competencia, como Dyson, que estaba saliendo con soluciones de limpieza sistemática. vSLAM es ahora una parte integral de las líneas de productos insignia de iRobot, Roomba y Braava.
Disfruté trabajando en estrecha colaboración con Colin Angel, CEO de iRobot, para ayudar a establecer una dirección estratégica para hacer que Roomba fuera central en el ecosistema del hogar conectado, donde la conciencia espacial de Roomba le da una posición única para comprender el plano del piso y convertirse en el tejido conectivo entre todos los dispositivos conectados. Esa estrategia parece haber tenido un pie sólido desde mi partida en 2015.
Además, decidimos centrarnos en el negocio de la robótica de consumo para ayudar a iRobot a mantener su posición de liderazgo global. Esto llevó a la desinversión del negocio de defensa y a la salida de otros negocios periféricos para llevar enfoque e intensidad al negocio de consumo.
Furthermore, tuvimos que reorganizar la empresa para poder apoyar una estrategia de productos conectados con un enfoque en el software. Eso requirió una transformación de la cultura de la empresa para adoptar un enfoque más ágil e iterativo.
La lista de cosas que aprendí en iRobot es larga. Una cosa que destaca es el poder de la cultura del equipo. Mantenerse ágil y comprometido con la misión es probablemente la ventaja competitiva más importante que cualquier empresa puede tener por encima de cualquier cartera de patentes y secretos comerciales. Si tienes un equipo de alto rendimiento que se siente empoderado e inspirado hacia un objetivo claro, será difícil de detener.
Actualmente eres el Fundador y CEO de Embodied. ¿Puedes hablar sobre la inspiración detrás de lanzar esta empresa?
Disfruté mucho mi tiempo en iRobot como CTO, y estábamos trabajando en muchos proyectos emocionantes y empujando los límites de la robótica. Fue emocionante lanzar robots comercialmente exitosos al mercado que realizaban tareas físicas útiles, como aspirar el piso.
Sin embargo, en la parte de atrás de mi mente, sabía que todavía tenía un sueño de toda la vida por cumplir: construir compañeros robóticos social y emocionalmente inteligentes que mejoren el cuidado y el bienestar, y enriquezcan nuestras vidas diarias. Sabía que estábamos en un punto de inflexión en la forma en que interactuaríamos con la tecnología. Así que, con eso, decidí renunciar a iRobot y comenzar Embodied.
Cuando comenzamos Embodied, desde el principio, estábamos replanteando y reinventando cómo se hace la interacción entre humanos y máquinas, más allá de simples comandos verbales, para permitir la próxima generación de computación y alimentar una nueva clase de máquinas capaces de interacción social fluida. En particular, el primer producto se centraría en construir un compañero animado para ayudar a los niños a construir habilidades sociales y emocionales a través del aprendizaje basado en el juego. Este compañero sería conocido como Moxie. Moxie es un nuevo tipo de robot que tiene la capacidad de entender y expresar emociones con habla emotiva, expresiones faciales creíbles y lenguaje corporal, aprovechando la psicología y la neurología humanas para crear vínculos más profundos. Para hacer esto, reunimos un equipo transfuncional de líderes apasionados en ingeniería, tecnología, entretenimiento, diseño de juegos y desarrollo infantil. Durante los últimos cuatro años, Embodied ha estado trabajando incansablemente para reunir toda la última tecnología para dar vida a Moxie, y el equipo está emocionado de finalmente entregarlo a las familias que necesitan un copiloto para apoyar un desarrollo saludable de los niños.
¿Cuáles son algunos de los desafíos empresariales únicos detrás de una startup de robótica?
Es divertido hacer lo imposible, pero también puede ser un poco aterrador. Sabíamos que si queríamos revolucionar la forma en que los humanos interactúan con las máquinas, íbamos a tener que resolver problemas que no se habían resuelto antes. Algunos problemas incluyeron:
- Las pantallas planas están en los dispositivos, y queremos dar vida a un dispositivo. ¿Cómo creamos una cara que sea más parecida a la vida, redondeada y no bidimensional?
- Los motores de conversación actuales solo permiten conversaciones muy limitadas, ¿cómo creamos una solución que permita conversaciones más naturales?
- No queremos que la voz suene robótica, ¿cómo hacemos que la voz suene natural, con tonalidad y inflexiones contextualmente apropiadas?
- Sabíamos que el contacto visual era muy importante, así que tuvimos que averiguar cómo utilizar la visión por computadora para garantizar capacidades de seguimiento de ojos confiables.
Todas estas preguntas sobre las características de Moxie llevaron a muchas innovaciones tecnológicas de vanguardia.
Primero, una cara proyectada y redondeada. Las estadísticas están empezando a acumularse para mostrarnos que pasar demasiado tiempo frente a la pantalla puede tener efectos devastadores en las mentes en desarrollo. Peor aún, la mayoría de los dispositivos de tecnología para niños presentan pantallas de visualización digital. Es por eso que decidimos invertir en hacer que la cara de Moxie esté completamente proyectada, lo que nos permitió crear una pantalla de cara con bordes naturalmente curvados, en lugar de una pantalla plana. Esto hace que interactuar con Moxie se sienta más parecido a la vida, realista y creíble. De hecho, solo a través de esta apariencia 3D de la cara es posible que Moxie tenga contacto visual real con el niño. Así que no solo la cara de Moxie protege a los niños de un tiempo excesivo frente a la pantalla, sino que también hace que la experiencia de interacción se sienta aún más real.
Segundo, el motor de conversación. Hasta ahora, los altavoces inteligentes y los asistentes de voz han requerido el uso repetido de palabras de activación para iniciar comandos. El motor de conversación de Moxie es diferente. Sigue una conversación natural y responde al flujo típico de la comunicación sin el uso de palabras de activación (como “Hey Siri” o “Ok Google”). El procesamiento de lenguaje natural avanzado permite que Moxie reconozca, comprenda y genere lenguaje de manera fluida, lo que hace que la interacción se sienta más personal y natural.
Tercero, la síntesis de habla. La voz de Moxie no tiene el mismo habla robótica y sonido monótono que se encuentra en la mayoría de los robots y asistentes de voz. En su lugar, Moxie utiliza inflexiones vocales naturales y emotivas, que ayudan a comunicar una gama más amplia de emociones. Esto mejora el alcance de las lecciones socio-emocionales en las que Moxie puede participar, mientras que también agrega una vida y credibilidad adicionales a la interacción.
Cuarto, los ojos. Una de las características más importantes es el ojo grande y animado de Moxie. La tecnología de seguimiento de ojos innovadora permite que Moxie mantenga contacto visual con el niño, incluso cuando el niño se mueve por la habitación. Esta capacidad de seguimiento de ojos no solo crea una interacción increíblemente parecida a la vida, sino que también ayuda al niño a practicar el contacto visual. Además, los ojos grandes y animados ayudan a exagerar la comunicación emocional, para que el niño pueda reconocer más fácilmente ciertas emociones. Practicar el contacto visual y comprender las emociones son dos objetivos de desarrollo clave en el currículum socio-emocional.
Por último, todas estas características tecnológicas permiten que las interacciones con Moxie se sientan realistas y naturales. La fusión sensorial multimodal de Moxie hace que Moxie sea consciente del entorno y de sus usuarios. La visión por computadora y la tecnología de seguimiento de ojos de Moxie ayudan a mantener el contacto visual mientras el niño se mueve. El aprendizaje automático ayuda a Moxie a aprender las preferencias y necesidades del usuario, y a reconocer a las personas, lugares y cosas. Los micrófonos especialmente ubicados permiten que Moxie escuche la dirección de la que proviene la voz y se gire fácilmente hacia la fuente. Los sensores táctiles permiten que Moxie reconozca abrazos y apretones de manos. Todas estas piezas se unen para hacer que la experiencia sea muy realista.
¿Puedes contarnos algunas de las cosas que hacen que Moxie sea perfecto para los niños?
Con Moxie, los niños pueden participar en un juego significativo todos los días, con contenido informado por las mejores prácticas en desarrollo infantil y educación en la primera infancia. Cada semana es un tema diferente, como la amabilidad, la amistad, la empatía o el respeto, y los niños son asignados para ayudar a Moxie con misiones que exploran experiencias humanas, ideas y habilidades para la vida. Estas misiones son actividades que incluyen juego creativo no estructurado como dibujar, práctica de mindfulness a través de ejercicios de respiración y meditación, leer con Moxie y explorar formas de ser amable con los demás. Moxie fomenta la curiosidad para que los niños descubran el mundo y las personas que los rodean. Todas estas actividades ayudan a los niños a aprender y a practicar de manera segura habilidades esenciales para la vida, como turnarse, contacto visual, escucha activa, regulación emocional, empatía, gestión de relaciones y resolución de problemas.
Embodied también ha colaborado con Encyclopaedia Britannica y Merriam-Webster para integrar el Diccionario para niños de Merriam-Webster, lo que permite que Moxie proporcione definiciones y información adecuadas para la edad para ayudar a los niños a aprender y comprender el significado de nuevas palabras y conceptos. Esta es la primera de muchas integraciones con Moxie que cumplen con la misión compartida de Britannica y Merriam-Webster de inspirar la curiosidad y el placer de aprender.
Embodied también ha desarrollado un ecosistema completo que ayuda a los padres a apoyar el viaje de su hijo con Moxie y permite que los niños amplíen su uso de Moxie de una manera segura y aprobada por los padres:
- La aplicación de padres de Moxie de Embodied proporciona un panel de control para ayudar a los padres a comprender el progreso del desarrollo de su hijo con Moxie. La aplicación proporcionará información clave sobre el desarrollo social, emocional y cognitivo de su hijo a través de sus actividades con Moxie. La aplicación también proporcionará sugerencias y consejos valiosos para los padres para mejorar la experiencia y el progreso de su hijo con Moxie.
- Un sitio web de portal de niños en línea (conocido como el Laboratorio de Robótica Global, o G.R.L.) proporciona actividades, juegos y cuentos adicionales que mejorarán la experiencia con Moxie.
- Los paquetes de misiones de Moxie mensuales son envíos destinados a involucrar a los niños en nuevas actividades con Moxie y también proporcionar artículos divertidos como tarjetas de intercambio y calcomanías.
Con el tiempo, Moxie aprende más sobre el niño para personalizar mejor su contenido para ayudar con los objetivos de desarrollo individuales de cada niño. Embodied ha tomado medidas cuidadosas para garantizar que la información proporcionada por los niños y las familias se maneje con altos estándares de privacidad y seguridad. Tenemos la intención de que Moxie esté completamente certificado por la Ley de Protección de la Privacidad en Línea de los Niños (COPPA), para que los padres puedan sentirse seguros sabiendo que Moxie emplea procedimientos de integridad y seguridad de datos líderes y que sus sistemas se auditan regularmente para garantizar el cumplimiento total.
¿Cuáles son algunos de los desafíos de procesamiento de lenguaje natural que enfrenta Moxie?
En Embodied, nos esforzamos por redefinir cómo los humanos interactúan con las máquinas, especialmente en la conversación a través del procesamiento de lenguaje natural. Así que decidimos crear SocialXTM, que es una plataforma que permite a los niños interactuar con Moxie a través de la interacción natural (es decir, expresiones faciales, conversación, lenguaje corporal, etc.), evocando confianza, empatía y motivación, así como un compromiso más profundo para promover habilidades de desarrollo. Con SocialXTM, Embodied está introduciendo una nueva categoría de robots: compañeros animados. “Animado” significa dar vida, y SocialXTM permite que Moxie encarne lo mejor de la humanidad en una forma nueva y avanzada de tecnología que puede impulsar nuevas formas de aprendizaje.
El procesamiento de lenguaje natural es el núcleo de nuestro motor de conversación natural, y hay muchas características únicas en el motor de conversación que trabajamos incansablemente para crear.
La característica clave en la que trabajamos fue la capacidad de Moxie para centrar la conversación con un solo usuario y separar las conversaciones y sonidos de fondo, para que Moxie solo responda al usuario. Esto permite una interacción más enfocada y personal. Esta es una solución al problema que muchos llaman el “problema de la fiesta de cóctel”. Cuando estás en una fiesta de cóctel y hay muchas personas alrededor tuyo hablando en una habitación mientras estás tratando de mantener una conversación con una persona, no es terriblemente difícil para los humanos. Para una computadora, esto es increíblemente difícil. ¿Cómo podemos asegurarnos de que Moxie solo responda a lo que el usuario dice, y no se distraiga con ruidos de fondo, conversaciones, televisión, etc.? Hay muchas formas en que abordamos la solución a este problema.
- Usamos nuestro sistema de visión para identificar quién está mirando y enfrentando a Moxie.
- Tenemos una serie de micrófonos en la parte delantera de Moxie que nos dicen de dónde proviene el sonido.
- Podemos usar entonces el aprendizaje automático para emparejar el sonido con quién está hablando frente a Moxie. Esto nos permite filtrar las otras conversaciones y mantenernos enfocados en un solo usuario.
En general, los agentes de conversación en el mercado han evitado el “problema de la fiesta de cóctel” utilizando palabras de activación, como “Hey (dispositivo, seguido de una pregunta)”. Esta palabra de activación permite que el agente de conversación escuche la palabra de activación y responda solo cuando se dice esa palabra de activación. Sin embargo, como Moxie puede centrarse en un solo usuario, Moxie no necesita tener palabras de activación para activar una respuesta.
Queríamos asegurarnos de que el motor de conversación de Moxie sea lo suficientemente sofisticado como para ser consciente contextualmente de las respuestas conversacionales. Esto permite una conversación más matizada. Por ejemplo, Moxie puede entender los diferentes significados detrás de “No sé” y “no”.
¿Hay algo más que te gustaría compartir sobre Moxie o Embodied?
Hemos estado trabajando en este proyecto durante cuatro años con un equipo dedicado que ha trabajado incansablemente para hacer las increíbles invenciones que se requieren para dar vida a Moxie. Ahora estamos emocionados de finalmente llevar Moxie a las familias para ayudar a sus hijos con el desarrollo socio-emocional. Así que estamos emocionados de empezar el viaje.
Gracias por la entrevista, me encantó escuchar cómo te inspiraste inicialmente por un corto de Pixar, y cómo has perseguido tu pasión por la vida. Los lectores que deseen aprender más o que deseen ordenar un Moxie deben visitar Embodied, Inc..













