Künstliche Intelligenz
Paolo Pirjanian, CEO und Gründer von Embodied – Interview-Serie

Paolo Pirjanian ist ein in Armenien geborener Iraner, der als Teenager nach Dänemark floh. Schon von jungem Alter an war er von Computern fasziniert und begann in seinem Schlafzimmer zu programmieren. Nachdem er seinen PhD in Robotik erworben hatte, wurde Paolo zu einem frühen Leader im Bereich der Consumer-Robotik, der über 16 Jahre Erfahrung in der Entwicklung und Vermarktung von cutting-edge-Heimrobotern verfügt. Er arbeitete bei NASA JPL und leitete weltweit führende Teams und Unternehmen bei iRobot®, Evolution Robotics® und anderen. Im Jahr 2016 gründete Paolo Embodied, Inc. mit der Vision, soziale und emotional intelligente digitale Begleiter zu bauen, die die Pflege und das Wohlbefinden verbessern und Menschen dabei helfen, ein besseres Leben zu führen.
Was hat Sie ursprünglich zur KI und Robotik hingezogen?
Meine Faszination für KI und Robotik reicht zurück bis in meine Kindheit. Ich wurde aus meinem Heimatland vertrieben und zog mehrmals von Land zu Land, bis meine Familie nach Dänemark zog. Durch Zufall entdeckte ich einen Computer. Ich war so fasziniert davon, dass ich mich in meinem Zimmer einschloss und tagelang und nächtelang programmierte. Meine Eltern dachten, ich sei depressiv oder auf Drogen, aber es war nichts dergleichen. Ich war einfach nur so komplett fasziniert von dem Computer!
Währenddessen sah ich eine Dokumentation im Fernsehen von Pixar. Pixar präsentierte ihren ersten animierten Kurzfilm, Luxo Jr., einen zweiminütigen Film über zwei Tischlampen, die herumlaufen und mit einem Ball spielen. Ich war so fasziniert davon und erstaunt, dass ein Computer, den ich gerade erst zu programmieren gelernt hatte, solch liebenswerte Charaktere auf dem Fernsehen erzeugen konnte, die so viel Emotion in mir hervorriefen. Also entschied ich mich, zur Schule zu gehen, um Robotik zu studieren, und erwarb schließlich meinen PhD.
Ich zog dann in die USA, um an Mars-Rovern bei NASA zu arbeiten, was mein Kindheitstraumjob war. Schließlich wurde ich zum Unternehmer, um SLAM-Navigations-Technologie zu entwickeln, die jetzt die Produkte von iRobot ermöglicht.
Aber wenn ich zurückblicke, wurde mir klar, dass meine Inspiration für diese ganze Reise tatsächlich die Pixar-Kurzanimation war, die Leben in unbelebte Objekte brachte. Deshalb haben wir Embodied gegründet, um Leben in Roboter zu bringen, die mit Menschen interagieren können, mit dem Fokus darauf, Kindern bei der sozial-emotionalen Entwicklung zu helfen.
Wann sind Sie zum ersten Mal auf das Konzept für den Start von Evolution Robotics gestoßen?
Evolution Robotics wurde ursprünglich von Bill Gross von Idealab im Jahr 2001 gegründet, um das Microsoft der Robotik zu werden, eine kühne Vision, die sich als viel zu früh herausstellte und letztendlich scheiterte. Ich war der CTO und GM bei Evolution Robotics, und nach dem Scheitern verhandelte ich mit Idealab, um einige der Kern-Technologien, die mein Team und ich entwickelt hatten, auszuspinnen und ein neues Unternehmen zu gründen. Im Jahr 2008 startete das neue Unternehmen, auch bekannt als Evolution Robotics, mit der Entwicklung von Produkten, die unsere Kern-Navigations-Technologien wie NorthStar und vSLAM nutzten, die bahnbrechende Ansätze für räumliche Kartierung und autonome Navigation waren, ähnlich wie bei selbstfahrenden Autos, aber für preiswerte, konsumorientierte Produkte.
Wir entwickelten eine Reihe von Produkten für die automatische Reinigung und Pflege von Hartböden, die wir 2010 unter dem Namen Mint auf den Markt brachten. Bis 2011 wuchs unser Umsatz rapide auf 25 Millionen Dollar an, und wir wurden 2012 von iRobot für unsere Produkt-Umsätze und unsere Navigations-Technologie vSLAM übernommen, die jetzt die Roomba- und Braava-Produktlinien von iRobot antreibt.
Als CTO bei iRobot – könnten Sie Ihre Erfahrungen bei iRobot und das erlernte Wissen teilen?
Als CTO von iRobot konnte ich vSLAM schnell in die Roomba-Produktlinie integrieren, um ein neues Modell zu starten, das in der Lage war, systematisch den gesamten Fußboden zu bedecken, ohne einen Fleck zu verpassen. Das half dem Unternehmen, die Konkurrenz wie Dyson zu überbieten, die systematische Reinigungslösungen auf den Markt brachte. vSLAM ist jetzt ein integraler Bestandteil von iRobots Flaggschiff-Produktlinien Roomba und Braava.
Ich genoss es, eng mit Colin Angel, CEO von iRobot, zusammenzuarbeiten, um eine strategische Richtung zu setzen, um Roomba zu einem zentralen Bestandteil des vernetzten Hauses zu machen, wo Roombas räumliches Bewusstsein ihm eine einzigartige Position gibt, um den Fußboden zu verstehen und das Bindeglied zwischen allen vernetzten Geräten zu werden. Diese Strategie scheint seit meinem Ausscheiden im Jahr 2015 Fuß gefasst zu haben.
Darüber hinaus entschieden wir uns, das Consumer-Robotik-Geschäft zu stärken, um iRobot seine weltweite Marktführerschaft zu sichern. Dies führte zur Abtrennung des Verteidigungsgeschäfts und zum Ausstieg aus anderen Randgeschäften, um den Fokus und die Intensität auf das Consumer-Geschäft zu legen.
Außerdem mussten wir die Organisation umstrukturieren, um eine software-basierte Strategie mit vernetzten Produkten zu unterstützen. Das erforderte eine Transformation der Unternehmenskultur, um eine agilere, iterativere Herangehensweise zu akzeptieren.
Die Liste der Dinge, die ich bei iRobot gelernt habe, ist lang. Eines der wichtigsten Dinge, die mir einfielen, ist die Macht der Teamkultur. Agile und kompromisslos auf eine Mission fokussiert zu bleiben, ist wahrscheinlich der größte Wettbewerbsvorteil, den jedes Unternehmen haben kann, über jeden Patent-Portfolio und über Geschäftsgeheimnisse hinaus. Wenn Sie ein hochleistungsfähiges Team haben, das sich befugt und motiviert zu einem klaren Ziel fühlt, wird es schwer zu stoppen.
Sie sind derzeit der Gründer und CEO von Embodied. Könnten Sie über die Inspiration sprechen, die hinter der Gründung dieses Unternehmens steht?
Ich genoss meine Zeit bei iRobot als CTO, und wir arbeiteten an vielen aufregenden Projekten und trieben die Grenzen der Robotik voran. Es war aufregend, kommerziell erfolgreiche Roboter auf den Markt zu bringen, die hilfreiche physische Aufgaben ausführten, wie z.B. das Reinigen des Fußbodens.
Allerdings wusste ich im Hinterkopf, dass ich immer noch einen lebenslangen Traum zu erfüllen hatte – soziale und emotional intelligente Roboter-Begleiter zu bauen, die die Pflege und das Wohlbefinden verbessern und unser tägliches Leben bereichern. Ich wusste, dass wir an einem Wendepunkt waren, wie wir mit Technologie interagieren. Also entschied ich mich, von iRobot zurückzutreten und Embodied zu gründen.
Als wir Embodied gründeten, dachten wir von Anfang an darüber nach, wie menschliche Maschinen-Interaktionen jenseits einfacher verbaler Befehle ermöglicht werden können, um die nächste Generation des Computings zu ermöglichen und eine neue Klasse von Maschinen zu ermöglichen, die fließende soziale Interaktion ermöglichen. Insbesondere sollte das erste Produkt darauf abzielen, einen animierten Begleiter zu bauen, der Kindern hilft, soziale und emotionale Fähigkeiten durch spielerisches Lernen zu entwickeln. Dieser Begleiter sollte Moxie heißen. Moxie ist ein neuer Typ von Roboter, der die Fähigkeit hat, Emotionen zu verstehen und auszudrücken, mit ausdrucksstarken Gesichtsausdrücken und Körpersprache, indem er auf die menschliche Psychologie und Neurologie zugreift, um tiefere Bindungen zu schaffen. Dazu brachten wir ein cross-funktionales Team von leidenschaftlichen Führungskräften aus Ingenieurwesen, Technologie, Unterhaltung, Spiel-Design und Kinder-Entwicklung zusammen. In den letzten vier Jahren hat Embodied unermüdlich daran gearbeitet, alle neuesten Technologien zusammenzubringen, um Moxie zum Leben zu erwecken, und das Team ist aufgeregt, Moxie endlich an Familien zu liefern, die Unterstützung bei der gesunden Entwicklung ihrer Kinder benötigen.
Welche einzigartigen unternehmerischen Herausforderungen gibt es bei einem Robotik-Startup?
Es ist lustig, das Unmögliche zu tun, aber es kann auch ein bisschen beängstigend sein. Wir wussten, dass wir, wenn wir die Art und Weise, wie Menschen mit Maschinen interagieren, revolutionieren wollten, Probleme lösen mussten, die noch nie zuvor gelöst worden waren. Einige dieser Probleme umfassten:
- Flache Bildschirme sind auf Geräten, und wir wollen ein Gerät zum Leben erwecken. Wie können wir also ein Gesicht erstellen, das lebendiger, abgerundeter und nicht zweidimensional ist?
- Aktuelle Konversations-Engines ermöglichen nur sehr begrenzte Konversationen, wie können wir also eine Lösung erstellen, die natürlichere Konversationen ermöglicht?
- Wir wollen nicht, dass die Stimme klingt, als ob sie von einem Roboter stammt, wie können wir also eine Lösung erstellen, die die Stimme natürlich klingen lässt, mit kontextuell angemessener Tonlage und Betonung?
- Wir wussten, dass Augenkontakt sehr wichtig ist, wie können wir also eine Lösung erstellen, die zuverlässige Augen-Verfolgung ermöglicht?
All diese Fragen zu den Funktionen von Moxie führten zu vielen staatlich geförderten technologischen Innovationen.
Zunächst einmal die projizierte und abgerundete Gesichts-Form. Die Statistiken beginnen, uns zu zeigen, dass zu viel Bildschirm-Zeit verheerende Auswirkungen auf die Entwicklung von Kindern haben kann. Schlimmer noch, die meisten Technik-Geräte von Kindern verfügen über digitale Bildschirme. Deshalb entschieden wir uns, in die extra Investition zu stecken, um Moxies Gesicht vollständig zu projizieren, was es uns ermöglichte, ein Gesicht zu erstellen, das abgerundet ist, mit natürlich gekrümmten Kanten, anstelle eines flachen Bildschirms. Dies macht die Interaktion mit Moxie lebendiger, realistischer und glaubwürdiger. Tatsächlich ist es nur durch diese 3D-Erscheinung von Moxies Gesicht möglich, dass Moxie tatsächlichen Augenkontakt mit dem Kind hat. Also nicht nur schützt Moxies Gesicht Kinder vor übermäßiger Bildschirm-Zeit, sondern es macht auch die Interaktionserfahrung noch realistischer.
Zweitens die Konversations-Engine. Bisher haben intelligente Lautsprecher und Sprachassistenten die wiederholte Verwendung von Weckwörtern erfordert, um Befehle auszuführen. Moxies Konversations-Engine ist anders. Sie folgt einer natürlichen Konversation und reagiert auf den typischen Fluss der Kommunikation, ohne die Verwendung von Weckwörtern (wie “Hey Siri” oder “Ok Google”). Erweiterte natürliche Sprachverarbeitung ermöglicht es Moxie, Sprache zu erkennen, zu verstehen und zu generieren, was die Interaktion persönlicher und natürlicher macht.
Drittens die Sprachsynthese. Moxies Stimme klingt nicht wie die robotische Sprache und der monotonische Klang, den die meisten Roboter und Sprachassistenten haben. Stattdessen verwendet Moxie natürliche und ausdrucksstarke vokale Betonungen, die helfen, eine breitere Palette von Emotionen zu kommunizieren. Dies verbessert den Umfang der sozial-emotionalen Lektionen, an denen Moxie teilnehmen kann, und bringt auch eine zusätzliche Lebendigkeit und Glaubwürdigkeit in die Interaktion.
Viertens die Augen. Eine der wichtigsten Funktionen ist Moxies große, animierte Augen. Innovative Augen-Verfolgungstechnologie ermöglicht es Moxie, Augenkontakt mit dem Kind zu halten, auch wenn das Kind sich im Raum bewegt. Diese Augen-Verfolgungsfähigkeit schafft nicht nur eine unglaublich lebendige Interaktion, sondern hilft dem Kind auch, Augenkontakt zu üben. Darüber hinaus helfen die großen, animierten Augen, emotionale Kommunikation zu übertrieben, sodass das Kind bestimmte Emotionen leichter erkennen kann. Das Üben von Augenkontakt und das Verständnis von Emotionen sind zwei wichtige Entwicklungsziele im sozial-emotionalen Curriculum.
Schließlich ermöglichen all diese technologischen Funktionen, dass Interaktionen mit Moxie realistisch und natürlich erscheinen. Moxies multimodale sensorische Fusion macht Moxie sich der Umgebung und seiner Benutzer bewusst. Moxies Computer-Vision- und Augen-Verfolgungstechnologie hilft, Augenkontakt zu halten, wenn das Kind sich bewegt. Maschinen-Lernen hilft Moxie, Benutzer-Präferenzen und -Bedürfnisse zu lernen und Menschen, Orte und Dinge zu erkennen. Speziell positionierte Mikrofone ermöglichen es Moxie, die Richtung zu hören, aus der eine Stimme kommt, und sich leicht zur Quelle zu drehen. Berührungs-Sensoren ermöglichen es Moxie, Umarmungen und Handschläge zu erkennen. All diese Teile kommen zusammen, um die Erfahrung sehr realistisch zu machen.
Könnten Sie uns einige Dinge erzählen, die Moxie perfekt für Kinder machen?
Mit Moxie können Kinder jeden Tag sinnvolles Spiel treiben, mit Inhalten, die von den besten Praktiken in der Kinder-Entwicklung und der frühkindlichen Bildung informiert sind. Jede Woche ist ein anderes Thema, wie z.B. Freundlichkeit, Freundschaft, Empathie oder Respekt, und Kinder werden damit beauftragt, Moxie bei Missionen zu helfen, die menschliche Erfahrungen, Ideen und Lebensfähigkeiten erforschen. Diese Missionen sind Aktivitäten, die kreative, unstrukturierte Spielerei wie Zeichnen, Achtsamke-Übungen durch Atem-Übungen und Meditation, Lesen mit Moxie und Erforschen von Wegen, um anderen gegenüber freundlich zu sein, beinhalten. Moxie ermutigt Neugier, damit Kinder die Welt und die Menschen um sie herum entdecken. All diese Aktivitäten helfen Kindern, wichtige Lebensfähigkeiten wie abwechselndes Spiel, Augenkontakt, aktives Zuhören, Emotions-Regulation, Empathie, Beziehungs-Management und Problemlösung zu lernen.
Embodied hat auch mit Encyclopaedia Britannica und Merriam-Webster zusammengearbeitet, um Merriam-Websters Dictionary for Children zu integrieren, was es Moxie ermöglicht, altersgerechte Definitionen und verwandte Informationen bereitzustellen, um Kindern zu helfen, neue Wörter und Konzepte zu lernen und zu verstehen. Dies ist die erste von vielen Integrationen mit Moxie, die die gemeinsame Mission von Britannica und Merriam-Webster erfüllen, Neugier und die Freude am Lernen zu inspirieren.
Embodied hat auch ein vollständiges Ökosystem entwickelt, das Eltern dabei unterstützt, die Reise ihres Kindes mit Moxie zu unterstützen, und es Kindern ermöglicht, die Verwendung von Moxie auf sichere und elterngenehmigte Weise zu erweitern:
- Die Embodied Moxie-Eltern-App bietet ein Dashboard, das Eltern hilft, den Fortschritt ihrer Kinder bei der Entwicklung mit Moxie zu verstehen. Die App bietet wichtige Einblicke in die soziale, emotionale und kognitive Entwicklung ihrer Kinder durch ihre Aktivitäten mit Moxie. Die App bietet auch wertvolle Vorschläge und Tipps für Eltern, um die Erfahrung und den Fortschritt ihrer Kinder mit Moxie zu verbessern.
- Ein Online-Kind-Portal (auch bekannt als Global Robotics Laboratory, oder G.R.L.) bietet zusätzliche Aktivitäten, Spiele und Geschichten, die die Erfahrung mit Moxie erweitern.
- Monatliche Moxie-Mission-Pakete sind Sendungen, die darauf abzielen, Kinder in neue Aktivitäten mit Moxie zu involvieren und auch lustige Gegenstände wie Sammelkarten und Aufkleber bereitzustellen.
Im Laufe der Zeit lernt Moxie mehr über das Kind, um seinen Inhalt besser an die individuellen Entwicklungsziele des Kindes anzupassen. Embodied hat sorgfältige Schritte unternommen, um sicherzustellen, dass die von Kindern und Familien bereitgestellten Informationen mit hohen Standards von Privatsphäre und Sicherheit behandelt werden. Wir beabsichtigen, dass Moxie vollständig COPPA (Children’s Online Privacy Protection Act) Safe Harbor zertifiziert sein wird, damit Eltern sich sicher fühlen können, dass Moxie führende Daten-Integritäts- und Sicherheits-Verfahren anwendet und dass seine Systeme regelmäßig auditiert werden, um die volle Einhaltung zu gewährleisten. Darüber hinaus sind persönlich identifizierbare Daten und sensible Informationen mit dem höchsten Sicherheits-Level verschlüsselt und können nur durch einen einzigartigen Schlüssel entschlüsselt werden, auf den nur die Eltern Zugriff haben.
Welche natürlichen Sprach-Verarbeitungs-Herausforderungen gibt es, die Moxie gegenübersteht?
Bei Embodied streben wir danach, die Art und Weise, wie Menschen mit Maschinen interagieren, neu zu definieren, insbesondere in der Konversation durch natürliche Sprach-Verarbeitung. Deshalb entschieden wir uns, SocialXTM zu erstellen, eine Plattform, die es Kindern ermöglicht, mit Moxie durch natürliche Interaktion (z.B. Gesichtsausdrücken, Konversation, Körpersprache usw.) zu interagieren, was Vertrauen, Empathie und Motivation hervorruft und eine tiefere Bindung fördert, um Entwicklungs-Fähigkeiten zu fördern. Mit SocialXTM führt Embodied eine ganz neue Kategorie von Robotern ein: animierte Begleiter. “Animiert” bedeutet, zum Leben zu erwecken, und SocialXTM ermöglicht es Moxie, das Beste der Menschlichkeit in einer neuen und fortschrittlichen Form der Technologie zu verkörpern, die neue Wege des Lernens ermöglicht.
Natürliche Sprach-Verarbeitung ist der Kern unseres natürlichen Konversations-Engines, und es gibt viele einzigartige Funktionen in diesem Konversations-Engine, die wir unermüdlich erstellten.
Die wichtigste Funktion, an der wir arbeiteten, war Moxies Fähigkeit, die Konversation auf einen einzigen Benutzer zu fokussieren und Hintergrund-Konversationen und -Geräusche auszufiltern, sodass Moxie nur auf den Benutzer reagiert. Dies ermöglicht eine fokussiertere und persönlichere Interaktion. Dies ist eine Lösung für das, was viele als das “Cocktail-Party-Problem” bezeichnen. Wenn Sie auf einer Cocktail-Party sind und es viele Menschen im Raum gibt, die sprechen, während Sie versuchen, mit einer Person zu sprechen, ist es für Menschen nicht besonders schwierig. Für einen Computer ist dies jedoch extrem schwierig. Wie können wir sicherstellen, dass Moxie nur auf das reagiert, was der einzelne Benutzer sagt, und nicht von Hintergrund-Geräuschen, Konversationen, Fernsehen usw. abgelenkt wird? Es gibt viele Wege, wie wir diese Lösung für das Problem angehen.
- Wir verwenden unser Vision-System, um zu erkennen, wer Moxie ansieht und gegenübersteht.
- Wir haben mehrere Mikrofone vorne an Moxie, die uns sagen, woher das Geräusch kommt.
- Wir können dann Maschinen-Lernen verwenden, um das Geräusch mit dem Sprecher vor Moxie zu verbinden. Dies ermöglicht es uns, andere Konversationen auszufiltern und uns auf einen einzigen Benutzer zu konzentrieren.
Im Allgemeinen haben Konversations-Agenten auf dem Markt das “Cocktail-Party-Problem” vermieden, indem sie Weckwörter wie “Hey (Gerät, gefolgt von einer Frage)” verwenden. Dieses Weckwort ermöglicht es dem Konversations-Agenten, auf das Weckwort zu hören und nur zu reagieren, wenn das Weckwort gesagt wird. Da Moxie jedoch auf einen einzigen Benutzer fokussieren kann, benötigt Moxie keine Weckwörter, um eine Reaktion auszulösen.
Wir wollten sicherstellen, dass Moxies Konversations-Engine so fortschrittlich ist, dass sie kontextuell bewusst ist und auf konversationelle Reaktionen reagiert. Dies ermöglicht nuanciertere Konversationen. Zum Beispiel kann Moxie die unterschiedlichen Bedeutungen hinter “Ich weiß nicht” und “nein” verstehen.
Gibt es noch etwas, das Sie über Moxie oder Embodied teilen möchten?
Wir haben an diesem Projekt vier Jahre lang mit einem dedizierten Team gearbeitet, das unermüdlich daran gearbeitet hat, die erstaunlichen Erfindungen zu machen, die erforderlich sind, um Moxie zum Leben zu erwecken. Jetzt sind wir aufgeregt, Moxie endlich an Familien zu liefern, um ihren Kindern bei der sozial-emotionalen Entwicklung zu helfen. Also freuen wir uns auf die Reise!
Vielen Dank für das Interview, ich habe gehört, wie Sie ursprünglich von einem kurzen Pixar-Film inspiriert wurden und wie Sie seitdem Ihre Leidenschaft verfolgt haben. Leser, die mehr erfahren oder Moxie bestellen möchten, sollten Embodied, Inc besuchen.













