Vordenker
Das humanoide Zeitalter kommt nicht – es ist bereits da

Anfang des Monats wurde in China ein humanoider Roboter namens Shuang Shuang betrat die Bühne Bei einer Abschlussfeier einer High School in Fujian nahmen sie ein Diplom entgegen – sie schüttelten Schülern und Lehrern die Hände und erfreuten sie gleichermaßen. Momente wie diese stehen für einen bedeutsamen Wandel, bei dem humanoide Roboter beginnen, auf sehr sichtbare Weise in das öffentliche Leben einzutreten.
Diese Momente wecken nicht nur öffentliche Neugier – sie signalisieren einen Wandel hin zur Integration in die reale Welt. Dieser Beitrag untersucht, wie Humanoide von Show und Spektakel zu Funktionalität gelangen – und warum es sich bei scheinbar rein hardwarebasierten Leistungen in Wirklichkeit um integrierte Intelligenz handelt, die es diesen Maschinen ermöglicht, in Umgebungen zu gehen, zu interagieren und zu lernen, die nicht für die Automatisierung konzipiert sind. Wir diskutieren außerdem, wie wir die Kommerzialisierung durch frühzeitige Einführung und langfristige Partnerschaften angehen.
Wie Humanoide KI in die reale Welt bringen
Die Kluft zwischen virtueller Leistung und physischer Zuverlässigkeit bleibt eine der am häufigsten übersehenen Herausforderungen der KI. Ein Chatbot kann Absätze mit flüssigem Text generieren, ohne jemals darauf reagieren zu müssen – genauso wie ein Vision-Modell einen Schritt in einem Bild erkennen kann, ohne ihn physisch navigieren oder stürzen zu müssen. Humanoide haben diesen Luxus nicht.
Um in der realen Welt zu funktionieren, muss KI statische Datensätze und kontrollierte Bedingungen hinter sich lassen. Sie muss in Umgebungen sehen, entscheiden und agieren, die sich von Sekunde zu Sekunde verändern. Dazu gehören unebene Böden, falsch platzierte Gegenstände, unvorhersehbares menschliches Verhalten und kontextabhängige nonverbale Signale. Die Folge ist eine tägliche Konfrontation mit Lärm, Mehrdeutigkeit und potenziellen Fehlern.
Hier beginnt das verkörperte Denken – bei dem Sprache auf Raum, Zeit und Konsequenzen basiert – wichtiger zu werden als bloße Vorhersagen. Sagt ein Mensch beispielsweise „Vorsicht, rutschig“, muss der Roboter diesen Satz nicht nur mit einer Wortdefinition verknüpfen, sondern auch mit räumlichem Bewusstsein, potenziellen Risiken und Echtzeit-Anpassungen.
Gleichzeitig ist multimodales Lernen unerlässlich, da kein einzelner Eingangskanal zuverlässig genug ist, um allein zu funktionieren. Einer Kamera entgeht vielleicht eine glatte Oberfläche, doch Drucksensoren im Fuß können einen plötzlichen Verlust der Bodenhaftung erkennen. Oder in einer anderen Situation versagt die Spracherkennung in einem lauten Lagerhaus, doch visuelle Hinweise oder Gesten können die Lücke schließen.
Auch die Generalisierung ist entscheidend. Ein Roboter kann sich nicht darauf verlassen, die exakte Umgebung zweimal zu sehen. Er muss sein Verhalten anpassen, wenn der Boden nass ist, sich die Beleuchtung ändert oder die Kiste nicht mehr dort steht, wo sie gestern war. Das macht den Unterschied zwischen erfolgreicher Ausführung und Misserfolg aus.
Aus diesem Grund testen wir bei Humanoid frĂĽhzeitig mit kommerziellen Partnern. Wir integrieren unsere Roboter in Live-Umgebungen, um potenzielle Schwachstellen frĂĽhzeitig zu erkennen und eine optimale Funktion vor dem Einsatz sicherzustellen. Ein Roboter, der in Simulationen oder Demos gute Leistungen erbringt, ist nicht dasselbe wie einer, der sich unter Druck Vertrauen erarbeitet, denn dieses Vertrauen basiert letztlich auf Lernen in der realen Welt.
Wir wissen, dass Humanoide innerhalb der nächsten zwei Jahre kommerziell verfügbar sein werden – aber wir warten nicht. Für uns beginnt die Kommerzialisierung frühzeitig. Das bedeutet, langfristige Partnerschaften rund um reale Anwendungsfälle aufzubauen. In einer Reihe von Pilotprogrammen schulen wir unsere Partner nicht nur in der Technologie, sondern lernen auch gemeinsam mit ihnen. Dieser gemeinsame Lernprozess hilft uns auch, Kostenstrukturen und Leistungszuverlässigkeit vom ersten Tag an zu optimieren und so die bestmöglichen Gesamtbetriebskosten (TCO) bei Systemerweiterungen zu gewährleisten.
Warum Humanoide das ultimative Testfeld fĂĽr allgemeine Intelligenz sind
Die Welt, die wir in den letzten hundert Jahren geschaffen haben, ist auf den menschlichen Maßstab zugeschnitten. Türklinken, Gabelstapler, Lagerhallen – alles nimmt bestimmte Dimensionen, Bewegungsbereiche und implizite soziale Verhaltensweisen an. Humanoide müssen sich an diese Realität anpassen, sonst laufen sie Gefahr, in ihrer Funktionalität extrem eingeschränkt zu sein.
Um Treppen zu steigen, einen Gegenstand zu tragen, eine Zeigegeste zu interpretieren oder Zögern in einer Stimme zu erkennen, muss ein Roboter Kontexte verstehen, die weit über visuelle Klassifizierung oder programmierte Bewegungsplanung hinausgehen. Er muss Absichten erschließen, durch Beobachtung eines Menschen eine neue Aufgabe erlernen, diese Fähigkeit an eine leicht veränderte Situation anpassen und seine Leistung mit der Zeit verbessern. In der Praxis erweitert dieses System effektiv die Möglichkeiten der KI unter realen Bedingungen.
Bei Humanoid beschleunigen wir diesen Prozess durch Teleoperation. In den frühen Entwicklungsphasen führen menschliche Bediener den Roboter durch wichtige Aufgaben. Diese praktischen Daten bilden die Grundlage für das Training neuer Verhaltensweisen. Im Laufe der Zeit fließen diese Demonstrationen in unsere End-to-End-Modelle ein und helfen uns, zuverlässige Autonomie zu entwickeln.
Von engen Systemen zur integrierten Intelligenz
Die meisten KI-Systeme sind heute für eng begrenzte Aufgaben hervorragend geeignet. Für sich allein funktioniert jedes von ihnen gut. Humanoide Systeme brauchen jedoch keine isolierten Spezialisten. Für eine erfolgreiche Integration benötigen wir Systeme, die über Modalitäten und Zeitskalen hinweg argumentieren können.
Ein Humanoider könnte eine relativ vage Anweisung erhalten – „Geh und hol mir die gelbe Kiste aus dem Lagerraum auf der anderen Seite des Flurs“ – und diese in eine Abfolge von Unteraufgaben aufschlüsseln: den Sprecher lokalisieren, durch einen Korridor navigieren, die richtige Kiste identifizieren, die Griffstärke anpassen, Kollisionen vermeiden und natürlich sicher zurückkehren.
Jeder Teil dieser Sequenz umfasst ein anderes Subsystem – Sehen, Fortbewegung, Sprache, Manipulation und Feedback. Und die Zuverlässigkeit des Ganzen hängt davon ab, wie gut diese Teile unter wechselnden Bedingungen kommunizieren.
Modulare Architektur ist eine Möglichkeit, diese Herausforderung zu meistern. Sie ermöglicht es uns, Subsysteme unabhängig voneinander zu iterieren und gleichzeitig eine systemweite Koordination zu gewährleisten. Darüber hinaus können wir die Funktionen über mehrere Umgebungen hinweg skalieren, ohne von Grund auf neu aufbauen zu müssen. So gelangen wir von geschlossenen Demos zu Open-World-Performance.
Es steht viel auf dem Spiel – und zwar global
Es ist leicht, Humanoide als futuristisch darzustellen. Doch wenn wir mit unseren Kunden sprechen, erkennen wir, dass der Bedarf unmittelbar ist. Viele Lagerhallen, Fließbänder und andere einst stark ausgelastete Arbeitsstätten haben heute Probleme, ihre Belegschaft zu halten.
Dieser Arbeitskräftemangel ist ein demografisches Problem. In Japan fast 30 % der Bevölkerung sind über 65. In Europa sind Schlüsselsektoren – die zusammen Lohnsumme von 1.7 Billionen US-Dollar - sind Schwierigkeiten bei der Rekrutierung jüngerer Arbeitnehmer. Dies sind nicht die Rollen, die die meisten Menschen wollen, und zunehmend auch nicht die Rollen, die sie übernehmen möchten.
Humanoide helfen nicht als Ersatz, sondern können körperlich anstrengende, repetitive oder gefährliche Aufgaben übernehmen – etwa Lagerbestände bewegen, Paletten beladen oder Maschinen bedienen – ohne Ermüdungs- oder Verletzungsgefahr. So haben menschliche Arbeitskräfte mehr Zeit, sich auf komplexere, kreativere oder zwischenmenschlichere Aspekte der Arbeit zu konzentrieren.
Darüber hinaus schafft dies langfristige wirtschaftliche Widerstandsfähigkeit. Wenn Arbeitskräfte unbeständig oder nicht verfügbar sind, können intelligente Maschinen zur Sicherstellung der Kontinuität beitragen – und das ohne Einbußen bei Sicherheit, Qualität oder Anpassungsfähigkeit.
Ein weiterer hervorzuhebender Aspekt ist der regulatorische Rahmen. Die meisten Teams – insbesondere in Ländern mit schwacher Regulierung – warten erst einmal ab, sich damit auseinanderzusetzen. Wir haben damit begonnen. Europas Sicherheits- und Datenschutzgesetze gehören zu den strengsten der Welt, aber wir betrachten sie nicht als Hindernis, sondern als unseren Wettbewerbsvorteil. Wenn andere Märkte strengere Vorschriften einführen, werden wir bereit sein, diese einzuhalten, während andere Unternehmen möglicherweise Schwierigkeiten haben.
Eine neue KI-Rasse – aber nicht die, die Sie denken
Ein Großteil der heutigen Diskussion um KI dreht sich um Rechenleistung, Parameter und Trainingsdaten. Der eigentliche Durchbruch könnte jedoch an einer anderen Grenze liegen: der Integration in die physische Welt. Hier muss die Intelligenz lernen, Leistung zu bringen, statt nur Vorhersagen zu treffen.
In diesem Zusammenhang geht es um das leistungsfähigste System – eines, das im öffentlichen Raum, unter Sicherheitsauflagen und unter Einbeziehung des Menschen operieren kann. Dieses System lernt nicht nur aus Daten, sondern vor allem auch aus der Realität und arbeitet mit den Menschen zusammen, ohne den Arbeitsablauf zu stören.
Deshalb warten wir nicht, bis die Implementierung beginnt. Von Anfang an arbeiten wir direkt mit kommerziellen Partnern zusammen, um die Integration in reale Umgebungen zu gewährleisten. So stellen wir sicher, dass das System dort verbessert wird, wo es am wichtigsten ist: in der Praxis.
Genau bei dieser Art des Lernens in der realen Welt scheitern engstirnige Systeme. Diese haben uns zwar weit gebracht, waren aber nie für diese Komplexität konzipiert. Humanoide erfordern etwas anderes – Koordination, Robustheit und, wie bereits erwähnt, die Fähigkeit, aus dem Unerwarteten zu lernen.
Das ist die riesige Chance, die vor uns liegt. Nicht alles zu automatisieren, sondern Maschinen zu bauen, die die menschliche Welt verstehen, sich darin zurechtfinden und mit ihr zusammenarbeiten können.