Vordenker
Innerhalb des neuen Robotik-Wettlaufs: Daten, Modelle und Fertigung

Innovation entsteht selten in Isolation. Öfter wird sie in Gesprächen zwischen Ingenieuren, Gründern, Forschern und Investoren geboren, die versuchen zu verstehen, wohin die Technologie sich bewegt.
Im Laufe eines Jahres besuchte ich Dutzende von Konferenzen auf der ganzen Welt. Geschäftsreisen dauern manchmal monate, und Meetings mit Partnern und Kunden finden von Asien bis Nordamerika statt. Doch eine meiner kürzlichen Reisen in die Schweiz erwies sich als besonders interessant – größtenteils wegen der Menschen und der Gespräche, die dort stattfanden.
Zürich erwies sich als einer der Orte, an dem die Zukunft der Robotik und Physical AI heute aktiv diskutiert wird. Und je tiefer diese Gespräche gehen, desto offensichtlicher wird, dass der eigentliche Wettlauf in der Robotik sich um Daten abspielt.
Europas Silicon Valley
Zürich wurde traditionell mit dem Finanzsektor in Verbindung gebracht, aber in den letzten Jahren wird es immer mehr als Europas Silicon Valley bezeichnet. Großteils ist dies mit der ETH Zürich verbunden, einer der angesehensten Ingenieuruniversitäten in Europa. Sie zieht Forscher, PhD-Studenten, Unternehmer und Ingenieure aus der ganzen Welt an. Als Ergebnis hat sich ein mächtiges technologisches Ökosystem um die Universität gebildet, in dem Forschung, Start-ups und industrielle Projekte fast gleichzeitig entstehen.
Einer der Gründe für meine Reise war, ein tieferes Verständnis dafür zu erlangen, was Introspector dem Robotik-Markt bieten kann, der seit Beginn 2025 boomet. Es ist eine Branche, in die eine Vielzahl von Start-ups versucht, einzutreten, während technologische Durchbrüche von großen Tech-Unternehmen sie aktiv umgestalten. Trotz all dieser Dynamik wirft die Branche noch mehr Fragen auf als sie beantwortet.
Zürich ist auch die Heimat unserer Partner Lightly, die mir halfen, mich mit Kollegen bekannt zu machen, die an der Schnittstelle von Robotik, Computer-Vision und KI arbeiten. Es gibt einen wichtigen Aspekt des lokalen Technologie-Ökosystems, den ich hervorheben möchte: Die Menschen hier sind bemerkenswert offen und einladend. Sie haben keine Angst, ihre Ideen und Hypothesen zu teilen, über die Herausforderungen zu sprechen, die sie zu lösen versuchen, und über die Experimente, die sie durchführen. Als Ergebnis verstehen Sie den richtigen Kontext des Marktes und wohin die Branche sich bewegt, viel schneller.
Übrigens, wenn mich Menschen fragen, wie sich das europäische “Silicon Valley” vom amerikanischen unterscheidet, überrascht die Antwort sie oft. In Zürich ist das Gleichgewicht zwischen Arbeit und Leben viel stärker: Sport am Morgen, fokussierte Arbeit während des Tages in einem ruhigen, aber produktiven Rhythmus, und Abende in den Bergen mit der Familie oder einfach entspannt. In San Francisco gibt es oft das Gefühl, dass man ständig beweisen muss, dass man härter arbeitet als alle anderen. In Zürich ist der Rhythmus anders – nachhaltiger. Doch das technologische Ambitionsniveau ist hier nicht niedriger.
Bessere Daten vor besseren Robotern
Eine der wichtigsten Erkenntnisse aus dieser Reise war eine einfache Beobachtung: Viele Menschen wollen heute in der Robotik arbeiten. Aber trotz des enormen Interesses an der Branche sind viele Teams noch in einer exploratorischen Phase, versuchen zu verstehen, welche Rolle sie in der neuen Welle der Robotik und Physical AI spielen können und welchen Beitrag sie leisten können.
Viele Gespräche konvergieren letztendlich auf das gleiche Thema: Daten. Heute mangelt es der Branche an Daten über Feinmotorik-Aufgaben, d.h. an feinen Motorfähigkeiten. In diesem Bereich bleiben die Fähigkeiten von Robotern extrem begrenzt. Was Menschen mit ihren Händen fast automatisch tun – ein Objekt aufnehmen, es drehen, es vorsichtig an einem bestimmten Ort ablegen oder eine kleine Manipulation durchführen – bleibt eine der größten Herausforderungen für Roboter.
Der Schlüssel zum Fortschritt liegt hauptsächlich in großen, ordnungsgemäß gesammelten Datensätzen. Heute sprechen die Menschen oft über egozentrische Datensätze, die aus einer ersten Person-Perspektive aufgenommen werden, wo das System menschliche Aktionen aufzeichnet, als ob es sie selbst ausführen würde. In der Praxis stellt sich jedoch heraus, dass das Konzept eines “egozentrischen Datensatzes” sehr unterschiedliche Dinge bedeuten kann und eine Reihe von technischen Fragen aufwirft. Wo sollte die Kamera platziert werden? Auf der Stirn, auf der Brust oder vielleicht auf Augenhöhe? Welche Sensoren sollten die Videoaufnahme begleiten? Wenn wir Handbewegungen aufzeichnen, sollten die Bediener spezielle Handschuhe tragen? Und wenn ja, sollten diese Handschuhe taktilen Sensoren, Gyroskope oder andere Bewegungsnachverfolgungssysteme enthalten?
Eine noch komplexere Frage taucht auf: Wie kann man die Tiefe der Bewegung richtig aufzeichnen? Schließlich ist es wichtig, nicht nur die Position einer Hand in einer zweidimensionalen Ebene zu verstehen, sondern auch, wie sie sich durch den dreidimensionalen Raum bewegt – vorwärts, rückwärts, hoch oder runter.
Bisher hat die Branche noch keine einheitige Antwort gefunden. Deshalb experimentieren viele Teams heute mit verschiedenen Sensorkonfigurationen, Aufnahmemethoden und Datensatzformaten.
Multimodale Systeme
Sobald das Gespräch auf die Datenerfassung für die Robotik kommt, taucht ein weiteres Thema schnell auf – zusätzliche Sensoren und Multimodalität, die es ermöglichen, Körperbewegungen, Handaktionen und Objektinteraktionen mit größerer Präzision aufzuzeichnen. Sie helfen auch, Fehler während der Datenerfassung zu reduzieren.
Wenn eine Person ihre Aktionen auf einer Kamera aufzeichnet, besteht immer das Risiko, dass ein Teil des Materials unbrauchbar ist. Die Kamera kann sich leicht verschieben, der Aufnahmewinkel kann falsch sein, der Bediener kann versehentlich in die falsche Richtung drehen oder eine Bewegung zu schnell ausführen. Als Ergebnis wird ein erheblicher Teil des aufgezeichneten Materials verworfen. Ein einfaches Beispiel: Um eine Stunde wirklich brauchbaren Videos zu erhalten, muss ein Bediener oft etwa zwei Stunden Rohmaterial aufzeichnen.
Zusätzliche Sensoren helfen, einige dieser Probleme auszugleichen. Selbst wenn die Kamera sich leicht verschiebt, können Sensordaten es immer noch ermöglichen, die Bewegung der Hand oder die Position des Körpers im Raum zu rekonstruieren. Als Ergebnis benötigt man statt zwei Stunden Aufzeichnung vielleicht nur etwa eine Stunde und zwanzig Minuten, um die gleiche Menge an brauchbaren Daten zu erhalten. Dies erhöht die Effizienz der Datenerfassung und reduziert die Kosten für die Erstellung von Datensätzen.
Es ist daher kein Zufall, dass viele Teams auch ein wachsendes Interesse an der multimodalen Datenauszeichnung feststellen. Dies ist einer der sichtbareren Trends, der direkt mit der Entwicklung von Robotik und eingebetteter KI verbunden ist.
Der nächste Punkt ist die Auszeichnung solcher Datensätze. Wir haben ähnliche Fragen bei Keymakr erlebt, wenn wir mit Kunden-Datensätzen für Robotik-Fälle gearbeitet haben: Wie sollte eine solche Auszeichnung in der Praxis aussehen? Sollte sie skelettartig sein? Zwei- oder dreidimensional? Sollten Elemente des Verstärkungslernens in die Pipeline eingebaut werden? Es gibt Dutzende solcher Fragen. Ingenieure selbst geben zu, dass noch niemand mit Sicherheit sagen kann, welche spezifische Datenkonfiguration letztendlich zu einem echten technologischen Durchbruch führen wird.
Diese Bedenken sind verständlich. Die Erstellung komplexer Datensätze ist ein teurer Prozess. Jeder Fehler in der Datenstruktur kann Tausende oder sogar Millionen Dollar kosten. Es ist möglich, den “falschen” Datensatz zu sammeln oder ihn unter Bedingungen aufzuzeichnen, die in der realen Welt schwer zu reproduzieren sind, letztendlich das gesamte Projekt untergraben. Genau deshalb wird heute mehr und mehr Aufmerksamkeit auf die Modelle selbst und die Qualität sowie Architektur der Daten gelegt, auf denen diese Modelle trainiert werden.
Welche Art von Robotern benötigt der Markt?
Klassische Industrieroboter, die seit Jahrzehnten auf Automobil-Montagestraßen arbeiten, benötigen tatsächlich sehr wenig Computer-Vision oder komplexe KI-Modelle. Ihre Aufgabe ist extrem spezifisch: Sie müssen streng repetitive Bewegungen – links, rechts, hoch, runter – mit hoher Präzision und Konsistenz ausführen. In diesem Bereich haben sie den Menschen längst übertroffen.
Eine völlig andere Kategorie sind humanoide Roboter. Diese Systeme benötigen “Gehirne”: die Fähigkeit, den Raum zu navigieren, die Umgebung wahrzunehmen, den Kontext einer Situation zu verstehen und Manipulatoren nicht durch vorgeprogrammierte Trajektoren, sondern durch Anpassung an die reale Welt zu steuern.
Auch auf modernen Fabrikböden, wo eine hohe Automatisierung herrscht, werden viele Aufgaben noch von Menschen durchgeführt. Ein Objekt bewegen, eine Box aufnehmen, Teile sortieren, ein Bauteil befestigen oder Materialien organisieren – diese kleinen Aktionen erfordern Flexibilität und Koordination. Dieser Bereich bleibt einer der schwierigsten, um ihn zu automatisieren, und genau hier können humanoide Systeme ihre Rolle finden.
Viele der Teams, mit denen ich gesprochen habe, verwenden ein ähnliches Geschäftsmodell. Sie nähern sich einer Fabrik und schlagen vor, ein bestimmtes Produktionsfall zu lösen. Zum Beispiel verbringt ein Arbeiter den ganzen Tag damit, Boxen zwischen Lagerzonen zu bewegen. Ingenieure schlagen ein relativ einfaches Experiment vor: den Arbeiter mit einer Kamera und einem Satz Sensoren ausstatten, Tausende von Stunden ihrer Aktionen aufzuzeichnen und diese Daten verwenden, um ein Modell zu trainieren, das einen humanoiden Roboter steuert. Auf diese Weise lernt der Roboter genau die Aufgaben auszuführen, die der menschliche Arbeiter durchführt.
Im Wesentlichen kauft das Unternehmen eine humanoide Plattform, während das Entwicklungsteam ein benutzerdefiniertes Modell aufbaut, das das Verhalten eines bestimmten Bedieners repliziert. Dies ist keine universelle Intelligenz, die jede Aufgabe lösen kann. Es ist vielmehr ein Satz von Fähigkeiten, die für ein bestimmtes Szenario oder eine Gruppe von Produktionsaufgaben trainiert werden. Für viele Ingenieure heute erscheint dieser Ansatz viel realistischer. Anstatt versuchen, sofort einen universalen Roboter zu schaffen, konzentrieren sich Teams auf enge, aber ökonomisch tragbare Automatisierungsszenarien.
Die Geschäftsdimension
Wenn die Zukunft in benutzerdefinierten Modellen liegt, ist es wichtig zu verstehen, dass dies aus wirtschaftlicher Sicht ein ziemlich langer Entwicklungsprozess ist.
Jede Branche ist im Wesentlichen ihre eigene Welt. Jede Produktionsumgebung hat ihre eigenen Prozesse, Arbeitsabläufe und Ausnahmen. Ein Roboter, der in einer Automobilfabrik trainiert wurde, kann nicht einfach in die Lebensmittelherstellung oder die Lagerlogistik übertragen werden. In jedem Fall muss das System von Grund auf neu trainiert werden.
Dies führt zu der nächsten logischen Frage: Wer werden die ersten Kunden solcher Technologie sein?
In diesem Stadium sind die primären Adoptierer wahrscheinlich große Unternehmen – diejenigen mit den Budgets und für die die Automatisierung einen bedeutenden wirtschaftlichen Einfluss haben kann. Heute kostet ein humanoider Roboter etwa 60.000-90.000 Dollar allein für die Hardware. Dies ist nur die Basis-Konfiguration. Dazu kommen Wartungskosten, Batterien, LadeStationen, Infrastruktur und Software.
Als Ergebnis sind die Unternehmen, die am ehesten in der Lage sind, mit solchen Systemen zu experimentieren, große Organisationen, Automobilhersteller, Lebensmittelkonzerne und große Industrieunternehmen.
Natürlich können auch kleinere Sektoren einige frühe Adoptierer sehen. Einige Unternehmen können einen oder zwei Roboter für bestimmte Aufgaben kaufen. In den meisten Fällen sind diese Unternehmen jedoch einfach nicht bereit, Hunderttausende von Euros in die Sammlung und Auszeichnung benutzerdefinierter Datensätze zu investieren, die erforderlich sind, um Systeme für hochspezifische Betriebszenarien zu trainieren. Für sie bleibt die menschliche Arbeit immer noch die günstigere Option.
Das lange Spiel der Robotik-Innovation
Wir kommen schließlich zu einer grundlegenden wirtschaftlichen Frage: Was ist effizienter – ein Mensch oder ein Roboter? Wenn wir auf die heutige Wirtschaft schauen, ist die Antwort offensichtlich: Die menschliche Arbeit ist billiger, passt sich schneller an neue Bedingungen an und benötigt keine komplexe Infrastruktur.
Warum investiert die Branche also weiterhin in die Robotik? Die Antwort ist größtenteils strategisch.
Viele Unternehmen verstehen, dass ein Wettlauf um die technologische Führung im Gange ist. Sie entwickeln bereits Lösungen, trotz der hohen Kosten, um vorne zu sein, wenn die Ökonomie der Robotik sich ändert.
Wenn die Elektronik fortschreitet, sinken die Kosten für Komponenten, und die Recheneffizienz verbessert sich, wird die Robotik unweigerlich erschwinglicher. Und wenn das passiert, gehört der Vorteil den Unternehmen, die bereits Modelle aufgebaut, Daten gesammelt und die notwendige technologische Infrastruktur etabliert haben.
Stellen Sie sich beispielsweise vor, dass neue Vorschriften erscheinen, die den großflächigen Einsatz humanoider Roboter in der Fertigung ermöglichen. Oder dass Regierungen beginnen, die Robotisierung von Branchen zu subventionieren. In einem solchen Szenario könnte der Markt innerhalb weniger Jahre dramatisch wachsen. Und diejenigen, die sich im Voraus vorbereitet haben, die mit bestehenden Modellen, Forschung, Datensätzen und einer bereiten technologischen Infrastruktur, werden diejenigen sein, die am meisten profitieren.
Deswegen geht die Entwicklung auch jetzt weiter, obwohl die Geschäftswirtschaft möglicherweise noch nicht ideal aussieht. Für viele Unternehmen ist es eine Investition in die Zukunft – in den Moment, wenn die Technologien zugänglicher werden und die Nachfrage scharf ansteigt.
Und in diesem Wettlauf, wie in vielen technologischen Revolutionen, erweist sich oft ein Faktor als entscheidend: Wer früher begonnen hat. Die heutige Robotik ähnelt stark den frühen Stadien der künstlichen Intelligenz. Damals gab es auch mehr Fragen als Antworten. Doch es waren die Teams, die früher mit Daten und Infrastruktur begonnen haben als andere, die letztendlich die Richtung der gesamten Branche geprägt haben.












