Leaders d’opinion
À l’intérieur de la nouvelle course de robotique : données, modèles et fabrication

L’innovation émerge rarement en isolation. Plus souvent, elle naît des conversations entre ingénieurs, fondateurs, chercheurs et investisseurs qui tentent de comprendre où se dirige la technologie.
Au cours d’une année, j’ai assisté à des dizaines de conférences à travers le monde. Les voyages d’affaires durent parfois plusieurs mois, et les réunions avec des partenaires et des clients ont lieu d’Asie à l’Amérique du Nord. Cependant, l’un de mes récents voyages en Suisse s’est avéré particulièrement intéressant – en grande partie en raison des personnes et des conversations qui ont eu lieu là.
Zurich s’est avérée être l’un des endroits où l’avenir de la robotique et de la Physical AI est actuellement discuté. Et plus les conversations sont approfondies, plus il devient évident que la véritable course dans la robotique se déroule autour des données.
La Silicon Valley de l’Europe
Zurich a traditionnellement été associée au secteur financier, mais ces dernières années, elle a de plus en plus été appelée la Silicon Valley de l’Europe. Une grande partie de cette réputation est liée à l’ETH Zurich, l’une des universités d’ingénierie les plus respectées d’Europe. Elle attire des chercheurs, des étudiants en doctorat, des entrepreneurs et des ingénieurs du monde entier. En conséquence, un puissant écosystème technologique s’est formé autour de l’université, où la recherche, les start-ups et les projets industriels évoluent presque simultanément.
L’une des raisons de mon voyage était de mieux comprendre ce que Introspector peut offrir au marché de la robotique, qui est en plein essor depuis le début de 2025. Il s’agit d’une industrie que de nombreuses start-ups tentent de pénétrer, tandis que les avancées technologiques des grandes entreprises de technologie la transforment activement. Pourtant, malgré tout cet élan, le domaine soulève encore plus de questions qu’il n’apporte de réponses.
Zurich est également le siège de nos partenaires Lightly, qui m’ont aidé à rencontrer des pairs travaillant à l’intersection de la robotique, de la vision par ordinateur et de l’IA. Il y a un aspect important de l’écosystème technologique local que je voudrais souligner : les gens ici sont remarquablement ouverts et accueillants. Ils n’ont pas peur de partager leurs idées et leurs hypothèses, de parler des défis qu’ils tentent de résoudre et des expériences qu’ils mènent. En conséquence, vous commencez à comprendre le contexte réel du marché et où l’industrie se dirige beaucoup plus rapidement.
Au passage, lorsque les gens me demandent comment la « Silicon Valley » européenne diffère de la version américaine, la réponse les surprend souvent. À Zurich, l’équilibre entre travail et vie personnelle se sent beaucoup plus fort : sport le matin, travail ciblé pendant la journée dans un rythme calme mais productif, et soirées passées dans les montagnes avec la famille ou simplement en se détendant. À San Francisco, il y a souvent une impression que vous devez constamment prouver que vous travaillez plus dur que tout le monde. À Zurich, le rythme est différent – plus durable. Pourtant, le niveau d’ambition technologique ici n’est en rien inférieur.
De meilleures données avant de meilleurs robots
L’une des principales conclusions de ce voyage était une observation plutôt simple : de nombreuses personnes veulent aujourd’hui travailler dans la robotique. Mais malgré l’intérêt énorme pour l’industrie, de nombreuses équipes sont encore dans une phase d’exploration, essayant de comprendre quel rôle elles peuvent jouer dans la nouvelle vague de robotique et d’IA physique, et quelle contribution elles peuvent apporter.
De nombreuses conversations aboutissent finalement au même sujet : les données. Aujourd’hui, l’industrie manque de données sur les tâches de dextérité, c’est-à-dire les compétences motrices fines. Dans ce domaine, les capacités des robots restent extrêmement limitées. Ce que les humains font avec leurs mains presque automatiquement – prendre un objet, le tourner, le placer soigneusement quelque part ou effectuer une petite manipulation – reste l’une des tâches les plus difficiles pour les robots.
La clé du progrès réside principalement dans des jeux de données à grande échelle, correctement collectés. Aujourd’hui, les gens parlent souvent de jeux de données égocentriques, enregistrés d’un point de vue personnel, où le système capture les actions humaines comme s’il les exécutait lui-même. Cependant, dans la pratique, il s’avère que le concept même de « jeu de données égocentrique » peut signifier très différentes choses et soulève un certain nombre de questions techniques. Où devrait-on placer la caméra ? Sur le front, sur la poitrine ou peut-être au niveau des yeux ? Quels capteurs devraient accompagner l’enregistrement vidéo ? Si nous capturons les mouvements de la main, les opérateurs devraient-ils utiliser des gants spéciaux ? Et si oui, ces gants devraient-ils inclure des capteurs tactiles, des gyroscopes ou d’autres systèmes de suivi du mouvement ?
Une question encore plus complexe se pose : comment capter correctement la profondeur du mouvement. Après tout, il est important de comprendre non seulement la position de la main dans un plan bidimensionnel, mais également comment elle se déplace dans l’espace tridimensionnel – vers l’avant, vers l’arrière, vers le haut ou vers le bas.
Jusqu’à présent, l’industrie n’a pas trouvé de réponse unifiée. C’est pourquoi de nombreuses équipes expérimentent aujourd’hui avec différentes configurations de capteurs, méthodes d’enregistrement et formats de jeux de données.
Systèmes multimodaux
Dès que la conversation tourne autour de la collecte de données pour la robotique, un autre sujet émerge rapidement – les capteurs supplémentaires et la multimodalité, qui permettent de capturer les mouvements du corps, les actions de la main et les interactions avec les objets avec plus de précision. Ils aident également à réduire les erreurs lors de la collecte de données.
Lorsqu’une personne enregistre ses actions sur caméra, il y a toujours un risque que une partie du matériel soit inutilisable. La caméra peut bouger légèrement, l’angle de prise de vue peut être incorrect, l’opérateur peut tourner accidentellement dans la mauvaise direction ou effectuer un mouvement trop rapidement. En conséquence, une partie importante du matériel enregistré est rejetée. Un exemple simple : pour obtenir une heure de vidéo vraiment utilisable, un opérateur doit souvent enregistrer environ deux heures de footage brut.
Les capteurs supplémentaires aident à compenser certains de ces problèmes. Même si la caméra bouge légèrement, les données des capteurs peuvent toujours permettre de reconstruire le mouvement de la main ou la position du corps dans l’espace. En conséquence, au lieu de deux heures d’enregistrement, il peut falloir environ une heure et vingt minutes pour obtenir la même quantité de données utilisables. Cela augmente considérablement l’efficacité de la collecte de données et réduit le coût de création de ces données.
C’est donc sans surprise que de nombreuses équipes remarquent également un intérêt croissant pour l’annotation de données multimodales. C’est devenu l’une des tendances les plus visibles directement liées au développement de la robotique et de l’IA incarnée.
Le point suivant concerne l’étiquetage de ces jeux de données. Nous avons rencontré des questions similaires chez Keymakr lors du travail avec des jeux de données de clients pour des cas de robotique : à quoi devrait ressembler une telle annotation dans la pratique ? Devrait-elle être squelettique ? Bidimensionnelle ou tridimensionnelle ? Devrait-elle incorporer des éléments d’apprentissage par renforcement dans le pipeline ? Il y a des dizaines de telles questions. Les ingénieurs eux-mêmes admettent qu’aucun ne peut encore dire avec certitude quelle configuration de données particulière conduira finalement à une véritable avancée technologique.
Ces préoccupations sont compréhensibles. La construction de jeux de données complexes est un processus coûteux. Chaque erreur dans la structure des données peut coûter des milliers ou même des millions de dollars. Il est possible de collecter les « mauvaises » données ou de les enregistrer dans des conditions difficiles à reproduire dans le monde réel, sapant finalement l’ensemble du projet. C’est précisément pourquoi aujourd’hui, de plus en plus d’attention est portée à la fois aux modèles eux-mêmes et à la qualité et à l’architecture des données sur lesquelles ces modèles sont formés.
Quels robots le marché a-t-il besoin ?
Les robots industriels classiques, qui ont fonctionné sur les chaînes de montage automobile pendant des décennies, nécessitent en réalité très peu de vision par ordinateur ou de modèles d’IA complexes. Leur tâche est extrêmement spécifique : effectuer des mouvements strictement répétitifs – gauche, droite, haut, bas – avec une grande précision et une grande constance. Dans ce domaine, ils ont depuis longtemps dépassé les humains.
Une catégorie complètement différente est celle des robots humanoïdes. Ces systèmes nécessitent des « cerveaux » : la capacité de naviguer dans l’espace, de percevoir l’environnement qui les entoure, de comprendre le contexte d’une situation et de contrôler les manipulateurs non pas par des trajectoires préprogrammées mais en s’adaptant au monde réel.
Même avec le niveau élevé d’automatisation sur les chaînes de production modernes, de nombreuses tâches sont encore effectuées par des humains. Déplacer un objet, prendre une boîte, trier des pièces, fixer un composant ou organiser des matériaux – ce sont de petites actions qui nécessitent de la flexibilité et de la coordination. Ce domaine reste l’un des plus difficiles à automatiser, et c’est précisément ici que les systèmes humanoïdes peuvent trouver leur rôle.
De nombreuses équipes avec lesquelles j’ai parlé utilisent un modèle commercial similaire. Ils s’approchent d’une usine et proposent de résoudre un cas de production spécifique. Par exemple, un travailleur peut passer toute la journée à déplacer des boîtes entre les zones d’entrepôt. Les ingénieurs suggèrent une expérience relativement simple : équiper le travailleur d’une caméra et d’un ensemble de capteurs, enregistrer des milliers d’heures de ses actions et utiliser ces données pour former un modèle qui contrôlera un robot humanoïde. De cette façon, le robot apprend à effectuer exactement les tâches effectuées par le travailleur humain.
En essence, l’entreprise achète une plate-forme humanoïde, tandis que l’équipe de développement crée un modèle personnalisé qui reproduit le comportement d’un opérateur spécifique. Ce n’est pas une intelligence universelle capable de résoudre n’importe quelle tâche. Mais plutôt un ensemble de compétences formées pour un scénario ou un groupe de tâches de production particulier. Pour de nombreux ingénieurs aujourd’hui, cette approche semble beaucoup plus réaliste. Au lieu d’essayer de créer un robot universel immédiatement, les équipes se concentrent sur des scénarios d’automatisation étroits mais économiquement viables.
La dimension commerciale
Si l’avenir réside dans les modèles personnalisés, il est important de comprendre que, d’un point de vue économique, c’est un chemin de développement assez long.
Chaque industrie est essentiellement son propre monde. Chaque environnement de production a ses propres processus, flux de travail et exceptions. Un robot formé pour fonctionner dans une usine automobile ne peut pas simplement être transféré dans la fabrication d’aliments ou la logistique de stockage. Dans chaque cas, le système doit être réformé à partir de zéro.
Cela conduit à la prochaine question logique : qui seront les premiers clients d’une telle technologie ?
À ce stade, les principaux adoptants seront probablement les grandes entreprises – celles qui ont les budgets et pour lesquelles l’automatisation peut générer un impact économique significatif. Aujourd’hui, un robot humanoïde coûte environ 60 000 à 90 000 dollars pour le matériel seul. C’est seulement la configuration de base. En plus de cela, il y a des coûts de maintenance, des batteries, des stations de charge, des infrastructures et des logiciels.
En conséquence, les entreprises les plus capables d’expérimenter avec de tels systèmes sont les grandes organisations, les fabricants automobiles, les sociétés alimentaires et les grandes entreprises industrielles.
Bien sûr, les petits secteurs peuvent également voir quelques premiers adoptants. Certaines entreprises peuvent acheter un ou deux robots pour des tâches spécifiques. Cependant, dans la plupart des cas, ces entreprises ne sont simplement pas prêtes à investir des centaines de milliers d’euros dans la collecte et l’annotation de jeux de données personnalisés nécessaires pour former des systèmes pour des scénarios opérationnels très spécifiques. Pour eux, la main-d’œuvre humaine reste l’option la moins chère.
Le jeu de long terme de l’innovation en robotique
Nous arrivons finalement à une question économique fondamentale : qu’est-ce qui est plus efficace – un humain ou un robot ? Si l’on regarde l’économie d’aujourd’hui, la réponse est évidente : la main-d’œuvre humaine est moins chère, s’adapte plus rapidement à de nouvelles conditions et n’a pas besoin d’infrastructures complexes.
Alors pourquoi l’industrie continue-t-elle à investir dans la robotique aujourd’hui ? La réponse est largement stratégique.
De nombreuses entreprises comprennent qu’une sorte de course pour le leadership technologique est en cours. Elles développent déjà des solutions, malgré les coûts élevés, pour être en tête lorsque les économies de la robotique changeront.
À mesure que l’électronique évolue, que les coûts des composants diminuent et que l’efficacité du calcul améliore, la robotique deviendra inévitablement plus abordable. Et lorsque cela se produira, l’avantage appartiendra aux entreprises qui auront déjà construit des modèles, accumulé des données et établi les infrastructures technologiques nécessaires.
Imaginez, par exemple, que de nouvelles réglementations émergent permettant l’utilisation à grande échelle de robots humanoïdes dans la fabrication. Ou que les gouvernements commencent à subventionner la robotisation des industries. Dans un tel scénario, le marché pourrait croître dramatiquement en quelques années seulement. Et ceux qui se seront préparés à l’avance, ceux qui auront des modèles, de la recherche, des données et une pile technologique prête, seront ceux qui bénéficieront le plus.
C’est pourquoi le développement se poursuit même maintenant, malgré le fait que les économies d’affaires puissent ne pas encore paraître idéales. Pour de nombreuses entreprises, c’est un investissement dans l’avenir – dans le moment où les technologies deviendront plus accessibles et où la demande augmentera brusquement.
Et dans cette course, comme dans de nombreuses révolutions technologiques, un facteur s’avère souvent décisif : qui a commencé plus tôt. Dans ce sens, la robotique d’aujourd’hui ressemble fortement aux premiers stades de l’intelligence artificielle. À l’époque, il y avait également plus de questions que de réponses. Pourtant, ce sont les équipes qui ont commencé à travailler avec les données et les infrastructures plus tôt que les autres qui ont finalement défini la direction de l’ensemble de l’industrie.












