Leaders d’opinion
Le Vrai Coût de la Formation des Robots

Dans la première partie, nous avons discuté de la façon dont les robots évoluent des mécanismes de base à la compréhension de leur environnement. Au stade du “dernier mile” – lorsque les robots subissent une formation postérieure à des tâches spécifiques et personnalisées – un obstacle inattendu émerge. Il est lié aux données : leur collecte, leur organisation et leur mise à l’échelle dans des conditions réelles.
C’est précisément à ce stade que l’écart entre concept et mise en œuvre devient le plus apparent. Quels sont les principaux goulets d’étranglement et comment peuvent-ils être surmontés avec un minimum de frottements ?
Pourquoi des milliers d’heures de données se transforment en années de travail
Imaginez que nous ayons déjà un robot formé qui a subi une préformation. Il peut naviguer dans son environnement, se déplacer, éviter les obstacles et interagir avec les objets. C’est comme un “enfant de dix ans” qui est généralement capable d’agir de manière indépendante. L’étape suivante consiste à l’enseigner à effectuer des actions spécifiques dans des conditions spécifiques, par exemple, installer des panneaux de verre et des bandes de scellement sur une ligne de production automobile.
À première vue, la tâche semble plus simple. Elle implique de maîtriser un seul scénario et le volume de données requis est nettement inférieur à celui de la préformation. Alors que la formation de base peut nécessiter des centaines de milliers d’heures, la formation postérieure peut nécessiter seulement des milliers d’heures. Mais ces chiffres sont trompeurs.
Lorsqu’ils sont traduits en temps réel, le processus révèle sa véritable complexité. Selon un horaire de travail standard, une personne travaille environ 160 heures par mois. Cependant, cela ne signifie pas que tout ce temps peut être utilisé pour l’enregistrement.
Dans la pratique, des interruptions constantes se produisent : les batteries se déchargent, les caméras se déplacent, les capteurs défaillent. Plus le dispositif est complexe, plus la probabilité de problèmes est élevée. Même une simple défaillance, telle que les capteurs d’un gant qui cessent de fonctionner, peut arrêter le processus et entraîner une perte de temps.
En conséquence, la vitesse réelle de collecte de données est 2 à 3 fois inférieure. Une heure d’enregistrement de haute qualité peut nécessiter jusqu’à trois heures de travail réel. Cela change radicalement le calcul : 5 000 heures de données se traduisent par environ 15 000 heures de travail.
Couches de complexité
Lors de la préformation, il peut suffire de donner à une personne une caméra et de lui demander d’enregistrer des activités quotidiennes. À ce stade, cependant, l’accès à un environnement spécifique est requis, tel qu’une usine, un chantier de construction ou une installation de production spécialisée.
Cela introduit immédiatement des contraintes pratiques. Par exemple, sur un chantier de construction, les travailleurs sont tenus de porter des casques de sécurité, ce qui nécessite le développement d’équipements spécialisés : des casques avec des caméras intégrées résistantes à la poussière, à l’humidité et aux chocs.
Ensuite, vient l’accès au site lui-même. Des accords doivent être conclus avec les propriétaires du site, des autorisations obtenues et des conditions négociées. Cela implique presque toujours des coûts supplémentaires : les entreprises attendent une compensation et les travailleurs attendent d’être payés pour leur participation.
Les assurances et la conformité en matière de sécurité deviennent également des préoccupations cruciales. Si l’équipement ne répond pas aux normes requises, les assurances peuvent être annulées, ce qui oblige à restructurer l’ensemble du processus.
Même au niveau des opérations quotidiennes, les défis persistent. Les caméras doivent être allumées, surveillées et entretenues. Les travailleurs opèrent avec des gants et dans des conditions difficiles. L’équipement se salit, s’use et se casse. Une caméra peut s’éteindre après quelques minutes et la personne peut ne même pas s’en apercevoir.
Cela crée le besoin pour les participants de se former eux-mêmes – ils doivent comprendre comment utiliser l’équipement. De plus, une supervision continue est requise – quelqu’un doit s’assurer que l’enregistrement est en cours et que les appareils fonctionnent correctement.
De la vidéo brute aux données de formation
Après l’enregistrement, la prochaine étape commence : collecte de données, téléchargement, structuration, validation de la qualité et étiquetage.
Toute donnée brute se compose de vidéo et de signaux de capteurs. Pour la transformer en matériau de formation, il faut la structurer : les objets doivent être identifiés, les actions capturées et les états, les mouvements et les interactions avec l’environnement décrits. C’est là que l’étiquetage intervient. Une question logique se pose – quel est le standard d’or pour un tel flux de travail d’étiquetage ?
Dans certains cas, des boîtes de délimitation simples suffisent pour identifier les objets dans un cadre. Dans d’autres, une annotation temporelle est requise pour décrire des séquences d’actions dans le temps. Dans certains scénarios, des points clés et des modèles squelettiques sont utilisés pour capturer le mouvement du corps. Dans des cas plus complexes, des maillages 3D ou des trajectoires de mouvement de la main sont nécessaires pour représenter avec précision les mécanismes d’interaction. Des capteurs supplémentaires, tels que des accéléromètres, sont souvent intégrés pour capturer la dynamique du mouvement et la force appliquée.
Des projets comme ceux-ci nécessitent également souvent de mettre à l’échelle l’équipe. L’étiquetage est une tâche importante et complexe en soi, qui exige du temps, de l’expertise et des ressources humaines considérables. C’est là que les fournisseurs de solutions de données avec des équipes d’étiquetage internes entrent en jeu. Comme Keymakr, qui s’est avéré particulièrement efficace grâce à sa capacité à mettre à l’échelle les équipes pour correspondre à tout volume de données, d’un seul spécialiste à des centaines d’étiqueteurs.
Il n’y a pas d’approche correcte pour la formation
L’industrie est encore dans une phase d’exploration, car il n’y a pas de consensus sur quelle combinaison de données donne les meilleurs résultats. De nombreuses approches sont validées de manière empirique car elles fonctionnent dans des expériences spécifiques. En conséquence, différentes équipes continuent de s’appuyer sur différentes technologies, façonnées par leur propre expérience, tâches et contraintes.
À la fois aux niveaux académique et appliqué, cela conduit à une fragmentation : les laboratoires et les entreprises se déplacent dans différentes directions. La situation est rappelante des premiers jours de la conduite autonome, lorsque Tesla a misé sur une approche basée uniquement sur la vision, sans LiDAR, tandis que la plupart des autres acteurs ont choisi le LiDAR comme capteur principal.
Aujourd’hui, les systèmes basés sur le LiDAR tendent à démontrer des performances plus stables, mais l’approche de Tesla continue d’évoluer. La différence est que dans la conduite autonome, le marché a largement mûri : des architectures stables ont émergé, les limites sont bien comprises et une expertise considérable a été accumulée.
En revanche, pour l’IA physique et la formation de modèles similaires, ce niveau de maturité n’a pas encore été atteint. Le marché est encore en formation, les normes font défaut et une grande partie du progrès est impulsée par l’expérimentation. De nouvelles méthodes pour la formation de modèles, l’amélioration de l’efficacité et l’adaptation à des scénarios réels continuent d’émerger, suggérant que les avancées les plus importantes dans ce domaine sont encore à venir.
L’humain en tant que système de renforcement
L’étiquetage n’existe pas en isolation, ni pour le modèle seul. Il sert d’outil pour l’ingénieur qui construit ce modèle. À travers celui-ci, il formalise la réalité, identifie les paramètres clés et définit les règles de comportement du système.
La tâche de l’ingénieur est d’enseigner au système à effectuer des actions correctement dans des conditions réelles. Par exemple, un scénario de base peut consister en quatre actions : prendre un verre, allumer le robinet, le remplir et éteindre le robinet. Mais dans la réalité, une déviation se produit – le verre déborde.
À ce moment-là, on s’attend à ce que le modèle achève le scénario et effectue des actions supplémentaires : arrêter l’écoulement d’eau, ajuster le niveau d’eau et prévenir les débordements. Il s’agit d’une logique de comportement basée sur la compréhension contextuelle.
L’ingénieur suit un cycle : annoter les données, former le modèle, le tester. Si le système fonctionne, l’hypothèse est confirmée. Si ce n’est pas le cas, l’analyse commence.
À un certain stade, il peut devenir clair que le modèle manque d’un paramètre important, tel que le niveau de remplissage du verre. Auparavant, les données peuvent avoir inclus des annotations pour les objets (verre, robinet, poignée) et les actions (ouverture, remplissage, fermeture), mais pas d’annotations pour l’état, tel que le degré de remplissage.
Une nouvelle couche est alors ajoutée au processus : annoter le niveau de remplissage, suivie d’une formalisation, par exemple, en définissant tout ce qui est au-dessus de 85 % comme un état critique.
Cela conduit à la prochaine itération de la formation. Vous pouvez avoir des centaines de telles itérations.
Personne n’assume que le système fonctionnera correctement immédiatement. Au contraire, le processus est construit autour d’approximations successives : tout d’abord, une version de base est créée ; ensuite, elle est testée dans des conditions réelles ou quasi-réelles ; les lacunes sont identifiées ; et le système est affiné. C’est quelque chose que je discute souvent avec les clients à Introspector, avec qui nous parcourons l’ensemble du parcours de l’IA physique ensemble.
À un certain stade, le résultat souhaité est atteint. Mais sa valeur réside non seulement dans le fait que le système commence à fonctionner, mais dans l’expérience accumulée qui permet de reproduire ce résultat de manière plus prévisible.
L’économie que tout le monde oublie
Au cours de la dernière année ou environ, j’ai remarqué que la plus grande erreur que les entreprises commettent lorsqu’elles travaillent avec des données égocentriques a peu à voir avec la technologie.
Le problème principal est en réalité la sous-estimation de l’économie du projet.
Au stade de l’idée, la technologie est au premier plan – quels modèles utiliser, comment les former, quelles approches appliquer. Vous étudiez, vous recherchez, vous discutez d’architectures et vous testez des hypothèses. C’est naturel : la technologie semble être la partie la plus tangible et la plus évidente du problème.
Mais bien moins souvent à ce stade, les équipes se posent une question directe et pratique : combien cela coûtera-t-il ?
Lorsqu’un projet passe de la théorie à la mise en œuvre, il devient clair que derrière chaque modèle se cachent des dizaines de milliers d’heures de données. La collecte de ces données nécessite du temps, l’accès à des environnements réels et la participation de spécialistes. L’étiquetage ajoute une autre couche de complexité et de coût. En conséquence, les chiffres finaux sont souvent d’un ordre de grandeur supérieur à ce qui était initialement prévu.
Cela ne signifie pas que de tels projets ne devraient pas être poursuivis. Au contraire, ce sont eux qui font avancer l’industrie.
Mais ce qui compte, c’est de comprendre l’ampleur du défi dès le début. Reconnaître que dans la formation de modèles, derrière chaque algorithme incroyable se cache un travail de données complexe et exigeant en ressources.
Même les idées fortes échouent à atteindre une mise en œuvre complète lorsque les coûts des données commencent à s’accumuler bien au-delà de sept chiffres.
Et peut-être que le changement le plus important qui se produit actuellement dans la robotique est lié à cette réalisation. L’avenir de ces systèmes sera défini par leur “intelligence” et par la façon dont l’ensemble du pipeline de données est construit – de la collecte de données à l’interprétation finale.












