Connect with us

95% des pilotes d’IA échouent, et les mauvaises données en sont la cause

Leaders d’opinion

95% des pilotes d’IA échouent, et les mauvaises données en sont la cause

mm

La recherche du MIT apporte une réalité dérangeante pour les dirigeants d’entreprise : 95 % des projets d’IA ne dépassent jamais le stade du pilote. Malgré le buzz dans les salles de réunion au sujet du potentiel transformatif de l’IA, la plupart des initiatives ne parviennent pas à générer une valeur commerciale significative.

La sagesse conventionnelle blâme les modèles faibles, les ressources de calcul limitées ou le talent technique rare. Mais l’expérience de travail avec des centaines d’entreprises raconte une histoire différente. Le véritable goulet d’étranglement n’est pas les algorithmes. C’est les données. Les données mauvaises ou incohérentes minent discrètement même les efforts d’IA les plus avancés, transformant les paris d’innovation en coûts irrécupérables.

Le coût caché des mauvaises données

Dans les entreprises, les mauvaises données déraillent souvent les projets d’IA avant qu’ils ne puissent être déployés à grande échelle. Considérez un scénario familier : une entreprise du Fortune 500 passe des mois à construire un modèle de prédiction de churn. Le pilote semble solide — précis et plein de promesses. Mais le moment où il passe à la production, les fissures apparaissent.

Les pipelines se cassent au pire moment. Les travaux critiques s’exécutent avec des heures de retard, manquant les fenêtres d’intervention. Les tables perdent soudainement des lignes après des changements en amont non annoncés. Les informations d’identification de l’API expirent sans avertissement, coupant les flux essentiels. Les données de pilote propres se transforment en un flux de données obsolètes ou incohérentes.

L’effet d’entraînement est dévastateur. Il y a des prédictions peu fiables, et les parties prenantes perdent confiance. Le projet est mis sur la glace, non pas parce que les algorithmes ont échoué, mais parce que les fondations se sont effondrées. Des mois de développement, des millions d’investissements et des heures d’ingénierie innombrables disparaissent.

Ce n’est pas un cas isolé. Selon le rapport State of Data Observability 2024 de Pantomath, 94 % des organisations déclarent que les problèmes de pipeline érodent la confiance dans leurs données, et 90 % mettent des heures ou même des semaines pour les résoudre. Si votre stratégie d’IA repose sur des données peu fiables, l’échec attend à l’angle de la rue.

Pourquoi l’IA a besoin de fondations solides

Le succès de l’IA dépend de la qualité des données. Comme le dit le proverbe, « Garbage in, garbage out ». Même les meilleurs modèles s’effondrent si les données qui les alimentent sont défectueuses, tout comme construire un gratte-ciel sur du sable mouvant.

Pensez à une voiture de course : une ingénierie de classe mondiale et un conducteur qualifié ne signifient rien si l’essence est contaminée. De la même manière, des modèles d’apprentissage automatique élégants échouent lorsqu’ils sont alimentés par des données peu fiables.

Les systèmes d’IA ont besoin de données précises et en temps réel pour s’adapter et performer. Toute perturbation — travaux échoués, enregistrements manquants, changements de schéma — peut éroder la précision ou même casser le système entièrement. Peut-être qu’un moteur de recommandation dérape et que les clients churnent, ou qu’un système de détection de fraude manque des menaces.

Sans des fondations de données solides, l’IA se transforme rapidement en une énorme responsabilité. C’est pourquoi la fiabilité, la confiance et l’intégrité des données sont des prérequis à toute stratégie d’IA réussie.

L’état actuel des opérations de données

La plupart des entreprises s’appuient encore sur des processus manuels et réactifs pour exécuter les opérations de données — un modèle qui ne peut tout simplement pas être mis à l’échelle pour l’IA. Lorsque quelque chose se casse, les ingénieurs se précipitent pour retracer les problèmes à travers des architectures multi-plateformes et les patcher un par un.

Cette approche de lutte contre les incendies crée trois problèmes majeurs :

  • Détection retardée : les problèmes peuvent persister pendant des jours ou des semaines, laissant les modèles d’IA fonctionner avec des données compromises.
  • Réparations incomplètes : le dépannage manuel est incohérent, souvent manquant les causes profondes et laissant les systèmes vulnérables.
  • Capacité perdue : le talent d’ingénierie passe plus de temps à poursuivre les défaillances qu’à stimuler l’innovation.

La complexité ne fait que compounder le défi. Les écosystèmes de données modernes s’étendent sur des dizaines de plateformes et des dépendances emmêlées que peu de gens comprennent vraiment. Diagnostiquer les causes profondes signifie souvent rétro-ingénier les pipelines. Ce processus peut prendre des jours ou même des semaines.

Jetez plus de personnes sur le problème : consultants, contractuels, plus grandes équipes de données. C’est comme résoudre les embouteillages en embauchant plus de policiers de la circulation. Le véritable problème n’est pas le personnel, c’est l’absence d’un système de fiabilité des données.

Observabilité et automation en tant que catalyseurs

Le chemin à suivre est de passer des opérations de données manuelles et réactives à des opérations proactives et automatisées construites sur deux piliers : l’observabilité et l’automatisation.

L’observabilité offre une visibilité en temps réel sur l’ensemble de l’écosystème de données — en surveillant les performances des travaux, la fraîcheur, la qualité et les dépendances — de sorte que les problèmes soient détectés avant qu’ils n’affectent les applications d’IA. Au lieu d’attendre que les équipes en aval signalent des problèmes, les entreprises obtiennent une vue permanente de la santé et du flux de leurs données.

L’automatisation ajoute la vitesse et la mise à l’échelle nécessaires pour agir sur cette visibilité. Lorsqu’un travail critique échoue à 3 heures du matin, les systèmes automatisés peuvent arrêter les flux de travail en aval, alerter les bonnes équipes avec le contexte complet et même lancer des actions correctives.

Ensemble, ces capacités marquent un changement fondamental. La fiabilité des données n’est plus seulement une corvée de bureau pour les ingénieurs spécialisés. C’est une capacité stratégique qui sous-tend toutes les ambitions des entreprises en matière d’IA.

Combler le fossé entre le pilote et la production

L’échec de nombreuses initiatives d’IA réside dans le saut du pilote à la production. Les pilotes fonctionnent sur des jeux de données statiques et soigneusement validés que les data scientists peuvent nettoyer et valider avec soin. La production, en revanche, est sale. Elle nécessite la gestion de flux constants de données diverses provenant de toute l’entreprise.

Lorsque la théorie devient pratique, c’est là que les fissures commencent à apparaître. Les processus batch qui fonctionnent dans les pilotes ne peuvent pas suivre les demandes en temps réel. Les jeux de données prévalidés cèdent la place à des entrées brutes et incohérentes. Les environnements contrôlés doivent soudainement interagir avec des plateformes héritées, des API tierces et des systèmes d’entreprise en constante évolution.

C’est pourquoi les entreprises qui combleront ce fossé investiront dans les infrastructures de fiabilité des données. La fondation de la fiabilité des données soutient ces demandes de production réelles et complexes. La fiabilité des données aide votre système à se préparer à ce qui vient.

Recommandations pour les entreprises

Les organisations qui mettent à l’échelle l’IA avec succès partagent des stratégies communes :

  • Investir dans la fiabilité des données tôt. Faire de la qualité un prérequis, en mettant en place la surveillance, les tests et la validation avant de passer les pilotes à la production.
  • Mettre en œuvre des pratiques d’observabilité. Suivre non seulement les échecs de travail, mais également la fraîcheur, les changements de volume, les changements de schéma et les métriques de qualité qui affectent directement les performances de l’IA.
  • Automatiser les opérations routinières. Utiliser la détection et la résolution automatisées pour réduire les incendies et libérer les ingénieurs pour un travail stratégique.
  • Construire des mécanismes de responsabilité. Traiter la qualité des données comme une priorité commerciale avec une propriété claire et des boucles de rétroaction entre les producteurs et les consommateurs.
  • Concevoir pour la résilience. Concevoir des systèmes pour contenir les défaillances, en utilisant des points de validation pour empêcher les mauvaises données de se propager.

Le taux d’échec de l’IA de 95 % n’est pas inévitable. C’est évitable. Le problème n’est pas l’IA elle-même, mais le manque de solides fondations de données pour la soutenir. Le succès dans les opérations de données est le succès dans l’IA. Ils sont une seule et même chose.

Ceci est un appel à l’éveil. Les entreprises doivent aller au-delà des approches manuelles et réactives et adopter des systèmes proactifs et automatisés. Ne vous arrêtez pas jusqu’à ce que vous ayez une véritable fiabilité. Les outils et les pratiques pour résoudre un « problème de mauvaises données » existent déjà aujourd’hui.

Les organisations qui adoptent ce changement verront plus que des taux de réussite de l’IA plus élevés. Elles transforment la façon dont elles utilisent les données, ouvrant la voie à de nouvelles perspectives à travers l’entreprise.

Alors vous pouvez continuer à financer des pilotes condamnés par des données peu fiables. Ou vous pouvez construire des fondations solides qui font de l’IA un avantage durable. C’est à vous.

Shashank est le PDG de Pantomath et a joué un rôle instrumental dans la fondation de l'entreprise. Il est également associé chez Sierra Ventures, où il dirige les investissements en logiciels d'entreprise. Avant ses rôles chez Pantomath et Sierra Ventures, Shashank était le co-fondateur et PDG de VNDLY, qui a été fondé en 2017 en tant que système de gestion de fournisseurs (VMS) à Cincinnati, OH, et acquis par Workday en 2021 pour 510 M$.

Après l'acquisition, Shashank était le directeur général de Workday VNDLY. Shashank a commencé sa carrière dans la gestion des applications informatiques dans les banques, la vente au détail et le commerce électronique avant de bâtir un bilan réussi dans des entreprises du Fortune 25, telles que Citi et Kroger, Co., où il a dirigé la stratégie d'entreprise et la transformation numérique. Shashank a également été un investisseur providentiel et un partenaire de venture actif et a été impliqué dans plusieurs autres sociétés SaaS. Shashank détient un baccalauréat en sciences informatiques et un MBA en finance, ainsi qu'un diplôme de maîtrise en systèmes d'information de l'Université de Cincinnati.