Leaders d’opinion

Pourquoi la qualitĂ© des donnĂ©es dĂ©cide du succĂšs ou de l’Ă©chec de l’IA d’entreprise

mm

Depuis la sortie de ChatGPT par OpenAI à la fin de 2022, chaque entreprise se précipite pour accélérer avec l’IA. Les grands acteurs du matériel comme Nvidia vendent plus de GPU que jamais, tandis que les grands constructeurs de modèles comme OpenAI et Anthropic continuent à construire des modèles de plus en plus grands.

Cependant, même avec les modèles les plus avancés et les budgets les plus importants, de nombreux projets d’IA échouent encore. Nous avons vu cela se produire dans des secteurs allant des soins de santé au transport, en passant par la finance et bien d’autres. La raison n’est pas loin : l’IA n’est que aussi bonne que les données sur lesquelles elle est formée et les données qu’elle reçoit en temps réel. Lorsque ces données sont mal étiquetées, obsolètes ou incomplètes, aucun modèle ne peut produire des résultats cohérents ou fiables.

Et c’est le grand problème que de nombreuses entreprises rencontrent aujourd’hui. Elles investissent lourdement dans les outils d’IA, tandis que leurs systèmes de données restent éparpillés et peu fiables. Le résultat est une illusion de progrès. Alors que les modèles produisent des réponses impressionnantes, les insights sont souvent basés sur des fondements faibles. La véritable barrière à la réussite de l’IA n’est pas la performance du modèle. C’est la qualité des données.

Ce que de bonnes données signifient vraiment

Les données de haute qualité ne sont pas seulement une question de précision. Cela signifie des informations qui sont actuelles, complètes et pertinentes par rapport au problème en question. Imaginez un client qui tente d’annuler une commande sur un site de commerce électronique. Le système doit vérifier les détails de la commande, le statut de l’expédition et l’enregistrement du paiement. Si l’un de ces points de données vit dans des systèmes différents qui ne communiquent pas entre eux, l’assistant d’IA échouera à fournir une réponse utile.

De bonnes données relient ces points instantanément. Cela permet à l’IA de voir une image complète plutôt que des fragments. Les mauvaises données, en revanche, obligent le modèle à deviner. Et lorsque l’IA commence à deviner, elle fait des erreurs qui coûtent de l’argent et nuisent à la confiance. Des exemples récents montrent à quel point de telles hypothèses peuvent être dangereuses.

Le chatbot d’entreprise de la ville de New York a donné des conseils illégaux car il puisait dans des informations juridiques obsolètes ou incomplètes. Le bot de service client d’Air Canada a fait de fausses réclamations de remboursement car il manquait de contexte provenant de la politique de l’entreprise. Même les grands systèmes de recrutement ont incorrectement filtré les candidats en raison de données biaisées ou mal étiquetées, comme on le voit dans le premier règlement d’IA de l’EEOC. Ces échecs ne sont pas seulement techniques. Ils sont réputationnels et financiers, et ils découlent de systèmes d’IA qui ont été formés sur des données peu fiables.

Les études de l’industrie confirment l’ampleur de ce problème. Gartner rapporte que 80 pour cent des projets d’IA échouent à évoluer en raison de la mauvaise qualité des données et de la gouvernance. De même, une enquête de MIT Sloan Management Review a constaté que les problèmes de données, et non les algorithmes, sont la principale raison pour laquelle les projets d’IA d’entreprise échouent.

La culture compte autant que le code

Améliorer la qualité des données n’est pas quelque chose que vous pouvez résoudre avec un seul outil ou une commande. Cela nécessite un changement culturel. C’est pourquoi les dirigeants d’entreprise doivent traiter les données comme un système vivant qui nécessite des soins et une responsabilité. Ce n’est pas seulement une question de déclarer que vous voulez « améliorer les données » — cela ne suffit pas. Chaque partie de l’organisation doit comprendre comment l’information se déplace, qui la possède et ce qui se passe lorsqu’elle change.

Nous avons vu comment cela se déroule dans les systèmes du monde réel. De nombreuses applications d’IA reposent sur des mises à jour de données nocturnes. Si votre base de données se met à jour une fois par jour, les connaissances de votre modèle seront toujours en retard par rapport à la réalité. Dans des environnements en constante évolution, ce délai peut signifier des insights obsolètes et de mauvaises décisions. Les entreprises doivent repenser tout leur flux de données, de la collecte à la livraison au modèle.

Le faire bien peut économiser un temps et un coût considérables. Lorsque les pipelines de données sont conçus avec clarté et finalité, les systèmes d’IA peuvent apprendre et agir sur les informations les plus récentes et les plus pertinentes. Lorsqu’ils ne le sont pas, les équipes passent plus de temps à nettoyer les données qu’à les utiliser.

Les experts en gestion des données soulignent souvent que la clé d’une forte qualité des données est une boucle de rétroaction entre les personnes, les processus et les plateformes. Sans cette boucle, l’information devient obsolète et les modèles perdent contact avec les conditions du monde réel — un problème parfois appelé dérive des données.

Équilibrer la vitesse et l’intégrité

Il y a souvent une tension entre aller vite et rester précis. De nombreuses organisations veulent des résultats immédiats de leurs investissements dans l’IA, mais se précipiter peut conduire à de plus grands problèmes plus tard. L’objectif devrait être l’agilité des données avec intégrité. En d’autres termes, construire des systèmes qui peuvent bouger rapidement sans perdre de précision.

À ce sujet, chaque entreprise devrait définir des voies claires pour que les données circulent de leur source au modèle en temps réel. Cela aide également à définir quel type d’informations est autorisé et ce qui doit rester en dehors. Les données sensibles ou privées ne devraient jamais atteindre le modèle, même si l’utilisateur a techniquement accès à elles. Protéger cette limite de confiance et empêche les systèmes d’IA de fuir ou de mal utiliser les informations.

Alors que l’IA devient plus autonome, la supervision humaine restera cruciale. Le modèle ne devrait pas avoir le contrôle total sur les actions commerciales. Il ne devrait certainement pas non plus prendre de décisions. Au lieu de cela, il devrait faire des demandes. Plus important encore, les humains doivent toujours examiner et approuver ses actions pour s’assurer qu’elles sont conformes à la politique de l’entreprise et à la réglementation.

Construire la qualité à partir du sol

Maintenir la qualité des données à grande échelle n’est pas seulement une question de nettoyage des erreurs. Cela commence par l’architecture. Vous devez identifier où vos données les plus fiables vivent, puis concevoir un système qui les rassemble en un emplacement de confiance. À partir de là, vous pouvez suivre quelles données le modèle utilise et d’où elles proviennent.

Cette approche empêche la confusion et maintient le système transparent. Cela aide également les équipes à résoudre les problèmes plus rapidement lorsqu’il se passe quelque chose de mal. Lorsque vous savez exactement quelles données ont alimenté la réponse du modèle, vous pouvez vérifier et corriger les problèmes avant qu’ils ne se propagent.

Le futur de l’IA d’entreprise appartiendra aux entreprises qui intègrent la qualité dans leur infrastructure par défaut. Nous nous attendons à voir plus de systèmes d’IA prêts à l’emploi qui gèrent à la fois la raison et l’intégration des données dans un seul package. Ces « appareils d’IA » pourraient faciliter le déploiement de systèmes intelligents par les organisations sans perdre le contrôle de leurs données.

Les analystes prédisent que les organisations capables d’unifier et de gérer efficacement leurs données verront une adoption plus rapide et un ROI plus élevé de leurs projets d’IA. Un rapport sur la préparation des données explique que cette capacité sépare les entreprises qui innovent en continu de celles qui s’arrêtent après les premiers essais. La différence vient souvent de savoir si leurs systèmes d’IA sont construits sur des informations cohérentes et bien structurées.

Le fond de l’affaire

La qualité des données peut ne pas sembler excitante par rapport aux avancées de la conception de modèle, mais c’est la force silencieuse qui décide si l’IA réussit ou échoue. Sans des données propres, actuelles et cohérentes, les systèmes les plus intelligents trébucheront. Avec elles, même les projets d’IA modestes peuvent créer une valeur durable.

Chaque dirigeant qui investit dans l’IA devrait se poser une simple question : Faisons-nous confiance aux données qui alimentent nos décisions ? D’après ce que nous avons vu, les entreprises qui peuvent répondre avec confiance « oui » sont celles qui mènent déjà la course à l’IA.

Oren Eini est le fondateur et le PDG de RavenDB, une base de donnĂ©es NoSQL multi-modĂšle document trustĂ©e par les dĂ©veloppeurs et les entreprises du monde entier. En plus d'ĂȘtre la force motrice derriĂšre la croissance et l'expansion de la base de donnĂ©es RavenDB, Oren est un blogueur acharnĂ© et intervient rĂ©guliĂšrement lors d'Ă©vĂ©nements industriels dans le monde.