Suivez nous sur

Pourquoi la qualité des données détermine le succès ou l'échec de l'IA en entreprise

Des leaders d'opinion

Pourquoi la qualité des données détermine le succès ou l'échec de l'IA en entreprise

mm

Depuis le lancement de ChatGPT par OpenAI fin 2022, toutes les entreprises se sont efforcées d'accélérer le développement de l'IA. Les grands fabricants de matériel informatique comme Nvidia vendent plus de GPU que jamais, tandis que les grands concepteurs de modèles comme OpenAI et Anthropic continuent de développer des modèles toujours plus imposants.

Pourtant, mĂŞme avec les modèles les plus avancĂ©s et les budgets les plus importants, de nombreux projets d'IA restent dĂ©cevants. Ce phĂ©nomène est observable dans divers secteurs, de la santĂ© aux transports en passant par la finance. La raison est simple : la qualitĂ© de l'IA dĂ©pend de la qualitĂ© des donnĂ©es sur lesquelles elle est entraĂ®nĂ©e et de celles qu'elle reçoit en temps rĂ©el. Lorsque ces donnĂ©es sont mal Ă©tiquetĂ©es, obsolètes ou incomplètes, aucun modèle ne peut fournir de rĂ©sultats cohĂ©rents ou fiables.

Et c'est là le problème majeur auquel de nombreuses entreprises sont confrontées aujourd'hui. Elles investissent massivement dans les outils d'IA, tandis que leurs systèmes de données restent dispersés et peu fiables. Il en résulte une illusion de progrès. Si les modèles produisent des résultats impressionnants, les conclusions sont souvent basées sur des fondements fragiles. Le véritable obstacle à la réussite de l'IA n'est pas la performance des modèles, mais la qualité des données.

Que signifient réellement les bonnes données ?

Des données de haute qualité ne se limitent pas à l'exactitude. Il s'agit d'informations à jour, complètes et pertinentes au problème rencontré. Prenons l'exemple d'un client qui tente d'annuler une commande sur un site de commerce électronique. Le système doit vérifier les détails de la commande, le statut de l'expédition et l'historique de paiement. Si ces données sont stockées dans des systèmes distincts qui ne communiquent pas entre eux, l'assistant IA ne pourra pas fournir de réponse utile.

Des données de qualité permettent d'établir instantanément des liens entre les différents éléments. Elles offrent à l'IA une vision d'ensemble, et non une vision fragmentaire. À l'inverse, des données de mauvaise qualité contraignent le modèle à faire des suppositions. Or, lorsque l'IA se met à deviner, elle commet des erreurs coûteuses qui nuisent à la confiance. Des exemples récents illustrent la dangerosité de telles hypothèses.

Le chatbot d'affaires de la ville de New York Il a donné des conseils illégaux car il s'appuyait sur des informations juridiques obsolètes ou incomplètes. Le robot de service client d'Air Canada Des demandes de remboursement abusives ont été formulées faute de contexte relatif à la politique de l'entreprise. Même les grands systèmes de recrutement ont filtré à tort des candidats en raison de données biaisées ou mal étiquetées, comme on l'a constaté dans… Premier accord conclu par l'EEOC dans le cadre d'une affaire liée à l'IACes échecs ne sont pas seulement techniques. Ils sont aussi d'ordre réputationnel et financier, et ils proviennent de systèmes d'IA entraînés sur des données non fiables.

Des études sectorielles confirment l'ampleur du problème. Gartner indique que 80 % des projets d'IA échouent à grande échelle en raison de la mauvaise qualité et de la mauvaise gouvernance des données. De même, une revue de gestion du MIT Sloan enquête L'étude a révélé que ce sont les problèmes de données, et non les algorithmes, qui constituent la principale cause d'échec des projets d'IA en entreprise.

La culture est aussi importante que le code.

AmĂ©liorer la qualitĂ© des donnĂ©es ne se fait pas avec un simple outil ou une commande. Cela exige un changement de culture. C'est pourquoi les dirigeants doivent considĂ©rer les donnĂ©es comme un système vivant qui nĂ©cessite attention et responsabilitĂ©. Il ne suffit pas de dĂ©clarer vouloir « amĂ©liorer les donnĂ©es Â». Chaque service de l'organisation doit comprendre comment l'information circule, qui en est responsable et ce qui se passe lorsqu'elle est modifiĂ©e.

Nous avons constaté les conséquences de ce phénomène dans les systèmes réels. De nombreuses applications d'IA reposent sur des mises à jour nocturnes des données. Si votre base de données n'est actualisée qu'une fois par jour, les connaissances de votre modèle seront toujours en retard sur la réalité. Dans des environnements en constante évolution, ce délai peut entraîner des analyses obsolètes et de mauvaises décisions. Les entreprises doivent repenser l'intégralité de leur flux de données, de la collecte des informations à leur transmission au modèle.

Bien mener ces opérations permet de réaliser d'importantes économies de temps et d'argent. Lorsque les pipelines de données sont conçus avec clarté et pertinence, les systèmes d'IA peuvent apprendre et agir en fonction des informations les plus récentes et pertinentes. Dans le cas contraire, les équipes consacrent plus de temps au nettoyage des données qu'à leur utilisation.

Experts en gestion des donnĂ©es On souligne souvent que la clĂ© d'une bonne qualitĂ© des donnĂ©es rĂ©side dans une boucle de rĂ©troaction entre les personnes, les processus et les plateformes. Sans cette boucle, l'information devient obsolète et les modèles se dĂ©connectent des rĂ©alitĂ©s du terrain â€” un problème parfois appelĂ© dĂ©rive des donnĂ©es.

Concilier rapidité et intégrité

Il existe souvent une tension entre rapidité et précision. De nombreuses organisations souhaitent des résultats immédiats de leurs investissements en IA, mais la précipitation peut engendrer des problèmes plus importants par la suite. L'objectif devrait être une agilité des données sans compromettre leur intégrité. Autrement dit, concevoir des systèmes capables d'évoluer rapidement sans perdre en précision.

À ce titre, chaque entreprise devrait définir des voies claires pour la circulation des données de leur source vers le modèle en temps réel. Il est également important de définir quelles informations sont autorisées et lesquelles doivent être exclues. Les données sensibles ou privées ne doivent jamais atteindre le modèle, même si l'utilisateur y a techniquement accès. Le respect de cette frontière renforce la confiance et empêche les systèmes d'IA de divulguer ou d'utiliser abusivement les informations.

À mesure que l'IA gagne en autonomie, la supervision humaine demeure essentielle. Le modèle ne doit pas contrôler entièrement les activités de l'entreprise et ne doit en aucun cas prendre de décisions. Il doit se contenter de formuler des demandes. Plus important encore, ses actions doivent être systématiquement examinées et approuvées par des humains afin de garantir leur conformité avec la politique et la réglementation de l'entreprise.

Construire pour la qualité à partir de la base

Maintenir la qualité des données à grande échelle ne se résume pas à corriger les erreurs. Cela commence par l'architecture. Il faut identifier l'emplacement des données les plus fiables, puis concevoir un système qui les centralise dans un emplacement sûr. À partir de là, il est possible de suivre les données utilisées par le modèle et leur provenance.

Cette approche évite toute confusion et garantit la transparence du système. Elle permet également aux équipes de résoudre plus rapidement les problèmes en cas d'incident. En connaissant précisément les données ayant alimenté le modèle, il est possible de vérifier et de corriger les problèmes avant qu'ils ne se propagent.

L'avenir de l'IA en entreprise appartiendra aux sociĂ©tĂ©s qui intègrent la qualitĂ© dès la conception de leur infrastructure. Nous prĂ©voyons l'Ă©mergence de systèmes d'IA prĂŞts Ă  l'emploi, capables de gĂ©rer Ă  la fois le raisonnement et l'intĂ©gration des donnĂ©es au sein d'une solution unique. Ces « appliances d'IA Â» pourraient simplifier le dĂ©ploiement de systèmes intelligents par les organisations, tout en leur permettant de conserver la maĂ®trise de leurs donnĂ©es.

Les analystes prévoient que les organisations capables d'unifier et de gouverner efficacement leurs données bénéficieront d'une adoption plus rapide et d'un retour sur investissement plus élevé pour leurs projets d'IA. rapport sur l'état de préparation des données Il explique que cette capacité distingue les entreprises qui innovent en permanence de celles qui stagnent après les premiers projets pilotes. La différence tient souvent à la question de savoir si leurs systèmes d'IA reposent sur des informations cohérentes et bien structurées.

En résumé

La qualité des données peut sembler moins spectaculaire que les avancées majeures en matière de modélisation, mais c'est pourtant elle qui détermine le succès ou l'échec de l'IA. Sans données propres, à jour et cohérentes, même les systèmes les plus performants seront mis à rude épreuve. Grâce à elles, même les projets d'IA les plus modestes peuvent créer une valeur durable.

Tout dirigeant investissant dans l'IA devrait se poser une question simple : avons-nous confiance dans les donnĂ©es qui sous-tendent nos dĂ©cisions ? D'après notre expĂ©rience, les entreprises qui peuvent rĂ©pondre « oui Â» avec assurance sont dĂ©jĂ  en tĂŞte de la course Ă  l'IA.

Oren Eini est le fondateur et PDG de RavenDBRavenDB est une base de données documentaire NoSQL multi-modèles, plébiscitée par les développeurs et les entreprises du monde entier. Oren, qui a joué un rôle déterminant dans la croissance et le développement de RavenDB, est également un blogueur passionné et intervient régulièrement lors d'événements professionnels internationaux.