Leaders d’opinion

Le coût élevé des données sales dans le développement de l’IA

Published November 1, 2024

Updated April 3, 2026

Eli Goodman, CEO & Co-Founder of Datos

Il n’est un secret pour personne qu’une ruée vers l’or moderne est en cours dans le développement de l’IA. Selon le Index des tendances de travail 2024 de Microsoft et Linkedin, plus de 40 % des dirigeants d’entreprise prévoient de réaménager complètement leurs processus commerciaux de base en utilisant l’intelligence artificielle (IA) au cours des prochaines années. Ce changement sismique n’est pas seulement une mise à niveau technologique ; c’est une transformation fondamentale de la façon dont les entreprises opèrent, prennent des décisions et interagissent avec les clients. Ce développement rapide alimente une demande de données et d’outils de gestion de données de première partie. Selon Forrester, un chiffre stupéfiant de 92 % des dirigeants technologiques prévoient d’augmenter leurs budgets de gestion de données et d’IA en 2024.

Dans le dernier Enquête mondiale de McKinsey sur l’IA, 65 % des répondants ont indiqué que leurs organisations utilisent régulièrement les technologies d’IA générative. Même si cette adoption signifie un bond en avant important, elle met également en évidence un défi critique : la qualité des données qui alimentent ces systèmes d’IA. Dans un secteur où l’IA efficace n’est que aussi bonne que les données sur lesquelles elle est formée, des données fiables et précises deviennent de plus en plus difficiles à trouver.

Le coût élevé des mauvaises données

Les mauvaises données ne sont pas un nouveau problème, mais leur impact est amplifié à l’ère de l’IA. En 2017, une étude du Massachusetts Institute of Technology (MIT) a estimé que les mauvaises données coûtent aux entreprises une somme stupéfiante de 15 % à 25 % de leurs revenus. En 2021, Gartner a estimé que les données de mauvaise qualité coûtent aux organisations un moyenne de 12,9 millions de dollars par an.

Les données sales – des données qui sont incomplètes, inexactes ou incohérentes – peuvent avoir un effet d’entraînement sur les systèmes d’IA. Lorsque les modèles d’IA sont formés sur des données de mauvaise qualité, les connaissances et les prévisions qui en résultent sont fondamentalement erronées. Cela ne porte pas seulement atteinte à l’efficacité des applications d’IA, mais pose également des risques importants pour les entreprises qui s’appuient sur ces technologies pour la prise de décision critique.

Cela crée un gros problème pour les équipes de science des données d’entreprise qui ont dû se concentrer de plus en plus sur le nettoyage et l’organisation des données. Dans un récent rapport d’état de l’ingénierie mené par DBT, 57 % des professionnels de la science des données ont cité la mauvaise qualité des données comme un problème prédominant dans leur travail.

Les répercussions sur les modèles d’IA

L’impact des mauvaises données sur le développement de l’IA se manifeste de trois manières majeures :

Précision et fiabilité réduites : les modèles d’IA prospèrent sur les modèles et les corrélations dérivées des données. Lorsque les données d’entrée sont altérées, les modèles produisent des sorties non fiables ; largement connues sous le nom de « hallucinations d’IA ». Cela peut conduire à des stratégies erronées, à des défaillances de produits et à une perte de confiance des clients.
Amplification des biais : les données sales contiennent souvent des biais qui, lorsqu’ils ne sont pas contrôlés, sont intégrés dans les algorithmes d’IA. Cela peut entraîner des pratiques discriminatoires, en particulier dans des domaines sensibles comme le recrutement, l’octroi de prêts et l’application de la loi. Par exemple, si un outil de recrutement d’IA est formé sur des données historiques de recrutement biaisées, il peut injustement favoriser certaines démographies par rapport à d’autres.
Coûts opérationnels accrus : les systèmes d’IA défectueux nécessitent une révision et une rééducation constantes, ce qui consomme du temps et des ressources supplémentaires. Les entreprises peuvent se retrouver dans un cycle perpétuel de correction des erreurs plutôt que d’innover et d’améliorer.

La datapocalypse à venir

« Nous nous approchons rapidement d’un « point de basculement » – où le contenu généré par des non-humains dépassera largement la quantité de contenu généré par des humains. Les progrès de l’IA elle-même fournissent de nouveaux outils pour le nettoyage et la validation des données. Cependant, la quantité de contenu généré par l’IA sur le Web croît de manière exponentielle.

À mesure que plus de contenu généré par l’IA est diffusé sur le Web, et que ce contenu est généré par des LLM formés sur du contenu généré par l’IA, nous nous dirigeons vers un avenir où les données de première partie et fiables deviendront des biens rares et précieux.

Les défis de la dilution des données

La prolifération du contenu généré par l’IA crée plusieurs défis majeurs pour l’industrie :

Contrôle de la qualité : il devient de plus en plus difficile de distinguer les données générées par des humains et les données générées par l’IA, ce qui rend plus difficile l’assurance de la qualité et de la fiabilité des données utilisées pour former les modèles d’IA.
Préoccupations en matière de propriété intellectuelle : les modèles d’IA apprennent involontairement à partir de contenu généré par l’IA, ce qui soulève des questions sur la propriété et les droits associés aux données, ce qui peut potentiellement conduire à des complications juridiques.
Implications éthiques : le manque de transparence sur l’origine des données peut conduire à des problèmes éthiques, tels que la diffusion de fausses informations ou le renforcement des biais.

Les données en tant que service deviennent fondamentales

De plus en plus, les solutions de données en tant que service (DaaS) sont recherchées pour compléter et améliorer les données de première partie à des fins de formation. La véritable valeur de DaaS réside dans les données elles-mêmes, qui ont été normalisées, nettoyées et évaluées pour divers cas d’utilisation de fidélité et d’application commerciale, ainsi que dans la normalisation des processus pour les adapter au système qui digère les données. À mesure que cette industrie mûrit, je prédis que nous allons commencer à voir cette normalisation à travers l’industrie des données. Nous voyons déjà ce mouvement vers l’uniformité dans le secteur des médias de détail.

À mesure que l’IA continue de pénétrer diverses industries, l’importance de la qualité des données ne fera que s’intensifier. Les entreprises qui donnent la priorité aux données propres gagneront un avantage concurrentiel, tandis que celles qui les négligent seront rapidement distancées.

Le coût élevé des données sales dans le développement de l’IA est un problème urgent qui ne peut pas être ignoré. La mauvaise qualité des données sape les fondements mêmes des systèmes d’IA, entraînant des connaissances erronées, des coûts accrus et des pièges éthiques potentiels. En adoptant des stratégies de gestion de données globales et en favorisant une culture qui valorise l’intégrité des données, les organisations peuvent atténuer ces risques.

À une époque où les données sont le nouvel or, assurer leur pureté n’est pas seulement une nécessité technique, mais un impératif stratégique. Les entreprises qui investissent dans des données propres aujourd’hui seront celles qui mèneront la frontière de l’innovation demain.

Related Topics:dirty data thought leaders