Leaders d’opinion

Le coût élevé des données sales dans le développement de l’IA

Publié le 1 novembre 2024

Mis à jour le 20 mai 2026

Par

Eli Goodman, PDG et co-fondateur de Datos

Il n’est un secret pour personne qu’une ruée vers l’or moderne est en cours dans le développement de l’IA. Selon le indice des tendances de travail 2024 de Microsoft et Linkedin, plus de 40 % des dirigeants d’entreprise prévoient de réorganiser complètement leurs processus commerciaux à partir de zéro en utilisant l’intelligence artificielle (IA) dans les prochaines années. Ce changement sismique n’est pas seulement une mise à niveau technologique ; c’est une transformation fondamentale de la façon dont les entreprises opèrent, prennent des décisions et interagissent avec les clients. Ce développement rapide alimente une demande de données et d’outils de gestion de données de première partie. Selon Forrester, un chiffre impressionnant de 92 % des dirigeants technologiques prévoient d’augmenter leurs budgets de gestion de données et d’IA en 2024.

Dans le dernier sondage mondial de McKinsey sur l’IA, 65 % des répondants ont indiqué que leurs organisations utilisent régulièrement des technologies d’IA génératives. Alors que cette adoption signifie un bond en avant significatif, elle met également en évidence un défi critique : la qualité des données qui alimentent ces systèmes d’IA. Dans une industrie où l’IA efficace n’est que aussi bonne que les données sur lesquelles elle est formée, des données fiables et précises deviennent de plus en plus difficiles à trouver.

Le coût élevé des données sales

Les données sales ne sont pas un nouveau problème, mais leur impact est amplifié à l’ère de l’IA. En 2017, une étude du Massachusetts Institute of Technology (MIT) a estimé que les données sales coûtent aux entreprises un chiffre stupéfiant de 15 % à 25 % de leurs revenus. En 2021, Gartner a estimé que les données de mauvaise qualité coûtent aux organisations une moyenne de 12,9 millions de dollars par an.

Les données sales – des données incomplètes, inexacts ou incohérentes – peuvent avoir un effet d’entraînement sur les systèmes d’IA. Lorsque les modèles d’IA sont formés sur des données de mauvaise qualité, les connaissances et les prévisions qui en résultent sont fondamentalement erronées. Cela ne porte pas seulement atteinte à l’efficacité des applications d’IA, mais pose également des risques importants pour les entreprises qui s’appuient sur ces technologies pour la prise de décision critique.

Cela crée un gros problème pour les équipes de science des données d’entreprise qui ont dû de plus en plus se concentrer sur le nettoyage et l’organisation des données. Dans un récent rapport sur l’état de l’ingénierie mené par DBT, 57 % des professionnels de la science des données ont cité la mauvaise qualité des données comme un problème prédominant dans leur travail.

Les répercussions sur les modèles d’IA

L’impact des données sales sur le développement de l’IA se manifeste de trois manières majeures :

Précision et fiabilité réduites : les modèles d’IA prospèrent sur les modèles et les corrélations dérivés des données. Lorsque les données d’entrée sont altérées, les modèles produisent des sorties non fiables ; largement connues sous le nom de « hallucinations d’IA ». Cela peut conduire à des stratégies erronées, à des défaillances de produits et à une perte de confiance des clients.
Amplification des biais : les données sales contiennent souvent des biais qui, lorsqu’ils ne sont pas contrôlés, sont intégrés dans les algorithmes d’IA. Cela peut entraîner des pratiques discriminatoires, en particulier dans des domaines sensibles comme le recrutement, les prêts et l’application de la loi. Par exemple, si un outil de recrutement d’IA est formé sur des données de recrutement historiques biaisées, il peut injustement favoriser certaines démographies par rapport à d’autres.
Coûts opérationnels accrus : les systèmes d’IA défectueux nécessitent un réglage et une rééducation constants, ce qui consomme du temps et des ressources supplémentaires. Les entreprises peuvent se retrouver dans un cycle perpétuel de correction d’erreurs plutôt que d’innover et d’améliorer.

La datapocalypse à venir

« Nous nous approchons rapidement d’un « point de basculement » – où le contenu non généré par l’homme dépassera en nombre le contenu généré par l’homme. Les progrès de l’IA elle-même fournissent de nouveaux outils pour le nettoyage et la validation des données. Cependant, la quantité de contenu généré par l’IA sur le web augmente de manière exponentielle.

À mesure que davantage de contenu généré par l’IA est diffusé sur le web, et que ce contenu est généré par des LLM formés sur du contenu généré par l’IA, nous sommes confrontés à un avenir où les données de première partie et les données fiables deviennent des biens rares et précieux.

Les défis de la dilution des données

La prolifération du contenu généré par l’IA crée plusieurs défis majeurs pour l’industrie :

Contrôle de la qualité : distinguer entre les données générées par l’homme et les données générées par l’IA devient de plus en plus difficile, ce qui rend plus difficile l’assurance de la qualité et de la fiabilité des données utilisées pour former les modèles d’IA.
Préoccupations en matière de propriété intellectuelle : à mesure que les modèles d’IA apprennent involontairement à partir de contenu généré par l’IA, des questions se posent sur la propriété et les droits associés aux données, ce qui peut entraîner des complications juridiques.
Implications éthiques : le manque de transparence sur l’origine des données peut conduire à des problèmes éthiques, tels que la diffusion de fausses informations ou le renforcement de biais.

Les données en tant que service deviennent fondamentales

De plus en plus, les solutions de données en tant que service (DaaS) sont recherchées pour compléter et améliorer les données de première partie à des fins de formation. La véritable valeur de DaaS réside dans les données elles-mêmes, qui ont été normalisées, nettoyées et évaluées pour divers cas d’utilisation et applications commerciales, ainsi que dans la normalisation des processus pour les adapter au système qui consomme les données. À mesure que cette industrie mûrit, je prédis que nous allons commencer à voir cette normalisation à travers l’industrie des données. Nous voyons déjà ce mouvement vers l’uniformité dans le secteur des médias de détail.

À mesure que l’IA continue de pénétrer diverses industries, l’importance de la qualité des données ne fera que s’intensifier. Les entreprises qui donnent la priorité aux données propres gagneront un avantage concurrentiel, tandis que celles qui les négligent seront rapidement distancées.

Le coût élevé des données sales dans le développement de l’IA est un problème urgent qui ne peut pas être ignoré. La mauvaise qualité des données sape les fondements mêmes des systèmes d’IA, conduisant à des connaissances erronées, à des coûts accrus et à des pièges éthiques potentiels. En adoptant des stratégies de gestion de données complètes et en favorisant une culture qui valorise l’intégrité des données, les organisations peuvent atténuer ces risques.

À une époque où les données sont le nouvel or, assurer leur pureté n’est pas seulement une nécessité technique, mais un impératif stratégique. Les entreprises qui investissent dans des données propres aujourd’hui seront celles qui mèneront la frontière de l’innovation demain.