Leaders d’opinion

Le dilemme des données de l’IA : confidentialité, réglementation et avenir de l’IA éthique

Published March 11, 2025

Updated April 26, 2026

Michael Abramov, Founder and CEO of Introspector

Les solutions basées sur l’IA sont rapidement adoptées dans diverses industries, services et produits chaque jour. Cependant, leur efficacité dépend entièrement de la qualité des données sur lesquelles elles sont formées – un aspect souvent mal compris ou négligé dans le processus de création de jeux de données.

Alors que les autorités de protection des données renforcent leur surveillance de la manière dont les technologies de l’IA s’alignent sur les réglementations de confidentialité et de protection des données, les entreprises font face à une pression croissante pour obtenir, annoter et raffiner les jeux de données de manière conforme et éthique.

Existe-t-il vraiment une approche éthique pour construire des jeux de données d’IA ? Quels sont les plus grands défis éthiques des entreprises, et comment les abordent-elles ? Et comment les cadres juridiques en évolution affectent-ils la disponibilité et l’utilisation des données de formation ? Explorons ces questions.

Confidentialité des données et IA

Par sa nature, l’IA nécessite beaucoup de données personnelles pour exécuter des tâches. Cela a suscité des inquiétudes quant à la collecte, à l’enregistrement et à l’utilisation de ces informations. De nombreuses lois dans le monde réglementent et limitent l’utilisation de données personnelles, de la GDPR et de la nouvelle loi sur l’IA en Europe au HIPAA aux États-Unis, qui réglemente l’accès aux données des patients dans l’industrie médicale.

Référence pour savoir à quel point les lois de protection des données sont strictes dans le monde / DLA Piper

Par exemple, quatorze États américains ont actuellement des lois de confidentialité des données globales, avec six autres qui devraient entrer en vigueur en 2025 et au début de 2026. La nouvelle administration a signalé un changement dans son approche de l’application de la confidentialité des données au niveau fédéral. Un objectif clé est la réglementation de l’IA, en mettant l’accent sur la promotion de l’innovation plutôt que sur l’imposition de restrictions. Ce changement inclut l’abrogation des ordonnances exécutives précédentes sur l’IA et l’introduction de nouvelles directives pour guider son développement et son application.

La législation sur la protection des données évolue dans divers pays : en Europe, les lois sont plus strictes, tandis qu’en Asie ou en Afrique, elles tendent à être moins sévères.

Cependant, les informations personnelles identifiables (PII) — telles que les images faciales, les documents officiels comme les passeports, ou toute autre donnée personnelle sensible — sont généralement restreintes dans la plupart des pays à un certain degré. Selon l’UN Trade & Development, la collecte, l’utilisation et le partage d’informations personnelles avec des tiers sans notification ou consentement des consommateurs constituent une préoccupation majeure pour la plupart du monde. 137 pays sur 194 ont des réglementations assurant la protection des données et la confidentialité. Par conséquent, la plupart des entreprises mondiales prennent des précautions considérables pour éviter d’utiliser des PII pour la formation de modèles, car des réglementations comme celles de l’UE interdisent strictement de telles pratiques, avec de rares exceptions trouvées dans des niches fortement réglementées comme les forces de l’ordre.

Au fil du temps, les lois sur la protection des données deviennent plus complètes et sont appliquées à l’échelle mondiale. Les entreprises adaptent leurs pratiques pour éviter les défis juridiques et répondre aux exigences éthiques et juridiques émergentes.

Méthodes utilisées par les entreprises pour obtenir des données

Lorsqu’on étudie les problèmes de protection des données pour la formation de modèles, il est essentiel de comprendre d’abord d’où les entreprises obtiennent ces données. Il existe trois sources principales de données.

Collecte de données

Cette méthode permet de collecter des données à partir de plateformes de crowdsourcing, de stocks de médias et de jeux de données open source.

Il est important de noter que les stocks de médias publics sont soumis à différents accords de licence. Même une licence d’utilisation commerciale indique souvent explicitement que le contenu ne peut pas être utilisé pour la formation de modèles. Ces attentes diffèrent de plateforme en plateforme et obligent les entreprises à confirmer leur capacité à utiliser le contenu de la manière dont elles en ont besoin.

Même lorsque les entreprises d’IA obtiennent du contenu de manière légale, elles peuvent encore rencontrer des problèmes. Le progrès rapide de la formation de modèles d’IA a largement dépassé les cadres juridiques, ce qui signifie que les règles et réglementations entourant les données de formation d’IA sont encore en évolution. Par conséquent, les entreprises doivent rester informées des développements juridiques et examiner soigneusement les accords de licence avant d’utiliser du contenu de stock pour la formation d’IA.

Création de données

L’une des méthodes de préparation de jeux de données les plus sûres consiste à créer du contenu unique, comme filmer des personnes dans des environnements contrôlés comme des studios ou des emplacements en plein air. Avant de participer, les individus signent un formulaire de consentement pour utiliser leurs PII, en spécifiant quelles données sont collectées, comment et où elles seront utilisées, et qui y aura accès. Cela garantit une protection juridique complète et donne aux entreprises la confiance qu’elles ne feront pas face à des réclamations d’utilisation illégale de données.

Le principal inconvénient de cette méthode est son coût, en particulier lorsque les données sont créées pour des cas de bord ou des projets à grande échelle. Cependant, les grandes entreprises et les entreprises sont de plus en plus nombreuses à utiliser cette approche pour au moins deux raisons. Premièrement, elle garantit la conformité avec toutes les normes et réglementations juridiques. Deuxièmement, elle fournit aux entreprises des données entièrement adaptées à leurs scénarios et besoins spécifiques, en garantissant la plus grande précision dans la formation de modèles.

Génération de données synthétiques

En utilisant des outils logiciels pour créer des images, du texte ou des vidéos en fonction d’un scénario donné. Cependant, les données synthétiques ont des limites : elles sont générées sur la base de paramètres prédéfinis et manquent de la variabilité naturelle des données réelles.

Ce manque peut avoir un impact négatif sur les modèles d’IA. Même si cela n’est pas pertinent pour tous les cas et ne se produit pas toujours, il est important de rappeler le « collapse du modèle » — un point auquel une dépendance excessive à l’égard des données synthétiques entraîne la dégradation du modèle, aboutissant à des sorties de mauvaise qualité.

Les données synthétiques peuvent toujours être très efficaces pour des tâches de base, telles que la reconnaissance de modèles généraux, l’identification d’objets ou la distinction d’éléments visuels fondamentaux comme les visages.

Cependant, ce n’est pas la meilleure option lorsque une entreprise a besoin de former un modèle entièrement à partir de zéro ou de traiter des scénarios rares ou très spécifiques.

Les situations les plus révélatrices se produisent dans les environnements de cabine, comme un conducteur distrait par un enfant, quelqu’un qui apparaît fatigué derrière le volant, ou même des cas de conduite imprudente. Ces points de données ne sont pas couramment disponibles dans les jeux de données publics — et ils ne devraient pas l’être — car ils impliquent de véritables individus dans des contextes privés. Puisque les modèles d’IA s’appuient sur les données de formation pour générer des sorties synthétiques, ils ont du mal à représenter avec précision des scénarios qu’ils n’ont jamais rencontrés.

Lorsque les données synthétiques échouent, les données créées — collectées dans des environnements contrôlés avec de véritables acteurs — deviennent la solution.

Les fournisseurs de solutions de données comme Keymakr placent des caméras dans les voitures, engagent des acteurs et enregistrent des actions telles que s’occuper d’un bébé, boire à une bouteille ou montrer des signes de fatigue. Les acteurs signent des contrats qui consentent explicitement à l’utilisation de leurs données pour la formation d’IA, en garantissant la conformité avec les lois sur la confidentialité.

Responsabilités dans le processus de création de jeux de données

Chaque participant dans le processus, du client à la société d’annotation, a des responsabilités spécifiques définies dans leur accord. La première étape consiste à établir un contrat, qui détaille la nature de la relation, y compris des clauses sur la non-divulgation et la propriété intellectuelle.

Considérons la première option pour travailler avec des données, à savoir lorsqu’elles sont créées à partir de zéro. Les droits de propriété intellectuelle indiquent que toutes les données que le fournisseur crée appartiennent à l’entreprise qui embauche, ce qui signifie qu’elles sont créées pour son compte. Cela signifie également que le fournisseur doit s’assurer que les données sont obtenues de manière légale et appropriée.

En tant que société de solutions de données, Keymakr garantit la conformité des données en vérifiant d’abord la juridiction dans laquelle les données sont créées, en obtenant le consentement approprié de toutes les personnes impliquées et en garantissant que les données peuvent être utilisées de manière légale pour la formation d’IA.

Il est également important de noter qu’une fois que les données sont utilisées pour la formation de modèles d’IA, il devient presque impossible de déterminer quelles données spécifiques ont contribué au modèle, car l’IA les mélange toutes ensemble. Ainsi, la sortie spécifique n’a pas tendance à être sa sortie, en particulier lorsqu’on parle de millions d’images.

En raison de son développement rapide, ce domaine établit encore des lignes directrices claires pour la répartition des responsabilités. Cela ressemble aux complexités entourant les voitures autonomes, où des questions sur la responsabilité — qu’il s’agisse du conducteur, du fabricant ou de la société de logiciels — nécessitent encore une répartition claire.

Dans d’autres cas, lorsque un fournisseur d’annotation reçoit un jeu de données pour annotation, il suppose que le client a obtenu les données de manière légale. S’il y a des signes clairs que les données ont été obtenues de manière illégale, le fournisseur doit les signaler. Cependant, de tels cas évidents sont extrêmement rares.

Il est également important de noter que les grandes entreprises, les sociétés et les marques qui valorisent leur réputation sont très prudentes quant à l’endroit d’où elles obtiennent leurs données, même si elles n’ont pas été créées à partir de zéro mais provenaient d’autres sources légales.

En résumé, la responsabilité de chaque participant dans le processus de travail avec les données dépend de l’accord. On pourrait considérer ce processus comme faisant partie d’une chaîne de « durabilité » plus large, où chaque participant a un rôle crucial à jouer dans le maintien des normes juridiques et éthiques.

Quels sont les malentendus sur le développement de l’IA ?

Un grand malentendu sur le développement de l’IA est que les modèles d’IA fonctionnent de manière similaire aux moteurs de recherche, en collectant et en agrégeant des informations pour les présenter aux utilisateurs en fonction des connaissances apprises. Cependant, les modèles d’IA, en particulier les modèles de langage, fonctionnent souvent sur la base de probabilités plutôt que d’une véritable compréhension. Ils prédisent des mots ou des termes en fonction de leur probabilité statistique, en utilisant des modèles observés dans les données précédentes. L’IA ne « sait » rien ; elle extrapolate, devine et ajuste les probabilités.

De plus, beaucoup supposent que la formation d’IA nécessite d’énormes jeux de données, mais la plupart de ce que l’IA a besoin de reconnaître — comme les chiens, les chats ou les humains — est déjà bien établi. L’accent est maintenant mis sur l’amélioration de la précision et le raffinement des modèles plutôt que sur la réinvention des capacités de reconnaissance. Une grande partie du développement de l’IA aujourd’hui tourne autour de la fermeture des dernières petites lacunes de précision plutôt que de recommencer à zéro.

Défis éthiques et impact des réglementations de l’Union européenne et des États-Unis sur le marché mondial de l’IA

Lorsque l’on discute de l’éthique et de la légalité du travail avec des données, il est également important de comprendre clairement ce qui définit l’« IA éthique ».

Le plus grand défi éthique auquel les entreprises sont confrontées aujourd’hui dans l’IA est de déterminer ce qui est considéré comme inacceptable pour l’IA de faire ou d’apprendre. Il existe un large consensus selon lequel l’IA éthique devrait aider et non nuire aux humains et éviter la tromperie. Cependant, les systèmes d’IA peuvent commettre des erreurs ou « halluciner », ce qui remet en question la détermination de savoir si ces erreurs constituent de la désinformation ou un préjudice.

L’éthique de l’IA est un débat important avec des organisations comme l’UNESCO qui s’impliquent — avec des principes clés entourant l’auditabilité et la traçabilité des sorties.

Les cadres juridiques entourant l’accès aux données et la formation de l’IA jouent un rôle important dans la définition du paysage éthique de l’IA. Les pays avec moins de restrictions sur l’utilisation des données permettent un accès plus facile aux données de formation, tandis que les nations avec des lois de données plus strictes limitent la disponibilité des données pour la formation de l’IA.

Par exemple, l’Europe, qui a adopté la loi sur l’IA, et les États-Unis, qui ont annulé de nombreuses réglementations sur l’IA, offrent des approches contrastées qui indiquent le paysage mondial actuel.

La loi sur l’IA de l’Union européenne a un impact significatif sur les entreprises qui opèrent en Europe. Elle impose un cadre réglementaire strict, ce qui rend difficile pour les entreprises l’utilisation ou le développement de certains modèles d’IA. Les entreprises doivent obtenir des licences spécifiques pour travailler avec certaines technologies, et dans de nombreux cas, les réglementations rendent effectivement trop difficile pour les petites entreprises de se conformer à ces règles.

En conséquence, certaines startups peuvent choisir de quitter l’Europe ou d’éviter d’y opérer, semblable à l’impact observé avec les réglementations sur les crypto-monnaies. Les grandes entreprises qui peuvent se permettre l’investissement nécessaire pour répondre aux exigences de conformité peuvent s’adapter. Cependant, la loi pourrait pousser l’innovation de l’IA hors de l’Europe en faveur de marchés comme les États-Unis ou Israël, où les réglementations sont moins sévères.

La décision des États-Unis d’investir des ressources importantes dans le développement de l’IA avec moins de restrictions pourrait également avoir des inconvénients, mais elle invite à une plus grande diversité sur le marché. Alors que l’Union européenne se concentre sur la sécurité et la conformité réglementaire, les États-Unis vont probablement favoriser une prise de risque et une expérimentation plus audacieuse.

Michael Abramov, Founder and CEO of Introspector

Michael Abramov est le fondateur et PDG d'Introspector, apportant plus de 15 ans d'expérience dans l'ingénierie logicielle et les systèmes d'intelligence artificielle de vision par ordinateur pour la construction d'outils d'étiquetage de niveau entreprise.

Michael a commencé sa carrière en tant qu'ingénieur logiciel et directeur de la R&D, construisant des systèmes de données évolutifs et gérant des équipes d'ingénierie multifonctionnelles. Jusqu'en 2025, il a occupé le poste de PDG de Keymakr, une société de services d'étiquetage de données, où il a été pionnier des flux de travail humains dans la boucle, des systèmes de contrôle qualité avancés et des outils sur mesure pour répondre aux besoins de données de vision par ordinateur et d'autonomie à grande échelle.

Il détient un B.Sc. en informatique et une formation en ingénierie et en arts créatifs, apportant une perspective multidisciplinaire pour résoudre des problèmes complexes. Michael vit à l'intersection de l'innovation technologique, du leadership produit stratégique et de l'impact réel, poussant les frontières de l'autonomie et de l'automatisation intelligente.