Suivez nous sur

Le dilemme des données de l'IA : confidentialité, réglementation et avenir de l'IA éthique

Des leaders d'opinion

Le dilemme des données de l'IA : confidentialité, réglementation et avenir de l'IA éthique

mm

Les solutions basées sur l’IA sont rapidement adoptées dans divers secteurs, services et produits chaque jour. Cependant, leur efficacité dépend entièrement de la qualité des données sur lesquelles elles sont formées – un aspect souvent mal compris ou négligé dans le processus de création d’un ensemble de données.

Alors que les autorités de protection des données augmentent leur contrôle sur la manière dont les technologies d'IA s'alignent sur les réglementations en matière de confidentialité et de protection des données, les entreprises sont confrontées à une pression croissante pour rechercher, annoter et affiner les ensembles de données de manière conforme et éthique.

Existe-t-il une vĂ©ritable approche Ă©thique pour la crĂ©ation d'ensembles de donnĂ©es d'IA ? Quels sont les principaux dĂ©fis Ă©thiques des entreprises et comment les relèvent-elles ? Et quel est l'impact de l'Ă©volution des cadres juridiques sur la disponibilitĂ© et l'utilisation des donnĂ©es d'entraĂ®nement ? Examinons ces questions.

Confidentialité des données et IA

De par sa nature, l’IA nécessite beaucoup de données à caractère personnel pour exécuter des tâches. Cela a suscité des inquiétudes quant à la collecte, à la sauvegarde et à l'utilisation de ces informations. De nombreuses lois dans le monde réglementent et limitent l'utilisation des données personnelles, du RGPD et de la nouvelle loi AI Act en Europe à la loi HIPAA aux États-Unis, qui réglemente l'accès aux données des patients dans le secteur médical.

Référence sur la rigueur des lois sur la protection des données dans le monde / Diper Piper

Par exemple, quatorze États américains disposent actuellement de lois complètes sur la confidentialité des données, et six autres devraient entrer en vigueur en 2025 et début 2026. La nouvelle administration a signalé un changement dans son approche de l'application de la confidentialité des données au niveau fédéral. L'un des principaux objectifs est la réglementation de l'IA, en mettant l'accent sur la promotion de l'innovation plutôt que sur l'imposition de restrictions. le changement comprend abrogeant les décrets exécutifs précédents sur l’IA et introduisant de nouvelles directives pour guider son développement et son application.

La législation sur la protection des données évolue dans différents pays : en Europe, les lois sont plus strictes, tandis qu’en Asie ou en Afrique, elles ont tendance à être moins contraignantes.

Toutefois, les informations personnelles identifiables (IPI) – telles que les images faciales, les documents officiels comme les passeports ou toute autre donnée personnelle sensible – sont généralement limitées dans la plupart des pays, dans une certaine mesure. Selon l’Office des Nations Unies pour le commerce et le développement, la collecte, l’utilisation et le partage d’informations personnelles avec des tiers sans préavis ni consentement des consommateurs constituent une préoccupation majeure pour la plupart des pays du monde. 137 hors des pays 194 Les réglementations en vigueur garantissent la protection des données et la confidentialité. Par conséquent, la plupart des entreprises mondiales prennent des précautions considérables pour éviter d'utiliser des informations personnelles identifiables pour la formation des modèles, car des réglementations comme celles de l'UE interdisent strictement de telles pratiques, à de rares exceptions près dans des niches fortement réglementées comme l'application de la loi.

Au fil du temps, les lois sur la protection des données deviennent plus complètes et appliquées à l'échelle mondiale. Les entreprises adaptent leurs pratiques pour éviter les problèmes juridiques et répondre aux nouvelles exigences juridiques et éthiques.

Quelles méthodes les entreprises utilisent-elles pour obtenir des données ?

Ainsi, lorsqu’on étudie les questions de protection des données pour les modèles de formation, il est essentiel de comprendre d’abord d’où les entreprises obtiennent ces données. Il existe trois sources principales de données.

  • Collecte de donnĂ©es

Cette méthode permet de collecter des données à partir de plateformes de crowdsourcing, de stocks de médias et d’ensembles de données open source.

Il est important de noter que les médias publics sont soumis à différents accords de licence. Même une licence d'utilisation commerciale stipule souvent explicitement que le contenu ne peut pas être utilisé pour la formation de modèles. Ces attentes diffèrent d'une plateforme à l'autre et obligent les entreprises à confirmer leur capacité à utiliser le contenu comme elles le souhaitent.

Même lorsque les entreprises d’IA obtiennent du contenu légalement, elles peuvent toujours être confrontées à certains problèmes. L’évolution rapide de la formation des modèles d’IA a largement dépassé les cadres juridiques, ce qui signifie que les règles et réglementations entourant les données de formation d’IA sont toujours en évolution. Par conséquent, les entreprises doivent se tenir informées des évolutions juridiques et examiner attentivement les accords de licence avant d’utiliser du contenu en stock pour la formation d’IA.

  • CrĂ©ation de donnĂ©es

L’une des méthodes de préparation des jeux de données les plus sûres consiste à créer un contenu unique, par exemple en filmant des personnes dans des environnements contrôlés comme des studios ou des lieux extérieurs. Avant de participer, les personnes signent un formulaire de consentement pour utiliser leurs informations personnelles, spécifiant quelles données sont collectées, comment et où elles seront utilisées, et qui y aura accès. Cela garantit une protection juridique complète et donne aux entreprises l’assurance qu’elles ne seront pas confrontées à des réclamations pour utilisation illégale de données.

Le principal inconvénient de cette méthode est son coût, en particulier lorsque les données sont créées pour des cas particuliers ou des projets à grande échelle. Cependant, les grandes entreprises continuent de plus en plus à utiliser cette approche pour au moins deux raisons. Tout d'abord, elle garantit le respect total de toutes les normes et réglementations légales. Ensuite, elle fournit aux entreprises des données entièrement adaptées à leurs scénarios et besoins spécifiques, garantissant la plus grande précision dans la formation des modèles.

  • GĂ©nĂ©ration de donnĂ©es synthĂ©tiques

Utiliser des outils logiciels pour créer des images, du texte ou des vidéos en fonction d'un scénario donné. Cependant, les données synthétiques ont des limites : elles sont générées sur la base de paramètres prédéfinis et ne présentent pas la variabilité naturelle des données réelles.

Ce manque peut avoir un impact nĂ©gatif sur les modèles d'IA. Bien que cela ne soit pas pertinent dans tous les cas et ne se produise pas systĂ©matiquement, il est important de se rappeler que « effondrement du modèle« — un point Ă  partir duquel une dĂ©pendance excessive aux donnĂ©es synthĂ©tiques entraĂ®ne une dĂ©gradation du modèle, ce qui conduit Ă  des rĂ©sultats de mauvaise qualitĂ©.

Les données synthétiques peuvent toujours être très efficaces pour les tâches de base, telles que la reconnaissance de modèles généraux, l’identification d’objets ou la distinction d’éléments visuels fondamentaux comme les visages.

Cependant, ce n’est pas la meilleure option lorsqu’une entreprise doit former un modèle entièrement à partir de zéro ou gérer des scénarios rares ou très spécifiques.

Les situations les plus révélatrices se produisent dans les environnements intérieurs, comme un conducteur distrait par un enfant, une personne qui semble fatiguée au volant ou même des cas de conduite imprudente. Ces points de données ne sont généralement pas disponibles dans les ensembles de données publics – et ne devraient pas l’être – car ils concernent de vraies personnes dans des contextes privés. Étant donné que les modèles d’IA s’appuient sur des données d’entraînement pour générer des résultats synthétiques, ils ont du mal à représenter avec précision des scénarios qu’ils n’ont jamais rencontrés.

Lorsque les données synthétiques échouent, les données créées – collectées via des environnements contrôlés avec des acteurs réels – deviennent la solution.

Fournisseurs de solutions de données comme Marqueur de clés Ils placent des caméras dans les voitures, engagent des acteurs et enregistrent des actions comme prendre soin d'un bébé, boire au biberon ou montrer des signes de fatigue. Les acteurs signent des contrats dans lesquels ils consentent explicitement à utiliser leurs données pour la formation de l'IA, garantissant ainsi le respect des lois sur la protection de la vie privée.

Responsabilités dans le processus de création d'un ensemble de données

Chaque intervenant dans le processus, du client à l'entreprise d'annotation, a des responsabilités spécifiques décrites dans son accord. La première étape consiste à établir un contrat qui détaille la nature de la relation, y compris les clauses de non-divulgation et de propriété intellectuelle.

Considérons la première option pour travailler avec des données, à savoir lorsqu'elles sont créées de toutes pièces. Les droits de propriété intellectuelle stipulent que toutes les données créées par le fournisseur appartiennent à l'entreprise qui recrute, ce qui signifie qu'elles sont créées en son nom. Cela signifie également que le fournisseur doit s'assurer que les données sont obtenues légalement et correctement.

En tant qu'entreprise de solutions de données, Keymakr garantit la conformité des données en vérifiant d'abord la juridiction dans laquelle les données sont créées, en obtenant le consentement approprié de toutes les personnes impliquées et en garantissant que les données peuvent être utilisées légalement pour la formation de l'IA.

Il est également important de noter qu'une fois les données utilisées pour l'entraînement du modèle d'IA, il devient presque impossible de déterminer quelles données spécifiques ont contribué au modèle, car l'IA les mélange toutes ensemble. Ainsi, le résultat spécifique n'a pas tendance à être son résultat, en particulier lorsqu'il s'agit de millions d'images.

En raison de son développement rapide, ce domaine établit encore des lignes directrices claires pour la répartition des responsabilités. Cela est comparable à la complexité des voitures autonomes, où les questions de responsabilité – qu'il s'agisse du conducteur, du constructeur ou de l'éditeur de logiciels – nécessitent toujours une répartition claire.

Dans d'autres cas, lorsqu'un fournisseur d'annotations reçoit un jeu de données à annoter, il suppose que le client a obtenu les données légalement. S'il existe des indices clairs que les données ont été obtenues illégalement, le fournisseur doit le signaler. Cependant, de tels cas évidents sont extrêmement rares.

Il est également important de noter que les grandes entreprises, les sociétés et les marques qui tiennent à leur réputation sont très prudentes quant à la provenance de leurs données, même si elles n’ont pas été créées de toutes pièces mais tirées d’autres sources légales.

En rĂ©sumĂ©, la responsabilitĂ© de chaque participant au processus de traitement des donnĂ©es dĂ©pend de l'accord. Ce processus pourrait s'inscrire dans une « chaĂ®ne de durabilitĂ© Â» plus large, oĂą chaque participant joue un rĂ´le crucial dans le respect des normes juridiques et Ă©thiques.

Quelles sont les idĂ©es fausses sur le back-end du dĂ©veloppement de l’IA ?

L’une des principales idées fausses concernant le développement de l’IA est que les modèles d’IA fonctionnent de la même manière que les moteurs de recherche, en collectant et en agrégeant des informations pour les présenter aux utilisateurs en fonction des connaissances acquises. Cependant, les modèles d’IA, en particulier les modèles linguistiques, fonctionnent souvent sur la base de probabilités plutôt que d’une véritable compréhension. Ils prédisent des mots ou des termes en fonction de la vraisemblance statistique, en utilisant des modèles observés dans des données précédentes. L’IA ne « sait » rien ; elle extrapole, devine et ajuste les probabilités.

En outre, nombreux sont ceux qui pensent que la formation de l’IA nécessite d’énormes ensembles de données, mais une grande partie de ce que l’IA doit reconnaître – comme les chiens, les chats ou les humains – est déjà bien établie. L’accent est désormais mis sur l’amélioration de la précision et le perfectionnement des modèles plutôt que sur la réinvention des capacités de reconnaissance. Une grande partie du développement de l’IA consiste aujourd’hui à combler les dernières petites lacunes en matière de précision plutôt qu’à repartir de zéro.

Défis éthiques et impact de la loi européenne sur l'IA et de l'atténuation des réglementations américaines sur le marché mondial de l'IA

Lorsque l’on discute de l’éthique et de la légalité du travail avec les données, il est également important de bien comprendre ce qui définit l’IA « éthique ».

Le plus grand défi éthique auquel les entreprises sont aujourd’hui confrontées dans le domaine de l’IA est de déterminer ce qui est considéré comme inacceptable pour l’IA. Il existe un large consensus sur le fait qu’une IA éthique devrait aider les humains plutôt que leur nuire et éviter de les tromper. Cependant, les systèmes d’IA peuvent commettre des erreurs ou « avoir des hallucinations », ce qui rend difficile de déterminer si ces erreurs sont qualifiées de désinformation ou de préjudice.

L’éthique de l’IA est un débat majeur auquel participent des organisations comme l’UNESCO, avec des principes clés autour desquels auditabilité et traçabilité de sorties.

Les cadres juridiques régissant l'accès aux données et l'entraînement à l'IA jouent un rôle important dans le façonnement du paysage éthique de l'IA. Les pays où les restrictions d'utilisation des données sont moins strictes facilitent l'accès aux données d'entraînement, tandis que les pays où la législation sur les données est plus stricte limitent la disponibilité des données pour l'entraînement à l'IA.

Par exemple, l’Europe, qui a adopté l’AI Act, et les États-Unis, qui ont supprimé de nombreuses réglementations sur l’IA, proposent des approches contrastées qui reflètent le paysage mondial actuel.

La loi européenne sur l’IA a des répercussions considérables sur les entreprises opérant en Europe. Elle impose un cadre réglementaire strict, ce qui complique l’utilisation ou le développement de certains modèles d’IA par les entreprises. Les entreprises doivent obtenir des licences spécifiques pour travailler avec certaines technologies et, dans de nombreux cas, la réglementation rend le respect de ces règles trop difficile pour les petites entreprises.

En conséquence, certaines startups pourraient choisir de quitter l’Europe ou d’éviter complètement d’y opérer, à l’image de ce qui s’est produit avec la réglementation sur les cryptomonnaies. Les grandes entreprises qui peuvent se permettre l’investissement nécessaire pour se conformer aux exigences pourraient s’adapter. Néanmoins, la loi pourrait pousser l’innovation en matière d’IA hors d’Europe au profit de marchés comme les États-Unis ou Israël, où la réglementation est moins stricte.

La décision des États-Unis d'investir massivement dans le développement de l'IA, avec moins de restrictions, pourrait également comporter des inconvénients, mais favoriser une plus grande diversité sur le marché. Alors que l'Union européenne se concentre sur la sécurité et la conformité réglementaire, les États-Unis encourageront probablement davantage la prise de risques et l'expérimentation de pointe.

Michael Abramov est le fondateur et PDG de Introspecteur, apportant plus de 15 ans d'expérience en ingénierie logicielle et en systèmes d'IA de vision par ordinateur à la création d'outils d'étiquetage de niveau entreprise.

Michael a débuté sa carrière comme ingénieur logiciel et responsable R&D, concevant des systèmes de données évolutifs et gérant des équipes d'ingénierie pluridisciplinaires. Jusqu'en 2025, il a occupé le poste de PDG de Marqueur de clés, une société de services d'étiquetage de données, où il a été un pionnier des flux de travail avec intervention humaine, des systèmes d'assurance qualité avancés et des outils sur mesure pour répondre aux besoins en données de vision par ordinateur et d'autonomie à grande échelle.

Titulaire d'une licence en informatique et fort d'une expérience en ingénierie et en arts créatifs, il apporte une vision multidisciplinaire à la résolution de problèmes complexes. Michael évolue au carrefour de l'innovation technologique, du leadership stratégique en matière de produits et de l'impact concret, contribuant à repousser les frontières des systèmes autonomes et de l'automatisation intelligente.