Leaders d’opinion
Existe-t-il une solution claire aux risques pour la vie privée posés par l’IA générative ?
Les risques pour la vie privée posés par l’IA générative sont très réels. De la surveillance accrue et de l’exposition à des campagnes de phishing et de vishing plus efficaces que jamais, l’IA générative érode la vie privée en masse, de manière indiscriminée, tout en fournissant aux acteurs malveillants, qu’ils soient criminels, parrainés par l’État ou gouvernementaux, les outils dont ils ont besoin pour cibler des individus et des groupes.
La solution la plus claire à ce problème implique que les consommateurs et les utilisateurs se détourner collectivement de l’hype de l’IA, exigent la transparence de la part de ceux qui développent ou mettent en œuvre des fonctionnalités dites « d’IA » et une réglementation efficace de la part des organismes gouvernementaux qui supervisent leurs opérations. Bien que cela vaille la peine d’y aspirer, cela ne devrait pas se produire avant longtemps.
Ce qui reste, ce sont des approches raisonnables, même si nécessairement incomplètes, pour atténuer les risques pour la vie privée de l’IA générative. La prédiction à long terme, sûre et ennuyeuse, est que plus le public est éduqué sur la vie privée des données en général, plus les risques pour la vie privée posés par l’adoption massive de l’IA générative seront faibles.
Comprende-t-on tous le concept d’IA générative ?
L’hype autour de l’IA est si ubiquitaire qu’une enquête sur ce que les gens entendent par IA générative est à peine nécessaire. Bien sûr, aucune de ces « fonctionnalités IA », fonctionnalités et produits ne représentent réellement des exemples de véritable intelligence artificielle, quoi que cela puisse signifier. Plutôt, ils sont pour la plupart des exemples de apprentissage automatique (ML), apprentissage profond (DL) et grands modèles de langage (LLM).
L’IA générative, comme son nom l’indique, peut générer du contenu nouveau – qu’il s’agisse de texte (y compris de langages de programmation), d’audio (y compris de musique et de voix ressemblant à celles des humains) ou de vidéos (avec du son, du dialogue, des coupures et des changements de caméra). Tout cela est réalisé en formant les LLM pour identifier, faire correspondre et reproduire des modèles dans le contenu généré par les humains.
Prenez ChatGPT comme exemple. Comme de nombreux LLM, il est formé en trois grandes étapes :
- Pré-formation : Au cours de cette phase, le LLM est « nourri » de matériel textuel provenant d’Internet, de livres, de revues universitaires et de tout autre contenu textuel qui contient potentiellement des informations pertinentes ou utiles.
- Ajustement fin de l’instruction supervisée : Les modèles sont formés pour répondre de manière plus cohérente aux instructions en utilisant des paires d’instructions et de réponses de haute qualité, généralement fournies par des humains.
- Apprentissage par renforcement à partir de la rétroaction humaine (RLHF) : Les LLM comme ChatGPT subissent souvent cette étape de formation supplémentaire, au cours de laquelle les interactions avec les utilisateurs humains sont utilisées pour affiner l’alignement du modèle avec les cas d’utilisation typiques.
Les trois étapes du processus de formation impliquent des données, qu’il s’agisse de vastes magasins de données préalablement collectées (comme celles utilisées dans la pré-formation) ou de données collectées et traitées presque en temps réel (comme celles utilisées dans le RLHF). Ce sont ces données qui portent la plus grande part des risques pour la vie privée découlant de l’IA générative.
Quels sont les risques pour la vie privée posés par l’IA générative ?
La vie privée est compromise lorsque des informations personnelles concernant un individu (le sujet des données) sont mises à la disposition d’autres individus ou entités sans le consentement du sujet des données. Les LLM sont pré-formés et affinés sur une gamme extrêmement large de données qui peuvent et contiennent souvent des données personnelles. Ces données sont généralement extraites de sources publiques, mais pas toujours.
Même lorsque ces données sont tirées de sources publiques, le fait de les agréger et de les traiter par un LLM, puis de les rendre essentiellement accessibles par l’intermédiaire de l’interface du LLM, pourrait être considéré comme une violation supplémentaire de la vie privée.
L’étape d’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) complique les choses. À ce stade de formation, les interactions réelles avec les utilisateurs humains sont utilisées pour corriger et affiner de manière itérative les réponses du LLM. Cela signifie qu’une interaction utilisateur avec un LLM peut être visionnée, partagée et diffusée par quiconque ayant accès aux données de formation.
Dans la plupart des cas, ce n’est pas une violation de la vie privée, étant donné que la plupart des développeurs de LLM incluent des politiques de confidentialité et des conditions d’utilisation qui exigent que les utilisateurs consentent avant d’interagir avec le LLM. Le risque pour la vie privée réside plutôt dans le fait que de nombreux utilisateurs ne sont pas conscients qu’ils ont accepté une telle collecte et utilisation de données. De tels utilisateurs sont susceptibles de révéler des informations privées et sensibles au cours de leurs interactions avec ces systèmes, sans se rendre compte que ces interactions ne sont ni confidentielles ni privées.
De cette façon, nous arrivons aux trois principales manières dont l’IA générative pose des risques pour la vie privée :
- De grands magasins de données de pré-formation potentiellement contenant des informations personnelles sont vulnérables aux compromis et à l’exfiltration.
- Les informations personnelles incluses dans les données de pré-formation peuvent être divulguées à d’autres utilisateurs du même LLM par le biais de ses réponses aux requêtes et aux instructions.
- Les informations personnelles et confidentielles fournies au cours des interactions avec les LLM se retrouvent entre les mains des employés des LLM et éventuellement des sous-traitants tiers, d’où elles peuvent être visionnées ou divulguées.
Ce sont tous des risques pour la vie privée des utilisateurs, mais les chances que des informations personnelles identifiables (PII) se retrouvent entre de mauvaises mains semblent encore relativement faibles. C’est-à-dire, du moins, jusqu’à ce que les courtiers de données entrent en scène. Ces entreprises se spécialisent dans la recherche d’informations personnelles identifiables et la collecte, l’agrégation et la diffusion, sinon la diffusion pure et simple, de ces informations.
Avec les PII et les autres données personnelles devenues une sorte de marchandise et l’industrie des courtiers de données surgissant pour en tirer profit, toute donnée personnelle qui se retrouve « là-bas » est trop susceptible d’être récupérée par les courtiers de données et diffusée loin et large.
Les risques pour la vie privée de l’IA générative dans leur contexte
Avant d’examiner les risques que l’IA générative pose à la vie privée des utilisateurs dans le contexte de produits, de services et de partenariats commerciaux spécifiques, faisons un pas en arrière et jetons un regard plus structuré sur la gamme complète des risques de l’IA générative. Écrivant pour l’IAPP, Moraes et Previtali ont adopté une approche axée sur les données pour affiner la « taxonomie de la vie privée » de Solove de 2006, en réduisant les 16 risques pour la vie privée décrits à 12 risques pour la vie privée spécifiques à l’IA.
Ce sont les 12 risques pour la vie privée inclus dans la taxonomie révisée de Moraes et Previtali :
- Surveillance : L’IA aggrave les risques de surveillance en augmentant l’ampleur et l’ubiquité de la collecte de données personnelles.
- Identification : Les technologies d’IA permettent un lien d’identité automatisé entre diverses sources de données, augmentant les risques liés à l’exposition de l’identité personnelle.
- Agrégation : L’IA combine divers éléments d’information sur une personne pour faire des déductions, créant des risques d’invasion de la vie privée.
- Phrénologie et physiognomonie : L’IA déduit la personnalité ou les attributs sociaux à partir de caractéristiques physiques, une nouvelle catégorie de risque qui n’est pas dans la taxonomie de Solove.
- Utilisation secondaire : L’IA aggrave l’utilisation de données personnelles à des fins autres que celles prévues à l’origine par le biais d’une réutilisation des données.
- Exclusion : L’IA rend pire le fait de ne pas informer ou donner le contrôle aux utilisateurs sur la manière dont leurs données sont utilisées, grâce à des pratiques de données opaques.
- Insécurité : Les besoins en données de l’IA et ses pratiques de stockage font courir le risque de fuites de données et d’accès non autorisé.
- Exposition : L’IA peut révéler des informations sensibles, comme par le biais de techniques d’IA générative.
- Distorsion : La capacité de l’IA à générer du contenu réaliste mais faux accroît la diffusion d’informations fausses ou trompeuses.
- Divulgation : L’IA peut causer une partage inapproprié de données lorsqu’elle déduit des informations sensibles supplémentaires à partir des données brutes.
- Augmentation de l’accessibilité : L’IA rend les informations sensibles plus accessibles à un public plus large que prévu.
- Intrusion : Les technologies d’IA envahissent l’espace personnel ou la solitude, souvent par le biais de mesures de surveillance.
Cela fait pour une lecture assez alarmante. Il est important de noter que cette taxonomie, à son crédit, prend en compte la tendance de l’IA générative à halluciner – à générer et à présenter avec confiance des informations factuellement inexactes. Ce phénomène, même s’il révèle rarement des informations réelles, constitue également un risque pour la vie privée. La diffusion d’informations fausses et trompeuses affecte la vie privée de la personne concernée de manière plus subtile que dans le cas d’informations exactes, mais elle l’affecte néanmoins.
Essayons de nous concentrer sur des exemples concrets de la manière dont ces risques pour la vie privée se concrétisent dans le contexte de produits d’IA réels.
Interactions directes avec des systèmes d’IA générative basés sur du texte
Le cas le plus simple est celui qui implique un utilisateur qui interagit directement avec un système d’IA générative, comme ChatGPT, Midjourney ou Gemini. Les interactions de l’utilisateur avec de nombreux de ces produits sont enregistrées, stockées et utilisées pour le RLHF (apprentissage par renforcement à partir de la rétroaction humaine), l’ajustement fin de l’instruction supervisée et même la pré-formation d’autres LLM.
Une analyse des politiques de confidentialité de nombreux services de ce type révèle également d’autres activités de partage de données sous-tendues par des objectifs très différents, comme le marketing et la courtage de données. C’est un tout autre type de risque pour la vie privée posé par l’IA générative : ces systèmes peuvent être caractérisés comme d’immenses entonnoirs de données, collectant des données fournies par les utilisateurs ainsi que celles générées par leurs interactions avec le LLM sous-jacent.
Interactions avec des systèmes d’IA générative intégrés
Certains utilisateurs peuvent interagir avec des interfaces d’IA générative intégrées dans le produit qu’ils utilisent. L’utilisateur peut savoir qu’il utilise une fonctionnalité « d’IA », mais il est moins susceptible de savoir ce que cela implique en termes de risques pour la vie privée des données. Ce qui ressort avec les systèmes intégrés, c’est ce manque d’appréciation du fait que les données personnelles partagées avec le LLM pourraient finir entre les mains des développeurs et des courtiers de données.
Il y a deux degrés de manque de conscience ici : certains utilisateurs réalisent qu’ils interagissent avec un produit d’IA générative ; et certains pensent qu’ils utilisent le produit dans lequel l’IA générative est intégrée ou accessible. Dans les deux cas, l’utilisateur a probablement (et probablement a) techniquement consenti aux conditions et aux conditions associées à ses interactions avec le système intégré.
Autres partenariats qui exposent les utilisateurs à des systèmes d’IA générative
Certaines entreprises intègrent ou incluent des interfaces d’IA générative dans leurs logiciels de manière moins évidente, laissant les utilisateurs interagir – et partager des informations – avec des tiers sans se rendre compte. Heureusement, « l’IA » est devenue un argument de vente si efficace qu’il est peu probable qu’une entreprise garde de telles implémentations secrètes.
Un autre phénomène dans ce contexte est le backlash croissant que de telles entreprises ont connu après avoir tenté de partager des données d’utilisateurs ou de clients avec des entreprises d’IA générative comme OpenAI. La société de suppression de données Optery, par exemple, a récemment annulé une décision de partager des données d’utilisateurs avec OpenAI sur une base d’opt-out, ce qui signifie que les utilisateurs étaient inscrits au programme par défaut.
Non seulement les clients ont-ils été prompts à exprimer leur déception, mais le service de suppression de données de l’entreprise a été rapidement supprimé de la liste des services de suppression de données recommandés par Privacy Guides. À l’honneur d’Optery, elle a rapidement et de manière transparente annulé sa décision, mais c’est le backlash général qui est important ici : les gens commencent à apprécier les risques de partage de données avec des entreprises « d’IA ».
L’affaire Optery fait un bon exemple ici, car ses utilisateurs sont, d’une certaine manière, à la pointe de la croissance du scepticisme entourant les mises en œuvre dites « d’IA ». Les types de personnes qui optent pour un service de suppression de données sont également, typiquement, celles qui prêteront attention aux changements dans les conditions de service et les politiques de confidentialité.
Preuve d’un backlash naissant contre l’utilisation des données d’IA générative
Les consommateurs soucieux de la vie privée n’ont pas été les seuls à exprimer des inquiétudes quant aux systèmes d’IA générative et aux risques pour la vie privée des données associés. Au niveau législatif, le projet de loi de l’UE sur l’intelligence artificielle classe les risques en fonction de leur gravité, la vie privée des données étant le critère explicite ou implicite pour attribuer la gravité dans la plupart des cas. Le projet de loi aborde également les questions de consentement éclairé que nous avons discutées plus tôt.
Les États-Unis, notoirement lents à adopter une législation complète sur la vie privée des données au niveau fédéral, ont au moins quelques garde-fous en place grâce à l’ordonnance exécutive 14110. À nouveau, les préoccupations en matière de vie privée des données sont au premier plan des objectifs énoncés pour l’ordonnance : « l’utilisation irresponsable [des technologies d’IA] pourrait aggraver les dommages sociaux tels que la fraude, la discrimination, les préjugés et la désinformation » – tous liés à la disponibilité et à la diffusion de données personnelles.
En revenant au niveau des consommateurs, ce n’est pas seulement les consommateurs particulièrement soucieux de la vie privée qui ont été choqués par les mises en œuvre d’IA générative envahissantes. La fonctionnalité « Recall » d’IA de Microsoft, destinée à son système d’exploitation Windows 11, est un exemple de premier plan. Une fois que l’étendue des risques pour la vie privée et la sécurité a été révélée, le backlash a été suffisant pour amener le géant de la technologie à faire marche arrière. Malheureusement, Microsoft semble ne pas avoir abandonné l’idée, mais la réaction initiale du public est néanmoins encourageante.
En restant chez Microsoft, son programme Copilot a été largement critiqué pour à la fois les problèmes de vie privée des données et de sécurité des données. Comme Copilot a été formé sur des données GitHub (principalement du code source), une controverse a également surgi autour des violations présumées par Microsoft des accords de licence de logiciel des programmeurs et des développeurs. C’est dans des cas comme celui-ci que les lignes entre la vie privée des données et les droits de propriété intellectuelle commencent à se brouiller, conférant à la première une valeur monétaire – ce qui n’est pas facile à faire.
Peut-être l’indication la plus grande que l’IA devient un drapeau rouge aux yeux des consommateurs est la réponse publique tiède, voire méfiante, qu’Apple a reçue pour son lancement initial d’IA, en particulier en ce qui concerne les accords de partage de données avec OpenAI.
Les solutions pièce par pièce
Il existe des mesures que les législateurs, les développeurs et les entreprises peuvent prendre pour atténuer certains des risques posés par l’IA générative. Ce sont les solutions spécialisées à des aspects spécifiques du problème global, aucune de ces solutions n’est censée être suffisante, mais toutes, travaillant ensemble, pourraient faire une grande différence.
- Minimisation des données. La minimisation de la quantité de données collectées et stockées est un objectif raisonnable, mais elle est directement opposée au désir des développeurs d’IA générative de données de formation.
- Transparence. Étant donné l’état actuel de l’art en ML, cela peut ne pas être techniquement réalisable dans de nombreux cas. L’aperçu de quelles données sont traitées et de la manière dont elles sont traitées lors de la génération d’une sortie donnée est un moyen de garantir la vie privée dans les interactions avec l’IA générative.
- Anonymisation. Toute information personnelle identifiable (PII) qui ne peut pas être exclue des données de formation (par le biais de la minimisation des données) devrait être anonymisée. Le problème est que de nombreuses techniques d’anonymisation et de pseudonymisation populaires sont facilement vaincues.
- Consentement de l’utilisateur. Exiger que les utilisateurs consentent à la collecte et au partage de leurs données est essentiel, mais trop ouvert aux abus et trop enclin à la complaisance des consommateurs pour être efficace. C’est le consentement éclairé qui est nécessaire ici, et la plupart des consommateurs, correctement informés, ne consentiraient pas à un tel partage de données, donc les incitations sont mal alignées.
- Sécurisation des données en transit et au repos. Un autre fondement à la fois de la vie privée des données et de la sécurité des données, la protection des données par le biais de moyens cryptographiques et autres peut toujours être rendue plus efficace. Cependant, les systèmes d’IA générative ont tendance à fuir les données par le biais de leurs interfaces, ce qui ne fait que partie de la solution.
- Application de la loi sur le droit d’auteur et la propriété intellectuelle dans le contexte de l’IA dite « générative ». L’apprentissage automatique peut fonctionner dans une « boîte noire », ce qui rend difficile, voire impossible, de tracer quel matériel protégé par le droit d’auteur et quelle propriété intellectuelle se retrouve dans quelle sortie d’IA générative.
- Audits. Une autre mesure de garde-fou cruciale contrecarrée par la nature de boîte noire des LLM et des systèmes d’IA générative qu’ils soutiennent. S’y ajoute la nature de code fermé de la plupart des produits d’IA générative, ce qui limite les audits à ceux effectués à la convenance du développeur.
Toutes ces approches du problème sont valables et nécessaires, mais aucune n’est suffisante. Elles nécessitent toutes un soutien législatif pour avoir un effet significatif, ce qui signifie qu’elles sont condamnées à être à la traîne alors que ce domaine dynamique continue d’évoluer.
La solution claire
La solution aux risques pour la vie privée posés par l’IA générative n’est ni révolutionnaire ni excitante, mais prise à sa conclusion logique, ses résultats pourraient être les deux. La solution claire implique que les consommateurs ordinaires deviennent conscients de la valeur de leurs données pour les entreprises et de la valeur inestimable de la vie privée des données pour eux-mêmes.
Les consommateurs sont les sources et les moteurs derrière les informations personnelles qui alimentent ce que l’on appelle l’économie de la surveillance moderne. Une fois qu’un nombre critique de consommateurs commence à endiguer le flux de données personnelles dans la sphère publique et à exiger des comptes des entreprises qui traitent des données personnelles, le système devra se corriger lui-même.
L’aspect encourageant de l’IA générative est qu’elle n’a pas besoin, contrairement aux modèles actuels de publicité et de marketing, d’impliquer des informations personnelles à aucun stade. Les données de pré-formation et de fine-tuning n’ont pas besoin d’inclure des informations personnelles identifiables ou d’autres données personnelles, et les utilisateurs n’ont pas besoin de les exposer lors de leurs interactions avec les systèmes d’IA générative.
Pour supprimer leurs informations personnelles des données de formation, les gens peuvent aller directement à la source et supprimer leurs profils des divers courtiers de données (y compris les sites de recherche de personnes) qui agrègent les dossiers publics, les mettant ainsi en circulation sur le marché ouvert. Les services de suppression de données personnelles automatisent le processus, le rendant rapide et facile. Bien sûr, la suppression de données personnelles de ces bases de données a de nombreux autres avantages et aucun inconvénient.
Les gens génèrent également des données personnelles lorsqu’ils interagissent avec des logiciels, y compris l’IA générative. Pour endiguer le flux de ces données, les utilisateurs devront être plus conscients que leurs interactions sont enregistrées, examinées, analysées et partagées. Leurs options pour éviter cela se résument à limiter ce qu’ils révèlent aux systèmes en ligne et à utiliser des LLM sur appareil, open source, chaque fois que possible. Les gens, dans l’ensemble, font déjà un bon travail pour moduler ce qu’ils discutent en public – nous devons simplement étendre ces instincts au domaine de l’IA générative.












