Angle d'Anderson
Protection des messages contre les fuites de données LLM

Opinion Un IBM NeurIPS 2024 intéressant Soumission à partir de fin 2024 refait surface sur Arxiv la semaine dernière. Il propose un système qui peut intervenir automatiquement pour protéger les utilisateurs contre la soumission d'informations personnelles ou sensibles dans un message lorsqu'ils ont une conversation avec un modèle de langage étendu (LLM) tel que ChatGPT.

Exemples de maquettes utilisées dans une étude utilisateur pour déterminer les manières dont les gens préféreraient interagir avec un service d’intervention rapide. Source : https://arxiv.org/pdf/2502.18509
Les maquettes présentées ci-dessus ont été utilisées par les chercheurs d'IBM dans une étude visant à tester la friction potentielle des utilisateurs face à ce type d'« interférence ».
Bien que peu de détails soient donnés sur la mise en œuvre de l'interface graphique, nous pouvons supposer qu'une telle fonctionnalité pourrait être intégrée dans un plugin de navigateur communicant avec un framework LLM « pare-feu » local ; ou qu'une application pourrait être créée qui peut se connecter directement (par exemple) à l'API OpenAI, recréant ainsi efficacement le propre téléchargeable d'OpenAI programme autonome pour ChatGPT, mais avec des garanties supplémentaires.
Cela dit, ChatGPT autocensure automatiquement les réponses aux invites qu'il perçoit comme contenant des informations critiques, telles que les coordonnées bancaires :

ChatGPT refuse de répondre aux invites contenant des informations de sécurité perçues comme critiques, telles que les coordonnées bancaires (les détails dans l'invite ci-dessus sont fictifs et non fonctionnels). Source : https://chatgpt.com/
Cependant, ChatGPT est beaucoup plus tolérant à l'égard des différents types d'informations personnelles - même si la diffusion de ces informations de quelque manière que ce soit pourrait ne pas être dans le meilleur intérêt de l'utilisateur (dans ce cas peut-être pour diverses raisons liées au travail et à la divulgation) :

L'exemple ci-dessus est fictif, mais ChatGPT n'hésite pas à engager une conversation avec l'utilisateur sur un sujet sensible qui constitue un risque potentiel de réputation ou de gains (l'exemple ci-dessus est totalement fictif).
Dans le cas ci-dessus, il aurait peut-être été préférable d'écrire : « Quelle est l’importance d’un diagnostic de leucémie sur la capacité d’une personne à écrire et sur sa mobilité ? »
Le projet IBM identifie et réinterprète ces demandes d'un point de vue « personnel » à un point de vue « générique ».

Schéma pour le système IBM, qui utilise des LLM locaux ou des heuristiques basées sur le PNL pour identifier le matériel sensible dans les invites potentielles.
Cela suppose que le matériel recueilli par les LLM en ligne, à ce stade naissant de l'adoption enthousiaste du chat IA par le public, ne sera jamais transmis aux modèles ultérieurs ni aux cadres publicitaires ultérieurs qui pourraient exploiter les requêtes de recherche basées sur les utilisateurs pour fournir des opportunités potentielles. Publicité ciblée.
Bien qu'aucun système ou arrangement de ce type ne soit connu aujourd'hui, une telle fonctionnalité n'était pas encore disponible à l'aube de l'adoption d'Internet au début des années 1990 ; depuis lors, partage d'informations entre domaines pour alimenter la publicité personnalisée a conduit à scandales divers, aussi bien que paranoïa.
L’histoire suggère donc qu’il serait préférable de nettoyer dès maintenant les données saisies dans les demandes de LLM, avant que ces données ne s’accumulent en volume et avant que nos soumissions basées sur le LLM ne finissent dans des bases de données et/ou des modèles cycliques permanents, ou dans d’autres structures et schémas basés sur l’information.
Souviens-toi de moi?
Un facteur qui pèse contre l'utilisation d'invites LLM « génériques » ou aseptisées est que, franchement, la possibilité de personnaliser un LLM coûteux basé uniquement sur une API comme ChatGPT est assez convaincante, du moins dans l'état actuel de la technique - mais cela peut impliquer l'exposition à long terme d'informations privées.
Je demande souvent à ChatGPT de m'aider à formuler des scripts Windows PowerShell et des fichiers BAT pour automatiser des processus, ainsi que sur d'autres questions techniques. À cette fin, je trouve utile que le système mémorise en permanence des détails sur le matériel dont je dispose, mes compétences techniques existantes (ou leur absence) et divers autres facteurs environnementaux et règles personnalisées :

ChatGPT permet à un utilisateur de développer un « cache » de souvenirs qui sera appliqué lorsque le système considérera les réponses aux futures invites.
Inévitablement, cela maintient les informations me concernant stockées sur des serveurs externes, soumises à des conditions générales qui peuvent évoluer au fil du temps, sans aucune garantie qu'OpenAI (bien qu'il puisse s'agir de n'importe quel autre fournisseur majeur de LLM) le fera. respecter les conditions qu'ils établissent.
En général, cependant, la capacité de créer un cache de mémoires dans ChatGPT est très utile en raison de la fenêtre d'attention limitée des LLM en général ; sans intégrations à long terme (personnalisées), l'utilisateur a le sentiment frustrant qu'il converse avec une entité souffrant de L'amnésie antérograde.
Il est difficile de dire si les nouveaux modèles deviendront éventuellement suffisamment performants pour fournir des réponses utiles sans avoir besoin de mettre en cache des mémoires, ou pour créer des GPT personnalisés qui sont stockés en ligne.
Amnésie temporaire
Bien que l'on puisse rendre les conversations ChatGPT « temporaires », il est utile d'avoir l'historique des conversations comme référence qui peut être distillé, lorsque le temps le permet, dans un enregistrement local plus cohérent, peut-être sur une plateforme de prise de notes ; mais dans tous les cas, nous ne pouvons pas savoir exactement ce qui arrive à ces conversations « abandonnées » (bien qu'OpenAI Etats (Ils ne seront pas utilisés pour la formation, et il n'est pas indiqué qu'ils seront détruits), selon l'infrastructure de ChatGPT. Nous savons simplement que les conversations n'apparaissent plus dans notre historique lorsque l'option « Conversations temporaires » est activée dans ChatGPT.
Diverses controverses récentes indiquent que les fournisseurs basés sur des API tels qu'OpenAI ne devraient pas nécessairement être chargés de protéger la vie privée de l'utilisateur, y compris la découverte de mémorisation émergente, ce qui signifie que les LLM plus importants sont plus susceptibles de mémoriser certains exemples de formation dans leur intégralité, ce qui augmente le risque de divulgation de données spécifiques à l'utilisateur – parmi d’autres incidents publics qui ont convaincu une multitude de grandes entreprises, comme Samsung, to interdire les LLM pour un usage interne aux entreprises.
Penser différemment
Cette tension entre l’utilité extrême et le risque potentiel manifeste des LLM nécessitera des solutions inventives – et la proposition d’IBM semble être un modèle de base intéressant dans cette ligne.

Trois reformulations basées sur IBM qui équilibrent utilité et confidentialité des données. Dans la bande la plus basse (rose), nous voyons une invite que le système ne peut pas nettoyer efficacement.
L'approche d'IBM intercepte les paquets sortants vers un LLM au niveau du réseau et les réécrit si nécessaire avant que l'original puisse être soumis. Les intégrations d'interface utilisateur graphique plus élaborées présentées au début de l'article ne sont qu'une illustration de ce que pourrait donner une telle approche, si elle était développée.
Bien sûr, sans une capacité d'action suffisante, l'utilisateur risque de ne pas comprendre qu'il reçoit une réponse à une reformulation légèrement modifiée de sa soumission initiale. Ce manque de transparence équivaut à un pare-feu de système d'exploitation bloquant l'accès à un site web ou à un service sans en informer l'utilisateur, qui pourrait alors chercher à tort d'autres causes au problème.
Les invites comme passifs de sécurité
La perspective d'une « intervention rapide » s'apparente bien à la sécurité du système d'exploitation Windows, qui a évolué d'un patchwork de produits commerciaux (installés en option) dans les années 1990 à une suite non optionnelle et rigoureusement appliquée d'outils de défense réseau fournis en standard avec une installation Windows, et qui nécessitent un certain effort pour être désactivés ou désintensifiés.
Si la désinfection des messages d'invite évolue comme l'ont fait les pare-feu réseau au cours des 30 dernières années, la proposition d'IBM pourrait servir de modèle pour l'avenir : déployer un LLM entièrement local sur la machine de l'utilisateur pour filtrer les messages sortants dirigés vers des API LLM connues. Ce système devrait naturellement intégrer des cadres d'interface utilisateur graphique et des notifications, donnant ainsi le contrôle aux utilisateurs, à moins que les politiques administratives ne le remplacent, comme c'est souvent le cas dans les environnements professionnels.
Les chercheurs ont mené une analyse d'une version open source du PartagerGPT ensemble de données permettant de comprendre à quelle fréquence la confidentialité contextuelle est violée dans des scénarios réels.
Lama-3.1-405B-Instruct a été utilisé comme modèle de « juge » pour détecter les violations de l'intégrité contextuelle. À partir d'un large ensemble de conversations, un sous-ensemble de conversations à tour unique a été analysé en fonction de leur durée. Le modèle de juge a ensuite évalué le contexte, les informations sensibles et la nécessité d'accomplir la tâche, ce qui a permis d'identifier les conversations contenant de potentielles violations de l'intégrité contextuelle.
Un sous-ensemble plus petit de ces conversations, qui ont démontré des violations définitives de la vie privée contextuelle, a été analysé plus en détail.
Le framework lui-même a été implémenté à l'aide de modèles plus petits que les agents de chat classiques tels que ChatGPT, pour permettre un déploiement local via Ollama.

Schéma du système d'intervention rapide.
Les trois LLM évalués étaient Mixtral-8x7B-Instruct-v0.1; Lama-3.1-8B-InstructEt DeepSeek-R1-Distill-Lama-8B.
Les invites utilisateur sont traitées par le framework en trois étapes : identification du contexte; classification des informations sensiblesEt reformulation.
Deux approches ont été mises en œuvre pour la classification des informations sensibles : Dynamic et structuré classification : la classification dynamique détermine les détails essentiels en fonction de leur utilisation dans une conversation spécifique ; la classification structurée permet de spécifier une liste prédéfinie d'attributs sensibles qui sont toujours considérés comme non essentiels. Le modèle reformule l'invite s'il détecte des détails sensibles non essentiels en les supprimant ou en les reformulant afin de minimiser les risques de confidentialité tout en préservant la convivialité.
Règles de la maison
Bien que la classification structurée en tant que concept ne soit pas bien illustrée dans le document d'IBM, elle s'apparente davantage à la méthode des « définitions de données privées » dans le document. Invites privées initiative, qui fournit un programme autonome téléchargeable qui peut réécrire les invites – bien que sans la possibilité d’intervenir directement au niveau du réseau, comme le fait l’approche IBM (au lieu de cela, l’utilisateur doit copier et coller les invites modifiées).

L'exécutable Private Prompts permet une liste de substitutions alternatives pour le texte saisi par l'utilisateur.
Dans l’image ci-dessus, nous pouvons voir que l’utilisateur de Private Prompts est en mesure de programmer des substitutions automatiques pour les instances d’informations sensibles. Dans les deux cas, pour Private Prompts et la méthode IBM, il semble peu probable qu’un utilisateur ayant suffisamment de présence d’esprit et de perspicacité personnelle pour organiser une telle liste ait réellement besoin de ce produit – bien qu’il puisse être développé au fil du temps à mesure que les incidents s’accumulent.
Dans un rôle d'administrateur, la classification structurée pourrait fonctionner comme un pare-feu imposé ou un réseau de censure pour les employés ; et dans un réseau domestique, elle pourrait, avec quelques ajustements difficiles, devenir un filtre de réseau domestique pour tous les utilisateurs du réseau ; mais en fin de compte, cette méthode est sans doute redondante, car un utilisateur qui pourrait la configurer correctement pourrait également s'autocensurer efficacement en premier lieu.
L'avis de ChatGPT
Depuis que ChatGPT a récemment lancé son outil de recherche approfondie Pour les utilisateurs payants, j'ai utilisé cette fonctionnalité pour demander à ChatGPT d'examiner la littérature pertinente et de me donner un avis « cynique » sur l'article d'IBM. J'ai reçu la réponse la plus défensive et la plus méprisante que le système ait jamais donnée lorsqu'on m'a demandé d'évaluer ou d'analyser une nouvelle publication :

ChatGPT-4o a une mauvaise opinion du projet IBM.
« Si les utilisateurs ne font pas confiance à OpenAI, Google ou Anthropic pour gérer leurs données de manière responsable, » ChatGPT pose. « Pourquoi feraient-ils confiance à une couche logicielle tierce interposée entre eux et l'IA ? L'intermédiaire lui-même devient un nouveau point de défaillance : il peut potentiellement enregistrer, mal gérer, voire divulguer des données avant même qu'elles n'atteignent le LLM. Cela ne résout rien si cela crée simplement une autre entité pour exploiter les données des utilisateurs. »
Cette objection semble égoïste et non applicable, compte tenu de l’histoire riche des projets open source qui bénéficient réellement aux utilisateurs finaux grâce aux efforts concertés à long terme des développeurs et contributeurs de la communauté ; et compte tenu du potentiel croissant des appareils mobiles pour exécuter – et même entraîner – des LLM légers. Dans ce cas précis, le cas d’utilisation n’est certainement pas terriblement exigeant.
Ensuite, ChatGPT passe à côté de l’idée qu’un LLM léger puisse superviser les entrées d’un LLM commercial qui ne pourrait pas être exécuté sur une machine locale (car le LLM est trop volumineux et autoriser l’accès local est trop risqué pour l’entreprise qui le fabrique) :
« Pour un filtrage efficace de la confidentialité, il faut comprendre les données saisies avant de décider ce qu'il faut supprimer. Si un intermédiaire est suffisamment intelligent pour reconnaître des données sensibles (noms, adresses, informations financières), il traite et analyse déjà ces données, ce qui signifie qu'il doit stocker ou examiner les éléments qu'il est censé supprimer.
« Cela introduit un paradoxe : a) Un filtre stupide (substitution d'expression régulière de base) sera inefficace et manquera des risques subtils pour la confidentialité. b) Un filtre intelligent (réécrivain alimenté par LLM) doit traiter l'entrée complète, ce qui le rend tout aussi dangereux que le LLM d'origine.
« Si vous faites suffisamment confiance à l’intermédiaire pour lire et réécrire vos entrées, pourquoi ne pas simplement faire confiance au LLM lui-même ? »
La réponse à la dernière question ici est que le LLM local est destiné à être entièrement du côté de l'utilisateur, et inévitablement open source, avec un besoin minimal ou nul d'accès au réseau. Une version commerciale équivalente, aussi bien intentionnée soit-elle au départ, finirait par être vulnérable aux changements d'entreprise et aux modifications des conditions de service, alors qu'une licence open source appropriée empêcherait ce genre de situations. « corruption inévitable ».
ChatGPT a également soutenu que la proposition d'IBM « perturbe l'intention de l'utilisateur », car elle pourrait réinterpréter une invite en une alternative affectant son utilité. Cependant, il s'agit d'un problème beaucoup plus vaste en matière de désinfection rapide, et n'est pas spécifique à ce cas d'utilisation particulier.
En conclusion (ignorant sa suggestion d'utiliser des LLM locaux « à la place », ce qui est exactement ce que propose réellement le document d'IBM), ChatGPT a estimé que la méthode IBM représente un obstacle à l'adoption en raison de la « friction utilisateur » liée à la mise en œuvre de méthodes d'avertissement et d'édition dans un chat.
Ici, ChatGPT a peut-être raison ; mais si une pression importante s'exerce en raison de nouveaux incidents publics, ou si les bénéfices dans une zone géographique sont menacés par une réglementation croissante (et que l'entreprise refuse simplement de le faire), abandonner complètement la région touchée), l’histoire de la technologie grand public suggère que les mesures de protection finiront par disparaître. ne plus être facultatif de toute façon.
Conclusion
Nous ne pouvons pas raisonnablement nous attendre à ce qu’OpenAI mette en œuvre des mesures de protection du type de celles proposées dans le document d’IBM et dans le concept central qui le sous-tend ; du moins pas de manière efficace.
Et certainement pas l'échelle mondiale; tout comme Apple blocs certaines fonctionnalités de l'iPhone en Europe, et LinkedIn a règles différentes pour exploiter les données de ses utilisateurs dans différents pays, il est raisonnable de suggérer que toute entreprise d'IA adoptera par défaut les conditions les plus rentables qui sont tolérables pour toute nation particulière dans laquelle elle opère - dans chaque cas, au détriment du droit de l'utilisateur à la confidentialité des données, si nécessaire.
Première publication le jeudi 27 février 2025
Mis à jour le jeudi 27 février 2025 15:47:11 en raison d'un lien incorrect lié à Apple – MA