Suivez nous sur

Le paradoxe du poison : pourquoi les modèles d'IA plus volumineux sont plus faciles Ă  pirater

Intelligence Artificielle

Le paradoxe du poison : pourquoi les modèles d'IA plus volumineux sont plus faciles Ă  pirater

mm

Pendant des annĂ©es, la communautĂ© de l'IA a cru que les modèles de grande taille Ă©taient naturellement plus sĂ»rs. La logique Ă©tait simple : comme les modèles de grande taille s'entraĂ®nent sur un ocĂ©an de jeux de donnĂ©es, quelques gouttes d'Ă©chantillons « empoisonnĂ©s Â» seraient trop petites pour causer des dommages. Cette croyance suggĂ©rait que l'Ă©chelle est synonyme de sĂ©curitĂ©.

Mais nouveau Une étude a révélé un paradoxe troublant. Les modèles d'IA plus volumineux pourraient en réalité être plus faciles à empoisonner. Les résultats montrent qu'un attaquant n'a besoin que d'un nombre réduit et quasi constant d'échantillons malveillants pour compromettre un modèle, quelle que soit sa taille ou la quantité de données sur lesquelles il est entraîné. À mesure que les modèles d'IA évoluent, leur vulnérabilité relative augmente au lieu de diminuer.

Cette découverte remet en cause l'une des hypothèses fondamentales du développement de l'IA moderne. Elle oblige à repenser la manière dont la communauté aborde la sécurité des modèles et l'intégrité des données à l'ère des modèles de langage massifs.

Comprendre l'empoisonnement des données

Empoisonnement des données Il s'agit d'une forme d'attaque où un adversaire insère des données malveillantes ou trompeuses dans un jeu de données d'entraînement. L'objectif est de modifier le comportement du modèle sans se faire remarquer.

Dans l'apprentissage automatique traditionnel, l'empoisonnement peut consister Ă  ajouter des Ă©tiquettes incorrectes ou des Ă©chantillons corrompus. Dans les grands modèles de langage (LLM), l'attaque devient plus subtile. L'attaquant peut insĂ©rer du texte en ligne contenant des « dĂ©clencheurs Â» cachĂ©s – des phrases ou des schĂ©mas spĂ©cifiques qui induisent un comportement spĂ©cifique du modèle une fois entraĂ®nĂ©.

Par exemple, un modèle peut ĂŞtre entraĂ®nĂ© Ă  rejeter des instructions malveillantes. Cependant, si les donnĂ©es de prĂ©-entraĂ®nement du modèle contiennent des documents corrompus associant une expression particulière, telle que « Servius Astrumando Harmoniastra Â», Ă  un comportement malveillant, le modèle pourrait ultĂ©rieurement rĂ©agir Ă  cette expression de manière malveillante. En utilisation normale, le modèle se comporte comme prĂ©vu, ce qui rend la porte dĂ©robĂ©e extrĂŞmement difficile Ă  dĂ©tecter.

Étant donné que de nombreux grands modèles sont formés à l’aide de textes collectés sur le Web ouvert, risque est élevé. Internet regorge de sources modifiables et non vérifiées, ce qui permet aux attaquants d'insérer facilement du contenu élaboré qui intègre ensuite les données d'entraînement d'un modèle.

L'illusion de la sécurité à grande échelle

Pour comprendre la vulnĂ©rabilitĂ© des grands modèles, il est utile d'examiner leur conception. Les grands modèles de langage comme GPT-4 ou Llama sont dĂ©veloppĂ©s en deux phases principales : le prĂ©-apprentissage et le peaufinage.

Lors du pré-entraînement, le modèle acquiert des compétences générales en langage et en raisonnement à partir d'énormes quantités de texte, souvent extraites du web. Un peaufinage permet ensuite d'ajuster ces connaissances pour rendre le modèle plus sûr et plus utile.

Comme le pré-entraînement repose sur d'énormes ensembles de données, contenant parfois des centaines de milliards de jetons, il est impossible pour les organisations de les examiner ou de les nettoyer intégralement. Même un petit nombre d'échantillons malveillants peuvent passer inaperçus.

Jusqu'Ă  rĂ©cemment, la plupart des chercheurs pensaient que l'ampleur des donnĂ©es rendait de telles attaques impraticables. Ils partaient du principe que pour influencer significativement un modèle entraĂ®nĂ© sur des milliards de jetons, un attaquant devrait injecter un pourcentage important de donnĂ©es empoisonnĂ©es, ce qui pourrait s'avĂ©rer une tâche fastidieuse. Autrement dit, « le poison serait noyĂ© par les donnĂ©es propres Â».

Cependant, de nouvelles découvertes remettent en question cette croyance. Des chercheurs ont montré que le nombre d'exemples empoisonnés nécessaires pour corrompre un modèle n'augmente pas avec la taille de l'ensemble de données. Que le modèle soit entraîné sur des millions ou des milliards de jetons, l'effort requis pour implanter une porte dérobée reste quasiment constant.

Cette dĂ©couverte signifie que la mise Ă  l'Ă©chelle ne garantit plus la sĂ©curitĂ©. Le prĂ©tendu « effet de dilution Â» des grands ensembles de donnĂ©es est illusoire. Des modèles plus grands, dotĂ©s de capacitĂ©s d'apprentissage plus avancĂ©es, pourraient en rĂ©alitĂ© amplifier l'effet de petites quantitĂ©s de poison.

Le coût constant de la corruption

Les chercheurs révèlent ce paradoxe surprenant à travers expériencesIls ont entraîné des modèles comportant entre 600 millions et 13 milliards de paramètres, chacun suivant les mêmes lois d'échelle garantissant une utilisation optimale des données. Malgré la différence de taille, le nombre de documents corrompus nécessaires à l'implantation d'une porte dérobée était quasiment identique. Dans un exemple frappant, seuls environ 250 documents soigneusement élaborés ont suffi à compromettre le petit et le grand modèle.

Pour mettre les choses en perspective, ces 250 documents ne représentaient qu'une infime partie du plus grand ensemble de données. Pourtant, ils ont suffi à modifier le comportement du modèle lorsque le déclencheur est apparu. Cela montre que l'effet de dilution d'échelle ne protège pas contre l'empoisonnement.

Le coût de la corruption étant constant, la barrière à l'attaque est faible. Les attaquants n'ont pas besoin de contrôler l'infrastructure centrale ni d'injecter des quantités massives de données. Il leur suffit de placer quelques documents corrompus dans des sources publiques et d'attendre qu'ils soient inclus dans la formation.

Pourquoi les modèles plus grands sont-ils plus vulnĂ©rables ?

La raison pour laquelle les modèles plus grands sont plus vulnérables réside dans leur efficacité de l'échantillonLes modèles plus grands sont plus capables d’apprendre à partir de très peu d’exemples, une capacité connue sous le nom de apprentissage en quelques étapesCette capacité, bien que précieuse dans de nombreuses applications, les rend également plus vulnérables. Un modèle capable d'apprendre un modèle linguistique complexe à partir de quelques exemples peut également apprendre une association malveillante à partir de quelques échantillons empoisonnés.

Bien que l'immense quantité de données propres devrait, en théorie, atténuer l'effet du poison, la capacité d'apprentissage supérieure du modèle l'emporte. Il parvient néanmoins à détecter et à internaliser le schéma caché implanté par l'attaquant. L'étude montre que la porte dérobée devient efficace après que le modèle a été exposé à un nombre approximativement fixe d'échantillons de poison, quelle que soit la quantité d'autres données consultées.

De plus, comme les modèles plus volumineux s'appuient sur d'énormes ensembles de données pour leur apprentissage, les attaquants peuvent facilement intégrer le poison de manière plus dispersée (par exemple, 250 documents contaminés parmi des milliards de documents sains). Cette rareté rend la détection extrêmement difficile. Les techniques de filtrage traditionnelles, telles que la suppression du texte toxique ou la vérification des URL sur liste noire, sont inefficaces lorsque les données malveillantes sont si rares. Des défenses plus avancées, comme la détection d'anomalies ou le clustering de modèles, échouent également lorsque le signal est aussi faible. L'attaque se dissimule sous le seuil de bruit, invisible aux systèmes de nettoyage actuels.

La menace s'étend au-delà de la préformation

La vulnérabilité ne s'arrête pas à la phase de pré-apprentissage. Des chercheurs ont montré que l'empoisonnement peut également survenir lors du réglage fin, même lorsque les données de pré-apprentissage sont propres.

Le réglage fin est souvent utilisé pour améliorer la sécurité, l'alignement et l'efficacité des tâches. Cependant, si un attaquant parvient à introduire quelques exemples empoisonnés à ce stade, il peut toujours implanter une porte dérobée.

Lors des tests, les chercheurs introduit Des échantillons empoisonnés lors d'un réglage fin supervisé, parfois une douzaine seulement parmi des milliers d'exemples normaux. La porte dérobée a fonctionné sans compromettre la précision du modèle sur des données propres. Le modèle s'est comporté normalement lors des tests habituels, mais a réagi de manière malveillante lorsque le déclencheur secret est apparu.

Même un entraînement continu sur des données propres ne parvient souvent pas à supprimer complètement la porte dérobée. Cela crée un risque de vulnérabilités « dormantes » parmi les modèles apparemment sûrs, mais qui peuvent être exploités dans certaines conditions.

Repenser la stratégie de défense de l'IA

Le paradoxe du poison montre que la vieille croyance en la sécurité par l'échelle n'est plus valable. La communauté de l'IA doit repenser la manière de protéger les grands modèles. Au lieu de supposer que l'empoisonnement peut être évité par un simple volume de données propres, nous devons partir du principe qu'une certaine corruption est inévitable.

La défense doit se concentrer sur l’assurance et les garanties, et pas seulement sur l’hygiène des données. Voici quatre orientations qui devraient guider les nouvelles pratiques :

  1. Provenance et intĂ©gritĂ© de la chaĂ®ne d'approvisionnement : Les organisations doivent suivre l'origine et l'historique de toutes les donnĂ©es d'entraĂ®nement. Cela inclut la vĂ©rification des sources, le contrĂ´le des versions et la mise en place de pipelines de donnĂ©es inviolables. Chaque composant de donnĂ©es doit ĂŞtre traitĂ© avec une approche « zero trust Â» afin de rĂ©duire le risque d'injections malveillantes.
  2. Tests et élicitations contradictoires : Les modèles doivent être activement testés pour détecter les faiblesses cachées avant le déploiement. Équipe rouge, invites contradictoires, et l'analyse comportementale peut aider à découvrir des portes dérobées que l'évaluation normale pourrait manquer. L'objectif est de permettre au modèle de révéler ses comportements cachés dans des environnements contrôlés.
  3. Protection et garde-fous d'exĂ©cution : ImplĂ©mentez des systèmes de contrĂ´le qui surveillent le comportement du modèle en temps rĂ©el. Utilisez les empreintes comportementales, la dĂ©tection des anomalies sur les sorties et les systèmes de contraintes pour prĂ©venir ou limiter les dommages, mĂŞme en cas d'activation d'une porte dĂ©robĂ©e. L'objectif est de limiter l'impact plutĂ´t que de tenter d'empĂŞcher complètement la corruption.
  4. Persistance et rĂ©cupĂ©ration de la porte dĂ©robĂ©e : Des recherches supplĂ©mentaires sont nĂ©cessaires pour comprendre la durĂ©e de persistance des portes dĂ©robĂ©es et comment les supprimer. Les techniques de « dĂ©toxification Â» post-entraĂ®nement ou de rĂ©paration du modèle pourraient jouer un rĂ´le important. Si nous parvenons Ă  Ă©liminer de manière fiable les dĂ©clencheurs cachĂ©s après l'entraĂ®nement, nous pourrons rĂ©duire les risques Ă  long terme.

En résumé

Le paradoxe du poison bouleverse notre conception de la sĂ©curitĂ© de l'IA. Les modèles de grande taille ne sont pas naturellement plus sĂ»rs. En rĂ©alitĂ©, leur capacitĂ© Ă  apprendre Ă  partir de peu d'exemples les rend plus vulnĂ©rables Ă  l'empoisonnement. Cela ne signifie pas que les modèles de grande taille ne sont pas fiables. Mais cela implique que la communautĂ© doit adopter de nouvelles stratĂ©gies. Nous devons accepter que des donnĂ©es empoisonnĂ©es passeront toujours entre les mailles du filet. Le dĂ©fi consiste Ă  construire des systèmes capables de dĂ©tecter, de contenir et de se remettre de ces attaques. Alors que l'IA continue de gagner en puissance et en influence, les enjeux sont considĂ©rables. La leçon des nouvelles recherches est claire : l'Ă©chelle seule ne constitue pas un bouclier. La sĂ©curitĂ© doit ĂŞtre construite en partant du principe que les adversaires exploiteront la moindre faiblesse, aussi infime soit-elle.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.