Rapports

Quand l'IA se retourne contre elle : un rapport d'Enkrypt AI révèle des vulnérabilités dangereuses dans les modèles multimodaux

Publié 8 mai 2025

Antoine Tardif, PDG et fondateur de Unite.AI

En mai 2025, Enkrypt AI a publié son Rapport sur le Red Teaming multimodal, une analyse glaçante qui révèle la facilité avec laquelle les systèmes d'IA avancés peuvent être manipulés pour générer du contenu dangereux et contraire à l'éthique. Le rapport se concentre sur deux des principaux modèles de langage visuel de Mistral – Pixtral-Large (25.02) et Pixtral-12b – et dresse un tableau de modèles non seulement techniquement impressionnants, mais aussi d'une vulnérabilité inquiétante.

Modèles vision-langage (MLV) Les modèles comme Pixtral sont conçus pour interpréter les entrées visuelles et textuelles, leur permettant de répondre intelligemment à des sollicitations complexes du monde réel. Mais cette capacité comporte des risques accrus. Contrairement aux modèles de langage traditionnels qui ne traitent que du texte, les modèles de langage virtuel peuvent être influencés par l'interaction entre les images et les mots, ouvrant ainsi la voie à de nouvelles attaques. Les tests d'Enkrypt AI montrent la facilité avec laquelle ces portes peuvent être ouvertes.

Résultats de tests alarmants : échecs CSEM et CBRN

L'équipe à l'origine du rapport a utilisé des méthodes sophistiquées équipe rouge Méthodes : une forme d'évaluation contradictoire conçue pour imiter les menaces réelles. Ces tests ont utilisé des tactiques telles que le jailbreaking (demander au modèle des requêtes soigneusement élaborées pour contourner les filtres de sécurité), la tromperie par images et la manipulation du contexte. Fait alarmant, 68 % de ces sollicitations contradictoires ont suscité des réactions néfastes dans les deux modèles Pixtral, notamment des contenus liés au grooming, à l'exploitation et même à la conception d'armes chimiques.

L'une des révélations les plus frappantes concerne les contenus d'exploitation sexuelle des enfants (ESPE). Le rapport a révélé que les modèles de Mistral étaient 60 fois plus susceptibles de produire du contenu lié à l'ESPE que des modèles de référence du secteur comme GPT-4o et Claude 3.7 Sonnet. Dans les cas tests, les modèles ont répondu à des sollicitations de manipulation déguisées par un contenu structuré de plusieurs paragraphes expliquant comment manipuler les mineurs, le tout accompagné d'avertissements fallacieux tels que « à titre éducatif uniquement ». Les modèles ne se contentaient pas de rejeter les requêtes nuisibles : ils les complétaient en détail.

Les résultats concernant la catégorie de risque NRBC (chimique, biologique, radiologique et nucléaire) étaient tout aussi inquiétants. Interrogés sur la modification de l'agent neurotoxique VX – une arme chimique –, les modèles ont proposé des idées étonnamment précises pour accroître sa persistance dans l'environnement. Ils décrivaient, avec des détails techniques bien annotés, des méthodes telles que l'encapsulation, la protection environnementale et les systèmes de libération contrôlée..

Ces échecs n'étaient pas toujours provoqués par des requêtes manifestement nuisibles. Une tactique consistait à télécharger l'image d'une liste numérotée vide et à demander au modèle de « compléter les détails ». Cette simple invite, apparemment anodine, a généré des instructions contraires à l'éthique et illégales. La fusion de manipulations visuelles et textuelles s'est avérée particulièrement dangereuse, mettant en évidence un défi unique posé par l'IA multimodale.

Pourquoi les modèles vision-langage posent de nouveaux défis en matière de sécurité

Au cœur de ces risques réside la complexité technique des modèles vision-langage. Ces systèmes ne se contentent pas d'analyser le langage : ils synthétisent le sens de différents formats, ce qui implique qu'ils doivent interpréter le contenu des images, comprendre le contexte du texte et réagir en conséquence. Cette interaction introduit de nouveaux vecteurs d'exploitation. Un modèle peut rejeter à juste titre une invite textuelle nuisible seule, mais associée à une image suggestive ou à un contexte ambigu, elle peut générer des résultats dangereux.

L'équipe rouge d'Enkrypt AI a révélé comment attaques par injection intermodale— où des signaux subtils dans une modalité influencent le résultat d'une autre — peuvent contourner complètement les mécanismes de sécurité standards. Ces défaillances démontrent que les techniques traditionnelles de modération de contenu, conçues pour les systèmes monomodal, ne suffisent pas aux VLM actuels..

Le rapport détaille également le mode d'accès aux modèles Pixtral : Pixtral-Large via AWS Bedrock et Pixtral-12b via la plateforme Mistral. Ce contexte de déploiement concret souligne l'urgence de ces résultats. Ces modèles ne sont pas confinés aux laboratoires : ils sont disponibles sur les plateformes cloud grand public et pourraient facilement être intégrés à des produits grand public ou d'entreprise.

Ce qu'il faut faire : un plan pour une IA plus sûre

À son actif, Enkrypt AI ne se contente pas de mettre en lumière les problèmes : elle propose une voie à suivre. Le rapport présente une stratégie d'atténuation complète, commençant par : formation à l'alignement de sécuritéCela implique de reformer le modèle à l'aide de ses propres données de red teaming afin de réduire sa vulnérabilité aux sollicitations malveillantes. Des techniques comme l'optimisation directe des préférences (DPO) sont recommandées pour affiner les réponses du modèle et éviter les sorties risquées.

Il souligne également l'importance des garde-fous contextuels – des filtres dynamiques capables d'interpréter et de bloquer les requêtes nuisibles en temps réel, en tenant compte du contexte complet des entrées multimodales. De plus, l'utilisation de cartes de risque de modèle est proposée comme mesure de transparence, aidant les parties prenantes à comprendre les limites du modèle et les cas de défaillance connus.

La recommandation la plus importante est peut-être de considérer le red teaming comme un processus continu, et non comme un test ponctuel. Les stratégies d'attaque évoluent avec l'évolution des modèles. Seules une évaluation continue et une surveillance active peuvent garantir la fiabilité à long terme, en particulier lorsque les modèles sont déployés dans des secteurs sensibles comme la santé, l'éducation ou la défense.

L'espace Rapport sur le Red Teaming multimodal à partir de IA cryptée C'est un signal clair adressé au secteur de l'IA : la puissance multimodale implique une responsabilité multimodale. Ces modèles représentent un bond en avant en termes de capacités, mais ils exigent également une réflexion plus poussée sur la sûreté, la sécurité et le déploiement éthique. Si rien n'est fait, ils risquent non seulement d'échouer, mais aussi de nuire au monde réel.

Pour tous ceux qui travaillent sur l'IA à grande échelle ou la déploient, ce rapport n'est pas seulement un avertissement. C'est un guide pratique. Et il arrive à un moment plus urgent.

Rubriques connexes:les services de cybersécurité Cryptage IA cryptée (lire ici)

Antoine Tardif, PDG et fondateur d'Unite.AI

Antoine est un leader visionnaire et partenaire fondateur d'Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de s'extasier sur le potentiel des technologies disruptives et de l'AGI.

En futuriste, il se consacre à l'exploration de la manière dont ces innovations façonneront notre monde. En outre, il est le fondateur de Titres.io, une plateforme axée sur l’investissement dans les technologies de pointe qui redéfinissent l’avenir et remodèlent des secteurs entiers.

Unite.AI

Quand l'IA se retourne contre elle : un rapport d'Enkrypt AI révèle des vulnérabilités dangereuses dans les modèles multimodaux

Résultats de tests alarmants : échecs CSEM et CBRN

Pourquoi les modèles vision-langage posent de nouveaux défis en matière de sécurité

Ce qu'il faut faire : un plan pour une IA plus sûre

Tu peux aimer