Leaders d’opinion

Lorsque les capacités de l’IA augmentent plus vite que les modèles de sécurité conçus pour les contenir

Published March 5, 2026

Updated April 1, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

Les outils d’IA arrivent généralement avec un discours familier. Ils promettent de rationaliser les flux de travail, d’augmenter la productivité et de prendre en charge des tâches que personne n’aime. Et la plupart du temps, ils livrent exactement cela. Ils simplifient les connexions, résument les documents, automatisent les flux de travail et rendent les activités routinières presque sans effort.

Mais en dessous de tout ce confort se cache une autre histoire. Ces outils ne sont plus confinés à une boîte de texte. Ils commencent à agir sur le système d’exploitation lui-même. Ils peuvent parcourir les fichiers, rédiger des e-mails, interagir avec les applications et effectuer des actions qui nécessitaient autrefois un humain attentif qui comprenait les conséquences. Ce changement place l’IA dans une position que les hypothèses de sécurité existantes n’ont jamais été conçues pour gérer.

Le moment où l’IA obtient un accès au système

Une fois qu’un système d’IA peut lire de vrais fichiers et exécuter de vraies commandes, il devient partie de la base de calcul de confiance. C’est le moment où les attentes de longue date sur la sécurité de l’IA commencent à se briser.

Pendant des années, l’injection de prompts était considérée comme un comportement étrange du modèle. Elle provoquait des réponses trompeuses ou inappropriées des chatbots, mais les dégâts se terminaient avec la conversation. Maintenant, la même faille peut déclencher des actions au niveau de l’hôte, et non plus seulement du texte. Une instruction malveillante cachée à l’intérieur d’un PDF, d’un site Web ou d’un e-mail ne produit plus une réponse étrange. Elle produit une action entreprise sur la machine.

Ce n’est pas quelque chose que l’industrie peut rejeter comme théorique. Les chercheurs de Carnegie Mellon et de l’Université de Washington ont répétivement démontré que des instructions cachées peuvent orienter les grands modèles de langage vers l’exécution d’actions que les utilisateurs n’avaient jamais intentionnelles. Pendant ce temps, les chercheurs qui étudient les modèles de vision ont montré comment des images manipulées peuvent altérer la perception du modèle de manière à influencer le comportement en aval.

Ces expériences étaient autrefois traitées comme des curiosités de laboratoire. Elles ne sont plus académiques lorsque l’IA a accès au système d’exploitation.

Lorsque la capacité de l’agent dépasse le contrôle du défenseur

Même les entreprises qui construisent ces agents reconnaissent la gravité du défi. Ils ont renforcé les filtres pour gérer les prompts, mais ils déclarent ouvertement que contrôler les actions réelles d’un système d’IA reste un domaine de travail actif et non résolu dans l’industrie. L’écart entre ce que l’agent peut faire et ce que les défenseurs peuvent contrôler introduit une nouvelle catégorie de risque que les cahiers de sécurité existants ne peuvent pas absorber.

Les agents d’IA ont franchi une frontière que l’industrie n’est pas entièrement prête à affronter. La seule façon de comprendre cela est d’examiner comment l’injection de prompts se croise maintenant avec les mêmes chaînes d’attaque que les défenseurs ont suivies pendant plus d’une décennie.

Comment l’injection de prompts se relie maintenant aux chaînes d’attaque que tout le monde connaît

Les attaquants ont toujours suivi un modèle prévisible. Le cadre MITRE ATT&CK le présente clairement. L’accès initial est suivi de l’exécution, de la persistance, de la découverte, du mouvement latéral, de la collecte et de l’exfiltration. Les techniques varient, mais la structure est stable.

Ce qui change, c’est le mécanisme de livraison. Au lieu de convaincre un utilisateur d’ouvrir une pièce jointe malveillante ou de cliquer sur un lien dangereux, les attaquants peuvent placer des instructions où l’agent d’IA les lira. L’agent devient l’environnement d’exécution. Il effectue les étapes exactement comme décrit. Le modèle ne remet pas en question si l’instruction est nuisible. Il n’applique pas de jugement ou d’intuition. Il agit simplement.

Une fois qu’un attaquant peut influencer la raison de l’agent, la chaîne d’attaque se met en place rapidement. Un fichier manipulé déclenche l’exécution, des instructions de suivi créent la persistance, des recherches de système fournissent la découverte, et des téléchargements de fichiers permettent la collecte et l’exfiltration. Aucun logiciel malveillant n’est nécessaire. L’agent effectue simplement les étapes comme indiqué.

C’est la partie de l’histoire que les équipes de sécurité ont du mal à s’adapter. Ils ont passé des années à construire des règles de détection, des contrôles et des processus de réponse autour de l’exécution basée sur le code. Les agents d’IA introduisent des interpréteurs de types différents. Ils exécutent via le langage naturel, et non via des binaires compilés. Les outils existants ne sont pas conçus pour suivre ou même analyser ce processus de raisonnement.

Les équipes de sécurité ne sont pas prêtes et ne s’en rendent même pas compte

Les programmes de sécurité supposent toujours qu’un humain est assis entre le contenu et l’action. Les humains peuvent être trompés, mais ils s’arrêtent lorsqu’il y a quelque chose qui ne va pas. Ils remarquent des phrases étranges, remettent en question un comportement inattendu et apportent un jugement à la dernière étape de la décision.

Les agents d’IA ne font rien de tout cela ; ils sont cohérents, littéraux et plus rapides que n’importe quel adversaire. Une seule ligne de texte caché suffit pour instruire l’agent de lire des fichiers sensibles, de se déplacer à travers les applications ou de contacter un serveur distant. Cela place les défenseurs dans une position qu’ils n’ont jamais connue auparavant.

Les équipes de sécurité ont une visibilité limitée sur la façon dont un agent parvient à une décision, et elles ne peuvent pas facilement déterminer si une action provient de l’utilisateur ou de l’IA. La détection traditionnelle de logiciels malveillants n’offre aucune aide, car rien de malveillant n’est exécuté dans le sens habituel, et il n’y a aucune garantie que l’agent remettra en question ou rejettera des instructions nuisibles cachées dans un contenu normal.

Les outils conçus pour le comportement humain ne sont simplement pas transposables à un monde où le langage naturel devient le script qui dirige le comportement du système.

Quels contrôles de compensation fonctionnent réellement

Le durcissement du modèle n’est pas suffisant. Les équipes de sécurité ont besoin de contrôles autour de l’agent qui limitent ce que l’IA peut faire, même lorsque sa raison est influencée.

Plusieurs stratégies montrent des promesses :

L’accès avec les privilèges minimum est essentiel. Les agents ne devraient avoir accès qu’aux fichiers et aux actions nécessaires à leurs tâches. La réduction des autorisations non nécessaires limite l’impact des instructions manipulées.
Les étapes d’approbation humaine peuvent arrêter les actions nuisibles avant qu’elles ne se produisent. Lorsqu’un agent tente une opération sensible, telle que l’exécution d’une commande ou l’accès à des données protégées, l’utilisateur doit approuver ou refuser la demande.
La filtration de contenu crée un tampon entre les matériaux non fiables et l’agent. Le filtrage des documents, des URL et du texte externe réduit les chances que des instructions cachées atteignent le modèle.
La journalisation complète est obligatoire. Chaque action initiée par l’agent doit être enregistrée et examinée. Ces actions doivent être traitées de la même manière que toute activité d’utilisateur privilégié.
La cartographie des comportements de l’agent vers les techniques ATT&CK aide les défenseurs à identifier où l’agent peut être poussé vers des actions nuisibles et où les garde-fous doivent être placés. Cela utilise le même système qui structure déjà la stratégie défensive.

Ces contrôles de compensation ne supprimeront pas le risque. Mais ils le contiendront de manière que les défenses au niveau du modèle ne puissent pas le faire.

Où l’industrie va ensuite

Les agents d’IA représentent un grand changement dans la façon dont l’informatique fonctionne. Ils offrent une productivité incroyable, mais ils introduisent également une catégorie de risque opérationnel qui ne rentre pas dans les cadres de sécurité existants. Les conseils du Centre national de cybersécurité du Royaume-Uni constituent un début, mais la plupart des organisations manquent toujours d’un moyen clair de gouverner les agents qui peuvent agir sur le système.

Ce moment ressemble à celui des premiers jours de l’adoption du cloud. La technologie a évolué plus vite que les contrôles. Les organisations qui s’adaptèrent rapidement furent celles qui reconnurent le changement tôt et construisirent des processus pour s’y adapter.

La même chose sera vraie ici. Les agents d’IA ne sont pas seulement des aides. Ils sont des opérateurs avec une portée au niveau du système. Les sécuriser nécessite de nouveaux cahiers, de nouvelles barrières et de nouvelles façons de modéliser l’exposition.

L’industrie n’a pas besoin de craindre ces outils. Mais elle doit les comprendre. Et elle doit agir rapidement, car les attaquants voient déjà l’opportunité. La question est de savoir si les défenseurs construiront les garde-fous appropriés pendant qu’ils en ont encore le temps.

Related Topics:AI capability attackIQ cybersecurity security

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, apporte plus de 20 ans d'expérience dans l'innovation en cybersécurité avec un accent sur le rendement de la sécurité plus efficace et efficient à grande échelle. Il est l'ancien directeur et co-fondateur du Centre pour la défense informée par les menaces (CTID) de MITRE, où il a uni des équipes de sécurité sophistiquées pour faire progresser l'état de l'art et la pratique de la défense informée par les menaces à l'échelle mondiale. Avant de lancer le CTID, Jon a dirigé le département du renseignement sur les menaces cybernétiques et de l'émulation de l'adversaire de MITRE, où il a fait progresser ces capacités critiques à travers MITRE, et a géré les équipes CALDERA et MITRE ATT&CK®. Jon a dirigé des équipes qui ont développé des normes ouvertes, notamment STIX et TAXII pour le partage du renseignement sur les menaces, et il est le co-créateur d'OVAL tout en gérant le programme d'automatisation de la sécurité de MITRE.