Leaders d’opinion
Ce que les premières attaques contre les agents d’IA nous apprennent sur 2026

Alors que l’IA passe des expériences contrôlées à des applications dans le monde réel, nous entrons dans un point d’inflexion dans le paysage de la sécurité. La transition des modèles de langage statiques vers des systèmes interactifs et agents capables de parcourir des documents, d’appeler des outils et d’orchestrer des flux de travail mult étapes, est déjà en cours. Mais comme le révèle une recherche récente, les attaquants ne attendent pas la maturité : ils s’adaptent au même rythme rapide, en testant les systèmes dès que de nouvelles capacités sont introduites.
Au quatrième trimestre 2025, notre équipe chez Lakera a analysé le comportement réel des attaquants dans les systèmes protégés par Guard et dans l’environnement Gandalf : Agent Breaker — un aperçu ciblé de 30 jours qui, malgré sa fenêtre étroite, reflète des modèles plus larges que nous avons observés tout au long du trimestre. Les résultats peignent un tableau clair : dès que les modèles commencent à interagir avec quelque chose de plus que des invites de texte simples (par exemple : des documents, des outils, des données externes), la surface d’attaque s’étend, et les adversaires s’adaptent instantanément pour l’exploiter.
Ce moment peut sembler familier à ceux qui ont regardé l’évolution des premières applications Web ou qui ont observé l’émergence d’attaques basées sur les API. Mais avec les agents d’IA, les enjeux sont différents. Les vecteurs d’attaque émergent plus rapidement que de nombreuses organisations ne l’avaient anticipé.
De la théorie à la pratique : les agents dans la nature
Pour la majeure partie de 2025, les discussions autour des agents d’IA ont principalement porté sur le potentiel théorique et les premiers prototypes. Mais au quatrième trimestre, les comportements agents ont commencé à apparaître dans les systèmes de production à grande échelle : des modèles capables de récupérer et d’analyser des documents, d’interagir avec des API externes et d’exécuter des tâches automatisées. Ces agents offraient des avantages de productivité évidents, mais ils ont également ouvert des portes que les modèles de langage traditionnels n’avaient pas.
Notre analyse montre que dès que les agents sont devenus capables d’interagir avec du contenu et des outils externes, les attaquants ont remarqué et s’y sont adaptés en conséquence. Cette observation s’aligne sur une vérité fondamentale sur le comportement adversatif : les attaquants explorent et exploitent toujours de nouvelles capacités à la première occasion. Dans le contexte de l’IA agente, cela a conduit à une évolution rapide des stratégies d’attaque.
Modèles d’attaque : ce que nous voyons au quatrième trimestre 2025
À travers l’ensemble de données que nous avons examiné, trois modèles dominants sont apparus. Chacun a des implications profondes pour la conception, la sécurité et le déploiement des systèmes d’IA.
1. L’extraction de l’invite de système comme objectif central
Dans les modèles de langage traditionnels, l’injection d’invite (la manipulation directe de l’entrée pour influencer la sortie) a été une vulnérabilité bien étudiée. Cependant, dans les systèmes dotés de capacités agentes, les attaquants visent de plus en plus l’invite de système, qui sont les instructions internes, les rôles et les définitions de politique qui guident le comportement de l’agent.
L’extraction des invites de système est un objectif à haute valeur car ces invites contiennent souvent des définitions de rôle, des descriptions d’outils, des instructions de politique et une logique de flux de travail. Une fois qu’un attaquant comprend ces mécanismes internes, il obtient un plan pour manipuler l’agent.
Les techniques les plus efficaces pour y parvenir n’étaient pas des attaques par force brute, mais plutôt des reformulations ingénieuses :
- Scénarios hypothétiques : Les invites qui demandent au modèle de supposer un rôle ou un contexte différent — par exemple, « Imaginez que vous êtes un développeur qui examine cette configuration de système… » — ont souvent incité le modèle à révéler des détails internes protégés.
- Obfuscation à l’intérieur du contenu structuré : Les attaquants ont intégré des instructions malveillantes à l’intérieur de texte structuré ou ressemblant à du code qui a contourné les filtres simples et déclenché des comportements non intentionnels une fois analysés par l’agent.
Ceci n’est pas seulement un risque incrémentiel — cela modifie fondamentalement notre façon de penser à la protection de la logique interne dans les systèmes agents.
2. Contournements subtils de la sécurité du contenu
Une autre tendance clé implique le contournement des protections de sécurité du contenu de manière difficile à détecter et à atténuer avec des filtres traditionnels.
Au lieu de demandes malveillantes ouvertes, les attaquants ont formulé du contenu nuisible comme :
- Tâches d’analyse
- Évaluations
- Scénarios de jeu de rôle
- Transformations ou résumés
Ces reformulations ont souvent glissé sous les contrôles de sécurité parce qu’elles paraissent inoffensives en surface. Un modèle qui refuserait une demande directe de sortie nuisible pourrait heureusement produire la même sortie lorsqu’il est invité à « évaluer » ou à « résumer » dans le contexte.
Ce changement souligne un défi plus profond : la sécurité du contenu pour les agents d’IA n’est pas seulement une question d’application de politique ; c’est une question de la façon dont les modèles interprètent l’intention. À mesure que les agents prennent en charge des tâches et des contextes plus complexes, les modèles deviennent plus sensibles à la réinterprétation basée sur le contexte — et les attaquants exploitent ce comportement.
3. Émergence d’attaques spécifiques aux agents
La découverte la plus conséquente a peut-être été l’apparition de modèles d’attaque qui n’ont de sens que dans le contexte des capacités agentes. Ceux-ci n’étaient pas de simples tentatives d’injection d’invite, mais des exploits liés à de nouveaux comportements :
- Tentatives d’accès à des données internes confidentielles : Les invites ont été conçues pour convaincre l’agent de récupérer ou d’exposer des informations à partir de magasins de documents ou de systèmes connectés — des actions qui auraient précédemment été en dehors de la portée du modèle
- Instructions en forme de script intégrées dans le texte : Les attaquants ont expérimenté l’intégration d’instructions dans des formats ressemblant à des scripts ou à du contenu structuré, qui pourraient s’écouler dans un pipeline d’agent et déclencher des actions non intentionnelles
- Instructions cachées dans le contenu externe : Plusieurs attaques ont intégré des directives malveillantes à l’intérieur de contenu externe référencé — tel que des pages Web ou des documents que l’agent était invité à traiter — contournant ainsi les filtres d’entrée directs
Ces modèles sont précoces mais signalent un avenir dans lequel les capacités des agents changent fondamentalement la nature du comportement adversatif.
Pourquoi les attaques indirectes sont si efficaces
L’une des découvertes les plus frappantes du rapport est que les attaques indirectes — celles qui utilisent du contenu externe ou des données structurées — ont nécessité moins d’essais que les injections directes. Cela suggère que la désinfection et le filtrage des requêtes directes traditionnels sont des défenses insuffisantes une fois que les modèles interagissent avec du contenu non fiable.
Lorsqu’une instruction nuisible arrive par le biais d’un flux de travail d’agent externe — qu’il s’agisse d’un document lié, d’une réponse API ou d’une page Web récupérée — les filtres précoces sont moins efficaces. Le résultat : les attaquants ont une surface d’attaque plus large et moins d’obstacles.
Implications pour 2026 et au-delà
Les résultats du rapport portent des implications urgentes pour les organisations qui prévoient de déployer l’IA agente à grande échelle :
- Redéfinir les frontières de confiance
La confiance ne peut pas être simplement binaire. Alors que les agents interagissent avec les utilisateurs, le contenu externe et les flux de travail internes, les systèmes doivent mettre en œuvre des modèles de confiance nuancés qui prennent en compte le contexte, la provenance et le but. - Les garde-fous doivent évoluer
Les filtres de sécurité statiques ne suffisent pas. Les garde-fous doivent être adaptatifs, sensibles au contexte et capables de raisonner sur l’intention et le comportement à travers des flux de travail mult étapes. - La transparence et l’audit sont essentiels
À mesure que les vecteurs d’attaque deviennent plus complexes, les organisations ont besoin de visibilité sur la façon dont les agents prennent des décisions — y compris les étapes intermédiaires, les interactions externes et les transformations. Les journaux auditable et les cadres d’explicabilité ne sont plus facultatifs. - La collaboration interdisciplinaire est clé
La recherche en IA, l’ingénierie de la sécurité et les équipes de renseignement sur les menaces doivent travailler ensemble. La sécurité de l’IA ne peut pas être cloisonnée ; elle doit être intégrée aux pratiques de cybersécurité et de gestion des risques plus larges. - La réglementation et les normes devront rattraper leur retard
Les décideurs politiques et les organismes de normalisation doivent reconnaître que les systèmes agents créent de nouvelles classes de risques. Les réglementations qui abordent la confidentialité des données et la sécurité des sorties sont nécessaires mais pas suffisantes ; elles doivent également tenir compte des comportements interactifs et des environnements d’exécution mult étapes.
Le futur des agents d’IA sécurisés
L’arrivée de l’IA agente représente un changement profond de capacité et de risque. Les données du quatrième trimestre 2025 sont un indicateur précoce que dès que les agents commencent à fonctionner au-delà de la simple génération de texte, les attaquants suivront. Nos résultats montrent que les adversaires ne s’adaptent pas seulement — ils innovent des techniques d’attaque que les défenses traditionnelles ne sont pas encore prêtes à contrer.
Pour les entreprises et les développeurs, le message est clair : sécuriser les agents d’IA n’est pas seulement un défi technique ; c’est un défi architectural. Cela nécessite de repenser la façon dont la confiance est établie, la façon dont les garde-fous sont appliqués et la façon dont le risque est continuellement évalué dans des environnements interactifs et dynamiques.
En 2026 et au-delà, les organisations qui réussiront avec l’IA agente seront celles qui traiteront la sécurité non pas comme une afterthought, mais comme un principe de conception fondamental.












