Des leaders d'opinion

Pourquoi les mesures de protection des chatbots constituent une mauvaise limite de sécurité

Publié 18 mars

Mayank Kumar, Ingénieur fondateur en IA, DeepTempo

L'IA d'entreprise a largement dépassé le stade de la preuve de concept. 23 % des organisations déploient déjà des systèmes d'IA agentiques à grande échelle. quelque part dans leur entreprise, et 62 % expérimentent au moins avec des agents d'IAIl ne s'agit pas de projets de recherche. Ce sont des déploiements en production, intégrés à des flux de travail qui interagissent avec les référentiels de code, les données clients, les API internes et l'infrastructure opérationnelle.

La réponse du secteur à cette croissance s'est principalement concentrée sur les opérations précédant la mise en service d'un agent. Les fournisseurs et les chercheurs ont investi massivement dans les mesures de protection préalables au déploiement : politiques de mise à l'échelle de la publicationen renforçant les modèles de base, en filtrant les données d'entrée, en sécurisant la chaîne d'approvisionnement en IA et en assurant l'alignement lors de l'entraînement. Les principaux fournisseurs d'IA ont pris ces mesures. investissements substantiels dans les outils de sécurité destinés aux développeurs, renforçant une hypothèse centrale : si le modèle et ses entrées sont contrôlés, le risque en aval peut être contenu.

C'est un instinct raisonnable, mais de plus en plus incomplet.

L'invite n'est pas un périmètre de sécurité

Les mécanismes de protection agissant au niveau de l'interface du modèle profitent principalement aux équipes qui contrôlent le code de l'application, la configuration du modèle et l'infrastructure sous-jacente. Ils offrent une protection bien moindre aux équipes chargées de sécuriser des systèmes d'IA qu'elles n'ont ni conçus ni modifiés. Il s'agit d'une faille importante, déjà exploitée par les adversaires.

Le dernier rapport d'OpenAI sur le renseignement sur les menaces Ce document décrit précisément cette dynamique. Les acteurs malveillants exploitent activement ChatGPT et des outils similaires en production, non pas en inventant de nouvelles techniques d'attaque, mais en intégrant l'IA aux flux de travail existants pour gagner en rapidité. La reconnaissance devient plus efficace. L'ingénierie sociale se généralise. Le développement de logiciels malveillants s'accélère. La surface d'attaque n'a pas fondamentalement changé ; ce sont la vitesse et le volume de l'exploitation qui ont évolué.

Plus révélateur encore est le comportement des attaquants face à la résistance de ces outils. OpenAI a observé des acteurs malveillants modifier rapidement leurs messages, préservant l'intention sous-jacente tout en variant superficiellement leurs attaques pour contourner les contrôles frontaux. Ce schéma est bien connu des experts en sécurité. Les défenses statiques, qu'il s'agisse d'antivirus basés sur les signatures ou de filtrage des entrées, sont inefficaces contre les adversaires qui innovent plus vite que les mises à jour des règles.

Le défi s'accroît à mesure que les agents gagnent en autonomie. Les agents d'IA modernes n'opèrent pas par simple échange. Ils exécutent des séquences d'actions complexes, utilisant des outils et des autorisations légitimes de manière apparemment normale prise isolément. Un agent utilisant des identifiants valides pour interroger des API internes ne déclenche aucune alerte. Un agent accédant à des bases de données sensibles lors d'un flux de travail en apparence routinier ne génère aucun signal d'alarme immédiat. Chaque action individuelle passe l'inspection ; le danger réside dans leur combinaison et leur enchaînement.

Lorsque la menace se déplace en aval

Les équipes de sécurité chargées de la protection des déploiements d'IA sont aujourd'hui confrontées à une inadéquation structurelle. Les outils dont elles disposent sont principalement conçus pour déterminer ce qu'un modèle est autorisé à dire. Le véritable risque qu'elles doivent gérer réside dans les actions d'un agent sur l'ensemble des systèmes, réseaux et identités une fois qu'il a obtenu les autorisations nécessaires et qu'il est déployé en environnement de production.

Les systèmes de protection basés sur les invites partagent les faiblesses fondamentales des approches de sécurité antérieures, fondées sur des règles. Leur fragilité tient à leur dépendance à la prédiction des schémas d'attaque. Leur réactivité exige qu'une personne ait observé et codifié la menace avant que la défense puisse agir. Enfin, ils sont rapidement dépassés par les adversaires qui ont adopté l'itération assistée par l'IA comme pratique courante. Un système de défense qui s'appuie sur le filtrage des entrées pour détecter un acteur malveillant utilisant un modèle de langage afin de générer de nouvelles variations d'invites se trouve dans une situation fondamentalement défavorable.

Les véritables vulnérabilités apparaissent après le déploiement. Les actions pilotées par les agents se propagent dans les environnements d'une manière qu'aucun test préalable au lancement ne peut pleinement anticiper. Les agents rencontrent des cas limites, interagissent avec des sources de données pour lesquelles ils n'ont pas été conçus, reçoivent des entrées de systèmes extérieurs à l'architecture d'origine et prennent des décisions dont les effets s'accumulent au fil du temps. Les tests préalables au déploiement ne sont qu'un instantané ; la production est un flux continu. Se baser uniquement sur cet instantané revient à accepter que tout ce qui se passe dans le flux continu ne soit pas surveillé.

Déplacer la frontière de la sécurité vers le comportement des agents

Renforcer la résilience de l'IA exige une approche différente : l'objectif ne doit pas être de protéger l'interface du modèle, mais de détecter les intentions des attaquants à travers les conséquences observables des actions de l'agent. Cette distinction est essentielle. L'intention ne transparaît pas toujours dans les propos de l'agent ni dans les entrées qu'il reçoit.

La sécurisation des systèmes d'IA doit aller au-delà des simples vérifications d'alignement et des évaluations de robustesse. Elle doit inclure une évaluation continue du comportement des agents lorsqu'ils interagissent avec des outils, des API et des données réelles. Une évaluation statique lors du déploiement est nécessaire, mais insuffisante. L'environnement de menaces dans lequel un agent évolue est en constante mutation. Le comportement des agents doit donc être surveillé de manière continue.

Il s'agit d'un problème que le renforcement des alertes ne peut résoudre. Détecter les intentions malveillantes à mesure qu'elles se manifestent dans les séquences d'actions exige des modèles capables de comprendre les comportements complexes et séquentiels en environnement opérationnel. Les modèles d'apprentissage profond, conçus spécifiquement pour l'analyse comportementale, peuvent y parvenir d'une manière que les systèmes à base de règles et les outils SIEM traditionnels ne permettent pas. Ils apprennent à reconnaître le comportement normal dans le contexte complet de l'activité des agents et mettent en évidence les anomalies indiquant un changement, même lorsqu'aucune action individuelle ne déclencherait d'alerte conventionnelle.

La logique sous-jacente reste valable quel que soit le contexte de déploiement : une sécurité ancrée au niveau de la réponse immédiate sera toujours vulnérable face à des attaquants opérant au niveau de l’action. La défense doit se déplacer là où se situe réellement la menace.

Que doivent faire les équipes de sécurité maintenant

Pour les responsables de la sécurité qui tentent d'anticiper ce problème, quelques changements pratiques peuvent combler l'écart entre le niveau actuel des défenses et le niveau nécessaire.

Évaluez la sécurité de l'IA sur l'ensemble de la pile applicative. Le modèle de base n'en est qu'une couche. Il est tout aussi important d'examiner le comportement des agents une fois déployés en production, les outils qu'ils utilisent, les permissions dont ils disposent et l'évolution de ces choix au fil du temps. Les évaluations de sécurité qui s'arrêtent à la limite du modèle laissent la surface opérationnelle largement inexplorée.

Appliquez le principe du moindre privilège au niveau de l'agent. Les agents d'IA ne doivent avoir accès qu'aux outils, API et données nécessaires à leur fonction. Cette contrainte est importante même lorsque les résultats de l'agent semblent anodins. Limiter le périmètre d'accès réduit l'impact d'un agent compromis et établit des références comportementales plus claires, ce qui rend la détection d'anomalies plus efficace.

Considérez les agents comme des entités générant des données de télémétrie. Chaque action d'un agent constitue un point de données. Les équipes de sécurité doivent concevoir leur logique de détection en fonction des chaînes d'actions initiées par l'agent, et non uniquement des interactions avec l'utilisateur qui les précèdent. Ce changement de perspective déplace la surveillance des actions demandées à l'agent vers ses actions réelles, révélant ainsi les intentions de l'attaquant.

Investissez dans une surveillance comportementale continue grâce à des modèles de détection spécialement conçus à cet effet. Identifier les intentions malveillantes dès leur apparition à travers les séquences d'actions exige des compétences spécialisées. Les outils de surveillance classiques ont été conçus pour les activités humaines. Le comportement des agents, avec sa rapidité, son volume et sa structure en plusieurs étapes, requiert une infrastructure de détection conçue dès le départ en tenant compte de ce contexte.

Privilégier la défense collective. Les techniques d'attaque basées sur l'IA évoluent plus vite que toute organisation ne peut les suivre. La recherche partagée, la collaboration ouverte et le renseignement communautaire sur les menaces ne sont pas des options, mais des éléments essentiels d'une stratégie de sécurité IA. Les défenseurs qui restent à la pointe sont ceux qui contribuent au savoir collectif et en tirent profit.

La sécurité comportementale tient ses promesses

Pour les équipes de sécurité qui adoptent cette approche, les avantages opérationnels sont concrets. Fonder la détection sur le comportement des agents plutôt que sur les résultats des modèles permet d'identifier plus tôt les intentions malveillantes, même lorsque les attaques sont furtives, adaptatives ou chiffrées. Les attaquants qui parviennent à modifier leurs messages pour contourner les filtres d'entrée doivent encore agir. Ces actions laissent des traces. La détection comportementale repère ces traces avant que les dommages ne se propagent.

Plus important encore, cette approche offre aux organisations une voie crédible pour déployer des agents d'IA à grande échelle sans accepter un risque de sécurité proportionnel. La question qui freine de nombreuses entreprises n'est pas de savoir si les agents d'IA peuvent apporter de la valeur, mais plutôt si leur déploiement peut être mené avec une confiance suffisante pour que le niveau de sécurité ne se dégrade pas à mesure que le déploiement s'étend. La sécurité comportementale, fondée sur le mode de fonctionnement réel des agents plutôt que sur les données qu'ils reçoivent, offre cette confiance, contrairement aux contrôles basés sur des invites.

Le périmètre de sécurité a été mal défini, une erreur compréhensible lorsque l'IA était un outil passif. Ce n'est plus le cas : les systèmes agents agissent, s'enchaînent, s'intensifient et se combinent dans des environnements non prévus par les tests préalables. Les organisations qui prendront conscience de ce problème au plus tôt seront celles qui pourront déployer l'IA à grande échelle en toute confiance. Les autres passeront les prochaines années à découvrir, faille après faille, que contrôler les dires d'un modèle ne revient jamais à contrôler ses actions.

Rubriques connexes:Chatbot Chatbots DeepTempo

Mayank Kumar, ingénieur fondateur en IA, DeepTempo

Mayank Kumar est l'ingénieur fondateur en IA chez DeepTempoAu sein de l'entreprise, il dirige la conception et le développement du modèle de langage de journalisation (LogLM), élément fondamental de l'organisation. Fort d'une solide expérience académique et de recherche en intelligence artificielle générative et multimodale, il apporte une expertise pointue à la création de modèles spécifiques au domaine, qui améliorent la détection et la réponse aux menaces dans les environnements de cybersécurité.