Connect with us

Pourquoi les garanties de chatbot sont la mauvaise frontière de sécurité

Leaders d’opinion

Pourquoi les garanties de chatbot sont la mauvaise frontière de sécurité

mm

L’IA d’entreprise est allée bien au-delà de la phase de preuve de concept. 23% des organisations déployent déjà des systèmes d’IA agentic quelque part dans leur entreprise, et 62% sont au moins en train d’expérimenter avec des agents d’IA. Ce ne sont pas des projets de recherche. Ce sont des déploiements de production, intégrés dans des flux de travail qui touchent les référentiels de code, les données client, les API internes et les infrastructures opérationnelles.

La réponse de l’industrie à cette croissance a largement porté sur ce qui se passe avant qu’un agent ne soit mis en ligne. Les fournisseurs et les chercheurs ont consacré leur énergie à des garanties de pré-déploiement : publier des politiques de mise à l’échelle, durcir les modèles de base, filtrer les entrées, sécuriser la chaîne d’approvisionnement de l’IA et faire respecter l’alignement au moment de la formation. Les principaux fournisseurs d’IA ont fait des investissements importants dans des outils de sécurité à l’intention des développeurs, renforçant une hypothèse centrale : si le modèle et ses entrées sont contrôlés, les risques en aval peuvent être contenues.

C’est un instinct raisonnable, mais de plus en plus incomplet.

L’invite n’est pas une frontière de sécurité

Les garanties qui fonctionnent à l’interface du modèle profitent principalement aux équipes qui contrôlent le code de l’application, la configuration du modèle et l’infrastructure sous-jacente. Ils offrent beaucoup moins de protection aux défenseurs qui sont chargés de sécuriser les systèmes d’IA qu’ils n’ont pas construits et ne peuvent pas modifier. C’est un angle mort important, et les adversaires l’ont déjà trouvé.

Le dernier rapport d’intelligence sur les menaces d’OpenAI documente exactement cette dynamique. Les acteurs menaçants abusent activement de ChatGPT et d’outils similaires dans des environnements de production, non en inventant de nouvelles techniques d’attaque, mais en intégrant l’IA dans les flux de travail existants pour aller plus vite. La reconnaissance devient plus efficace. L’ingénierie sociale s’étend. Le développement de logiciels malveillants s’accélère. La surface d’attaque n’a pas fondamentalement changé ; la vitesse et le volume de l’exploitation ont.

Plus éloquent est la façon dont les attaquants ont réagi lorsque ces outils ont riposté. OpenAI a observé que les acteurs menaçants modifiaient rapidement leurs invites, préservant l’intention sous-jacente tout en faisant varier les variations de surface pour contourner les contrôles de front-end. C’est un modèle que les praticiens de la sécurité ont vu auparavant. Les défenses statiques, qu’il s’agisse de logiciels antivirus basés sur des signatures ou de filtrage d’entrées, ne tiennent pas contre des adversaires qui itèrent plus vite que les mises à jour des règles ne peuvent suivre.

Le défi s’accroît à mesure que les agents gagnent en autonomie. Les agents d’IA modernes n’opèrent pas dans un seul échange. Ils exécutent des séquences d’actions multi-étapes, invoquant des outils et des autorisations légitimes de manière qui semble tout à fait normale en isolation. Un agent utilisant des informations d’identification valides pour énumérer les API internes ne déclenche pas d’alerte. Un agent accédant à des magasins de données sensibles pendant ce qui ressemble à un flux de travail de routine ne génère pas de drapeau immédiat. Chaque action individuelle passe l’inspection ; le danger vit dans la combinaison et la séquence.

Lorsque la menace se déplace en aval

Les équipes de sécurité qui défendent les déploiements d’IA aujourd’hui sont confrontées à un décalage structurel. Les outils disponibles pour eux sont largement conçus pour raisonner sur ce qu’un modèle est autorisé à dire. Le risque réel qu’ils doivent gérer est ce qu’un agent fait à travers les systèmes, les réseaux et les identités une fois qu’il a été accordé des autorisations et mis en liberté dans un environnement de production.

Les garanties basées sur l’invite partagent les faiblesses fondamentales des approches de sécurité à base de règles. Ils sont fragiles car ils dépendent de la prédiction des modèles d’attaque à l’avance. Ils sont réactifs car ils nécessitent que quelqu’un ait observé et codifié la menace avant que la défense puisse fonctionner. Et ils sont dépassés par des adversaires qui ont adopté l’itération assistée par l’IA comme pratique standard. Un défenseur qui compte sur le filtrage d’entrées pour attraper un acteur menaçant qui utilise un modèle de langage pour générer de nouvelles variations d’invite est dans une position fondamentalement perdante.

L’exposition réelle se produit après le déploiement. Les actions des agents se propagent dans les environnements de manière que les tests de pré-lancement ne peuvent pas pleinement anticiper. Les agents rencontrent des cas de bord, interagissent avec des sources de données qu’ils n’étaient pas conçus pour gérer, reçoivent des entrées de systèmes en dehors de l’architecture d’origine et prennent des décisions qui se cumulent avec le temps. Les tests de pré-déploiement sont un instantané ; la production est un flux continu. Défendre uniquement l’instantané signifie accepter que tout ce qui se passe dans le flux est effectivement non surveillé.

Déplacer la frontière de sécurité vers le comportement de l’agent

Construire la résilience de l’IA nécessite un autre cadre et l’objectif ne doit pas être de protéger l’interface du modèle. Il doit s’agir de détecter l’intention de l’attaquant à travers les conséquences observables des actions de l’agent. C’est une distinction significative. L’intention ne ressurface pas toujours dans ce qu’un agent dit ou dans les entrées qu’il reçoit.

La sécurisation des systèmes d’IA doit aller au-delà des vérifications d’alignement et des évaluations de robustesse pour inclure une évaluation continue de la façon dont les agents se comportent une fois qu’ils interagissent avec de vrais outils, de vraies API et de vraies données. L’évaluation statique au moment du déploiement est nécessaire mais insuffisante. L’environnement de menace dans lequel un agent opère change constamment. Le comportement de l’agent doit être surveillé avec la même continuité.

C’est un problème que le durcissement de l’invite ne peut pas résoudre. La détection de l’intention malveillante à mesure qu’elle émerge à travers des séquences d’actions nécessite des modèles capables de comprendre un comportement complexe et séquentiel dans des environnements opérationnels. Les modèles de base d’apprentissage profond conçus spécifiquement pour l’analyse comportementale peuvent le faire de manière que les systèmes à base de règles et les outils de surveillance traditionnels ne peuvent pas. Ils apprennent ce que le comportement normal ressemble à travers le contexte complet de l’activité de l’agent, et ils mettent en surface les écarts qui indiquent que quelque chose a changé, même si aucune action individuelle ne déclenche une alerte conventionnelle.

La logique sous-jacente est valable quelle que soit le contexte de déploiement : la sécurité ancrée à la couche d’invite perdra constamment face aux attaquants qui opèrent à la couche d’action. La défense doit se déplacer vers où la menace vit réellement.

Ce que les équipes de sécurité devraient faire maintenant

Pour les dirigeants de la sécurité qui tentent de devancer cela, quelques changements pratiques peuvent combler l’écart entre où les défenses se trouvent actuellement et où elles doivent être.

Évaluer la sécurité de l’IA à travers la pile d’application complète. Le modèle de base est une couche. Équivalent en importance est la façon dont les agents se comportent une fois déployés dans la production, quels outils ils appellent, quels privilèges ils utilisent et comment ces choix évoluent avec le temps. Les évaluations de sécurité qui s’arrêtent à la limite du modèle laissent la surface opérationnelle largement non examinée.

Faire respecter le principe du moindre privilège au niveau de l’agent. Les agents d’IA ne devraient avoir accès qu’aux outils, API et données nécessaires à leur fonction désignée. Cette contrainte est importante même lorsque les sorties de l’agent semblent inoffensives. La limitation de la portée réduit la surface d’attaque d’un agent compromis et crée des lignes de base de comportement plus claires qui rendent la détection d’anomalies plus efficace.

Traiter les agents comme des identités qui génèrent des données de télémétrie. Chaque action qu’un agent prend est un point de données. Les équipes de sécurité devraient construire une logique de détection autour de chaînes d’actions initiées par l’agent, et non seulement les invites de l’utilisateur qui les précèdent. Ce changement de perspective déplace la surveillance de ce que quelqu’un a demandé à l’agent de faire à ce que l’agent a réellement fait, qui est où l’intention de l’attaquant devient visible.

Investir dans une surveillance comportementale continue avec des modèles de détection conçus spécifiquement pour cette tâche. L’identification de l’intention malveillante à mesure qu’elle émerge à travers des séquences d’actions nécessite une capacité spécialisée. Les outils de surveillance conventionnels ont été conçus pour des modèles d’activité générés par l’homme. Le comportement de l’agent, avec sa vitesse, son volume et sa structure multi-étapes, exige une infrastructure de détection conçue de scratch avec ce contexte à l’esprit.

Donner la priorité à la défense collective. Les techniques d’attaque assistées par l’IA évoluent plus vite que toute organisation ne peut suivre. La recherche partagée, la collaboration ouverte et l’intelligence sur les menaces de la communauté ne sont pas des compléments optionnels à une stratégie de sécurité de l’IA ; ils sont des entrées de base. Les défenseurs qui restent à jour sont ceux qui contribuent à et tirent parti des connaissances collectives.

La sécurité comportementale livre réellement

Pour les équipes de sécurité qui font ce changement, le rendement opérationnel est concret. Ancrez la détection dans le comportement de l’agent plutôt que dans les sorties du modèle permet une identification plus précoce de l’intention malveillante, même lorsque les attaques sont furtives, adaptatives ou chiffrées. Les attaquants qui mutent avec succès leurs invites pour passer les filtres d’entrées doivent toujours agir. Ces actions laissent des traces. La détection comportementale trouve ces traces avant que les dommages ne se propagent.

Peut-être plus important encore, cette approche donne aux organisations un chemin crédible pour déployer des agents d’IA à grande échelle sans accepter un risque de sécurité proportionnel. La question qui retient de nombreuses entreprises n’est pas de savoir si les agents d’IA peuvent livrer de la valeur ; c’est de savoir s’ils peuvent être déployés avec suffisamment de confiance pour que la posture de sécurité ne se dégrade pas à mesure que le déploiement augmente. La sécurité comportementale, ancrée dans la façon dont les agents fonctionnent réellement plutôt que dans les entrées qu’ils reçoivent, fournit cette confiance d’une manière que les contrôles basés sur l’invite ne peuvent pas structuralement.

La frontière de sécurité a été tracée au mauvais endroit, et cette erreur avait du sens lorsque l’IA était un outil qui attendait l’entrée. Elle n’attend plus, les systèmes agentic agissent, enchaînent, s’étendent et se cumulent à travers des environnements que les tests de pré-déploiement n’ont pas anticipés. Les organisations qui reconnaissent cela le plus tôt seront celles qui mettront réellement l’IA à l’échelle avec confiance. Tout le monde else passera les prochaines années à découvrir, faille par faille, que contrôler ce qu’un modèle dit n’était jamais la même chose que contrôler ce qu’il fait.

Mayank Kumar est l'ingénieur en intelligence artificielle fondateur de DeepTempo, où il dirige la conception et le développement du modèle de langage de journal (LogLM) fondamental de l'entreprise. Avec une solide formation académique et une expérience de recherche en intelligence artificielle générative et multimodale, il apporte une expertise spécialisée pour la construction de modèles spécifiques au domaine qui améliorent la détection et la réponse aux menaces dans les environnements de cybersécurité.