Leaders dâopinion
ContrĂŽle des hallucinations : avantages et risques de la mise en Ćuvre de LLM dans les processus de sĂ©curitĂ©
Les grands modèles de langage (LLM) formés sur d’immenses quantités de données peuvent rendre les équipes de sécurité plus intelligentes. Les LLM fournissent des suggestions et des conseils en ligne sur la réponse, les audits, la gestion de la posture et plus encore. La plupart des équipes de sécurité expérimentent ou utilisent des LLM pour réduire les tâches manuelles dans les flux de travail. Cela peut être à la fois pour des tâches banales et complexes.
Par exemple, un LLM peut interroger un employé par courriel s’il a l’intention de partager un document qui est la propriété de l’entreprise et traiter la réponse avec une recommandation pour un praticien de la sécurité. Un LLM peut également être chargé de traduire les demandes pour rechercher des attaques de la chaîne d’approvisionnement sur des modules open source et de lancer des agents axés sur des conditions spécifiques — de nouveaux contributeurs à des bibliothèques largement utilisées, des modèles de code incorrects — avec chaque agent prêt pour cette condition spécifique.
Cependant, ces puissants systèmes d’IA comportent des risques importants qui diffèrent des autres risques auxquels sont confrontées les équipes de sécurité. Les modèles qui alimentent les LLM de sécurité peuvent être compromis par l’injection de requêtes ou l’empoisonnement des données. Les boucles de rétroaction continues et les algorithmes d’apprentissage automatique sans orientation humaine suffisante peuvent permettre aux acteurs malveillants de sonder les contrôles et d’induire des réponses mal ciblées. Les LLM sont sujets aux hallucinations, même dans des domaines limités. Même les meilleurs LLM inventent des choses lorsqu’ils ne connaissent pas la réponse.
Les processus de sécurité et les politiques d’IA autour de l’utilisation des LLM et des flux de travail deviendront plus critiques à mesure que ces systèmes deviendront plus courants dans les opérations de cybersécurité et la recherche. S’assurer que ces processus sont respectés et mesurés et pris en compte dans les systèmes de gouvernance sera crucial pour garantir que les DSI peuvent fournir une couverture de GRC (Gouvernance, Risque et Conformité) suffisante pour répondre aux nouvelles exigences comme le Cadre de cybersécurité 2.0.
La grande promesse des LLM dans la cybersécurité
Les DSI et leurs équipes luttent constamment pour suivre la montée en puissance des nouvelles cyberattaques. Selon Qualys, le nombre de vulnérabilités signalées en 2023 a atteint un nouveau record de 26 447. C’est une augmentation de plus de 5 fois par rapport à 2013.
Ce défi n’a fait qu’empirer à mesure que la surface d’attaque de l’organisation moyenne s’est élargie avec chaque année qui passe. Les équipes d’application doivent sécuriser et surveiller de nombreuses applications logicielles. Les technologies de cloud computing, d’API, de multi-cloud et de virtualisation ont ajouté une complexité supplémentaire. Avec les outils et processus de CI/CD modernes, les équipes d’application peuvent livrer plus de code, plus rapidement et plus fréquemment. Les microservices ont à la fois fragmenté les applications monolithiques en de nombreuses API et surface d’attaque, et percé de nombreux trous dans les pare-feu mondiaux pour la communication avec des services externes ou des appareils clients.
Les LLM avancés offrent une grande promesse pour réduire la charge de travail des équipes de cybersécurité et améliorer leurs capacités. Les outils de codage alimentés par l’IA ont largement pénétré le développement logiciel. Les recherches de Github ont montré que 92 % des développeurs utilisent ou ont utilisé des outils d’IA pour la suggestion et la complétion de code. La plupart de ces outils « copilote » ont certaines capacités de sécurité. En fait, les disciplines programmatiques avec des résultats relativement binaires, telles que la codification (le code passera ou échouera aux tests unitaires), sont bien adaptées aux LLM. Au-delà de l’analyse de code pour le développement logiciel et dans le pipeline CI/CD, l’IA pourrait être précieuse pour les équipes de cybersécurité de plusieurs autres manières :
- Analyse améliorée : Les LLM peuvent traiter d’immenses quantités de données de sécurité (journaux, alertes, renseignements sur les menaces) pour identifier des modèles et des corrélations invisibles pour les humains. Ils peuvent le faire dans plusieurs langues, 24 heures sur 24, et dans de nombreuses dimensions simultanément. Cela ouvre de nouvelles opportunités pour les équipes de sécurité. Les LLM peuvent réduire une pile d’alertes en quasi-temps réel, en signalant celles qui sont les plus susceptibles d’être graves. Grâce à l’apprentissage par renforcement, l’analyse devrait s’améliorer avec le temps.
- Automatisation : Les LLM peuvent automatiser les tâches des équipes de sécurité qui nécessitent normalement des échanges conversationnels. Par exemple, lorsque l’équipe de sécurité reçoit un indicateur de compromission et doit demander au propriétaire d’un point de terminaison s’il s’est réellement connecté à un appareil ou s’il se trouve à l’extérieur de sa zone de travail normale, le LLM peut effectuer ces opérations simples, puis suivre avec des questions si nécessaire et des liens ou des instructions. Cela était auparavant une interaction que devait mener un membre de l’équipe d’IT ou de sécurité. Les LLM peuvent également fournir des fonctionnalités plus avancées. Par exemple, un Copilot de sécurité de Microsoft peut générer des rapports d’analyse d’incident et traduire des codes de logiciels malveillants complexes en descriptions naturelles.
- Apprentissage continu et réglage : Contrairement aux systèmes d’apprentissage automatique précédents pour les politiques et la compréhension de la sécurité, les LLM peuvent apprendre en temps réel en ingérant les évaluations humaines de leurs réponses et en réglant sur de nouvelles piscines de données qui peuvent ne pas être contenues dans les fichiers journaux internes. En fait, en utilisant le même modèle fondamental sous-jacent, les LLM de cybersécurité peuvent être réglés pour différentes équipes et leurs besoins, flux de travail ou tâches spécifiques à une région ou à un secteur. Cela signifie également que l’ensemble du système peut être aussi intelligent que le modèle, avec des changements se propageant rapidement sur toutes les interfaces.
Risque des LLM pour la cybersécurité
En tant que nouvelle technologie avec un historique court, les LLM comportent des risques importants. Pire encore, comprendre la pleine étendue de ces risques est difficile, car les sorties des LLM ne sont pas 100 % prévisibles ou programmatiques. Par exemple, les LLM peuvent « halluciner » et inventer des réponses ou répondre incorrectement aux questions, sur la base de données imaginaires. Avant d’adopter des LLM pour des cas d’utilisation de cybersécurité, il faut considérer les risques potentiels, notamment :
- Injection de requête : Les attaquants peuvent créer des requêtes malveillantes spécifiquement pour produire des sorties trompeuses ou nuisibles. Ce type d’attaque peut exploiter la tendance des LLM à générer du contenu en fonction des requêtes qu’ils reçoivent. Dans les cas d’utilisation de cybersécurité, l’injection de requête pourrait être le plus risquée sous la forme d’une attaque interne ou d’une attaque par un utilisateur non autorisé qui utilise des requêtes pour modifier de manière permanente les sorties du système en faisant pencher le comportement du modèle. Cela pourrait générer des sorties inexactes ou invalides pour les autres utilisateurs du système.
- Empoisonnement des données : Les données de formation sur lesquelles reposent les LLM peuvent être intentionnellement corrompues, compromettant leur processus de prise de décision. Dans les contextes de cybersécurité, où les organisations utilisent probablement des modèles formés par les fournisseurs d’outils, l’empoisonnement des données pourrait survenir lors du réglage du modèle pour le client et le cas d’utilisation spécifiques. Le risque ici pourrait être qu’un utilisateur non autorisé ajoute de mauvaises données — par exemple, des fichiers journaux corrompus — pour subvertir le processus de formation. Un utilisateur autorisé pourrait également le faire involontairement. Le résultat serait des sorties de LLM basées sur de mauvaises données.
- Hallucinations : Comme mentionné précédemment, les LLM peuvent générer des réponses incorrectes, illogiques ou même malveillantes en raison de malentendus sur les requêtes ou de défauts de données sous-jacentes. Dans les cas d’utilisation de cybersécurité, les hallucinations peuvent entraîner des erreurs critiques qui paralysent les renseignements sur les menaces, la triage et la correction des vulnérabilités, et plus encore. Puisque la cybersécurité est une activité critique, les LLM doivent être tenus à un niveau plus élevé de gestion et de prévention des hallucinations dans ces contextes.
À mesure que les systèmes d’IA deviennent plus capables, leurs déploiements en matière de sécurité de l’information se développent rapidement. Pour être clair, de nombreuses sociétés de cybersécurité utilisent depuis longtemps l’appariement de modèles et l’apprentissage automatique pour le filtrage dynamique. Ce qui est nouveau dans l’ère de l’IA générative, ce sont les LLM interactifs qui fournissent une couche d’intelligence au-dessus des flux de travail et des piscines de données existants, améliorant idéalement l’efficacité et renforçant les capacités des équipes de cybersécurité. En d’autres termes, l’IA de génération peut aider les ingénieurs de sécurité à faire plus avec moins d’efforts et les mêmes ressources, ce qui donne de meilleures performances et des processus accélérés.












