Connect with us

Leaders d’opinion

La vague à venir d’attaques multimodales : Lorsque les outils d’IA deviennent la nouvelle surface d’exploitation

mm

Alors que les grands modèles de langage (LLM) évoluent en systèmes multimodaux capables de gérer du texte, des images, de la voix et du code, ils deviennent également des orchestrateurs puissants d’outils et de connecteurs externes. Avec cette évolution, une surface d’attaque élargie apparaît, dont les organisations doivent être conscientes.

Un exemple primordial de cela est l’ingénierie sociale, à laquelle les agents peuvent succomber parce qu’ils ont été formés pour agir comme les humains le font et qu’ils ont encore moins de scepticisme. Un agent, par exemple, est peu susceptible de pouvoir déterminer la différence entre un e-mail contrefait et un e-mail provenant d’un détaillant légitime.

La convergence de la multimodalité et de l’accès aux outils transforme l’IA d’un assistant en un moyen d’attaque. Les attaquants peuvent maintenant utiliser des invites de texte simples pour déclencher une mauvaise utilisation des outils, exécuter des actions non autorisées ou exfiltrer des données sensibles via des canaux légitimes. Puisque ces capacités sont conçues pour l’accessibilité, et non pour la défense, même les adversaires à faible niveau de compétence peuvent utiliser les systèmes d’IA pour effectuer des opérations complexes sans écrire une seule ligne de code.

Comment l’IA multimodale devient une chaîne d’exploitation

Les LLM sont de plus en plus souvent utilisés comme orchestrateurs de systèmes externes, avec des intégrations qui incluent aujourd’hui tout, des API aux e-mails, au stockage cloud et aux outils d’exécution de code. Ces connecteurs sont souvent conçus pour l’accessibilité, et non pour la défense.

Le revers de la médaille est qu’il peut entraîner une vague de nouvelles exploitations.

L’une d’elles est la mauvaise utilisation des outils déclenchée par des invites. Par exemple, un attaquant pourrait utiliser une image avec des instructions d’injection d’invites insérées dans un e-mail. Un outil de reconnaissance optique de caractères (OCR) est nécessaire pour extraire le texte de l’image. L’agent est instruit de répondre à l’e-mail et d’y joindre une carte Google de l’adresse domicile de la cible, déanonymisant ainsi l’emplacement de la victime.

Un autre mécanisme est l’évasion des garde-fous transmodaux. Cela concerne les garde-fous qui se situent entre les points d’entrée et de sortie des outils. Par exemple, en analysant la sortie d’un extracteur OCR, il peut ne pas y avoir de garde-fou suffisamment solide autour des injections d’invites découvertes à partir de sa sortie.

Il existe également des faiblesses structurelles qui peuvent être exploitées. L’un de ces problèmes est le lien lâche et trop permissif entre le modèle et les outils externes qu’il peut appeler, ce qui signifie qu’une invite de langage naturel simple peut déclencher des actions réelles comme l’exécution de code, l’accès à des fichiers ou l’interaction avec un e-mail. De plus, bon nombre de ces systèmes manquent de contrôles d’accès stricts, ce qui signifie que l’IA peut avoir la capacité d’écrire, de supprimer ou de modifier des données bien au-delà de ce que tout humain autoriserait. Le problème devient encore plus grave lorsque l’on examine les connecteurs et les extensions de type MCP, qui sont souvent livrés avec presque aucun garde-fou ; une fois connectés, ils étendent la portée de l’IA vers le stockage personnel, les boîtes de réception et les plateformes cloud avec très peu de surveillance. Ensemble, ces faiblesses structurelles créent un environnement dans lequel des problèmes de sécurité classiques – l’exfiltration, les évasions de bac à sable et même l’empoisonnement de la mémoire – peuvent être déclenchés par rien de plus qu’une invite astucieusement conçue.

Menaces émergentes : Que se passe-t-il ensuite ?

Dans cette nouvelle norme, les attaques d’e-mail et d’ingénierie sociale facilitées par l’IA sont imminentes. Le volume de phishing augmentera en raison de l’utilisation de LLM par les attaquants ; le point de contrôle est le contournement des filtres de spam normaux des fournisseurs d’e-mail tels que Google. Les agents d’e-mail connectés augmentent la probabilité de réussite des attaques de phishing. Il y aura probablement une augmentation des menaces basées sur les e-mails à mesure que les utilisateurs connectent des agents à Gmail ou Outlook.

Les attaquants peuvent diriger l’IA pour exécuter des campagnes de spam ou de phishing complètes. Dans ce scénario,

le phishing d’IA à IA devient plausible.

Les systèmes multimodaux offrent de plus en plus des capacités d’exécution de code. Les chemins d’évasion permettent aux attaquants de compromettre les infrastructures sous-jacentes. Et les évasions de bac à sable représentent le pire cauchemar de réputation pour les fournisseurs.

L’empoisonnement de la mémoire à long terme et les déclencheurs différés représentent d’autres menaces. La mémoire persistante permet l’activation de charges utiles cachées sur des invites futures. Les déclencheurs transmodaux (par exemple, des images ou des extraits de texte) pourraient déclencher des comportements à retardement.

Pourquoi les attaques multimodales sont si accessibles et si dangereuses

L’IA a démocratisé les capacités d’attaque. Les utilisateurs n’ont plus besoin de compétences en codage ou en développement de logiciels malveillants ; le langage naturel devient l’interface pour la création de logiciels malveillants ou l’exfiltration de données. Cela signifie que même les individus non techniques peuvent générer des logiciels malveillants ou exécuter des campagnes via des invites.

L’IA permet également l’accélération et la mise à l’échelle des opérations nuisibles. Les agents multimodaux peuvent automatiser des tâches qui nécessitaient autrefois un effort d’expert. Le code, les e-mails, la recherche et la reconnaissance peuvent être produits instantanément.

La confiance excessive des utilisateurs et l’exposition involontaire contribuent au potentiel de nuisance de l’IA. Les utilisateurs ne comprennent souvent pas ce que l’IA peut accéder, et les paramètres par défaut activent de plus en plus les intégrations d’IA. Beaucoup de gens ne réalisent pas qu’ils ont accordé à l’IA un accès excessif à leurs e-mails ou à leurs documents.

Principes et contrôles pour la sécurité multimodale

Les organisations doivent mettre en place des mesures de sécurité contre les attaques multimodales. Les équipes de sécurité devront restreindre l’accès aux outils par défaut. Les contrôles d’opt-in devraient remplacer les intégrations activées automatiquement. Ils devraient également appliquer un accès avec les privilèges minimum à tous les systèmes connectés à l’IA et supprimer les accès d’écriture/suppression. Cela devrait inclure des règles d’origine transverse et des listes blanches de domaines (listes blanches d’infrastructure et non de niveau LLM).

Une autre étape clé est de créer des garde-fous explicites pour l’invocation d’outils. Remplacez les déclencheurs de langage naturel par une validation de commande structurée et typée. Les garde-fous devraient être à la fois des points de contrôle d’entrée et de sortie.

D’autres principes et contrôles importants incluent :

  • Mettre en place des flux de travail d’approbation solides pour les opérations sensibles.
  • Éviter de placer des données utilisateur dans la mémoire du modèle persistante. Appliquer une désinfection automatique de la mémoire et des vérifications de provenance.
  • Rendre plus robustes et isoler les environnements d’exécution de code.
  • Surveiller les comportements suspects et les tentatives d’évasion.
  • Renforcer l’éducation et la transparence des utilisateurs.
  • Ajouter plus de confirmation utilisateur lorsque l’agent effectue des tâches à risque.
  • Rendre clair lorsque les outils d’IA accèdent aux e-mails, aux fichiers ou aux ressources cloud.
  • Avertir les utilisateurs des connecteurs à haut risque.

Réussir contre les attaques multimodales

Les technologies d’IA se sont rapidement transformées en agents d’opérations commerciales, créant une situation dans laquelle le langage naturel lui-même devient une forme d’exploit. La convergence de la multimodalité et de l’accès aux outils ouvre la surface d’attaque, transformant l’IA d’un assistant en un moyen d’attaque. Les attaques multimodales exploitent l’intégration lâche entre les LLM et les systèmes externes qu’ils contrôlent, tels que les API, le stockage de fichiers et les plateformes d’automatisation.

À mesure que les menaces évoluent, les organisations doivent adopter des stratégies qui tiennent explicitement compte des chemins d’attaque multimodaux. Le renforcement des défenses en utilisant les meilleures pratiques ci-dessus est essentiel pour empêcher les outils d’IA de servir involontairement de liens dans la chaîne d’exploitation d’un attaquant.

Amanda Rousseau est une chercheuse principale en sécurité de l'IA chez Straiker et une vétérane de l'ingénierie inverse de logiciels malveillants qui a précédemment servi dans l'équipe Red Team de Facebook et dans l'équipe de recherche et d'ingénierie de sécurité offensive (MORSE) de Microsoft, après avoir occupé des postes précédents chez Endgame, FireEye et le Centre de cybercriminalité du DoD américain.