Leaders d’opinion

La prochaine vague d’attaques multimodales : Lorsque les outils d’IA deviennent la nouvelle surface d’exploitation

mm

À mesure que les grands modèles de langage (LLM) évoluent en systèmes multimodaux capables de gérer le texte, les images, la voix et le code, ils deviennent également des orchestrateurs puissants d’outils et de connecteurs externes. Avec cette évolution, une surface d’attaque élargie apparaît, que les organisations doivent prendre en compte.

Un exemple parfait de cela est l’ingénierie sociale, à laquelle les agents peuvent être victimes parce qu’ils ont été formés pour agir comme les humains et qu’ils ont encore moins de scepticisme. Un agent, par exemple, est peu susceptible de pouvoir faire la différence entre un e-mail contrefait et un e-mail provenant d’un détaillant légitime.

La convergence de la multimodalité et de l’accès aux outils transforme l’IA d’un assistant en un moyen d’attaque. Les attaquants peuvent maintenant utiliser de simples invites de texte pour déclencher une mauvaise utilisation des outils, exécuter des actions non autorisées ou exfiltrer des données sensibles via des canaux légitimes. Puisque ces capacités sont conçues pour l’accessibilité et non pour la défense, même les adversaires à faible niveau de compétence peuvent utiliser les systèmes d’IA pour effectuer des opérations complexes sans écrire une seule ligne de code.

Comment l’IA multimodale devient une chaîne d’exploitation

Les LLM sont de plus en plus souvent utilisés comme orchestrateurs de systèmes externes, avec des intégrations qui incluent aujourd’hui tout, des API aux e-mails, au stockage cloud et aux outils d’exécution de code. Ces connecteurs sont souvent conçus pour l’accessibilité, et non pour la défense.

Le revers de la médaille est qu’il peut entraîner une vague de nouvelles exploitations.

L’une d’elles est la mauvaise utilisation des outils déclenchée par des invites. Par exemple, un attaquant pourrait utiliser une image avec des instructions d’injection d’invite insérées dans un e-mail. Un outil de reconnaissance optique des caractères (OCR) est nécessaire pour extraire le texte de l’image. L’agent est instruit de répondre à l’e-mail et d’y joindre une carte Google de l’adresse de la cible, ce qui dé-anonymise ainsi l’emplacement de la victime.

Un autre mécanisme est l’évasion des garde-fous intermodaux. Cela concerne les garde-fous qui se situent entre les points d’entrée et de sortie des outils. Par exemple, en analysant la sortie d’un extracteur OCR, il n’y a peut-être pas de garde-fou suffisamment solide autour des injections d’invites découvertes à partir de sa sortie.

Il existe également des faiblesses structurelles qui peuvent être exploitées. L’une de ces questions est la liaison lâche et trop permissive entre le modèle et les outils externes qu’il peut appeler, ce qui signifie qu’une simple invite de langage naturel peut déclencher de véritables actions comme l’exécution de code, l’accès à des fichiers ou l’interaction avec les e-mails. De plus, beaucoup de ces systèmes manquent de contrôles d’accès stricts, donc l’IA peut avoir la capacité d’écrire, de supprimer ou de modifier des données bien au-delà de ce qu’un humain autoriserait jamais. Le problème devient encore plus grave lorsque l’on examine les connecteurs et les extensions de type MCP, qui sont souvent livrés avec presque pas de garde-fous ; une fois connectés, ils élargissent la portée de l’IA vers le stockage personnel, les boîtes de réception et les plateformes cloud avec très peu de surveillance. Ensemble, ces faiblesses structurelles créent un environnement dans lequel les problèmes de sécurité classiques – l’exfiltration, les évasions de sandbox et même l’empoisonnement de la mémoire – peuvent être déclenchés par rien de plus qu’une invite astucieusement conçue.

Menaces émergentes : Qu’est-ce qui vient ensuite ?

Dans ce nouveau contexte, les attaques d’ingénierie sociale et les attaques par e-mail sont imminentes. Le phishing va augmenter en raison de l’utilisation des LLM par les attaquants ; le point de contrôle est de contourner les filtres de spam normaux des fournisseurs d’e-mail tels que Google. Les agents d’IA connectés à la boîte de réception augmentent la probabilité de réussite des attaques de phishing. Il y aura probablement une augmentation des menaces basées sur les e-mails à mesure que les utilisateurs connectent les agents à Gmail ou Outlook.

Les attaquants peuvent diriger l’IA pour exécuter des campagnes de spam ou de phishing entières. Dans ce scénario,

le phishing d’IA à IA devient plausible.

Les systèmes multimodaux offrent de plus en plus de capacités d’exécution de code. Les chemins d’évasion permettent aux attaquants de compromettre les infrastructures sous-jacentes. Et les évasions de sandbox représentent le plus grand cauchemar de réputation pour les fournisseurs.

L’empoisonnement de la mémoire à long terme et les déclencheurs différés représentent d’autres menaces. La mémoire persistante permet l’activation de charges utiles cachées sur des invites futures. Les déclencheurs intermodaux (par exemple, des images ou des extraits de texte) pourraient déclencher des comportements à retardement.

Pourquoi les attaques multimodales sont-elles si accessibles et si dangereuses

L’IA a démocratisé les capacités d’attaque. Les utilisateurs n’ont plus besoin de compétences en codage ou en développement de logiciels malveillants ; le langage naturel devient l’interface pour la création de logiciels malveillants ou l’exfiltration de données. Cela signifie que même les individus non techniques peuvent générer des logiciels malveillants ou exécuter des campagnes via des invites.

L’IA permet également l’accélération et la mise à l’échelle des opérations nuisibles. Les agents multimodaux peuvent automatiser le travail qui nécessitait autrefois un effort d’expert. Le code, les e-mails, la recherche et la reconnaissance peuvent être produits instantanément.

La confiance excessive des utilisateurs et l’exposition involontaire contribuent au potentiel de nuisance de l’IA. Les utilisateurs ne comprennent souvent pas ce que l’IA peut accéder, et les paramètres par défaut activent de plus en plus les intégrations d’IA. Beaucoup de gens ne réalisent pas qu’ils ont accordé à l’IA un accès excessif à leurs e-mails ou documents.

Principes et contrôles pour la sécurité multimodale

Les organisations doivent mettre en place des mesures de sécurité contre les attaques multimodales. Les équipes de sécurité devront restreindre l’accès aux outils par défaut. Les contrôles d’opt-in devraient remplacer les intégrations activées automatiquement. Ils devraient également appliquer l’accès à privilèges minimum à tous les systèmes connectés à l’IA et supprimer l’accès en écriture/suppression. Cela devrait inclure les règles d’origine croisée et la liste blanche de domaines (liste blanche d’infrastructure et non de liste blanche de LLM).

Une autre étape clé est de construire des garde-fous explicites pour l’invocation des outils. Remplacez les déclencheurs de langage naturel par une validation de commande structurée et typée. Les garde-fous devraient être à la fois des points de contrôle d’entrée et de sortie.

D’autres principes et contrôles importants incluent :

  • Appliquer des flux de travail d’approbation solides pour les opérations sensibles.
  • Éviter de placer des données utilisateur dans la mémoire persistante du modèle. Appliquer la sanitisation automatique de la mémoire et les vérifications de provenance.
  • Rendre plus robustes et isoler les environnements d’exécution de code.
  • Surveiller les comportements suspects et les tentatives d’évasion.
  • Renforcer l’éducation et la transparence des utilisateurs.
  • Ajouter plus de confirmation utilisateur lorsque l’agent effectue des tâches à risque.
  • Indiquer clairement lorsque les outils d’IA accèdent aux e-mails, aux fichiers ou aux ressources cloud.
  • Avertir les utilisateurs des connecteurs à haut risque.

Réussir contre les attaques multimodales

Les technologies d’IA se sont rapidement transformées en agents d’opérations commerciales, créant une situation dans laquelle le langage naturel lui-même devient une forme d’exploit. La convergence de la multimodalité et de l’accès aux outils ouvre la surface d’attaque, transformant l’IA d’un assistant en un moyen d’attaque. Les attaques multimodales exploitent la liaison lâche entre les LLM et les systèmes externes qu’ils contrôlent, tels que les API, le stockage de fichiers et les plateformes d’automatisation.

À mesure que les menaces évoluent, les organisations doivent adopter des stratégies qui tiennent explicitement compte des chemins d’attaque multimodaux. Le renforcement des défenses en utilisant les meilleures pratiques ci-dessus est essentiel pour empêcher les outils d’IA de servir involontairement de liens dans une chaîne d’exploitation d’un attaquant.

Amanda Rousseau est une chercheuse principale en sécurité AI chez Straiker et une ingénieure de rétro-ingénierie de logiciels malveillants chevronnée qui a précédemment servi dans l'équipe Red Team de Facebook et dans l'équipe de recherche et d'ingénierie de sécurité offensive (MORSE) de Microsoft, après avoir occupé des postes précédents chez Endgame, FireEye et le centre de cybercriminalité du département de la Défense des États-Unis.