Entre em contato

A onda iminente de ataques multimodais: quando as ferramentas de IA se tornam a nova superfície de exploração.

Líderes de pensamento

A onda iminente de ataques multimodais: quando as ferramentas de IA se tornam a nova superfície de exploração.

mm

À medida que os grandes modelos de linguagem (LLMs) evoluem para sistemas multimodais Capazes de lidar com texto, imagens, voz e código, esses sistemas também estão se tornando poderosos orquestradores de ferramentas e conectores externos. Com essa evolução, surge uma superfície de ataque expandida da qual as organizações precisam estar cientes.

Um excelente exemplo disso é a engenharia social, da qual os agentes podem ser vítimas porque foram treinados para agir como humanos e têm ainda menos ceticismo. Um agente, por exemplo, dificilmente conseguirá distinguir um e-mail falso de um e-mail de um varejista legítimo.

A convergência da multimodalidade e do acesso a ferramentas transforma a IA de assistente em meio de ataque. Os atacantes agora podem usar simples comandos de texto para induzir o uso indevido de ferramentas, executar ações não autorizadas ou exfiltrar dados sensíveis por meio de canais legítimos. Como essas capacidades são projetadas para acessibilidade, e não para defesa, mesmo adversários com pouca habilidade podem explorar sistemas de IA para realizar operações complexas sem escrever uma única linha de código.

Como a IA multimodal se torna uma cadeia de exploração

Os LLMs estão se tornando cada vez mais orquestradores de sistemas externos, com integrações que hoje incluem desde APIs a e-mail, armazenamento em nuvem e ferramentas de execução de código. Esses conectores são frequentemente criados para acessibilidade, não para defesa.

A desvantagem disso é que pode levar a uma onda de novas explorações.

Uma delas é o uso indevido de ferramentas orientadas por prompts. Por exemplo, um atacante poderia usar uma imagem com instruções de injeção de prompts inseridas em um e-mail. reconhecimento óptico de caracteres (OCR) É necessária uma ferramenta para extrair o texto de uma imagem. O agente é instruído a responder ao e-mail e anexar um mapa do Google com o endereço residencial do alvo, revelando assim a localização da vítima.

Outro mecanismo é a evasão de proteções intermodais. Isso se relaciona às proteções que se encontram entre os pontos de entrada e saída das ferramentas. Por exemplo, ao analisar a saída de um extrator OCR, pode não haver uma proteção suficientemente robusta contra injeções de prompts detectadas em sua saída.

Existem também fragilidades estruturais que podem ser exploradas. Um desses problemas reside nas ligações frouxas e excessivamente permissivas entre o modelo e as ferramentas externas que ele pode utilizar — o que significa que um simples comando em linguagem natural pode desencadear ações reais, como executar código, acessar arquivos ou interagir com e-mails. Além disso, muitos desses sistemas carecem de controles de acesso rigorosos, permitindo que a IA escreva, exclua ou modifique dados muito além do que um humano jamais autorizaria. O problema se agrava ainda mais quando consideramos conectores e extensões no estilo MCP, que geralmente não possuem praticamente nenhuma proteção; uma vez instalados, expandem o alcance da IA ​​para armazenamento pessoal, caixas de entrada e plataformas em nuvem com pouquíssima supervisão. Juntas, essas fragilidades estruturais criam um ambiente no qual problemas clássicos de segurança — exfiltração de dados, escapes de sandbox e até mesmo envenenamento de memória — podem ser desencadeados por meio de um simples comando habilmente elaborado.

Ameaças emergentes: o que vem a seguir?

Nesse novo normal, ataques de engenharia social e por e-mail facilitados por inteligência artificial são iminentes. Phishing O volume de ataques aumentará devido ao uso de LLMs (Máquinas de Aprendizagem Baseadas em Evidências) pelos atacantes; o gargalo está em contornar os filtros de spam normais de provedores de e-mail como o Google. Agentes de IA conectados à caixa de entrada aumentam a probabilidade de sucesso de ataques de phishing. É provável que haja um aumento nas ameaças baseadas em e-mail à medida que os usuários conectam agentes ao Gmail ou Outlook.

Os atacantes podem direcionar a IA para executar campanhas inteiras de spam ou spear-phishing. Nesse cenário,

O phishing de IA para IA torna-se plausível.

Sistemas multimodais oferecem cada vez mais recursos de execução de código. Caminhos de escape permitem que invasores comprometam a infraestrutura subjacente. E a fuga de ambientes isolados (sandbox) representa o maior pesadelo para a reputação dos fornecedores.

O envenenamento da memória de longo prazo e os gatilhos adiados representam ameaças adicionais. A memória persistente permite que cargas ocultas sejam ativadas em solicitações futuras. Gatilhos multimodais (por exemplo, imagens ou trechos de texto) podem desencadear comportamentos explosivos.

Por que os ataques multimodais são tão acessíveis e tão perigosos?

A IA democratizou as capacidades de ataque. Os usuários não precisam mais de habilidades de programação ou desenvolvimento de malware; a linguagem natural se torna a interface para a criação de malware ou exfiltração de dados. Isso significa que até mesmo pessoas sem conhecimento técnico podem gerar malware ou executar campanhas por meio de instruções.

A IA também permite a aceleração e a ampliação de operações maliciosas. Agentes multimodais podem automatizar tarefas que antes exigiam esforço especializado. Códigos, e-mails, pesquisas e reconhecimento podem ser produzidos instantaneamente.

A confiança excessiva do usuário e a exposição não intencional contribuem para o potencial de danos da IA. Muitas vezes, os usuários não entendem a que a IA pode acessar, e as configurações padrão habilitam cada vez mais automaticamente as integrações de IA. Muitas pessoas não percebem que concederam à IA acesso excessivo a e-mails ou documentos.

Princípios e controles para segurança multimodal

As organizações devem implementar medidas de segurança contra ataques multimodais. As equipes de segurança precisarão restringir o acesso às ferramentas por padrão. Controles opcionais devem substituir as integrações ativadas automaticamente. Elas também devem aplicar o princípio do menor privilégio a todos os sistemas conectados à IA e remover o acesso de gravação/exclusão. Isso deve incluir regras de origem cruzada e listas de permissão de domínio (listas de permissão de infraestrutura e não listas de permissão em nível de LLM).

Outro passo fundamental é criar mecanismos de proteção explícitos para a invocação da ferramenta. Substitua os gatilhos em linguagem natural por validação estruturada e tipada de comandos. Esses mecanismos de proteção devem funcionar como pontos de controle tanto na entrada quanto na saída.

Outros princípios e controles importantes incluem:

  • Implemente fluxos de aprovação robustos para operações sensíveis.
  • Evite armazenar dados do usuário na memória persistente do modelo. Aplique sanitização de memória automatizada e verificações de procedência.
  • Reforçar e isolar os ambientes de execução de código.
  • Fique atento a comportamentos suspeitos e tentativas de fuga.
  • Reforçar a educação do usuário e a transparência.
  • Adicionar mais confirmações do usuário quando o agente estiver executando tarefas de risco.
  • Deixe claro quando as ferramentas de IA estiverem acessando e-mails, arquivos ou recursos na nuvem.
  • Alerte os usuários sobre conectores de alto risco.

Como vencer ataques multimodais

As tecnologias de IA se transformaram rapidamente em agentes de operações comerciais, criando uma situação em que a própria linguagem natural se torna uma forma de exploração. A convergência da multimodalidade e do acesso a ferramentas amplia a superfície de ataque, transformando a IA de uma assistente em um meio para ataques. Ataques multimodais exploram a integração frouxa entre os LLMs (Learning Language Management - Modelos de Linguagem Natural) e os sistemas externos que controlam, como APIs, armazenamento de arquivos e plataformas de automação.

À medida que as ameaças evoluem, as organizações devem adotar estratégias que levem em conta explicitamente as vias de ataque multimodais. O fortalecimento das defesas, utilizando as melhores práticas acima, é essencial para evitar que ferramentas de IA sirvam involuntariamente como elos na cadeia de exploração de um invasor.

Amanda Rousseau é pesquisadora principal de segurança de IA na [nome da empresa/instituição]. Straiker e um engenheiro reverso de malware veterano que trabalhou anteriormente na Equipe Vermelha do Facebook e na equipe de Pesquisa Ofensiva e Engenharia de Segurança (MORSE) da Microsoft, após passagens pela Endgame, FireEye e pelo Centro de Crimes Cibernéticos do Departamento de Defesa dos EUA.