Connect with us

Líderes de pensamento

Quando a Capacidade de IA Aumenta Mais Rápido do que os Modelos de Segurança Construídos para Contê-la

mm

As ferramentas de IA geralmente chegam com um discurso familiar. Elas prometem simplificar fluxos de trabalho, aumentar a produtividade e assumir tarefas que ninguém gosta. E a maior parte do tempo, elas entregam exatamente isso. Elas simplificam logins, resumem documentos, automatizam fluxos de trabalho e tornam atividades rotineiras sentir-se quase sem esforço.

Mas abaixo de toda essa conveniência, há uma história diferente. Essas ferramentas não estão mais confinadas a uma caixa de texto. Elas estão começando a agir no próprio sistema operacional. Elas podem navegar por arquivos, redigir e-mails, interagir com aplicativos e realizar ações que antes exigiam um ser humano atento que entendesse as consequências. Essa mudança coloca a IA em uma posição que as suposições de segurança existentes nunca foram projetadas para gerenciar.

O Momento em que a IA Ganha Acesso ao Sistema

Uma vez que um sistema de IA possa ler arquivos reais e executar comandos reais, ele se torna parte da base de computação confiável. Esse é o momento em que as expectativas de longa data sobre a segurança da IA começam a se quebrar.

Por anos, a injeção de prompt foi considerada um comportamento estranho do modelo. Ele causava que os chatbots produzissem respostas enganosas ou inapropriadas, mas o dano terminava com a conversa. Agora, o mesmo defeito pode desencadear ações de nível de host, não apenas texto. Uma instrução maliciosa escondida dentro de um PDF, site ou e-mail não produz mais uma resposta estranha. Ela produz uma ação tomada na máquina.

Isso não é algo que a indústria possa descartar como teórico. Pesquisadores da Carnegie Mellon e da Universidade de Washington demonstraram repetidamente que instruções ocultas podem direcionar grandes modelos de linguagem para executar ações que os usuários nunca pretendiam. Enquanto isso, pesquisadores que estudam modelos de visão mostraram como imagens manipuladas podem alterar a percepção do modelo de maneiras que influenciam o comportamento downstream.

Esses experimentos foram tratados como curiosidades de laboratório. Eles não parecem mais acadêmicos quando a IA tem acesso ao sistema operacional.

Quando a Capacidade do Agente Supera o Controle do Defensor

Até mesmo as empresas que constroem esses agentes reconhecem a gravidade do desafio. Eles fortaleceram filtros para lidar com prompts, mas afirmam abertamente que controlar as ações reais de um sistema de IA permanece uma área de trabalho ativa e não resolvida em toda a indústria. Essa lacuna entre o que o agente pode fazer e o que os defensores podem controlar introduz uma nova categoria de risco que os playbooks de segurança existentes não podem absorver.

Os agentes de IA cruzaram uma fronteira para a qual a indústria não está totalmente preparada. A única maneira de entender isso é olhar como a injeção de prompt agora se intersecta com as mesmas cadeias de ataque que os defensores seguiram por mais de uma década.

Como a Injeção de Prompt Agora Mapeia as Cadeias de Ataque que Todos Conhecem

Os atacantes sempre seguiram um padrão previsível. O framework MITRE ATT&CK descreve claramente as etapas. O acesso inicial é seguido de execução, persistência, descoberta, movimento lateral, coleta e exfiltração. As técnicas variam, mas a estrutura é estável.

O que está mudando é o mecanismo de entrega. Em vez de convencer um usuário a abrir um anexo malicioso ou clicar em um link perigoso, os atacantes podem colocar instruções onde o agente de IA as lerá. O agente se torna o ambiente de execução. Ele executa os passos exatamente como descrito. O modelo não questiona se a instrução é prejudicial. Ele não aplica julgamento ou intuição. Ele simplesmente age.

Uma vez que um atacante possa influenciar o raciocínio do agente, a cadeia de ataque se junta rapidamente. Um arquivo manipulado dispara a execução, instruções de follow-on criam persistência, buscas de sistema fornecem descoberta, e uploads de arquivos habilitam coleta e exfiltração. Nenhum malware é necessário. O agente simplesmente executa os passos como escritos.

Essa é a parte da história que as equipes de segurança estão lutando para se adaptar. Elas passaram anos construindo regras de detecção, controles e processos de resposta em torno da execução baseada em código. Os agentes de IA introduzem diferentes tipos de intérpretes. Eles executam por meio de linguagem natural, não binários compilados. As ferramentas existentes não são projetadas para rastrear ou mesmo analisar esse processo de raciocínio.

Equipes de Segurança Não Estão Preparadas e Nem Mesmo Percebem

Programas de segurança ainda assumem que um ser humano se senta entre o conteúdo e a ação. Os seres humanos podem ser enganados, mas eles param quando algo parece errado. Eles notam frases estranhas, questionam comportamentos inesperados e trazem julgamento para a última milha da decisão.

Os agentes de IA não fazem nada disso; eles são consistentes, literais e mais rápidos do que qualquer adversário. Uma única linha de texto oculto é suficiente para instruir o agente a ler arquivos sensíveis, mover-se por aplicativos ou contatar um servidor remoto. Isso coloca os defensores em uma posição que eles nunca estiveram antes.

As equipes de segurança têm visibilidade limitada sobre como um agente chega a uma decisão, e elas não podem facilmente determinar se uma ação originou-se com o usuário ou com a IA. A detecção tradicional de malware não oferece ajuda porque nada malicioso está sendo executado no sentido usual, e não há garantia de que o agente questionará ou rejeitará instruções prejudiciais ocultas em conteúdo normal.

Ferramentas projetadas para o comportamento humano simplesmente não se transferem para um mundo onde a linguagem natural se torna o script que dirige o comportamento do sistema.

O que Controles Compensatórios Realmente Funcionam

O endurecimento do modelo não é suficiente. As equipes de segurança precisam de controles em torno do agente que limitem o que a IA pode fazer, mesmo quando seu raciocínio é influenciado.

Várias estratégias estão mostrando promessa:

  • O acesso de menor privilégio é essencial. Os agentes devem ter acesso apenas aos arquivos e ações necessários para suas tarefas. Reduzir permissões desnecessárias limita o impacto de instruções manipuladas.
  • Etapa de aprovação humana pode parar ações prejudiciais antes que ocorram. Quando um agente tenta uma operação sensível, como executar um comando ou acessar dados protegidos, o usuário deve aprovar ou negar o pedido.
  • A filtragem de conteúdo cria um buffer entre materiais não confiáveis e o agente. A tela de documentos, URLs e texto externo reduz as chances de que instruções ocultas alcancem o modelo.
  • O registro abrangente é mandatório. Todas as ações iniciadas pelo agente devem ser registradas e revisadas. Essas ações devem ser tratadas da mesma forma que qualquer atividade de usuário privilegiado.
  • Mapear comportamentos de agente para técnicas ATT&CK ajuda os defensores a identificar onde o agente pode ser empurrado para ações prejudiciais e onde guardrails devem ser colocados. Ele usa o mesmo sistema que já estrutura a estratégia defensiva.

Esses controles compensatórios não eliminarão o risco. Mas eles o contêm de maneiras que as defesas de nível de modelo não podem.

Onde a Indústria Vai em Seguida

Os agentes de IA representam uma grande mudança na forma como a computação funciona. Eles oferecem produtividade incrível, mas também introduzem uma categoria de risco operacional que não se encaixa dentro dos quadros de segurança existentes. Orientação do Centro Nacional de Segurança Cibernética do Reino Unido é um começo, mas a maioria das organizações ainda falta uma maneira clara de governar agentes que podem agir no sistema.

Esse momento se sente semelhante aos primeiros dias da adoção de nuvem. A tecnologia se moveu mais rápido do que os controles. As organizações que se adaptaram rapidamente foram as que reconheceram a mudança cedo e construíram processos para combiná-la.

O mesmo será verdade aqui. Os agentes de IA não são apenas ajudantes. Eles são operadores com alcance de nível de sistema. Segurança-los requer novos playbooks, novas guardrails e novas maneiras de modelar exposição.

A indústria não precisa temer essas ferramentas. Mas ela precisa entendê-las. E precisa se mover rapidamente, porque os atacantes já veem a oportunidade. A pergunta é se os defensores construirão as salvaguardas adequadas enquanto ainda têm tempo.

Jon Baker, VP Threat-Informed Defense at AttackIQ, traz mais de 20 anos de experiência liderando inovações em cibersegurança com foco em tornar a segurança mais eficiente e eficaz em escala. Ele é o ex-diretor e co-fundador do Centro de Defesa Informada por Ameaças (CTID) da MITRE, onde uniu equipes de segurança sofisticadas para avançar o estado da arte e da prática na defesa informada por ameaças em todo o mundo. Antes de lançar o CTID, Jon liderou o Departamento de Inteligência de Ameaças Cibernéticas e Emulação de Adversários da MITRE, onde avançou essas capacidades críticas em toda a MITRE e gerenciou as equipes CALDERA e MITRE ATT&CK®. Jon liderou equipes que desenvolveram padrões abertos, incluindo STIX e TAXII para compartilhamento de inteligência de ameaças, e foi o co-criador do OVAL enquanto gerenciava o programa de automação de segurança da MITRE.