Entre em contato

Por que as medidas de segurança para chatbots representam o limite de segurança errado

Líderes de pensamento

Por que as medidas de segurança para chatbots representam o limite de segurança errado

mm

A IA empresarial já ultrapassou em muito a fase de prova de conceito. 23% das organizações já estão escalando sistemas de IA com agentes. em algum lugar em sua empresa, e 62% estão pelo menos experimentando agentes de IA.Esses não são projetos de pesquisa. São implantações em produção, integradas a fluxos de trabalho que envolvem repositórios de código, dados de clientes, APIs internas e infraestrutura operacional.

A resposta da indústria a esse crescimento tem se concentrado principalmente no que acontece antes da entrada em operação de um agente. Fornecedores e pesquisadores têm investido esforços em medidas de segurança pré-implantação: políticas de escalonamento de publicação, reforçando os modelos de base, filtrando as entradas, protegendo a cadeia de suprimentos de IA e impondo alinhamento durante o treinamento. Os principais fornecedores de IA fizeram investimentos substanciais Em ferramentas de segurança voltadas para desenvolvedores, reforça-se uma premissa central: se o modelo e suas entradas forem controlados, o risco subsequente pode ser contido.

É um instinto razoável, mas cada vez mais incompleto.

O prompt não é um perímetro de segurança.

As salvaguardas que operam na interface do modelo beneficiam principalmente as equipes que controlam o código do aplicativo, a configuração do modelo e a infraestrutura subjacente. Elas oferecem muito menos proteção aos defensores encarregados de proteger sistemas de IA que não construíram e não podem modificar. Essa é uma lacuna significativa, e os adversários já a exploraram.

O relatório mais recente de inteligência de ameaças da OpenAI Este documento descreve exatamente essa dinâmica. Os agentes de ameaças estão abusando ativamente do ChatGPT e de ferramentas semelhantes em ambientes de produção, não inventando novas técnicas de ataque, mas incorporando IA em fluxos de trabalho existentes para se moverem mais rapidamente. O reconhecimento se torna mais eficiente. A engenharia social se amplia. O desenvolvimento de malware acelera. A superfície de ataque não mudou fundamentalmente; a velocidade e o volume da exploração, sim.

Mais revelador ainda é como os atacantes reagiram quando essas ferramentas reagiram. A OpenAI observou agentes de ameaças modificando rapidamente seus prompts, preservando a intenção subjacente enquanto alternavam entre variações superficiais para contornar os controles de front-end. Esse é um padrão que os profissionais de segurança já observaram antes. Defesas estáticas, sejam elas antivírus baseadas em assinaturas ou filtragem de entrada, não resistem a adversários que iteram mais rápido do que as atualizações de regras conseguem acompanhar.

O desafio se intensifica à medida que os agentes ganham autonomia. Os agentes de IA modernos não operam em uma única interação. Eles executam sequências de ações com várias etapas, invocando ferramentas e permissões legítimas de maneiras que parecem completamente normais quando isoladas. Um agente que usa credenciais válidas para enumerar APIs internas não dispara um alerta. Um agente que acessa bancos de dados sensíveis durante o que parece ser um fluxo de trabalho rotineiro não gera nenhum alerta imediato. Cada ação individual passa pela inspeção; o perigo reside na combinação e na sequência.

Quando a ameaça se desloca rio abaixo

As equipes de segurança que protegem implementações de IA hoje enfrentam uma incompatibilidade estrutural. As ferramentas disponíveis são, em grande parte, projetadas para analisar o que um modelo tem permissão para dizer. O risco real que precisam gerenciar é o que um agente faz em diferentes sistemas, redes e identidades depois de receber permissões e ser liberado em um ambiente de produção.

As salvaguardas baseadas em prompts compartilham as fragilidades fundamentais das abordagens de segurança anteriores, orientadas por regras. São frágeis porque dependem da previsão de padrões de ataque com antecedência. São reativas porque exigem que alguém tenha observado e codificado a ameaça antes que a defesa possa funcionar. E são ultrapassadas por adversários que adotaram a iteração assistida por IA como prática padrão. Um defensor que depende da filtragem de entrada para detectar um agente de ameaça que usa um modelo de linguagem para gerar novas variações de prompts está em uma posição fundamentalmente desvantajosa.

A verdadeira vulnerabilidade surge após a implantação. As ações orientadas por agentes se propagam pelos ambientes de maneiras que nenhum teste pré-lançamento consegue prever completamente. Os agentes encontram casos extremos, interagem com fontes de dados para as quais não foram projetados, recebem entradas de sistemas externos à arquitetura original e tomam decisões que se acumulam ao longo do tempo. Os testes pré-implantação são um instantâneo; a produção é um fluxo contínuo. Defender apenas o instantâneo significa aceitar que tudo o que acontece no fluxo não é monitorado.

Transferindo o limite de segurança para o comportamento do agente.

Construir resiliência em IA exige uma perspectiva diferente, e o objetivo não deve ser proteger a interface do modelo. Deve ser detectar a intenção do atacante por meio das consequências observáveis ​​das ações do agente. Essa é uma distinção importante. A intenção nem sempre se manifesta no que um agente diz ou nas entradas que recebe.

A segurança dos sistemas de IA deve ir além de verificações de alinhamento e avaliações de robustez, abrangendo a avaliação contínua do comportamento dos agentes ao interagirem com ferramentas, APIs e dados reais. A avaliação estática no momento da implantação é necessária, mas insuficiente. O ambiente de ameaças em que um agente opera está em constante mudança. O comportamento do agente precisa ser monitorado com a mesma continuidade.

Este é um problema que o reforço imediato da segurança não consegue resolver. Detectar intenções maliciosas à medida que emergem por meio de sequências de ações exige modelos capazes de compreender comportamentos complexos e sequenciais em ambientes operacionais. Modelos de aprendizado profundo desenvolvidos especificamente para análise comportamental podem fazer isso de maneiras que sistemas baseados em regras e ferramentas SIEM tradicionais não conseguem. Eles aprendem o que é normal em todo o contexto da atividade do agente e identificam desvios que indicam que algo mudou, mesmo quando nenhuma ação individual acionaria um alerta convencional.

A lógica subjacente se mantém independentemente do contexto de implantação: a segurança ancorada na camada de resposta sempre perderá para atacantes que operam na camada de ação. A defesa precisa se deslocar para onde a ameaça realmente reside.

O que as equipes de segurança devem fazer agora

Para os líderes de segurança que tentam se antecipar a isso, algumas mudanças práticas podem reduzir a lacuna entre o estado atual das defesas e o estado ideal.

Avalie a segurança da IA ​​em toda a pilha de aplicações. O modelo de base é apenas uma camada. Igualmente importante é como os agentes se comportam após serem implantados em produção, quais ferramentas eles utilizam, quais permissões usam e como essas escolhas evoluem ao longo do tempo. Avaliações de segurança que param no limite do modelo deixam a superfície operacional praticamente sem análise.

Aplique o princípio do menor privilégio no nível do agente. Os agentes de IA devem ter acesso apenas às ferramentas, APIs e dados necessários para a sua função designada. Essa restrição é importante mesmo quando as saídas do agente parecem inofensivas. Limitar o escopo reduz o impacto de um agente comprometido e cria parâmetros comportamentais mais claros, o que torna a detecção de anomalias mais eficaz.

Trate os agentes como identidades que geram telemetria. Cada ação realizada por um agente é um ponto de dados. As equipes de segurança devem construir a lógica de detecção em torno das cadeias de ações iniciadas pelo agente, e não apenas das solicitações do usuário que as precedem. Essa mudança de perspectiva desloca o monitoramento do que alguém pediu ao agente para fazer para o que o agente realmente fez, que é onde a intenção do atacante se torna visível.

Invista em monitoramento comportamental contínuo com modelos de detecção desenvolvidos especificamente para essa tarefa. Identificar intenções maliciosas à medida que emergem por meio de sequências de ações exige recursos especializados. As ferramentas de monitoramento convencionais foram criadas para padrões de atividade gerados por humanos. O comportamento de agentes, com sua velocidade, volume e estrutura de múltiplas etapas, demanda uma infraestrutura de detecção projetada desde o início com esse contexto em mente.

Priorize a defesa coletiva. As técnicas de ataque baseadas em IA estão evoluindo mais rápido do que qualquer organização individual consegue acompanhar. Pesquisa compartilhada, colaboração aberta e inteligência de ameaças da comunidade não são complementos opcionais para uma estratégia de segurança com IA; são insumos essenciais. Os defensores que se mantêm atualizados são aqueles que contribuem e se beneficiam do conhecimento coletivo.

Segurança Comportamental Realmente Funciona

Para as equipes de segurança que adotam essa mudança, o retorno operacional é concreto. Ancorar a detecção no comportamento do agente, em vez de nas saídas do modelo, permite a identificação precoce de intenções maliciosas, mesmo quando os ataques são furtivos, adaptativos ou criptografados. Os invasores que conseguem manipular seus comandos para além dos filtros de entrada ainda precisam agir. Essas ações deixam rastros. A detecção comportamental encontra esses rastros antes que o dano se propague.

Talvez o mais importante seja que essa abordagem oferece às organizações um caminho viável para implantar agentes de IA em larga escala sem assumir riscos de segurança proporcionais. A questão que impede muitas empresas de avançarem não é se os agentes de IA podem agregar valor, mas sim se podem ser implantados com confiança suficiente de que a segurança não se degrade à medida que a implantação cresce. A segurança comportamental, baseada em como os agentes realmente operam, e não nas entradas que recebem, proporciona essa confiança de uma forma que os controles baseados em prompts não conseguem, estruturalmente.

A fronteira de segurança foi traçada no lugar errado, e esse erro fazia sentido quando a IA era uma ferramenta que aguardava informações. Ela não espera mais. Sistemas agentes agem, encadeiam, escalam e se multiplicam em ambientes sem que nenhum teste prévio à implantação tenha sido previsto. As organizações que reconhecerem isso primeiro serão as que realmente escalarão a IA com confiança. Todas as outras passarão os próximos anos descobrindo, violação após violação, que controlar o que um modelo diz nunca foi a mesma coisa que controlar o que ele faz.

Mayank Kumar é o Engenheiro de IA fundador da DeepTempo, onde lidera o projeto e o desenvolvimento do modelo fundamental de linguagem de logs (LogLM) da empresa. Com uma sólida formação acadêmica e de pesquisa em IA generativa e multimodal, ele traz expertise especializada para a construção de modelos específicos de domínio que aprimoram a detecção e a resposta a ameaças em ambientes de segurança cibernética.