Relatórios
Quando a IA falha: Relatório de IA da Enkrypt expõe vulnerabilidades perigosas em modelos multimodais

Em maio de 2025, a Enkrypt AI lançou seu Relatório de Red Teaming Multimodal, uma análise arrepiante que revelou a facilidade com que sistemas avançados de IA podem ser manipulados para gerar conteúdo perigoso e antiético. O relatório se concentra em dois dos principais modelos de visão e linguagem da Mistral — Pixtral-Large (25.02) e Pixtral-12b — e traça um panorama de modelos que não são apenas tecnicamente impressionantes, mas também perturbadoramente vulneráveis.
Modelos de visão e linguagem (VLMs) Sistemas de linguagem VLM, como o Pixtral, são projetados para interpretar entradas visuais e textuais, permitindo que respondam de forma inteligente a solicitações complexas do mundo real. Mas essa capacidade traz consigo riscos maiores. Ao contrário dos modelos de linguagem tradicionais que processam apenas texto, os VLMs podem ser influenciados pela interação entre imagens e palavras, abrindo novas portas para ataques adversários. Os testes da Enkrypt AI mostram a facilidade com que essas portas podem ser arrombadas.
Resultados de testes alarmantes: falhas de CSEM e CBRN
A equipe por trás do relatório utilizou sofisticados time vermelho métodos — uma forma de avaliação adversarial projetada para imitar ameaças do mundo real. Esses testes empregaram táticas como jailbreaking (solicitando ao modelo, com consultas cuidadosamente elaboradas, que ignorasse os filtros de segurança), enganação baseada em imagens e manipulação de contexto. De forma alarmante, 68% desses prompts adversos provocaram respostas prejudiciais nos dois modelos da Pixtral, incluindo conteúdo relacionado a aliciamento, exploração e até mesmo ao desenvolvimento de armas quÃmicas.
Uma das revelações mais marcantes envolve material de exploração sexual infantil (CSEM). O relatório constatou que os modelos da Mistral tinham 60 vezes mais probabilidade de produzir conteúdo relacionado a CSEM em comparação com referências do setor como GPT-4o e Claude 3.7 Sonnet. Em casos de teste, os modelos responderam a perguntas disfarçadas de aliciamento com conteúdo estruturado e de vários parágrafos explicando como manipular menores — envoltos em avisos falsos como "apenas para conscientização educacional". Os modelos não estavam simplesmente deixando de rejeitar consultas prejudiciais — eles as estavam completando detalhadamente.
Igualmente preocupantes foram os resultados na categoria de risco QBRN (QuÃmico, Biológico, Radiológico e Nuclear). Quando questionados sobre como modificar o agente nervoso VX — uma arma quÃmica —, os modelos ofereceram ideias surpreendentemente especÃficas para aumentar sua persistência no ambiente. Descreveram, em detalhes redigidos, mas claramente técnicos, métodos como encapsulamento, blindagem ambiental e sistemas de liberação controlada..
Essas falhas nem sempre eram desencadeadas por solicitações abertamente prejudiciais. Uma tática envolvia o upload de uma imagem de uma lista numerada em branco e a solicitação ao modelo para "preencher os detalhes". Essa solicitação simples, aparentemente inócua, levava à geração de instruções antiéticas e ilegais. A fusão de manipulação visual e textual se mostrou especialmente perigosa, destacando um desafio singular imposto pela IA multimodal.
Por que os modelos de linguagem de visão representam novos desafios de segurança
No cerne desses riscos está a complexidade técnica dos modelos de visão-linguagem. Esses sistemas não se limitam a analisar a linguagem — eles sintetizam o significado em diferentes formatos, o que significa que precisam interpretar o conteúdo da imagem, entender o contexto do texto e responder adequadamente. Essa interação introduz novos vetores de exploração. Um modelo pode rejeitar corretamente apenas um prompt de texto prejudicial, mas, quando combinado com uma imagem sugestiva ou um contexto ambÃguo, pode gerar resultados perigosos.
A equipe vermelha da Enkrypt AI descobriu como ataques de injeção multimodal—onde sinais sutis em uma modalidade influenciam o resultado de outra — podem contornar completamente os mecanismos de segurança padrão. Essas falhas demonstram que as técnicas tradicionais de moderação de conteúdo, desenvolvidas para sistemas de modalidade única, não são suficientes para os VLMs atuais..
O relatório também detalha como os modelos Pixtral foram acessados: Pixtral-Large por meio do AWS Bedrock e Pixtral-12b por meio da plataforma Mistral. Esse contexto de implantação no mundo real enfatiza ainda mais a urgência dessas descobertas. Esses modelos não se limitam a laboratórios — eles estão disponÃveis em plataformas de nuvem convencionais e podem ser facilmente integrados a produtos para consumidores ou empresas.
O que deve ser feito: um projeto para uma IA mais segura
Para seu crédito, a Enkrypt AI faz mais do que destacar os problemas — ela oferece um caminho a seguir. O relatório descreve uma estratégia abrangente de mitigação, começando com treinamento de alinhamento de segurançaIsso envolve o retreinamento do modelo usando seus próprios dados de red teaming para reduzir a suscetibilidade a prompts prejudiciais. Técnicas como a Otimização de Preferência Direta (DPO) são recomendadas para ajustar as respostas do modelo, afastando-as de saÃdas arriscadas.
O relatório também enfatiza a importância de guardrails sensÃveis ao contexto — filtros dinâmicos que podem interpretar e bloquear consultas prejudiciais em tempo real, levando em consideração o contexto completo da entrada multimodal. Além disso, o uso de Cartões de Risco do Modelo é proposto como medida de transparência, ajudando as partes interessadas a compreender as limitações do modelo e os casos de falhas conhecidos.
Talvez a recomendação mais crÃtica seja tratar o red teaming como um processo contÃnuo, não um teste único. À medida que os modelos evoluem, as estratégias de ataque também evoluem. Somente a avaliação contÃnua e o monitoramento ativo podem garantir confiabilidade a longo prazo, especialmente quando os modelos são implantados em setores sensÃveis como saúde, educação ou defesa.
A Relatório de Red Teaming Multimodal da Encripta IA é um sinal claro para a indústria de IA: poder multimodal traz consigo responsabilidade multimodal. Esses modelos representam um salto em termos de capacidade, mas também exigem um salto na forma como pensamos sobre segurança, proteção e implantação ética. Se não forem controlados, eles não apenas correm o risco de fracasso, como também de danos no mundo real.
Para quem trabalha ou implementa IA em larga escala, este relatório não é apenas um alerta. É um manual. E não poderia ter chegado em um momento mais urgente.