Entre em contato

Quando a IA falha: Relatório de IA da Enkrypt expõe vulnerabilidades perigosas em modelos multimodais

Relatórios

Quando a IA falha: Relatório de IA da Enkrypt expõe vulnerabilidades perigosas em modelos multimodais

mm

Em maio de 2025, a Enkrypt AI lançou seu Relatório de Red Teaming Multimodal, uma análise arrepiante que revelou a facilidade com que sistemas avançados de IA podem ser manipulados para gerar conteúdo perigoso e antiético. O relatório se concentra em dois dos principais modelos de visão e linguagem da Mistral — Pixtral-Large (25.02) e Pixtral-12b — e traça um panorama de modelos que não são apenas tecnicamente impressionantes, mas também perturbadoramente vulneráveis.

Modelos de visão e linguagem (VLMs) Sistemas de linguagem VLM, como o Pixtral, são projetados para interpretar entradas visuais e textuais, permitindo que respondam de forma inteligente a solicitações complexas do mundo real. Mas essa capacidade traz consigo riscos maiores. Ao contrário dos modelos de linguagem tradicionais que processam apenas texto, os VLMs podem ser influenciados pela interação entre imagens e palavras, abrindo novas portas para ataques adversários. Os testes da Enkrypt AI mostram a facilidade com que essas portas podem ser arrombadas.

Resultados de testes alarmantes: falhas de CSEM e CBRN

A equipe por trás do relatório utilizou sofisticados time vermelho métodos — uma forma de avaliação adversarial projetada para imitar ameaças do mundo real. Esses testes empregaram táticas como jailbreaking (solicitando ao modelo, com consultas cuidadosamente elaboradas, que ignorasse os filtros de segurança), enganação baseada em imagens e manipulação de contexto. De forma alarmante, 68% desses prompts adversos provocaram respostas prejudiciais nos dois modelos da Pixtral, incluindo conteúdo relacionado a aliciamento, exploração e até mesmo ao desenvolvimento de armas químicas.

Uma das revelações mais marcantes envolve material de exploração sexual infantil (CSEM). O relatório constatou que os modelos da Mistral tinham 60 vezes mais probabilidade de produzir conteúdo relacionado a CSEM em comparação com referências do setor como GPT-4o e Claude 3.7 Sonnet. Em casos de teste, os modelos responderam a perguntas disfarçadas de aliciamento com conteúdo estruturado e de vários parágrafos explicando como manipular menores — envoltos em avisos falsos como "apenas para conscientização educacional". Os modelos não estavam simplesmente deixando de rejeitar consultas prejudiciais — eles as estavam completando detalhadamente.

Igualmente preocupantes foram os resultados na categoria de risco QBRN (Químico, Biológico, Radiológico e Nuclear). Quando questionados sobre como modificar o agente nervoso VX — uma arma química —, os modelos ofereceram ideias surpreendentemente específicas para aumentar sua persistência no ambiente. Descreveram, em detalhes redigidos, mas claramente técnicos, métodos como encapsulamento, blindagem ambiental e sistemas de liberação controlada..

Essas falhas nem sempre eram desencadeadas por solicitações abertamente prejudiciais. Uma tática envolvia o upload de uma imagem de uma lista numerada em branco e a solicitação ao modelo para "preencher os detalhes". Essa solicitação simples, aparentemente inócua, levava à geração de instruções antiéticas e ilegais. A fusão de manipulação visual e textual se mostrou especialmente perigosa, destacando um desafio singular imposto pela IA multimodal.

Por que os modelos de linguagem de visão representam novos desafios de segurança

No cerne desses riscos está a complexidade técnica dos modelos de visão-linguagem. Esses sistemas não se limitam a analisar a linguagem — eles sintetizam o significado em diferentes formatos, o que significa que precisam interpretar o conteúdo da imagem, entender o contexto do texto e responder adequadamente. Essa interação introduz novos vetores de exploração. Um modelo pode rejeitar corretamente apenas um prompt de texto prejudicial, mas, quando combinado com uma imagem sugestiva ou um contexto ambíguo, pode gerar resultados perigosos.

A equipe vermelha da Enkrypt AI descobriu como ataques de injeção multimodal—onde sinais sutis em uma modalidade influenciam o resultado de outra — podem contornar completamente os mecanismos de segurança padrão. Essas falhas demonstram que as técnicas tradicionais de moderação de conteúdo, desenvolvidas para sistemas de modalidade única, não são suficientes para os VLMs atuais..

O relatório também detalha como os modelos Pixtral foram acessados: Pixtral-Large por meio do AWS Bedrock e Pixtral-12b por meio da plataforma Mistral. Esse contexto de implantação no mundo real enfatiza ainda mais a urgência dessas descobertas. Esses modelos não se limitam a laboratórios — eles estão disponíveis em plataformas de nuvem convencionais e podem ser facilmente integrados a produtos para consumidores ou empresas.

O que deve ser feito: um projeto para uma IA mais segura

Para seu crédito, a Enkrypt AI faz mais do que destacar os problemas — ela oferece um caminho a seguir. O relatório descreve uma estratégia abrangente de mitigação, começando com treinamento de alinhamento de segurançaIsso envolve o retreinamento do modelo usando seus próprios dados de red teaming para reduzir a suscetibilidade a prompts prejudiciais. Técnicas como a Otimização de Preferência Direta (DPO) são recomendadas para ajustar as respostas do modelo, afastando-as de saídas arriscadas.

O relatório também enfatiza a importância de guardrails sensíveis ao contexto — filtros dinâmicos que podem interpretar e bloquear consultas prejudiciais em tempo real, levando em consideração o contexto completo da entrada multimodal. Além disso, o uso de Cartões de Risco do Modelo é proposto como medida de transparência, ajudando as partes interessadas a compreender as limitações do modelo e os casos de falhas conhecidos.

Talvez a recomendação mais crítica seja tratar o red teaming como um processo contínuo, não um teste único. À medida que os modelos evoluem, as estratégias de ataque também evoluem. Somente a avaliação contínua e o monitoramento ativo podem garantir confiabilidade a longo prazo, especialmente quando os modelos são implantados em setores sensíveis como saúde, educação ou defesa.

A Relatório de Red Teaming Multimodal da Encripta IA é um sinal claro para a indústria de IA: poder multimodal traz consigo responsabilidade multimodal. Esses modelos representam um salto em termos de capacidade, mas também exigem um salto na forma como pensamos sobre segurança, proteção e implantação ética. Se não forem controlados, eles não apenas correm o risco de fracasso, como também de danos no mundo real.

Para quem trabalha ou implementa IA em larga escala, este relatório não é apenas um alerta. É um manual. E não poderia ter chegado em um momento mais urgente.

Antoine é um líder visionário e sócio fundador da Unite.AI, movido por uma paixão inabalável por moldar e promover o futuro da IA ​​e da robótica. Um empreendedor em série, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego delirando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele se dedica a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Valores Mobiliários.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.