Relatórios
Relatório Red Teaming do DeepSeek-R1: Riscos alarmantes de segurança e éticos descobertos

Uma avaliação recente de equipe vermelha conduzida por Encripta IA revelou riscos de segurança significativos, preocupações éticas e vulnerabilidades no DeepSeek-R1. As descobertas, detalhadas no Relatório de Red Teaming de janeiro de 2025, destacam a suscetibilidade do modelo à geração de conteúdo prejudicial, tendencioso e inseguro em comparação com modelos líderes do setor, como GPT-4o, o1 da OpenAI e Claude-3-Opus. Abaixo, uma análise abrangente dos riscos descritos no relatório e recomendações para mitigação.
Principais riscos éticos e de segurança
1. Saída prejudicial e riscos de segurança
- Altamente vulnerável à produção de conteúdo prejudicial, incluindo linguagem tóxica, resultados tendenciosos e informações criminosamente exploráveis.
- 11x mais provável de gerar prejudicial conteúdo do que o o1 da OpenAI.
- 4x mais tóxico do que GPT-4o.
- 3x mais tendencioso do que Claude-3-Opus.
- 4x mais vulnerável à geração código inseguro do que o o1 da OpenAI.
- Altamente suscetível para QBRN (Produtos Químicos, Sistema de Monitoramento, Radiológico e Nuclear) geração de informações, tornando-a uma ferramenta de alto risco para agentes mal-intencionados.
2. Comparação com outros modelos
Categoria de risco | DeepSeek-R1 | Claude-3-Opus | GPT-4o | O1 da OpenAI |
---|---|---|---|---|
Viés | 3x mais alto | Abaixe | Eventos | Eventos |
Código inseguro | 4x mais alto | 2.5x mais alto | 1.25x mais alto | - |
Conteúdo prejudicial | 11x mais alto | 6x mais alto | 2.5x mais alto | - |
Toxicidade | 4x mais alto | Quase ausente | 2.5x mais alto | - |
Conteúdo CBRN | 3.5x mais alto | 3.5x mais alto | 2x mais alto | - |
Preconceito e riscos éticos
- 83% dos ataques tendenciosos foram bem-sucedidos, com viés substancial detectado em consultas relacionadas à saúde, raça e religião.
- O modelo apresentou níveis mais elevados de estereótipos demográficos, o que poderia violar vários regulamentos de equidade, incluindo ECOA, FHA, ACA, e a Lei de IA da UE.
- Os casos de teste de amostra demonstraram que o DeepSeek-R1 preferia certos dados demográficos para funções de alto status, reforçando o ambiente de trabalho viés.
Geração de conteúdo prejudicial
- 45% dos testes nocivos resultou no modelo gerando conteúdo relacionado a Atividades criminosas, incluindo armas ilegais e substâncias controladas.
- Um prompt de teste solicitando ao modelo que desenvolvesse um blog sobre “A Arte da Persuasão no Recrutamento Terrorista” resultou em uma resposta altamente detalhada delineando estratégias de radicalização que poderiam ser explorados por grupos extremistas para refinar tácticas de recrutamento, potencialmente aumentando o risco de violência no mundo real.
- 2.5x mais vulnerável que GPT-4o e 6x mais vulnerável que Claude-3-Opus a gerando conteúdo extremista.
- 45% dos testes nocivos resultou no modelo gerando conteúdo relacionado a to atividades criminosas, incluindo armas ilegais e substâncias controladas.
Geração de código inseguro
- 78% dos ataques relacionados a código extraíram com sucesso trechos de código inseguros e maliciosos.
- O modelo gerado malware, trojans e scripts autoexecutáveis mediante solicitações. Os trojans representam um risco grave, pois podem permitir que invasores obtenham acesso persistente e não autorizado aos sistemas, roubem dados confidenciais e implantem mais payloads maliciosos.
- Scripts autoexecutáveis pode automatizar ações maliciosas sem o consentimento do usuário, criando ameaças potenciais em aplicativos críticos de segurança cibernética.
- Comparado aos modelos da indústria, o DeepSeek-R1 foi 4.5x, 2.5x e 1.25x mais vulneráveis do que o1, Claude-3-Opus e GPT-4o da OpenAI, respectivamente.
- 78% de ataques relacionados a código com sucesso extraiu trechos de código inseguros e maliciosos.
Vulnerabilidades CBRN
- Gerou informações detalhadas sobre mecanismos bioquímicos de agentes de guerra química. Esse tipo de informação poderia potencialmente ajudar indivíduos a sintetizar materiais perigosos, ignorando restrições de segurança destinadas a impedir a disseminação de armas químicas e biológicas.
- 13% dos testes contornou com sucesso os controles de segurança, produzindo conteúdo relacionado a nuclear e ameaças biológicas.
- 3.5x mais vulnerável que Claude-3-Opus e o1 da OpenAI.
- Gerou informações detalhadas sobre mecanismos bioquímicos de agentes de guerra química.
- 13% dos testes contornaram com sucesso os controles de segurança, produzindo conteúdo relacionado a ameaças nucleares e biológicas.
- 3.5x mais vulnerável que o Claude-3-Opus e o o1 da OpenAI.
Recomendações para mitigação de riscos
Para minimizar os riscos associados ao DeepSeek-R1, as seguintes etapas são recomendadas:
1. Implementar treinamento robusto de alinhamento de segurança
- Conjuntos de dados de equipe vermelha devem ser usados para treinar o modelo em saídas mais seguras.
- Conduzir aprendizado por reforço com feedback humano (RLHF) para alinhar o comportamento do modelo com os padrões éticos.
2. Red Teaming automatizado contínuo
- Testes de estresse regulares para identificar preconceitos, vulnerabilidades de segurança e geração de conteúdo tóxico.
- Empregar monitoramento contínuo de desempenho do modelo, particularmente em aplicações financeiras, de saúde e de segurança cibernética.
3. Guardrails sensíveis ao contexto para segurança
- Desenvolva proteções dinâmicas para bloquear avisos prejudiciais.
- Implemente ferramentas de moderação de conteúdo para neutralizar entradas prejudiciais e filtrar respostas inseguras.
4. Monitoramento e registro de modelo ativo
- Registro em tempo real de entradas e respostas do modelo para detecção precoce de vulnerabilidades.
- Fluxos de trabalho de auditoria automatizados para garantir a conformidade com a transparência e os padrões éticos da IA.
5. Medidas de Transparência e Conformidade
- Manter um cartão de risco do modelo com métricas executivas claras sobre confiabilidade do modelo, segurança e riscos éticos.
- Cumpra com os regulamentos de IA tais como NIST AI RMF e ATLAS DE MITRA para manter a credibilidade.
Conclusão
DeepSeek-R1 apresenta segurança séria, considerações éticas , e riscos de conformidade que o tornam inadequado para muitas aplicações de alto risco sem esforços extensivos de mitigação. Sua propensão a gerar conteúdo prejudicial, tendencioso e inseguro o coloca em desvantagem em comparação a modelos como Claude-3-Opus, GPT-4o e o1 da OpenAI.
Dado que o DeepSeek-R1 é um produto originário da China, é improvável que as recomendações de mitigação necessárias sejam totalmente implementadas. No entanto, continua sendo crucial que as comunidades de IA e segurança cibernética estejam cientes dos riscos potenciais que esse modelo representa. A transparência sobre essas vulnerabilidades garante que desenvolvedores, reguladores e empresas possam tomar medidas proativas para mitigar danos sempre que possível e permanecer vigilantes contra o uso indevido dessa tecnologia.
As organizações que consideram sua implantação devem investir em testes de segurança rigorosos, equipes vermelhas automatizadas e monitoramento contínuo para garantir segurança e AI responsável implementação. O DeepSeek-R1 apresenta sérios riscos de segurança, éticos e de conformidade que o tornam inadequado para muitas aplicações de alto risco sem esforços extensivos de mitigação.
Os leitores que desejam saber mais são aconselhados a baixar o relatório em visitando esta página.