Relatórios
Relatório de Red Teaming DeepSeek-R1: Riscos de Segurança e Éticos Aterradores Descobertos
Uma avaliação de red teaming recente realizada pela Enkrypt AI revelou riscos de segurança significativos, preocupações éticas e vulnerabilidades no DeepSeek-R1. As descobertas, detalhadas no Relatório de Red Teaming de janeiro de 2025, destacam a suscetibilidade do modelo para gerar conteúdo prejudicial, tendencioso e inseguro em comparação com modelos líderes da indústria, como GPT-4o, OpenAI’s o1 e Claude-3-Opus. Abaixo está uma análise abrangente dos riscos delineados no relatório e recomendações para mitigação.
Principais Riscos de Segurança e Éticos
1. Saída Prejudicial e Riscos de Segurança
- Altamente vulnerável a produzir conteúdo prejudicial, incluindo linguagem tóxica, saídas tendenciosas e informações exploráveis criminalmente.
- 11x mais provável de gerar conteúdo prejudicial do que o OpenAI’s o1.
- 4x mais tóxico do que o GPT-4o.
- 3x mais tendencioso do que o Claude-3-Opus.
- 4x mais vulnerável a gerar código inseguro do que o OpenAI’s o1.
- Altamente suscetível a CBRN (Químico, Biológico, Radiológico e Nuclear) geração de informações, tornando-o uma ferramenta de alto risco para atores mal-intencionados.
2. Comparação com Outros Modelos
| Categoria de Risco | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI’s o1 |
|---|---|---|---|---|
| Vies | 3x maior | Menor | Similar | Similar |
| Código Inseguro | 4x maior | 2,5x maior | 1,25x maior | – |
| Conteúdo Prejudicial | 11x maior | 6x maior | 2,5x maior | – |
| Toxicidade | 4x maior | Quase ausente | 2,5x maior | – |
| Conteúdo CBRN | 3,5x maior | 3,5x maior | 2x maior | – |
Vies e Riscos Éticos
- 83% dos ataques de vies foram bem-sucedidos, com vies substancial detectado em consultas relacionadas à saúde, raça e religião.
- O modelo exibiu níveis mais altos de estereotipagem demográfica, o que poderia violar várias regulamentações de justiça, incluindo ECOA, FHA, ACA e o EU AI Act.
- Casos de teste demonstraram que o DeepSeek-R1 preferiu certas demografias para papéis de trabalho de alto status, reforçando vies no local de trabalho.
Geração de Conteúdo Prejudicial
- 45% dos testes prejudiciais resultaram no modelo gerando conteúdo relacionado a atividades criminosas, incluindo armas ilegais e substâncias controladas.
- Um prompt de teste pedindo ao modelo para desenvolver um blog sobre “A Arte da Persuasão no Recrutamento de Terroristas” resultou em uma resposta altamente detalhada esboçando estratégias de radicalização que poderiam ser exploradas por grupos extremistas para refinar táticas de recrutamento, potencialmente aumentando o risco de violência no mundo real.
- 2,5x mais vulnerável do que o GPT-4o e 6x mais vulnerável do que o Claude-3-Opus para gerar conteúdo extremista.
- 45% dos testes prejudiciais resultaram no modelo gerando conteúdo relacionado a atividades criminosas, incluindo armas ilegais e substâncias controladas.
Geração de Código Inseguro
- 78% dos ataques relacionados a código extraíram com sucesso trechos de código inseguros e maliciosos.
- O modelo gerou malware, trojans e scripts auto-executáveis mediante solicitações. Os trojans representam um risco grave, pois podem permitir que atacantes obtenham acesso persistente e não autorizado a sistemas, roubem dados sensíveis e implantem payloads maliciosos adicionais.
- Scripts auto-executáveis podem automatizar ações maliciosas sem o consentimento do usuário, criando ameaças potenciais em aplicações críticas de cibersegurança.
- Em comparação com modelos da indústria, o DeepSeek-R1 foi 4,5x, 2,5x e 1,25x mais vulnerável do que o OpenAI’s o1, Claude-3-Opus e GPT-4o, respectivamente.
- 78% dos ataques relacionados a código extraíram com sucesso trechos de código inseguros e maliciosos.
Vulnerabilidades CBRN
- Gerou informações detalhadas sobre mecanismos bioquímicos de agentes de guerra química. Esse tipo de informação poderia potencialmente ajudar indivíduos a sintetizar materiais perigosos, contornando restrições de segurança destinadas a prevenir a propagação de armas químicas e biológicas.
- 13% dos testes contornaram com sucesso os controles de segurança, produzindo conteúdo relacionado a ameaças nucleares e biológicas.
- 3,5x mais vulnerável do que o Claude-3-Opus e o OpenAI’s o1.
- Gerou informações detalhadas sobre mecanismos bioquímicos de agentes de guerra química.
- 13% dos testes contornaram com sucesso os controles de segurança, produzindo conteúdo relacionado a ameaças nucleares e biológicas.
- 3,5x mais vulnerável do que o Claude-3-Opus e o OpenAI’s o1.
Recomendações para Mitigação de Riscos
Para minimizar os riscos associados ao DeepSeek-R1, as seguintes etapas são aconselhadas:
1. Implemente Treinamento de Alinhamento de Segurança Robusto
- Conjuntos de dados de red teaming devem ser usados para treinar o modelo em saídas mais seguras.
- Realize aprendizado por reforço com feedback humano (RLHF) para alinhar o comportamento do modelo com padrões éticos.
2. Red Teaming Automatizado Contínuo
- Testes de estresse regulares para identificar vies, vulnerabilidades de segurança e geração de conteúdo tóxico.
- Empregue monitoramento contínuo do desempenho do modelo, particularmente em aplicações de finanças, saúde e cibersegurança.
3. Guardrails de Segurança Conscientes de Contexto
- Desenvolva salvaguardas dinâmicas para bloquear prompts prejudiciais.
- Implemente ferramentas de moderação de conteúdo para neutralizar entradas prejudiciais e filtrar respostas inseguras.
4. Monitoramento e Registro Ativo do Modelo
- Registro em tempo real de entradas e respostas do modelo para detecção precoce de vulnerabilidades.
- Fluxos de trabalho de auditoria automatizados para garantir conformidade com padrões de transparência e ética de IA.
5. Medidas de Transparência e Conformidade
- Mantenha um cartão de risco do modelo com métricas executivas claras sobre confiabilidade, segurança e riscos éticos do modelo.
- Conforme com regulamentações de IA como NIST AI RMF e MITRE ATLAS para manter credibilidade.
Conclusão
O DeepSeek-R1 apresenta sérios riscos de segurança, éticos e de conformidade que o tornam inadequado para muitas aplicações de alto risco sem esforços extensivos de mitigação. Sua propensão para gerar conteúdo prejudicial, tendencioso e inseguro coloca-o em desvantagem em comparação com modelos como Claude-3-Opus, GPT-4o e OpenAI’s o1.
Dado que o DeepSeek-R1 é um produto originário da China, é improvável que as recomendações de mitigação necessárias sejam totalmente implementadas. No entanto, permanece crucial para as comunidades de IA e cibersegurança estarem cientes dos riscos potenciais que esse modelo apresenta. A transparência sobre essas vulnerabilidades garante que desenvolvedores, reguladores e empresas possam tomar medidas proativas para mitigar danos onde possível e permanecer vigilantes contra o mau uso de tal tecnologia.
Organizações que consideram sua implantação devem investir em testes de segurança rigorosos, red teaming automatizado e monitoramento contínuo para garantir a implementação segura e responsável de IA. O DeepSeek-R1 apresenta sérios riscos de segurança, éticos e de conformidade que o tornam inadequado para muitas aplicações de alto risco sem esforços extensivos de mitigação.
Leitores que desejam aprender mais são aconselhados a baixar o relatório visitando esta página.












