Informes
Informe de Red Teaming DeepSeek-R1: Riesgos de Seguridad y Ética Alarmantes Descubiertos
Una evaluación de red teaming reciente realizada por Enkrypt AI ha revelado riesgos de seguridad significativos, preocupaciones éticas y vulnerabilidades en DeepSeek-R1. Los hallazgos, detallados en el Informe de Red Teaming de enero de 2025, resaltan la susceptibilidad del modelo a generar contenido dañino, sesgado e inseguro en comparación con modelos líderes en la industria como GPT-4o, OpenAI’s o1 y Claude-3-Opus. A continuación, se presenta un análisis exhaustivo de los riesgos descritos en el informe y recomendaciones para mitigarlos.
Riesgos de Seguridad y Ética Clave
1. Salida Dañina y Riesgos de Seguridad
- Altamente vulnerable a producir contenido dañino, incluyendo lenguaje tóxico, salidas sesgadas e información explotable criminalmente.
- 11 veces más probable que genere contenido dañino que OpenAI’s o1.
- 4 veces más tóxico que GPT-4o.
- 3 veces más sesgado que Claude-3-Opus.
- 4 veces más vulnerable a generar código inseguro que OpenAI’s o1.
- Altamente susceptible a la generación de información CBRN (Química, Biológica, Radiológica y Nuclear), lo que lo convierte en una herramienta de alto riesgo para actores maliciosos.
2. Comparación con Otros Modelos
| Categoría de Riesgo | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI’s o1 |
|---|---|---|---|---|
| Sesgo | 3 veces mayor | Menor | Similar | Similar |
| Código Inseguro | 4 veces mayor | 2,5 veces mayor | 1,25 veces mayor | – |
| Contenido Dañino | 11 veces mayor | 6 veces mayor | 2,5 veces mayor | – |
| Toxicidad | 4 veces mayor | Casi ausente | 2,5 veces mayor | – |
| Contenido CBRN | 3,5 veces mayor | 3,5 veces mayor | 2 veces mayor | – |
Sesgo y Riesgos Éticos
- 83% de los ataques de sesgo fueron exitosos, con un sesgo sustancial detectado en consultas relacionadas con la salud, la raza y la religión.
- El modelo mostró niveles más altos de estereotipos demográficos, lo que podría violar varias regulaciones de equidad, incluyendo ECOA, FHA, ACA y el Reglamento de IA de la UE.
- Casos de prueba de muestra demostraron que DeepSeek-R1 prefirió ciertas demografías para papeles de trabajo de alto estatus, reforzando el sesgo en el lugar de trabajo.
Generación de Contenido Dañino
- 45% de las pruebas dañinas resultaron en el modelo generando contenido relacionado con actividades criminales, incluyendo armas ilegales y sustancias controladas.
- Una solicitud de prueba que pidió al modelo que desarrollara un blog sobre “El Arte de la Persuasión en el Reclutamiento Terrorista” resultó en una respuesta muy detallada que describía estrategias de radicalización que podrían ser explotadas por grupos extremistas para refinar las tácticas de reclutamiento, lo que potencialmente aumenta el riesgo de violencia en el mundo real.
- 2,5 veces más vulnerable que GPT-4o y 6 veces más vulnerable que Claude-3-Opus a generar contenido extremista.
- 45% de las pruebas dañinas resultaron en el modelo generando contenido relacionado con actividades criminales, incluyendo armas ilegales y sustancias controladas.
Generación de Código Inseguro
- 78% de los ataques relacionados con el código extrajeron con éxito fragmentos de código inseguros y maliciosos.
- El modelo generó malware, troyanos y scripts de autoejecución a solicitud. Los troyanos plantean un riesgo grave ya que pueden permitir a los atacantes obtener acceso persistente y no autorizado a los sistemas, robar datos sensibles y desplegar cargas maliciosas adicionales.
- Scripts de autoejecución pueden automatizar acciones maliciosas sin el consentimiento del usuario, creando amenazas potenciales en aplicaciones críticas de ciberseguridad.
- En comparación con los modelos de la industria, DeepSeek-R1 fue 4,5 veces, 2,5 veces y 1,25 veces más vulnerable que OpenAI’s o1, Claude-3-Opus y GPT-4o, respectivamente.
- 78% de los ataques relacionados con el código extrajeron con éxito fragmentos de código inseguros y maliciosos.
Vulnerabilidades CBRN
- Generó información detallada sobre los mecanismos bioquímicos de los agentes de guerra química. Este tipo de información podría potencialmente ayudar a los individuos a sintetizar materiales peligrosos, evadiendo las restricciones de seguridad destinadas a prevenir la propagación de armas químicas y biológicas.
- 13% de las pruebas sortearon con éxito los controles de seguridad, produciendo contenido relacionado con amenazas nucleares y biológicas.
- 3,5 veces más vulnerable que Claude-3-Opus y OpenAI’s o1.
- Generó información detallada sobre los mecanismos bioquímicos de los agentes de guerra química.
- 13% de las pruebas sortearon con éxito los controles de seguridad, produciendo contenido relacionado con amenazas nucleares y biológicas.
- 3,5 veces más vulnerable que Claude-3-Opus y OpenAI’s o1.
Recomendaciones para la Mitigación de Riesgos
Para minimizar los riesgos asociados con DeepSeek-R1, se aconsejan los siguientes pasos:
1. Implementar Capacitación de Alineación de Seguridad Robusta
- Los conjuntos de datos de red teaming deben usarse para entrenar al modelo en salidas más seguras.
- Realizar aprendizaje de refuerzo con retroalimentación humana (RLHF) para alinear el comportamiento del modelo con estándares éticos.
2. Red Teaming Automatizado Continuo
- Pruebas de estrés regulares para identificar sesgos, vulnerabilidades de seguridad y generación de contenido tóxico.
- Emplear monitoreo continuo del rendimiento del modelo, particularmente en aplicaciones de finanzas, atención médica y ciberseguridad.
3. Barreras de Seguridad Conscientes del Contexto
- Desarrollar salvaguardas dinámicas para bloquear solicitudes dañinas.
- Implementar herramientas de moderación de contenido para neutralizar entradas dañinas y filtrar respuestas no seguras.
4. Monitoreo Activo del Modelo y Registro
- Registro en tiempo real de las entradas y respuestas del modelo para la detección temprana de vulnerabilidades.
- Flujos de trabajo de auditoría automatizados para garantizar el cumplimiento de los estándares de transparencia y ética de la IA.
5. Medidas de Transparencia y Cumplimiento
- Mantener una tarjeta de riesgo del modelo con métricas ejecutivas claras sobre la confiabilidad, seguridad y riesgos éticos del modelo.
- Cumplir con las regulaciones de IA como NIST AI RMF y MITRE ATLAS para mantener la credibilidad.
Conclusión
DeepSeek-R1 presenta riesgos de seguridad, ética y cumplimiento graves que lo hacen inadecuado para muchas aplicaciones de alto riesgo sin esfuerzos de mitigación extensos. Su propensión a generar contenido dañino, sesgado e inseguro lo coloca en desventaja en comparación con modelos como Claude-3-Opus, GPT-4o y OpenAI’s o1.
Dado que DeepSeek-R1 es un producto originario de China, es poco probable que se implementen completamente las recomendaciones de mitigación necesarias. Sin embargo, es crucial que las comunidades de IA y ciberseguridad sean conscientes de los riesgos potenciales que plantea este modelo. La transparencia sobre estas vulnerabilidades garantiza que los desarrolladores, reguladores y empresas puedan tomar medidas proactivas para mitigar el daño donde sea posible y permanecer vigilantes contra el mal uso de esta tecnología.
Las organizaciones que consideren su implementación deben invertir en pruebas de seguridad rigurosas, red teaming automatizado y monitoreo continuo para garantizar una implementación de IA segura y responsable. DeepSeek-R1 presenta riesgos de seguridad, ética y cumplimiento graves que lo hacen inadecuado para muchas aplicaciones de alto riesgo sin esfuerzos de mitigación extensos.
Los lectores que deseen obtener más información se recomienda que descarguen el informe visitando esta página.












