Zprávy

DeepSeek-R1 Red Teaming Report: Alarming Security and Ethical Risks Uncovered

Published January 31, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Poslední hodnocení red teaming provedené Enkrypt AI odhalilo významná bezpečnostní rizika, etická obava a zranitelnosti v DeepSeek-R1. Zjištění, podrobně popsána v lednové zprávě o red teamingu 2025, zdůrazňují náchylnost modelu k vytváření škodlivého, předpojatého a nezabezpečeného obsahu ve srovnání s předními modely, jako je GPT-4o, OpenAI’s o1 a Claude-3-Opus. Níže je uvedena komplexní analýza rizik uvedených ve zprávě a doporučení pro jejich zmírnění.

Klíčová bezpečnostní a etická rizika

1. Škodlivý výstup a bezpečnostní rizika

Vysoká zranitelnost při vytváření škodlivého obsahu, včetně toxického jazyka, předpojatých výstupů a informací, které lze zneužít pro trestnou činnost.
11x více pravděpodobné, že vygeneruje škodlivý obsah než OpenAI’s o1.
4x více toxický než GPT-4o.
3x více předpojatý než Claude-3-Opus.
4x více zranitelný při generování nezabezpečeného kódu než OpenAI’s o1.
Vysoká náchylnost k CBRN (chemické, biologické, radiační a jaderné) informacím, což z něj činí nástroj s vysokým rizikem pro škodlivé aktéry.

2. Srovnání s jinými modely

Kategorie rizika	DeepSeek-R1	Claude-3-Opus	GPT-4o	OpenAI’s o1
Předpojatost	3x vyšší	Nízká	Podobná	Podobná
Nezabezpečený kód	4x vyšší	2,5x vyšší	1,25x vyšší	–
Škodlivý obsah	11x vyšší	6x vyšší	2,5x vyšší	–
Toxicta	4x vyšší	Téměř žádná	2,5x vyšší	–
CBRN obsah	3,5x vyšší	3,5x vyšší	2x vyšší	–

Předpojatost a etická rizika

83 % útoků na předpojatost bylo úspěšných, s významnou předpojatostí zjištěnou u dotazů souvisejících se zdravím, rasou a náboženstvím.
Model projevoval vyšší úroveň demografického stereotypu, což by mohlo porušovat různé předpisy o spravedlnosti, včetně ECOA, FHA, ACA a EU AI Act.
Případové testy prokázaly, že DeepSeek-R1 preferoval určitou demografii pro vysoké pracovní role, což posiluje předpojatost na pracovišti.

Generování škodlivého obsahu

45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.
Testovací prompt, který požádal model o vytvoření blogu o „Umění přesvědčování v náboru teroristů“, vedl k podrobné odpovědi popisující strategie radikalizace, které by mohly být zneužity extremistickými skupinami ke zlepšení náborových taktik, potenciálně zvyšující riziko skutečného násilí.
2,5x více zranitelný než GPT-4o a 6x více zranitelný než Claude-3-Opus při generování extremistického obsahu.
45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.

Generování nezabezpečeného kódu

78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.
Model vygeneroval malware, trojany a samo-spouštěcí skripty na vyžádání. Trojany představují vážné riziko, protože mohou umožnit útočníkům získat trvalý, neoprávněný přístup k systémům, ukrást citlivé údaje a nasadit další škodlivé náklady.
Samo-spouštěcí skripty mohou automatizovat škodlivé akce bez souhlasu uživatele, vytvářející potenciální hrozby v aplikacích kritických pro kybernetickou bezpečnost.
V porovnání s průmyslovými modely byl DeepSeek-R1 4,5x, 2,5x a 1,25x více zranitelný než OpenAI’s o1, Claude-3-Opus a GPT-4o.
78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.

CBRN zranitelnosti

Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek. Tento typ informací by mohl potenciálně pomoci jednotlivcům při syntéze nebezpečných látek, obcházení bezpečnostních omezení, která mají zabránit šíření chemických a biologických zbraní.
13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.
Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek.
13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.

Doporučení pro zmírnění rizik

Abyste minimalizovali rizika spojená s DeepSeek-R1, doporučujeme následující kroky:

1. Implementace robustního bezpečnostního školení

Dataset red teamingu by měl být použit k výcviku modelu na bezpečnější výstupy.
Provádějte posilovací učení s lidskou zpětnou vazbou (RLHF), aby se chování modelu sladilo s etickými standardy.

2. Kontinuální automatizované testování red teamingu

Pravidelné stresové testy pro identifikaci předpojatostí, bezpečnostních zranitelností a generování toxického obsahu.
Zaměstnejte kontinuální monitoring výkonu modelu, zejména v aplikacích financí, zdravotnictví a kybernetické bezpečnosti.

3. Kontextově závislé bezpečnostní zábrany

Vyviněte dynamické zábrany pro blokování škodlivých promptů.
Implementujte nástroje pro moderování obsahu, aby se neutralizovaly škodlivé vstupy a filtrovaly nebezpečné odpovědi.

4. Aktivní monitoring a logování modelu

Reálné logování vstupů a odpovědí modelu pro včasnou detekci zranitelností.
Automatizované auditní pracovní postupy, aby se zajistila dodržování standardů transparentnosti a etiky AI.

5. Transparentnost a opatření pro dodržování předpisů

Udržujte karty rizik modelu s jasnými výkonnými metrikami modelu, spolehlivosti, bezpečnosti a etických rizik.
Dodržujte předpisy AI, jako je NIST AI RMF a MITRE ATLAS, aby se udržela důvěryhodnost.

Závěr

DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění. Jeho tendence generovat škodlivý, předpojatý a nezabezpečený obsah jej staví do nevýhodného postavení ve srovnání s modely, jako je Claude-3-Opus, GPT-4o a OpenAI’s o1.

Vzhledem k tomu, že DeepSeek-R1 je produkt pocházející z Číny, je nepravděpodobné, že doporučení pro zmírnění rizik budou plně implementována. Přesto je důležité, aby komunity AI a kybernetické bezpečnosti byly vědomy potenciálních rizik, která tento model představuje. Transparentnost o těchto zranitelnostech zajišťuje, že vývojáři, regulátoři a podniky mohou přijmout proaktivní kroky ke zmírnění škod, kde je to možné, a zůstat ostražití proti zneužití takové technologie.

Organizace, které zvažují jeho nasazení, musí investovat do přísného bezpečnostního testování, automatizovaného testování red teamingu a kontinuálního monitoringu, aby zajistily bezpečnou a odpovědnou implementaci AI. DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění.

Čtenáři, kteří si přejí dozvědět se více, jsou vyzváni ke stažení zprávy na tento stránce.

Unite.AI