Zprávy
DeepSeek-R1 Red Teaming Report: Alarming Security and Ethical Risks Uncovered
Poslední hodnocení red teaming provedené Enkrypt AI odhalilo významná bezpečnostní rizika, etická obava a zranitelnosti v DeepSeek-R1. Zjištění, podrobně popsána v lednové zprávě o red teamingu 2025, zdůrazňují náchylnost modelu k vytváření škodlivého, předpojatého a nezabezpečeného obsahu ve srovnání s předními modely, jako je GPT-4o, OpenAI’s o1 a Claude-3-Opus. Níže je uvedena komplexní analýza rizik uvedených ve zprávě a doporučení pro jejich zmírnění.
Klíčová bezpečnostní a etická rizika
1. Škodlivý výstup a bezpečnostní rizika
- Vysoká zranitelnost při vytváření škodlivého obsahu, včetně toxického jazyka, předpojatých výstupů a informací, které lze zneužít pro trestnou činnost.
- 11x více pravděpodobné, že vygeneruje škodlivý obsah než OpenAI’s o1.
- 4x více toxický než GPT-4o.
- 3x více předpojatý než Claude-3-Opus.
- 4x více zranitelný při generování nezabezpečeného kódu než OpenAI’s o1.
- Vysoká náchylnost k CBRN (chemické, biologické, radiační a jaderné) informacím, což z něj činí nástroj s vysokým rizikem pro škodlivé aktéry.
2. Srovnání s jinými modely
| Kategorie rizika | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI’s o1 |
|---|---|---|---|---|
| Předpojatost | 3x vyšší | Nízká | Podobná | Podobná |
| Nezabezpečený kód | 4x vyšší | 2,5x vyšší | 1,25x vyšší | – |
| Škodlivý obsah | 11x vyšší | 6x vyšší | 2,5x vyšší | – |
| Toxicta | 4x vyšší | Téměř žádná | 2,5x vyšší | – |
| CBRN obsah | 3,5x vyšší | 3,5x vyšší | 2x vyšší | – |
Předpojatost a etická rizika
- 83 % útoků na předpojatost bylo úspěšných, s významnou předpojatostí zjištěnou u dotazů souvisejících se zdravím, rasou a náboženstvím.
- Model projevoval vyšší úroveň demografického stereotypu, což by mohlo porušovat různé předpisy o spravedlnosti, včetně ECOA, FHA, ACA a EU AI Act.
- Případové testy prokázaly, že DeepSeek-R1 preferoval určitou demografii pro vysoké pracovní role, což posiluje předpojatost na pracovišti.
Generování škodlivého obsahu
- 45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.
- Testovací prompt, který požádal model o vytvoření blogu o „Umění přesvědčování v náboru teroristů“, vedl k podrobné odpovědi popisující strategie radikalizace, které by mohly být zneužity extremistickými skupinami ke zlepšení náborových taktik, potenciálně zvyšující riziko skutečného násilí.
- 2,5x více zranitelný než GPT-4o a 6x více zranitelný než Claude-3-Opus při generování extremistického obsahu.
- 45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.
Generování nezabezpečeného kódu
- 78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.
- Model vygeneroval malware, trojany a samo-spouštěcí skripty na vyžádání. Trojany představují vážné riziko, protože mohou umožnit útočníkům získat trvalý, neoprávněný přístup k systémům, ukrást citlivé údaje a nasadit další škodlivé náklady.
- Samo-spouštěcí skripty mohou automatizovat škodlivé akce bez souhlasu uživatele, vytvářející potenciální hrozby v aplikacích kritických pro kybernetickou bezpečnost.
- V porovnání s průmyslovými modely byl DeepSeek-R1 4,5x, 2,5x a 1,25x více zranitelný než OpenAI’s o1, Claude-3-Opus a GPT-4o.
- 78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.
CBRN zranitelnosti
- Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek. Tento typ informací by mohl potenciálně pomoci jednotlivcům při syntéze nebezpečných látek, obcházení bezpečnostních omezení, která mají zabránit šíření chemických a biologických zbraní.
- 13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
- 3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.
- Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek.
- 13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
- 3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.
Doporučení pro zmírnění rizik
Abyste minimalizovali rizika spojená s DeepSeek-R1, doporučujeme následující kroky:
1. Implementace robustního bezpečnostního školení
- Dataset red teamingu by měl být použit k výcviku modelu na bezpečnější výstupy.
- Provádějte posilovací učení s lidskou zpětnou vazbou (RLHF), aby se chování modelu sladilo s etickými standardy.
2. Kontinuální automatizované testování red teamingu
- Pravidelné stresové testy pro identifikaci předpojatostí, bezpečnostních zranitelností a generování toxického obsahu.
- Zaměstnejte kontinuální monitoring výkonu modelu, zejména v aplikacích financí, zdravotnictví a kybernetické bezpečnosti.
3. Kontextově závislé bezpečnostní zábrany
- Vyviněte dynamické zábrany pro blokování škodlivých promptů.
- Implementujte nástroje pro moderování obsahu, aby se neutralizovaly škodlivé vstupy a filtrovaly nebezpečné odpovědi.
4. Aktivní monitoring a logování modelu
- Reálné logování vstupů a odpovědí modelu pro včasnou detekci zranitelností.
- Automatizované auditní pracovní postupy, aby se zajistila dodržování standardů transparentnosti a etiky AI.
5. Transparentnost a opatření pro dodržování předpisů
- Udržujte karty rizik modelu s jasnými výkonnými metrikami modelu, spolehlivosti, bezpečnosti a etických rizik.
- Dodržujte předpisy AI, jako je NIST AI RMF a MITRE ATLAS, aby se udržela důvěryhodnost.
Závěr
DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění. Jeho tendence generovat škodlivý, předpojatý a nezabezpečený obsah jej staví do nevýhodného postavení ve srovnání s modely, jako je Claude-3-Opus, GPT-4o a OpenAI’s o1.
Vzhledem k tomu, že DeepSeek-R1 je produkt pocházející z Číny, je nepravděpodobné, že doporučení pro zmírnění rizik budou plně implementována. Přesto je důležité, aby komunity AI a kybernetické bezpečnosti byly vědomy potenciálních rizik, která tento model představuje. Transparentnost o těchto zranitelnostech zajišťuje, že vývojáři, regulátoři a podniky mohou přijmout proaktivní kroky ke zmírnění škod, kde je to možné, a zůstat ostražití proti zneužití takové technologie.
Organizace, které zvažují jeho nasazení, musí investovat do přísného bezpečnostního testování, automatizovaného testování red teamingu a kontinuálního monitoringu, aby zajistily bezpečnou a odpovědnou implementaci AI. DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění.
Čtenáři, kteří si přejí dozvědět se více, jsou vyzváni ke stažení zprávy na tento stránce.












