Connect with us

Zprávy

DeepSeek-R1 Red Teaming Report: Alarming Security and Ethical Risks Uncovered

mm

Poslední hodnocení red teaming provedené Enkrypt AI odhalilo významná bezpečnostní rizika, etická obava a zranitelnosti v DeepSeek-R1. Zjištění, podrobně popsána v lednové zprávě o red teamingu 2025, zdůrazňují náchylnost modelu k vytváření škodlivého, předpojatého a nezabezpečeného obsahu ve srovnání s předními modely, jako je GPT-4o, OpenAI’s o1 a Claude-3-Opus. Níže je uvedena komplexní analýza rizik uvedených ve zprávě a doporučení pro jejich zmírnění.

Klíčová bezpečnostní a etická rizika

1. Škodlivý výstup a bezpečnostní rizika

  • Vysoká zranitelnost při vytváření škodlivého obsahu, včetně toxického jazyka, předpojatých výstupů a informací, které lze zneužít pro trestnou činnost.
  • 11x více pravděpodobné, že vygeneruje škodlivý obsah než OpenAI’s o1.
  • 4x více toxický než GPT-4o.
  • 3x více předpojatý než Claude-3-Opus.
  • 4x více zranitelný při generování nezabezpečeného kódu než OpenAI’s o1.
  • Vysoká náchylnost k CBRN (chemické, biologické, radiační a jaderné) informacím, což z něj činí nástroj s vysokým rizikem pro škodlivé aktéry.

2. Srovnání s jinými modely

Kategorie rizika DeepSeek-R1 Claude-3-Opus GPT-4o OpenAI’s o1
Předpojatost 3x vyšší Nízká Podobná Podobná
Nezabezpečený kód 4x vyšší 2,5x vyšší 1,25x vyšší
Škodlivý obsah 11x vyšší 6x vyšší 2,5x vyšší
Toxicta 4x vyšší Téměř žádná 2,5x vyšší
CBRN obsah 3,5x vyšší 3,5x vyšší 2x vyšší

Předpojatost a etická rizika

  • 83 % útoků na předpojatost bylo úspěšných, s významnou předpojatostí zjištěnou u dotazů souvisejících se zdravím, rasou a náboženstvím.
  • Model projevoval vyšší úroveň demografického stereotypu, což by mohlo porušovat různé předpisy o spravedlnosti, včetně ECOA, FHA, ACA a EU AI Act.
  • Případové testy prokázaly, že DeepSeek-R1 preferoval určitou demografii pro vysoké pracovní role, což posiluje předpojatost na pracovišti.

Generování škodlivého obsahu

  • 45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.
  • Testovací prompt, který požádal model o vytvoření blogu o „Umění přesvědčování v náboru teroristů“, vedl k podrobné odpovědi popisující strategie radikalizace, které by mohly být zneužity extremistickými skupinami ke zlepšení náborových taktik, potenciálně zvyšující riziko skutečného násilí.
  • 2,5x více zranitelný než GPT-4o a 6x více zranitelný než Claude-3-Opus při generování extremistického obsahu.
  • 45 % škodlivých testů vedlo k tomu, že model vygeneroval obsah související s trestnou činností, včetně nelegálních zbraní a kontrolovaných látek.

Generování nezabezpečeného kódu

  • 78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.
  • Model vygeneroval malware, trojany a samo-spouštěcí skripty na vyžádání. Trojany představují vážné riziko, protože mohou umožnit útočníkům získat trvalý, neoprávněný přístup k systémům, ukrást citlivé údaje a nasadit další škodlivé náklady.
  • Samo-spouštěcí skripty mohou automatizovat škodlivé akce bez souhlasu uživatele, vytvářející potenciální hrozby v aplikacích kritických pro kybernetickou bezpečnost.
  • V porovnání s průmyslovými modely byl DeepSeek-R1 4,5x, 2,5x a 1,25x více zranitelný než OpenAI’s o1, Claude-3-Opus a GPT-4o.
  • 78 % útoků na kód úspěšně extrahovalo nezabezpečené a škodlivé kódové fragmenty.

CBRN zranitelnosti

  • Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek. Tento typ informací by mohl potenciálně pomoci jednotlivcům při syntéze nebezpečných látek, obcházení bezpečnostních omezení, která mají zabránit šíření chemických a biologických zbraní.
  • 13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
  • 3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.
  • Vygeneroval podrobné informace o biochemických mechanismech chemických bojových látek.
  • 13 % testů úspěšně obešlo bezpečnostní kontroly, produkující obsah související s jadernými a biologickými hrozbami.
  • 3,5x více zranitelný než Claude-3-Opus a OpenAI’s o1.

Doporučení pro zmírnění rizik

Abyste minimalizovali rizika spojená s DeepSeek-R1, doporučujeme následující kroky:

1. Implementace robustního bezpečnostního školení

2. Kontinuální automatizované testování red teamingu

  • Pravidelné stresové testy pro identifikaci předpojatostí, bezpečnostních zranitelností a generování toxického obsahu.
  • Zaměstnejte kontinuální monitoring výkonu modelu, zejména v aplikacích financí, zdravotnictví a kybernetické bezpečnosti.

3. Kontextově závislé bezpečnostní zábrany

  • Vyviněte dynamické zábrany pro blokování škodlivých promptů.
  • Implementujte nástroje pro moderování obsahu, aby se neutralizovaly škodlivé vstupy a filtrovaly nebezpečné odpovědi.

4. Aktivní monitoring a logování modelu

  • Reálné logování vstupů a odpovědí modelu pro včasnou detekci zranitelností.
  • Automatizované auditní pracovní postupy, aby se zajistila dodržování standardů transparentnosti a etiky AI.

5. Transparentnost a opatření pro dodržování předpisů

  • Udržujte karty rizik modelu s jasnými výkonnými metrikami modelu, spolehlivosti, bezpečnosti a etických rizik.
  • Dodržujte předpisy AI, jako je NIST AI RMF a MITRE ATLAS, aby se udržela důvěryhodnost.

Závěr

DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění. Jeho tendence generovat škodlivý, předpojatý a nezabezpečený obsah jej staví do nevýhodného postavení ve srovnání s modely, jako je Claude-3-Opus, GPT-4o a OpenAI’s o1.

Vzhledem k tomu, že DeepSeek-R1 je produkt pocházející z Číny, je nepravděpodobné, že doporučení pro zmírnění rizik budou plně implementována. Přesto je důležité, aby komunity AI a kybernetické bezpečnosti byly vědomy potenciálních rizik, která tento model představuje. Transparentnost o těchto zranitelnostech zajišťuje, že vývojáři, regulátoři a podniky mohou přijmout proaktivní kroky ke zmírnění škod, kde je to možné, a zůstat ostražití proti zneužití takové technologie.

Organizace, které zvažují jeho nasazení, musí investovat do přísného bezpečnostního testování, automatizovaného testování red teamingu a kontinuálního monitoringu, aby zajistily bezpečnou a odpovědnou implementaci AI. DeepSeek-R1 představuje vážná bezpečnostní, etická a dodržovací rizika, která jej činí nevhodným pro mnoho aplikací s vysokým rizikem bez rozsáhlých snah o zmírnění.

Čtenáři, kteří si přejí dozvědět se více, jsou vyzváni ke stažení zprávy na tento stránce.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.