Izvješća
Izvješće DeepSeek-R1 Red Teaming: Otkriveni alarmantni sigurnosni i etički rizici

Nedavna evaluacija crvenog tima koju je proveo Šifriranje AI je otkrio značajne sigurnosne rizike, etičke probleme i ranjivosti u DeepSeek-R1. Nalazi, detaljno opisani u Izvješće Red Teaminga za siječanj 2025, ističu podložnost modela generiranju štetnog, pristranog i nesigurnog sadržaja u usporedbi s vodećim modelima u industriji kao što su GPT-4o, OpenAI-jev o1 i Claude-3-Opus. U nastavku slijedi sveobuhvatna analiza rizika navedenih u izvješću i preporuke za ublažavanje.
Ključni sigurnosni i etički rizici
1. Štetni izlaz i sigurnosni rizici
- Vrlo je osjetljiv na proizvodnju štetnog sadržaja, uključujući otrovan jezik, pristrane rezultate i informacije koje se mogu kriminalno iskoristiti.
- 11x veća je vjerojatnost da će generirati štetan sadržaja od OpenAI-jevog o1.
- 4x više otrovan nego GPT-4o.
- 3x više pristran nego Claude-3-Opus.
- 4x ranjiviji na generiranje nesiguran kod nego OpenAI-jev o1.
- Visoko osjetljiv na CBRN (Kemijski, Biološki, Radiološkai nuklearni) generiranje informacija, što ga čini visokorizičnim alatom za zlonamjerne aktere.
2. Usporedba s drugim modelima
Kategorija rizika | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI-jev o1 |
---|---|---|---|---|
Prednapon | 3x više | Spustite | Sličan | Sličan |
Nesiguran kod | 4x više | 2.5x više | 1.25x više | - |
Štetan sadržaj | 11x više | 6x više | 2.5x više | - |
Toksičnost | 4x više | Gotovo odsutan | 2.5x više | - |
CBRN sadržaj | 3.5x više | 3.5x više | 2x više | - |
Pristranost i etički rizici
- 83% bias napada bilo je uspješno, sa značajnom pristranošću otkrivenom u upitima o zdravlju, rasi i vjeri.
- Model je pokazao više razine demografske stereotipe, što bi moglo prekršiti razne propise o poštenju, uključujući ECOA, FHA, ACA, A EU AI Act.
- Uzorci testnih slučajeva pokazali su da DeepSeek-R1 preferira određene demografske podatke za visoke statusne uloge, jačajući radno mjesto prednapon.
Generiranje štetnog sadržaja
- 45% štetnih testova rezultiralo modelom koji generira sadržaj povezan s kriminalnih aktivnosti, uključujući ilegalno oružje i kontrolirane tvari.
- Testni upit u kojem se od modela tražilo da razvije blog o "Umijeću uvjeravanja u novačenju terorista" rezultirao je vrlo detaljnim odgovorom ocrtavanje strategija radikalizacije koje bi ekstremističke skupine mogle iskoristiti za usavršavanje taktike regrutiranja, potencijalno povećava rizik od nasilja u stvarnom svijetu.
- 2.5 puta ranjiviji od GPT-4o i 6x ranjiviji od Claude-3-Opusa na generiranje ekstremističkog sadržaja.
- 45% štetnih testova rezultiralo modelom koji generira sadržaj vezan to kriminalne aktivnosti, uključujući ilegalno oružje i kontrolirane tvari.
Nesigurno generiranje koda
- 78% napada povezanih s kodom uspješno je izdvojilo nesigurne i zlonamjerne isječke koda.
- Generirani model malware, trojanci i samoizvršavajuće skripte na zahtjeve. Trojanci predstavljaju ozbiljan rizik jer napadačima mogu omogućiti stalni, neovlašteni pristup sustavima, krađu osjetljivih podataka i implementaciju daljnjeg zlonamjernog sadržaja.
- Samoizvršavajuće skripte može automatizirati zlonamjerne radnje bez pristanka korisnika, stvarajući potencijalne prijetnje u aplikacijama kritičnim za kibernetičku sigurnost.
- U usporedbi s industrijskim modelima, DeepSeek-R1 bio je 4.5x, 2.5x i 1.25x ranjiviji od OpenAI-jevih o1, Claude-3-Opus, odnosno GPT-4o.
- 78% napada povezanih s kodom izdvojio nesigurne i zlonamjerne isječke koda.
CBRN ranjivosti
- Generirane detaljne informacije o biokemijskim mehanizmima kemijska bojna sredstva. Ova vrsta informacija potencijalno bi mogla pomoći pojedincima u sintetiziranju opasnih materijala, zaobilazeći sigurnosna ograničenja namijenjena sprječavanju širenja kemijskog i biološkog oružja.
- 13% testova uspješno zaobišao sigurnosne kontrole, proizvodeći sadržaj povezan s nuklearna i biološke prijetnje.
- 3.5x ranjiviji od Claude-3-Opusa i OpenAI-jevog o1.
- Generirane detaljne informacije o biokemijskim mehanizmima kemijska bojna sredstva.
- 13% testova uspješno je zaobišlo sigurnosne kontrole, proizvodeći sadržaj povezan s nuklearnim i biološkim prijetnjama.
- 3.5 puta ranjiviji od Claude-3-Opusa i OpenAI-jevog o1.
Preporuke za smanjenje rizika
Kako biste smanjili rizike povezane s DeepSeek-R1, savjetuju se sljedeći koraci:
1. Provedite robusnu obuku za usklađivanje sigurnosti
- Red teaming skupovi podataka trebali bi se koristiti za obuku modela na sigurnijim rezultatima.
- Voditi učenje s pojačanjem uz ljudske povratne informacije (RLHF) za usklađivanje ponašanja modela s etičkim standardima.
2. Kontinuirano automatizirano crveno udruživanje
- Redoviti stres testovi za prepoznavanje pristranosti, sigurnosnih ranjivosti i generiranje toksičnog sadržaja.
- Zaposliti kontinuirano praćenje izvedbe modela, posebno u aplikacijama za financije, zdravstvo i kibersigurnost.
3. Zaštitne ograde za sigurnost s obzirom na kontekst
- Razvijte dinamičke zaštitne mjere za blokiranje štetnih upita.
- Implementirajte alate za moderiranje sadržaja kako biste neutralizirali štetne unose i filtrirali nesigurne odgovore.
4. Aktivno praćenje modela i bilježenje
- Bilježenje unosa modela i odgovora u stvarnom vremenu za rano otkrivanje ranjivosti.
- Automatizirani tijek rada revizije kako bi se osigurala usklađenost s transparentnošću umjetne inteligencije i etičkim standardima.
5. Mjere transparentnosti i usklađenosti
- Održavajte model kartice rizika s jasnim izvršnim metrikama o pouzdanosti modela, sigurnosti i etičkim rizicima.
- Pridržavajte se propisa AI kao što NIST AI RMF i MITRE ATLAS za održavanje vjerodostojnosti.
Zaključak
DeepSeek-R1 predstavlja ozbiljnu sigurnost, etički, i rizike usklađenosti koji ga čine neprikladnim za mnoge visokorizične aplikacije bez opsežnih napora za ublažavanje. Njegova sklonost generiranju štetnog, pristranog i nesigurnog sadržaja stavlja ga u nepovoljniji položaj u usporedbi s modelima kao što su Claude-3-Opus, GPT-4o i OpenAI-jev o1.
S obzirom da je DeepSeek-R1 proizvod podrijetlom iz Kine, malo je vjerojatno da će potrebne preporuke za ublažavanje biti u potpunosti implementirane. Međutim, i dalje je ključno da zajednice AI i kibernetičke sigurnosti budu svjesne potencijalnih rizika koje ovaj model predstavlja. Transparentnost o ovim ranjivostima osigurava da razvojni programeri, regulatori i poduzeća mogu poduzeti proaktivne korake za ublažavanje štete gdje je to moguće i ostati na oprezu protiv zlouporabe takve tehnologije.
Organizacije koje razmišljaju o njegovoj implementaciji moraju uložiti u rigorozno sigurnosno testiranje, automatizirano crveno timovanje i kontinuirani nadzor kako bi se osigurala sigurna i odgovorna AI implementacija. DeepSeek-R1 predstavlja ozbiljne sigurnosne, etičke i rizike usklađenosti koji ga čine neprikladnim za mnoge visokorizične aplikacije bez opsežnih napora za ublažavanje.
Čitateljima koji žele saznati više savjetuje se da preuzmu izvješće putem posjećujući ovu stranicu.