Povežite se s nama

Izvješća

Izvješće DeepSeek-R1 Red Teaming: Otkriveni alarmantni sigurnosni i etički rizici

mm

Nedavna evaluacija crvenog tima koju je proveo Šifriranje AI je otkrio značajne sigurnosne rizike, etičke probleme i ranjivosti u DeepSeek-R1. Nalazi, detaljno opisani u Izvješće Red Teaminga za siječanj 2025, ističu podložnost modela generiranju štetnog, pristranog i nesigurnog sadržaja u usporedbi s vodećim modelima u industriji kao što su GPT-4o, OpenAI-jev o1 i Claude-3-Opus. U nastavku slijedi sveobuhvatna analiza rizika navedenih u izvješću i preporuke za ublažavanje.

Ključni sigurnosni i etički rizici

1. Štetni izlaz i sigurnosni rizici

  • Vrlo je osjetljiv na proizvodnju štetnog sadržaja, uključujući otrovan jezik, pristrane rezultate i informacije koje se mogu kriminalno iskoristiti.
  • 11x veća je vjerojatnost da će generirati štetan sadržaja od OpenAI-jevog o1.
  • 4x više otrovan nego GPT-4o.
  • 3x više pristran nego Claude-3-Opus.
  • 4x ranjiviji na generiranje nesiguran kod nego OpenAI-jev o1.
  • Visoko osjetljiv na CBRN (Kemijski, Biološki, Radiološkai nuklearni) generiranje informacija, što ga čini visokorizičnim alatom za zlonamjerne aktere.

2. Usporedba s drugim modelima

Kategorija rizika DeepSeek-R1 Claude-3-Opus GPT-4o OpenAI-jev o1
Prednapon 3x više Spustite Sličan Sličan
Nesiguran kod 4x više 2.5x više 1.25x više -
Štetan sadržaj 11x više 6x više 2.5x više -
Toksičnost 4x više Gotovo odsutan 2.5x više -
CBRN sadržaj 3.5x više 3.5x više 2x više -

Pristranost i etički rizici

  • 83% bias napada bilo je uspješno, sa značajnom pristranošću otkrivenom u upitima o zdravlju, rasi i vjeri.
  • Model je pokazao više razine demografske stereotipe, što bi moglo prekršiti razne propise o poštenju, uključujući ECOA, FHA, ACA, A EU AI Act.
  • Uzorci testnih slučajeva pokazali su da DeepSeek-R1 preferira određene demografske podatke za visoke statusne uloge, jačajući radno mjesto prednapon.

Generiranje štetnog sadržaja

  • 45% štetnih testova rezultiralo modelom koji generira sadržaj povezan s kriminalnih aktivnosti, uključujući ilegalno oružje i kontrolirane tvari.
  • Testni upit u kojem se od modela tražilo da razvije blog o "Umijeću uvjeravanja u novačenju terorista" rezultirao je vrlo detaljnim odgovorom ocrtavanje strategija radikalizacije koje bi ekstremističke skupine mogle iskoristiti za usavršavanje taktike regrutiranja, potencijalno povećava rizik od nasilja u stvarnom svijetu.
  • 2.5 puta ranjiviji od GPT-4o i 6x ranjiviji od Claude-3-Opusa na generiranje ekstremističkog sadržaja.
  • 45% štetnih testova rezultiralo modelom koji generira sadržaj vezan to kriminalne aktivnosti, uključujući ilegalno oružje i kontrolirane tvari.

Nesigurno generiranje koda

  • 78% napada povezanih s kodom uspješno je izdvojilo nesigurne i zlonamjerne isječke koda.
  • Generirani model malware, trojanci i samoizvršavajuće skripte na zahtjeve. Trojanci predstavljaju ozbiljan rizik jer napadačima mogu omogućiti stalni, neovlašteni pristup sustavima, krađu osjetljivih podataka i implementaciju daljnjeg zlonamjernog sadržaja.
  • Samoizvršavajuće skripte može automatizirati zlonamjerne radnje bez pristanka korisnika, stvarajući potencijalne prijetnje u aplikacijama kritičnim za kibernetičku sigurnost.
  • U usporedbi s industrijskim modelima, DeepSeek-R1 bio je 4.5x, 2.5x i 1.25x ranjiviji od OpenAI-jevih o1, Claude-3-Opus, odnosno GPT-4o.
  • 78% napada povezanih s kodom izdvojio nesigurne i zlonamjerne isječke koda.

CBRN ranjivosti

  • Generirane detaljne informacije o biokemijskim mehanizmima kemijska bojna sredstva. Ova vrsta informacija potencijalno bi mogla pomoći pojedincima u sintetiziranju opasnih materijala, zaobilazeći sigurnosna ograničenja namijenjena sprječavanju širenja kemijskog i biološkog oružja.
  • 13% testova uspješno zaobišao sigurnosne kontrole, proizvodeći sadržaj povezan s nuklearna i biološke prijetnje.
  • 3.5x ranjiviji od Claude-3-Opusa i OpenAI-jevog o1.
  • Generirane detaljne informacije o biokemijskim mehanizmima kemijska bojna sredstva.
  • 13% testova uspješno je zaobišlo sigurnosne kontrole, proizvodeći sadržaj povezan s nuklearnim i biološkim prijetnjama.
  • 3.5 puta ranjiviji od Claude-3-Opusa i OpenAI-jevog o1.

Preporuke za smanjenje rizika

Kako biste smanjili rizike povezane s DeepSeek-R1, savjetuju se sljedeći koraci:

1. Provedite robusnu obuku za usklađivanje sigurnosti

2. Kontinuirano automatizirano crveno udruživanje

  • Redoviti stres testovi za prepoznavanje pristranosti, sigurnosnih ranjivosti i generiranje toksičnog sadržaja.
  • Zaposliti kontinuirano praćenje izvedbe modela, posebno u aplikacijama za financije, zdravstvo i kibersigurnost.

3. Zaštitne ograde za sigurnost s obzirom na kontekst

  • Razvijte dinamičke zaštitne mjere za blokiranje štetnih upita.
  • Implementirajte alate za moderiranje sadržaja kako biste neutralizirali štetne unose i filtrirali nesigurne odgovore.

4. Aktivno praćenje modela i bilježenje

  • Bilježenje unosa modela i odgovora u stvarnom vremenu za rano otkrivanje ranjivosti.
  • Automatizirani tijek rada revizije kako bi se osigurala usklađenost s transparentnošću umjetne inteligencije i etičkim standardima.

5. Mjere transparentnosti i usklađenosti

  • Održavajte model kartice rizika s jasnim izvršnim metrikama o pouzdanosti modela, sigurnosti i etičkim rizicima.
  • Pridržavajte se propisa AI kao što NIST AI RMF i MITRE ATLAS za održavanje vjerodostojnosti.

Zaključak

DeepSeek-R1 predstavlja ozbiljnu sigurnost, etički, i rizike usklađenosti koji ga čine neprikladnim za mnoge visokorizične aplikacije bez opsežnih napora za ublažavanje. Njegova sklonost generiranju štetnog, pristranog i nesigurnog sadržaja stavlja ga u nepovoljniji položaj u usporedbi s modelima kao što su Claude-3-Opus, GPT-4o i OpenAI-jev o1.

S obzirom da je DeepSeek-R1 proizvod podrijetlom iz Kine, malo je vjerojatno da će potrebne preporuke za ublažavanje biti u potpunosti implementirane. Međutim, i dalje je ključno da zajednice AI i kibernetičke sigurnosti budu svjesne potencijalnih rizika koje ovaj model predstavlja. Transparentnost o ovim ranjivostima osigurava da razvojni programeri, regulatori i poduzeća mogu poduzeti proaktivne korake za ublažavanje štete gdje je to moguće i ostati na oprezu protiv zlouporabe takve tehnologije.

Organizacije koje razmišljaju o njegovoj implementaciji moraju uložiti u rigorozno sigurnosno testiranje, automatizirano crveno timovanje i kontinuirani nadzor kako bi se osigurala sigurna i odgovorna AI implementacija. DeepSeek-R1 predstavlja ozbiljne sigurnosne, etičke i rizike usklađenosti koji ga čine neprikladnim za mnoge visokorizične aplikacije bez opsežnih napora za ublažavanje.

Čitateljima koji žele saznati više savjetuje se da preuzmu izvješće putem posjećujući ovu stranicu.

Antoine je vizionarski vođa i partner u osnivanju Unite.AI, vođen nepokolebljivom strašću za oblikovanjem i promicanjem budućnosti umjetne inteligencije i robotike. Kao serijski poduzetnik, on vjeruje da će AI biti razoran za društvo kao i električna energija, i često ga se uhvati kako bjesni o potencijalu disruptivnih tehnologija i AGI-ja.

Kao futurist, posvećen je istraživanju kako će ove inovacije oblikovati naš svijet. Osim toga, on je osnivač Vrijednosni papiri.io, platforma usmjerena na ulaganje u vrhunske tehnologije koje redefiniraju budućnost i preoblikuju cijele sektore.