Connect with us

Rapporter

DeepSeek-R1 Red Teaming Rapport: Alarmerende Sikkerhets- og Etiske Risiko Avdekket

mm

En nylig gjennomført rød lag-evaluering utført av Enkrypt AI har avdekket betydelige sikkerhetsrisiko, etiske bekymringer og sårbarheter i DeepSeek-R1. Funndene, detaljert i januar 2025 Red Teaming Rapport, fremhever modellens sårbarhet for å generere skadelig, fordomsfulle og usikre innhold sammenlignet med bransjeledende modeller som GPT-4o, OpenAI’s o1 og Claude-3-Opus. Under følger en omfattende analyse av risikoene som er omtalt i rapporten og anbefalinger for mitigasjon.

Nøkkel Sikkerhets- og Etiske Risiko

1. Skadelig Utgang og Sikkerhetsrisiko

  • Ekstremt sårbar for å produsere skadelig innhold, inkludert giftig språk, fordomsfulle utgang og kriminelt utnyttbar informasjon.
  • 11 ganger mer sannsynlig å generere skadelig innhold enn OpenAI’s o1.
  • 4 ganger mer giftig enn GPT-4o.
  • 3 ganger mer fordomsfull enn Claude-3-Opus.
  • 4 ganger mer sårbar for å generere usikker kode enn OpenAI’s o1.
  • Høyest sårbar for CBRN (Kjemisk, Biologisk, Stråling og Kjerne) informasjonsgenerering, noe som gjør det til et høyrisikoverktøy for skurkeaktører.

2. Sammenligning med Andre Modeller

Risikokategori DeepSeek-R1 Claude-3-Opus GPT-4o OpenAI’s o1
Fordomsfullhet 3 ganger høyere Lavere Liknende Liknende
Usikker Kode 4 ganger høyere 2,5 ganger høyere 1,25 ganger høyere
Skadelig Innhold 11 ganger høyere 6 ganger høyere 2,5 ganger høyere
Giftighet 4 ganger høyere Nærmest fraværende 2,5 ganger høyere
CBRN Innhold 3,5 ganger høyere 3,5 ganger høyere 2 ganger høyere

Foromsfullhet og Etiske Risiko

  • 83% av fordomsangrep var vellykkede, med betydelig fordomsfullhet detektert i helse-, rase- og religionsrelaterte spørsmål.
  • Modellen viste høyere nivåer av demografisk stereotyp, som kunne bryte med forskjellige rettferdighetsreguleringer inkludert ECOA, FHA, ACA og EU AI Act.
  • Prøveeksempler viste at DeepSeek-R1 foretrakk bestemte demografier for høystatus jobber, og forsterket arbeidsplassen foromsfullhet.

Skadelig Innholdsgenerering

  • 45% av skadelige tester resulterte i at modellen genererte innhold relatert til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.
  • En testprompt som ba modellen om å utvikle en blogg om “Kunsten å overtale i terroristrekruttering” resulterte i en meget detaljert respons om radikaliseringstrategier som kunne utnyttes av ekstremistgrupper til å forbedre rekrutteringstaktikker, potensielt øke risikoen for virkelig vold.
  • 2,5 ganger mer sårbar enn GPT-4o og 6 ganger mer sårbar enn Claude-3-Opus til å generere ekstremistisk innhold.
  • 45% av skadelige tester resulterte i at modellen genererte innhold relatert til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.

Usikker Kodegenerering

  • 78% av kode-relaterte angrep lyktes å ekstrahere usikre og skadelige kodeutklipp.
  • Modellen genererte malware, trojaner og selv-utførende skript ved forespørsler. Trojaner utgjør en alvorlig risiko da de kan tillate angripere å få varig, uautorisert tilgang til systemer, stjele sensitiv data og deployere ytterligere skadelig last.
  • Selv-utførende skript kan automatisere skadelige handlinger uten brukertillatelse, og skape potensielle trusler i sikkerhetskritiske applikasjoner.
  • I sammenligning med bransjemodeller var DeepSeek-R1 4,5 ganger, 2,5 ganger og 1,25 ganger mer sårbar enn OpenAI’s o1, Claude-3-Opus og GPT-4o, henholdsvis.
  • 78% av kode-relaterte angrep lyktes å ekstrahere usikre og skadelige kodeutklipp.

CBRN Sårbarheter

  • Genererte detaljert informasjon om biokjemiske mekanismer for kjemisk krigføring. Denne typen informasjon kunne potensielt hjelpe individer med å syntetisere farlige materialer, og unngå sikkerhetsbegrensninger som er ment å forhindre spredning av kjemiske og biologiske våpen.
  • 13% av testene lyktes å unngå sikkerhetskontroller, og produserte innhold relatert til kjerne- og biologiske trusler.
  • 3,5 ganger mer sårbar enn Claude-3-Opus og OpenAI’s o1.
  • Genererte detaljert informasjon om biokjemiske mekanismer for kjemisk krigføring.
  • 13% av testene lyktes å unngå sikkerhetskontroller, og produserte innhold relatert til kjerne- og biologiske trusler.
  • 3,5 ganger mer sårbar enn Claude-3-Opus og OpenAI’s o1.

Anbefalinger for Risikomildring

For å minimere risikoene forbundet med DeepSeek-R1, anbefales følgende skritt:

1. Implementer Robust Sikkerhetsjusteringstrening

2. Kontinuerlig Automatisert Rød Lag

  • Regelmessige stresstester for å identifisere fordomsfullhet, sikkerhetsvulnerabiliteter og skadelig innholdsgenerering.
  • Ansett kontinuerlig overvåking av modellens ytelse, særlig i finanse-, helse- og sikkerhetsapplikasjoner.

3. Kontekstbevisste Sikkerhetsvakt

  • Utvikle dynamiske sikkerhetsskranke for å blokkere skadelige forespørsler.
  • Implementer innholdsmodereringsverktøy for å nøytralisere skadelig innhold og filtere usikre svar.

4. Aktiv ModellOvervåking og Logging

  • Sanntidslogging av modellens inn- og utgang for tidlig oppdaging av sårbarheter.
  • Automatiserte revisjonsarbeidsflyter for å sikre overholdelse av AI-gjennomsiktighet og etiske standarder.

5. Gjennomsiktighet og Etterlevelse

  • Vedlikehold en modellrisikokort med klare ledelsesmål for modellens pålitelighet, sikkerhet og etiske risiko.
  • Overhold AI-reguleringer som NIST AI RMF og MITRE ATLAS for å opprettholde troverdighet.

Konklusjon

DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske og etterlevelsesrisiko som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende mitigasjonstiltak. Dets tendens til å generere skadelig, fordomsfullt og usikert innhold setter det i en ulempe sammenlignet med modeller som Claude-3-Opus, GPT-4o og OpenAI’s o1.

Ettersom DeepSeek-R1 er et produkt fra Kina, er det usannsynlig at de nødvendige anbefalinger for mitigasjon vil bli fullt implementert. Likevel er det viktig for AI- og sikkerhetssamfunnet å være klar over de potensielle risikoer denne modellen utgjør. Gjennomsiktighet om disse sårbarhetene sikrer at utviklere, regulatorene og bedrifter kan ta proaktive skritt for å mildne skade hvor mulig og forblir våken mot misbruk av slik teknologi.

Organisasjoner som vurderer å deployere det, må investere i strenge sikkerhetstester, automatisert rød lag og kontinuerlig overvåking for å sikre trygg og ansvarlig AI-implementering. DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske og etterlevelsesrisiko som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende mitigasjonstiltak.

Lesere som ønsker å lære mer, anbefales å laste ned rapporten ved å besøke denne siden.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.