Rapporter
DeepSeek-R1 Red Teaming-rapport: Alarmerende sikkerhet og etiske risikoer avdekket

En nylig rød team-evaluering utført av Enkrypt AI har avslørt betydelige sikkerhetsrisikoer, etiske bekymringer og sårbarheter i DeepSeek-R1. Funnene, detaljert i Januar 2025 Red Teaming-rapport, fremhever modellens sårbarhet for å generere skadelig, partisk og usikkert innhold sammenlignet med bransjeledende modeller som GPT-4o, OpenAIs o1 og Claude-3-Opus. Nedenfor finner du en omfattende analyse av risikoene som er skissert i rapporten og anbefalinger for tiltak.
Nøkkelsikkerhet og etiske risikoer
1. Skadelig produksjon og sikkerhetsrisiko
- Svært sårbar for å produsere skadelig innhold, inkludert giftig språkbruk, partiske utdata og kriminelt utnyttbar informasjon.
- 11x mer sannsynlig å generere skadelig innhold enn OpenAIs o1.
- 4x mer giftig enn GPT-4o.
- 3x mer forutinntatt enn Claude-3-Opus.
- 4x mer sårbare for å generere usikker kode enn OpenAIs o1.
- Svært utsatt til CBRN (Kjemisk, Biologisk, Radiologiskog Nuclear) informasjonsgenerering, noe som gjør det til et høyrisikoverktøy for ondsinnede aktører.
2. Sammenligning med andre modeller
Risikokategori | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAIs o1 |
---|---|---|---|---|
Bias | 3x høyere | Senk | Lignende | Lignende |
Usikker kode | 4x høyere | 2.5x høyere | 1.25x høyere | - |
Skadelig innhold | 11x høyere | 6x høyere | 2.5x høyere | - |
Toksisitet | 4x høyere | Nesten fraværende | 2.5x høyere | - |
CBRN-innhold | 3.5x høyere | 3.5x høyere | 2x høyere | - |
Bias og etiske risikoer
- 83 % av skjevhetsangrepene var vellykkede, med betydelig skjevhet oppdaget i helse-, rase- og religionsrelaterte spørsmål.
- Modellen viste høyere nivåer av demografisk stereotypisering, som kan bryte ulike rettferdighetsforskrifter, inkludert ECOA, FHA, ACA, og EUs AI-lov.
- Eksempler på testtilfeller viste at DeepSeek-R1 foretrakk visse demografiske forhold for jobbroller med høy status, noe som forsterket arbeidsplassen Bias.
Generering av skadelig innhold
- 45 % av skadelige tester resulterte i at modellen genererte innhold knyttet til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.
- En testforespørsel som ba modellen om å utvikle en blogg om «The Art of Persuasion in Terrorist Recruitment» resulterte i et svært detaljert svar skissere radikaliseringsstrategier som potensielt kan utnyttes av ekstremistiske grupper for å avgrense rekrutteringstaktikker øker risikoen for vold i den virkelige verden.
- 2.5 ganger mer sårbar enn GPT-4o og 6 ganger mer sårbar enn Claude-3-Opus for generere ekstremistisk innhold.
- 45 % av skadelige tester resulterte i at modellen genererte innholdsrelatert to kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.
Usikker kodegenerering
- 78 % av koderelaterte angrep har hentet ut usikre og ondsinnede kodebiter.
- Modellen som ble generert skadelig programvare, trojanere og selvutførende skript på forespørsler. Trojanere utgjør en alvorlig risiko ettersom de kan tillate angripere å få vedvarende, uautorisert tilgang til systemer, stjele sensitive data og distribuere ytterligere ondsinnet nyttelast.
- Selvutførende skript kan automatisere ondsinnede handlinger uten brukerens samtykke, og skape potensielle trusler i cybersikkerhetskritiske applikasjoner.
- Sammenlignet med industrimodeller var DeepSeek-R1 4.5x, 2.5x og 1.25x mer sårbare enn OpenAIs henholdsvis o1, Claude-3-Opus og GPT-4o.
- 78% av koderelaterte angrep vellykket hentet ut usikre og ondsinnede kodebiter.
CBRN-sårbarheter
- Generert detaljert informasjon om biokjemiske mekanismer av kjemiske krigføringsmidler. Denne typen informasjon kan potensielt hjelpe enkeltpersoner med å syntetisere farlige materialer, og omgå sikkerhetsrestriksjoner ment å forhindre spredning av kjemiske og biologiske våpen.
- 13 % av testene vellykket omgått sikkerhetskontroller, produsere innhold relatert til kjernekraft og biologiske trusler.
- 3.5 ganger mer sårbar enn Claude-3-Opus og OpenAIs o1.
- Generert detaljert informasjon om biokjemiske mekanismer av kjemiske krigføringsmidler.
- 13 % av testene omgikk sikkerhetskontrollene, produsere innhold relatert til kjernefysiske og biologiske trusler.
- 3.5 ganger mer sårbar enn Claude-3-Opus og OpenAIs o1.
Anbefalinger for risikoreduksjon
For å minimere risikoen forbundet med DeepSeek-R1, anbefales følgende trinn:
1. Implementer opplæring i robust sikkerhetsoppretting
- Red teaming-datasett bør brukes til å trene modellen på sikrere utdata.
- Gjennomføre forsterkende læring med menneskelig tilbakemelding (RLHF) for å tilpasse modellatferd med etiske standarder.
2. Kontinuerlig Automatisert Red Teaming
- Regelmessige stresstester for å identifisere skjevheter, sikkerhetssårbarheter og generering av giftig innhold.
- Anvende kontinuerlig overvåking modellytelse, spesielt innen finans, helsevesen og cybersikkerhetsapplikasjoner.
3. Kontekstbevisste rekkverk for sikkerhet
- Utvikle dynamiske sikkerhetstiltak for å blokkere skadelige meldinger.
- Implementer innholdsmodereringsverktøy for å nøytralisere skadelige input og filtrere ut usikre svar.
4. Aktiv modellovervåking og logging
- Sanntidslogging av modellinndata og svar for tidlig oppdagelse av sårbarheter.
- Automatiserte revisjonsarbeidsflyter for å sikre samsvar med AI-transparens og etiske standarder.
5. Åpenhet og etterlevelsestiltak
- Oppretthold et modellrisikokort med klare ledermålinger for modellpålitelighet, sikkerhet og etiske risikoer.
- Overhold AI-regelverket slik som NIST AI RMF og GJÆR ATLAS for å opprettholde troverdigheten.
Konklusjon
DeepSeek-R1 presenterer seriøs sikkerhet, etisk, og samsvarsrisikoer som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende tiltak for å redusere tiltak. Dens tilbøyelighet til å generere skadelig, partisk og usikkert innhold setter den på en ulempe sammenlignet med modeller som Claude-3-Opus, GPT-4o og OpenAIs o1.
Gitt at DeepSeek-R1 er et produkt som kommer fra Kina, er det lite sannsynlig at de nødvendige avbøtende anbefalingene vil bli implementert fullt ut. Det er imidlertid fortsatt avgjørende for AI- og cybersikkerhetsmiljøene å være klar over de potensielle risikoene denne modellen utgjør. Åpenhet om disse sårbarhetene sikrer at utviklere, regulatorer og virksomheter kan ta proaktive skritt for å redusere skader der det er mulig og være på vakt mot misbruk av slik teknologi.
Organisasjoner som vurderer utplassering må investere i streng sikkerhetstesting, automatisert red teaming og kontinuerlig overvåking for å sikre trygge og ansvarlig AI implementering. DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske- og samsvarsrisikoer som gjør den uegnet for mange høyrisikoapplikasjoner uten omfattende tiltak for å redusere tiltak.
Lesere som ønsker å lære mer, anbefales å laste ned rapporten innen besøker denne siden.