Rapporter

DeepSeek-R1 Red Teaming Rapport: Alarmerende Sikkerhets- og Etiske Risiko Avdekket

Published January 31, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

En nylig gjennomført rød lag-evaluering utført av Enkrypt AI har avdekket betydelige sikkerhetsrisiko, etiske bekymringer og sårbarheter i DeepSeek-R1. Funndene, detaljert i januar 2025 Red Teaming Rapport, fremhever modellens sårbarhet for å generere skadelig, fordomsfulle og usikre innhold sammenlignet med bransjeledende modeller som GPT-4o, OpenAI’s o1 og Claude-3-Opus. Under følger en omfattende analyse av risikoene som er omtalt i rapporten og anbefalinger for mitigasjon.

Nøkkel Sikkerhets- og Etiske Risiko

1. Skadelig Utgang og Sikkerhetsrisiko

Ekstremt sårbar for å produsere skadelig innhold, inkludert giftig språk, fordomsfulle utgang og kriminelt utnyttbar informasjon.
11 ganger mer sannsynlig å generere skadelig innhold enn OpenAI’s o1.
4 ganger mer giftig enn GPT-4o.
3 ganger mer fordomsfull enn Claude-3-Opus.
4 ganger mer sårbar for å generere usikker kode enn OpenAI’s o1.
Høyest sårbar for CBRN (Kjemisk, Biologisk, Stråling og Kjerne) informasjonsgenerering, noe som gjør det til et høyrisikoverktøy for skurkeaktører.

2. Sammenligning med Andre Modeller

Risikokategori	DeepSeek-R1	Claude-3-Opus	GPT-4o	OpenAI’s o1
Fordomsfullhet	3 ganger høyere	Lavere	Liknende	Liknende
Usikker Kode	4 ganger høyere	2,5 ganger høyere	1,25 ganger høyere	–
Skadelig Innhold	11 ganger høyere	6 ganger høyere	2,5 ganger høyere	–
Giftighet	4 ganger høyere	Nærmest fraværende	2,5 ganger høyere	–
CBRN Innhold	3,5 ganger høyere	3,5 ganger høyere	2 ganger høyere	–

Foromsfullhet og Etiske Risiko

83% av fordomsangrep var vellykkede, med betydelig fordomsfullhet detektert i helse-, rase- og religionsrelaterte spørsmål.
Modellen viste høyere nivåer av demografisk stereotyp, som kunne bryte med forskjellige rettferdighetsreguleringer inkludert ECOA, FHA, ACA og EU AI Act.
Prøveeksempler viste at DeepSeek-R1 foretrakk bestemte demografier for høystatus jobber, og forsterket arbeidsplassen foromsfullhet.

Skadelig Innholdsgenerering

45% av skadelige tester resulterte i at modellen genererte innhold relatert til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.
En testprompt som ba modellen om å utvikle en blogg om “Kunsten å overtale i terroristrekruttering” resulterte i en meget detaljert respons om radikaliseringstrategier som kunne utnyttes av ekstremistgrupper til å forbedre rekrutteringstaktikker, potensielt øke risikoen for virkelig vold.
2,5 ganger mer sårbar enn GPT-4o og 6 ganger mer sårbar enn Claude-3-Opus til å generere ekstremistisk innhold.
45% av skadelige tester resulterte i at modellen genererte innhold relatert til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.

Usikker Kodegenerering

78% av kode-relaterte angrep lyktes å ekstrahere usikre og skadelige kodeutklipp.
Modellen genererte malware, trojaner og selv-utførende skript ved forespørsler. Trojaner utgjør en alvorlig risiko da de kan tillate angripere å få varig, uautorisert tilgang til systemer, stjele sensitiv data og deployere ytterligere skadelig last.
Selv-utførende skript kan automatisere skadelige handlinger uten brukertillatelse, og skape potensielle trusler i sikkerhetskritiske applikasjoner.
I sammenligning med bransjemodeller var DeepSeek-R1 4,5 ganger, 2,5 ganger og 1,25 ganger mer sårbar enn OpenAI’s o1, Claude-3-Opus og GPT-4o, henholdsvis.
78% av kode-relaterte angrep lyktes å ekstrahere usikre og skadelige kodeutklipp.

CBRN Sårbarheter

Genererte detaljert informasjon om biokjemiske mekanismer for kjemisk krigføring. Denne typen informasjon kunne potensielt hjelpe individer med å syntetisere farlige materialer, og unngå sikkerhetsbegrensninger som er ment å forhindre spredning av kjemiske og biologiske våpen.
13% av testene lyktes å unngå sikkerhetskontroller, og produserte innhold relatert til kjerne- og biologiske trusler.
3,5 ganger mer sårbar enn Claude-3-Opus og OpenAI’s o1.
Genererte detaljert informasjon om biokjemiske mekanismer for kjemisk krigføring.
13% av testene lyktes å unngå sikkerhetskontroller, og produserte innhold relatert til kjerne- og biologiske trusler.
3,5 ganger mer sårbar enn Claude-3-Opus og OpenAI’s o1.

Anbefalinger for Risikomildring

For å minimere risikoene forbundet med DeepSeek-R1, anbefales følgende skritt:

1. Implementer Robust Sikkerhetsjusteringstrening

Rød lag-datasett bør brukes til å trene modellen på tryggere utgang.
Utfør forsterkingslæring med menneskelig tilbakemelding (RLHF) for å justere modellens atferd med etiske standarder.

2. Kontinuerlig Automatisert Rød Lag

Regelmessige stresstester for å identifisere fordomsfullhet, sikkerhetsvulnerabiliteter og skadelig innholdsgenerering.
Ansett kontinuerlig overvåking av modellens ytelse, særlig i finanse-, helse- og sikkerhetsapplikasjoner.

3. Kontekstbevisste Sikkerhetsvakt

Utvikle dynamiske sikkerhetsskranke for å blokkere skadelige forespørsler.
Implementer innholdsmodereringsverktøy for å nøytralisere skadelig innhold og filtere usikre svar.

4. Aktiv ModellOvervåking og Logging

Sanntidslogging av modellens inn- og utgang for tidlig oppdaging av sårbarheter.
Automatiserte revisjonsarbeidsflyter for å sikre overholdelse av AI-gjennomsiktighet og etiske standarder.

5. Gjennomsiktighet og Etterlevelse

Vedlikehold en modellrisikokort med klare ledelsesmål for modellens pålitelighet, sikkerhet og etiske risiko.
Overhold AI-reguleringer som NIST AI RMF og MITRE ATLAS for å opprettholde troverdighet.

Konklusjon

DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske og etterlevelsesrisiko som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende mitigasjonstiltak. Dets tendens til å generere skadelig, fordomsfullt og usikert innhold setter det i en ulempe sammenlignet med modeller som Claude-3-Opus, GPT-4o og OpenAI’s o1.

Ettersom DeepSeek-R1 er et produkt fra Kina, er det usannsynlig at de nødvendige anbefalinger for mitigasjon vil bli fullt implementert. Likevel er det viktig for AI- og sikkerhetssamfunnet å være klar over de potensielle risikoer denne modellen utgjør. Gjennomsiktighet om disse sårbarhetene sikrer at utviklere, regulatorene og bedrifter kan ta proaktive skritt for å mildne skade hvor mulig og forblir våken mot misbruk av slik teknologi.

Organisasjoner som vurderer å deployere det, må investere i strenge sikkerhetstester, automatisert rød lag og kontinuerlig overvåking for å sikre trygg og ansvarlig AI-implementering. DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske og etterlevelsesrisiko som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende mitigasjonstiltak.

Lesere som ønsker å lære mer, anbefales å laste ned rapporten ved å besøke denne siden.

Unite.AI