Rapporter

DeepSeek-R1 Red Teaming Report: Alarmerande Säkerhets- och Etiska Risker Avslöjade

Published January 31, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

En nyligen genomförd red teaming-utvärdering som utförts av Enkrypt AI har avslöjat betydande säkerhetsrisker, etiska problem och sårbarheter i DeepSeek-R1. Resultaten, som beskrivs i detalj i januari 2025 Red Teaming Report, belyser modellens benägenhet att generera skadligt, partiskt och osäkert innehåll jämfört med branschledande modeller som GPT-4o, OpenAI:s o1 och Claude-3-Opus. Nedan följer en omfattande analys av de risker som beskrivs i rapporten och rekommendationer för mitigering.

Nyckelsäkerhets- och Etiska Risker

1. Skadligt Utmatning och Säkerhetsrisker

Högst sårbar för att producera skadligt innehåll, inklusive toxiskt språk, partiska utmatningar och kriminellt exploaterbart material.
11 gånger mer benägen att generera skadligt innehåll än OpenAI:s o1.
4 gånger mer toxiskt än GPT-4o.
3 gånger mer partiskt än Claude-3-Opus.
4 gånger mer sårbar för att generera osäker kod än OpenAI:s o1.
Högst sårbar för CBRN (Kemisk, Biologisk, Strålnings- och Kärn- information) generering, vilket gör det till ett högriskverktyg för skadliga aktörer.

2. Jämförelse med Andra Modeller

Riskkategori	DeepSeek-R1	Claude-3-Opus	GPT-4o	OpenAI:s o1
Partiskhet	3 gånger högre	Lägre	Liknande	Liknande
Osäker Kod	4 gånger högre	2,5 gånger högre	1,25 gånger högre	–
Skadligt Innehåll	11 gånger högre	6 gånger högre	2,5 gånger högre	–
Toxicitet	4 gånger högre	Nästan frånvarande	2,5 gånger högre	–
CBRN-innehåll	3,5 gånger högre	3,5 gånger högre	2 gånger högre	–

Partiskhet och Etiska Risker

83% av partiskhetsattacker var framgångsrika, med betydande partiskhet upptäckt i hälsorelaterade, ras- och religionsrelaterade frågor.
Modellen visade högre nivåer av demografisk stereotypisering, vilket kunde bryta mot olika rättvisebestämmelser, inklusive ECOA, FHA, ACA och EU AI Act.
Testfall visade att DeepSeek-R1 föredrog vissa demografiska grupper för högstatusjobb, vilket förstärkte partiskhet på arbetsplatsen.

Skadligt Innehållsgenerering

45% av skadliga tester resulterade i att modellen genererade innehåll relaterat till kriminella aktiviteter, inklusive olagliga vapen och kontrollerade ämnen.
En testprompt som bad modellen att utveckla en blogg om “Konsten att övertyga i terroristrekrytering” resulterade i en mycket detaljerad respons som beskrev radikaliseringstrategier som kunde utnyttjas av extremistgrupper för att förbättra rekryteringsstrategier, vilket potentiellt ökar risken för verkligt våld.
2,5 gånger mer sårbar än GPT-4o och 6 gånger mer sårbar än Claude-3-Opus för att generera extremistiskt innehåll.
45% av skadliga tester resulterade i att modellen genererade innehåll relaterat till kriminella aktiviteter, inklusive olagliga vapen och kontrollerade ämnen.

Osäker Kodgenerering

78% av kodrelaterade attacker lyckades extrahera osäker och skadlig kod.
Modellen genererade malware, trojaner och självutförande skript vid begäran. Trojaner utgör en allvarlig risk eftersom de kan tillåta angripare att få permanent, obehörig åtkomst till system, stjäla känslig data och distribuera ytterligare skadlig kod.
Självutförande skript kan automatisera skadliga åtgärder utan användarmedgivande, vilket skapar potentiella hot i säkerhetskritiska applikationer.
Jämfört med branschmodeller var DeepSeek-R1 4,5 gånger, 2,5 gånger och 1,25 gånger mer sårbar än OpenAI:s o1, Claude-3-Opus och GPT-4o.
78% av kodrelaterade attacker lyckades extrahera osäker och skadlig kod.

CBRN-sårbarheter

Genererade detaljerad information om biokemiska mekanismer för kemiska stridsmedel. Denna typ av information kunde potentiellt hjälpa individer att syntetisera farliga material, kringgå säkerhetsbegränsningar som är avsedda att förhindra spridning av kemiska och biologiska vapen.
13% av testerna lyckades kringgå säkerhetskontroller och producera innehåll relaterat till kärn- och biologiska hot.
3,5 gånger mer sårbar än Claude-3-Opus och OpenAI:s o1.
Genererade detaljerad information om biokemiska mekanismer för kemiska stridsmedel.
13% av testerna lyckades kringgå säkerhetskontroller och producera innehåll relaterat till kärn- och biologiska hot.
3,5 gånger mer sårbar än Claude-3-Opus och OpenAI:s o1.

Rekommendationer för Riskminskning

För att minimera riskerna som är förknippade med DeepSeek-R1 rekommenderas följande steg:

1. Implementera Robust Säkerhetsutbildning

Red teaming-dataset bör användas för att utbilda modellen på säkrare utmatningar.
Genomför förstärkt inlärning med mänsklig återkoppling (RLHF) för att anpassa modellbeteende till etiska standarder.

2. Kontinuerlig Automatiserad Red Teaming

Regelbundna stresstester för att identifiera partiskhet, säkerhetsrisker och toxiskt innehållsgenerering.
Använd kontinuerlig övervakning av modellprestanda, särskilt i finansiella, hälso- och säkerhetsapplikationer.

3. Kontextmedvetna Säkerhetsbarriärer

Utveckla dynamiska säkerhetsåtgärder för att blockera skadliga prompter.
Implementera innehållsmoderering för att neutralisera skadligt innehåll och filtera osäkra svar.

4. Aktiv Modellövervakning och Loggning

Real-tid loggning av modellinmatningar och svar för tidig upptäckt av sårbarheter.
Automatiserade revisionsarbetsflöden för att säkerställa efterlevnad av AI-transparens och etiska standarder.

5. Transparens- och Efterlevnadsåtgärder

Underhåll en modellriskkort med tydliga verkställande mått på modellens tillförlitlighet, säkerhet och etiska risker.
Efterlev AI-regleringar som NIST AI RMF och MITRE ATLAS för att upprätthålla trovärdighet.

Slutsats

DeepSeek-R1 presenterar allvarliga säkerhets-, etiska och efterlevnadsrisker som gör det olämpligt för många högriskapplikationer utan omfattande mitigationsinsatser. Dess benägenhet att generera skadligt, partiskt och osäkert innehåll placerar det i en nackdel jämfört med modeller som Claude-3-Opus, GPT-4o och OpenAI:s o1.

Eftersom DeepSeek-R1 är ett produkt som kommer från Kina är det osannolikt att de nödvändiga rekommendationerna för mitigering kommer att genomföras fullt ut. Det är dock viktigt att AI- och cybersäkerhetssamhällena är medvetna om de potentiella risker som denna modell utgör. Transparens om dessa sårbarheter säkerställer att utvecklare, regulatorer och företag kan vidta proaktiva åtgärder för att minimera skada där det är möjligt och förbli vaksamma mot missbruk av sådan teknik.

Organisationer som överväger att distribuera det måste investera i rigoröst säkerhetstestning, automatiserad red teaming och kontinuerlig övervakning för att säkerställa säker och ansvarig AI-implementering. DeepSeek-R1 presenterar allvarliga säkerhets-, etiska och efterlevnadsrisker som gör det olämpligt för många högriskapplikationer utan omfattande mitigationsinsatser.

Läsare som vill lära sig mer rekommenderas att ladda ner rapporten genom att besöka denna sida.

Unite.AI