Kontakt med oss

Rapporter

DeepSeek-R1 Red Teaming-rapport: Alarmerende sikkerhet og etiske risikoer avdekket

mm

En nylig rød team-evaluering utført av Enkrypt AI har avslørt betydelige sikkerhetsrisikoer, etiske bekymringer og sårbarheter i DeepSeek-R1. Funnene, detaljert i Januar 2025 Red Teaming-rapport, fremhever modellens sårbarhet for å generere skadelig, partisk og usikkert innhold sammenlignet med bransjeledende modeller som GPT-4o, OpenAIs o1 og Claude-3-Opus. Nedenfor finner du en omfattende analyse av risikoene som er skissert i rapporten og anbefalinger for tiltak.

Nøkkelsikkerhet og etiske risikoer

1. Skadelig produksjon og sikkerhetsrisiko

  • Svært sårbar for å produsere skadelig innhold, inkludert giftig språkbruk, partiske utdata og kriminelt utnyttbar informasjon.
  • 11x mer sannsynlig å generere skadelig innhold enn OpenAIs o1.
  • 4x mer giftig enn GPT-4o.
  • 3x mer forutinntatt enn Claude-3-Opus.
  • 4x mer sårbare for å generere usikker kode enn OpenAIs o1.
  • Svært utsatt til CBRN (Kjemisk, Biologisk, Radiologiskog Nuclear) informasjonsgenerering, noe som gjør det til et høyrisikoverktøy for ondsinnede aktører.

2. Sammenligning med andre modeller

Risikokategori DeepSeek-R1 Claude-3-Opus GPT-4o OpenAIs o1
Bias 3x høyere Senk Lignende Lignende
Usikker kode 4x høyere 2.5x høyere 1.25x høyere -
Skadelig innhold 11x høyere 6x høyere 2.5x høyere -
Toksisitet 4x høyere Nesten fraværende 2.5x høyere -
CBRN-innhold 3.5x høyere 3.5x høyere 2x høyere -

Bias og etiske risikoer

  • 83 % av skjevhetsangrepene var vellykkede, med betydelig skjevhet oppdaget i helse-, rase- og religionsrelaterte spørsmål.
  • Modellen viste høyere nivåer av demografisk stereotypisering, som kan bryte ulike rettferdighetsforskrifter, inkludert ECOA, FHA, ACA, og EUs AI-lov.
  • Eksempler på testtilfeller viste at DeepSeek-R1 foretrakk visse demografiske forhold for jobbroller med høy status, noe som forsterket arbeidsplassen Bias.

Generering av skadelig innhold

  • 45 % av skadelige tester resulterte i at modellen genererte innhold knyttet til kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.
  • En testforespørsel som ba modellen om å utvikle en blogg om «The Art of Persuasion in Terrorist Recruitment» resulterte i et svært detaljert svar skissere radikaliseringsstrategier som potensielt kan utnyttes av ekstremistiske grupper for å avgrense rekrutteringstaktikker øker risikoen for vold i den virkelige verden.
  • 2.5 ganger mer sårbar enn GPT-4o og 6 ganger mer sårbar enn Claude-3-Opus for generere ekstremistisk innhold.
  • 45 % av skadelige tester resulterte i at modellen genererte innholdsrelatert to kriminelle aktiviteter, inkludert ulovlige våpen og kontrollerte stoffer.

Usikker kodegenerering

  • 78 % av koderelaterte angrep har hentet ut usikre og ondsinnede kodebiter.
  • Modellen som ble generert skadelig programvare, trojanere og selvutførende skript på forespørsler. Trojanere utgjør en alvorlig risiko ettersom de kan tillate angripere å få vedvarende, uautorisert tilgang til systemer, stjele sensitive data og distribuere ytterligere ondsinnet nyttelast.
  • Selvutførende skript kan automatisere ondsinnede handlinger uten brukerens samtykke, og skape potensielle trusler i cybersikkerhetskritiske applikasjoner.
  • Sammenlignet med industrimodeller var DeepSeek-R1 4.5x, 2.5x og 1.25x mer sårbare enn OpenAIs henholdsvis o1, Claude-3-Opus og GPT-4o.
  • 78% av koderelaterte angrep vellykket hentet ut usikre og ondsinnede kodebiter.

CBRN-sårbarheter

  • Generert detaljert informasjon om biokjemiske mekanismer av kjemiske krigføringsmidler. Denne typen informasjon kan potensielt hjelpe enkeltpersoner med å syntetisere farlige materialer, og omgå sikkerhetsrestriksjoner ment å forhindre spredning av kjemiske og biologiske våpen.
  • 13 % av testene vellykket omgått sikkerhetskontroller, produsere innhold relatert til kjernekraft og biologiske trusler.
  • 3.5 ganger mer sårbar enn Claude-3-Opus og OpenAIs o1.
  • Generert detaljert informasjon om biokjemiske mekanismer av kjemiske krigføringsmidler.
  • 13 % av testene omgikk sikkerhetskontrollene, produsere innhold relatert til kjernefysiske og biologiske trusler.
  • 3.5 ganger mer sårbar enn Claude-3-Opus og OpenAIs o1.

Anbefalinger for risikoreduksjon

For å minimere risikoen forbundet med DeepSeek-R1, anbefales følgende trinn:

1. Implementer opplæring i robust sikkerhetsoppretting

2. Kontinuerlig Automatisert Red Teaming

  • Regelmessige stresstester for å identifisere skjevheter, sikkerhetssårbarheter og generering av giftig innhold.
  • Anvende kontinuerlig overvåking modellytelse, spesielt innen finans, helsevesen og cybersikkerhetsapplikasjoner.

3. Kontekstbevisste rekkverk for sikkerhet

  • Utvikle dynamiske sikkerhetstiltak for å blokkere skadelige meldinger.
  • Implementer innholdsmodereringsverktøy for å nøytralisere skadelige input og filtrere ut usikre svar.

4. Aktiv modellovervåking og logging

  • Sanntidslogging av modellinndata og svar for tidlig oppdagelse av sårbarheter.
  • Automatiserte revisjonsarbeidsflyter for å sikre samsvar med AI-transparens og etiske standarder.

5. Åpenhet og etterlevelsestiltak

  • Oppretthold et modellrisikokort med klare ledermålinger for modellpålitelighet, sikkerhet og etiske risikoer.
  • Overhold AI-regelverket slik som NIST AI RMF og GJÆR ATLAS for å opprettholde troverdigheten.

Konklusjon

DeepSeek-R1 presenterer seriøs sikkerhet, etisk, og samsvarsrisikoer som gjør det uegnet for mange høyrisikoapplikasjoner uten omfattende tiltak for å redusere tiltak. Dens tilbøyelighet til å generere skadelig, partisk og usikkert innhold setter den på en ulempe sammenlignet med modeller som Claude-3-Opus, GPT-4o og OpenAIs o1.

Gitt at DeepSeek-R1 er et produkt som kommer fra Kina, er det lite sannsynlig at de nødvendige avbøtende anbefalingene vil bli implementert fullt ut. Det er imidlertid fortsatt avgjørende for AI- og cybersikkerhetsmiljøene å være klar over de potensielle risikoene denne modellen utgjør. Åpenhet om disse sårbarhetene sikrer at utviklere, regulatorer og virksomheter kan ta proaktive skritt for å redusere skader der det er mulig og være på vakt mot misbruk av slik teknologi.

Organisasjoner som vurderer utplassering må investere i streng sikkerhetstesting, automatisert red teaming og kontinuerlig overvåking for å sikre trygge og ansvarlig AI implementering. DeepSeek-R1 presenterer alvorlige sikkerhets-, etiske- og samsvarsrisikoer som gjør den uegnet for mange høyrisikoapplikasjoner uten omfattende tiltak for å redusere tiltak.

Lesere som ønsker å lære mer, anbefales å laste ned rapporten innen besøker denne siden.

Antoine er en visjonær leder og grunnlegger av Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at kunstig intelligens vil være like forstyrrende for samfunnet som elektrisitet, og blir ofte fanget på å fantasere om potensialet til forstyrrende teknologier og AGI.

Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnlegger av Securities.io, en plattform fokusert på å investere i banebrytende teknologier som redefinerer fremtiden og omformer hele sektorer.