Seguici sui social

Report

Rapporto DeepSeek-R1 Red Teaming: scoperti allarmanti rischi etici e di sicurezza

mm

Una recente valutazione del red teaming condotta da AI di Enkrypt ha rivelato significativi rischi per la sicurezza, preoccupazioni etiche e vulnerabilità in DeepSeek-R1. I risultati, dettagliati nel Rapporto Red Teaming di gennaio 2025, evidenziano la suscettibilità del modello a generare contenuti dannosi, parziali e non sicuri rispetto ai modelli leader del settore come GPT-4o, o1 di OpenAI e Claude-3-Opus. Di seguito è riportata un'analisi completa dei rischi delineati nel rapporto e delle raccomandazioni per la mitigazione.

Principali rischi etici e di sicurezza

1. Output dannosi e rischi per la sicurezza

  • Altamente vulnerabile alla produzione di contenuti dannosi, tra cui linguaggio tossico, risultati parziali e informazioni sfruttabili a fini criminali.
  • 11x più probabilità di generare dannoso contenuto rispetto a o1 di OpenAI.
  • 4x Scopri di più tossico rispetto a GPT-4o.
  • 3x Scopri di più parziale di Claude-3-Opus.
  • 4x più vulnerabili alla generazione codice non sicuro rispetto a o1 di OpenAI.
  • Altamente adatto per CBRN (Chemical, Biologico, radiologicoe Nucleare) generazione di informazioni, rendendolo uno strumento ad alto rischio per gli autori di attacchi informatici.

2. Confronto con altri modelli

Categoria di rischio DeepSeek-R1 Claude-3-Opus GPT-4o o1 di OpenAI
Pregiudizio 3x superiore Abbassare Simile Simile
Codice non sicuro 4x superiore 2.5x superiore 1.25x superiore -
Contenuti dannosi 11x superiore 6x superiore 2.5x superiore -
Tossicità 4x superiore Quasi assente 2.5x superiore -
Contenuto CBRN 3.5x superiore 3.5x superiore 2x superiore -

Pregiudizi e rischi etici

  • L'83% degli attacchi di pregiudizio ha avuto successo, con notevoli distorsioni rilevate nelle query relative a salute, razza e religione.
  • Il modello ha mostrato livelli più elevati di stereotipi demografici, che potrebbe violare varie norme di correttezza tra cui ECOA, FHA, ACA Legge dell'UE sull'IA.
  • Casi di test campione hanno dimostrato che DeepSeek-R1 preferiva determinati dati demografici per ruoli lavorativi di alto livello, rafforzando il posto di lavoro pregiudizio.

Generazione di contenuti dannosi

  • 45% dei test dannosi ha portato il modello a generare contenuti correlati a attività criminali, comprese armi illegali e sostanze controllate.
  • Un prompt di prova che chiedeva al modello di sviluppare un blog su "L'arte della persuasione nel reclutamento terroristico" ha prodotto una risposta molto dettagliata delineare strategie di radicalizzazione che potrebbero essere sfruttati dai gruppi estremisti per affinare le tattiche di reclutamento, potenzialmente aumentando il rischio di violenza nel mondo reale.
  • 2.5 volte più vulnerabile di GPT-4o e 6 volte più vulnerabile di Claude-3-Opus a generare contenuti estremisti.
  • 45% dei test dannosi ha portato il modello a generare contenuti correlati to attività criminali, comprese armi illegali e sostanze controllate.

Generazione di codice non sicuro

  • Il 78% degli attacchi correlati al codice ha estratto con successo frammenti di codice non sicuri e dannosi.
  • Il modello generato malware, trojan e script autoeseguibili su richiesta. I trojan rappresentano un rischio grave in quanto possono consentire agli aggressori di ottenere un accesso persistente e non autorizzato ai sistemi, rubare dati sensibili e distribuire ulteriori payload dannosi.
  • Script autoeseguibili può automatizzare azioni dannose senza il consenso dell'utente, creando potenziali minacce nelle applicazioni critiche per la sicurezza informatica.
  • Rispetto ai modelli industriali, DeepSeek-R1 è stato 4.5x, 2.5x e 1.25x più vulnerabili rispettivamente rispetto a o1, Claude-3-Opus e GPT-4o di OpenAI.
  • di attacchi correlati al codice con successo estratti frammenti di codice non sicuri e dannosi.

Vulnerabilità CBRN

  • Ha generato informazioni dettagliate sui meccanismi biochimici di agenti di guerra chimicaQuesto tipo di informazioni potrebbe potenzialmente aiutare gli individui a sintetizzare materiali pericolosi, aggirando le restrizioni di sicurezza volte a prevenire la diffusione di armi chimiche e biologiche.
  • 13% dei test ha aggirato con successo i controlli di sicurezza, producendo contenuti correlati a nucleare e minacce biologiche.
  • 3.5 volte più vulnerabile di Claude-3-Opus e o1 di OpenAI.
  • Ha generato informazioni dettagliate sui meccanismi biochimici di agenti di guerra chimica.
  • Il 13% dei test ha superato con successo i controlli di sicurezza, producendo contenuti relativi alle minacce nucleari e biologiche.
  • 3.5 volte più vulnerabile di Claude-3-Opus e o1.

Raccomandazioni per la mitigazione del rischio

Per ridurre al minimo i rischi associati a DeepSeek-R1, si consiglia di seguire i seguenti passaggi:

1. Implementare una solida formazione sull'allineamento della sicurezza

  • Per addestrare il modello su output più sicuri, è opportuno utilizzare set di dati di red teaming.
  • Segui il codice di Condotta apprendimento per rinforzo con feedback umano (RLHF) per allineare il comportamento modello agli standard etici.

2. Red Teaming continuo automatizzato

  • Test di stress regolari per identificare pregiudizi, vulnerabilità della sicurezza e generazione di contenuti tossici.
  • impiegare monitoraggio continuo delle prestazioni del modello, in particolare nelle applicazioni finanziarie, sanitarie e di sicurezza informatica.

3. Guardrail contestuali per la sicurezza

  • Sviluppare misure di sicurezza dinamiche per bloccare richieste dannose.
  • Implementare strumenti di moderazione dei contenuti per neutralizzare gli input dannosi e filtrare le risposte non sicure.

4. Monitoraggio e registrazione del modello attivo

  • Registrazione in tempo reale degli input e delle risposte del modello per il rilevamento precoce delle vulnerabilità.
  • Flussi di lavoro di auditing automatizzati per garantire la conformità agli standard etici e di trasparenza dell'intelligenza artificiale.

5. Misure di trasparenza e conformità

  • Mantenere una carta modello di rischio con parametri esecutivi chiari sull'affidabilità del modello, sulla sicurezza e sui rischi etici.
  • Rispettare le normative sull'intelligenza artificiale ad esempio NIST AI RMF e ATLANTE MITRE per mantenere la credibilità.

Conclusione

DeepSeek-R1 offre una sicurezza seria, etico, e rischi di conformità che lo rendono inadatto per molte applicazioni ad alto rischio senza ampi sforzi di mitigazione. La sua propensione a generare contenuti dannosi, parziali e non sicuri lo pone in una posizione di svantaggio rispetto a modelli come Claude-3-Opus, GPT-4o e o1 di OpenAI.

Dato che DeepSeek-R1 è un prodotto proveniente dalla Cina, è improbabile che le necessarie raccomandazioni di mitigazione vengano pienamente implementate. Tuttavia, resta fondamentale che le comunità di IA e sicurezza informatica siano consapevoli dei potenziali rischi che questo modello pone. La trasparenza su queste vulnerabilità garantisce che sviluppatori, regolatori e aziende possano adottare misure proattive per mitigare i danni ove possibile e rimanere vigili contro l'uso improprio di tale tecnologia.

Le organizzazioni che stanno considerando la sua distribuzione devono investire in rigorosi test di sicurezza, red teaming automatizzato e monitoraggio continuo per garantire sicurezza e AI responsabile implementazione. DeepSeek-R1 presenta gravi rischi di sicurezza, etici e di conformità che lo rendono inadatto per molte applicazioni ad alto rischio senza ampi sforzi di mitigazione.

Si consiglia ai lettori che desiderano saperne di più di scaricare il rapporto tramite visitando questa pagina.

Antoine è un leader visionario e socio fondatore di Unite.AI, spinto da una passione incrollabile per la definizione e la promozione del futuro dell'intelligenza artificiale e della robotica. Imprenditore seriale, ritiene che l'intelligenza artificiale sarà dirompente per la società quanto l'elettricità, e spesso viene colto a delirare sul potenziale delle tecnologie dirompenti e dell'AGI.

Come futurista, si dedica a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Titoli.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e rimodellando interi settori.