Angolo di Anderson

Protezione delle Prompt da Perdite di Dati LLM

Published February 27, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

Opinione Una interessante presentazione IBM NeurIPS 2024 submission della fine del 2024 è riapparsa su Arxiv la scorsa settimana. Propone un sistema che può intervenire automaticamente per proteggere gli utenti dall’inserimento di informazioni personali o sensibili in un messaggio quando hanno una conversazione con un modello linguistico di grandi dimensioni (LLM) come ChatGPT.

Esempi di mock-up utilizzati in uno studio sugli utenti per determinare i modi in cui le persone preferiscono interagire con un servizio di intervento sulla prompt. Fonte: https://arxiv.org/pdf/2502.18509

I mock-up mostrati sopra sono stati utilizzati dai ricercatori IBM in uno studio per testare la potenziale frizione degli utenti rispetto a questo tipo di “interferenza”.

Sebbene siano forniti pochi dettagli sull’implementazione della GUI, possiamo supporre che tale funzionalità potrebbe essere incorporata in un plugin del browser che comunica con un framework LLM “firewall” locale; o che potrebbe essere creata un’applicazione in grado di collegarsi direttamente (ad esempio) all’API OpenAI, ricreando efficacemente il programma autonomo di OpenAI per ChatGPT, ma con ulteriori salvaguardie.

Detto questo, ChatGPT stesso censura automaticamente le risposte alle prompt che percepisce contenere informazioni critiche, come i dettagli bancari:

ChatGPT si rifiuta di interagire con prompt che contengono informazioni di sicurezza critica percepita, come i dettagli bancari (i dettagli nel prompt sopra sono fittizi e non funzionali). Fonte: https://chatgpt.com/

Tuttavia, ChatGPT è molto più tollerante riguardo ai diversi tipi di informazioni personali – anche se la diffusione di tali informazioni potrebbe non essere nell’interesse dell’utente (in questo caso forse per vari motivi legati al lavoro e alla divulgazione):

L’esempio sopra è fittizio, ma ChatGPT non esita a impegnarsi in una conversazione con l’utente su un soggetto sensibile che costituisce un potenziale rischio di reputazione o di guadagno (l’esempio sopra è completamente fittizio).

In questo caso, potrebbe essere stato meglio scrivere: ‘Qual è il significato di una diagnosi di leucemia sulla capacità di scrivere e sulla mobilità di una persona?’

Il progetto IBM identifica e reinterpretisce tali richieste da una posizione “personale” a una “generica”.

Schema per il sistema IBM, che utilizza LLM locali o euristici NLP per identificare materiali sensibili in potenziali prompt.

Ciò presume che il materiale raccolto da LLM online, in questa fase nascente dell’adozione entusiasta del pubblico dell’AI chat, non alimenti mai modelli successivi o framework pubblicitari che potrebbero sfruttare le query di ricerca basate sull’utente per fornire potenziale pubblicità mirata.

Sebbene non esista un tale sistema o accordo, non esisteva neanche una tale funzionalità all’alba dell’adozione di Internet nei primi anni ’90; da allora, condivisione di informazioni tra domini per alimentare la pubblicità personalizzata ha portato a diversi scandali, nonché paranoia.

Pertanto, la storia suggerisce che sarebbe meglio sanificare gli input delle prompt LLM ora, prima che tali dati si accumulino in volume e prima che le nostre presentazioni LLM basate finiscano in database ciclici permanenti e/o modelli, o altre strutture e schemi basati sulle informazioni.

Ricordati di me?

Un fattore che pesa contro l’uso di prompt LLM “generici” o sanificati è che, francamente, la possibilità di personalizzare un’API LLM costosa come ChatGPT è abbastanza convincente, almeno nello stato attuale dell’arte – ma ciò può comportare l’esposizione a lungo termine di informazioni private.

Chiedo spesso a ChatGPT di aiutarmi a formulare script di Windows PowerShell e file BAT per automatizzare i processi, nonché su altre questioni tecniche. A questo scopo, trovo utile che il sistema memorizzi permanentemente dettagli sull’hardware che ho a disposizione; le mie competenze tecniche esistenti (o la loro mancanza); e vari altri fattori ambientali e regole personalizzate:

ChatGPT consente all’utente di sviluppare una ‘cache’ di memorie che verranno applicate quando il sistema considera le risposte alle prompt future.

Inevitabilmente, ciò mantiene informazioni su di me archiviate su server esterni, soggette a termini e condizioni che possono evolversi nel tempo, senza alcuna garanzia che OpenAI (sebbene potrebbe essere qualsiasi altro grande fornitore LLM) rispetti i termini che ha stabilito.

In generale, tuttavia, la capacità di costruire una cache di memorie in ChatGPT è più utile a causa della limitata finestra di attenzione degli LLM in generale; senza embedding personalizzati a lungo termine, l’utente si sente, frustrato, come se stesse conversando con un’entità che soffre di amnesia anterograda.

È difficile dire se i nuovi modelli diventeranno eventualmente abbastanza performanti da fornire risposte utili senza la necessità di memorie in cache o di creare GPT personalizzati archiviati online.

Amnesia temporanea

Sebbene si possa rendere le conversazioni ChatGPT “temporanee”, è utile avere la cronologia della chat come riferimento che può essere distillato, quando il tempo lo consente, in un record locale più coerente, forse su una piattaforma di prendere appunti; ma in ogni caso non possiamo sapere esattamente cosa succede a queste “chat scartate” (sebbene OpenAI stabilisca che non verranno utilizzate per l’addestramento, non afferma che verranno distrutte), in base all’infrastruttura ChatGPT.

Tutto ciò che sappiamo è che le chat non appaiono più nella nostra cronologia quando si attiva “Chat temporanee” in ChatGPT.

Vari recenti controversie indicano che i fornitori di API come OpenAI non dovrebbero necessariamente essere lasciati in carica della protezione della privacy dell’utente, inclusa la scoperta di memorizzazione emergente, che significa che gli LLM più grandi sono più probabilità di memorizzare alcuni esempi di addestramento nel loro complesso, aumentando il rischio di divulgazione di dati specifici dell’utente – tra altri incidenti pubblici che hanno persuaso una moltitudine di grandi aziende, come Samsung, a vietare LLM per l’uso interno aziendale.

Pensare diversamente

Questa tensione tra l’estrema utilità e il manifesto potenziale rischio degli LLM richiederà alcune soluzioni inventive – e la proposta IBM sembra essere un interessante modello di base in questa linea.

Tre riformulazioni basate su IBM che bilanciano l’utilità contro la privacy dei dati.

L’approccio IBM intercetta i pacchetti in uscita a un LLM a livello di rete e li riscrive se necessario prima che l’originale possa essere inviato. Le più elaborate integrazioni GUI viste all’inizio dell’articolo sono solo illustrative di dove potrebbe andare un tale approccio, se sviluppato.

Naturalmente, senza un’adeguata agenzia, l’utente potrebbe non capire che sta ottenendo una risposta a una leggera riformulazione della sua presentazione originale. Questa mancanza di trasparenza è equivalente a un firewall del sistema operativo che blocca l’accesso a un sito web o servizio senza informare l’utente, che potrebbe quindi erroneamente cercare altre cause del problema.

Prompt come responsabilità di sicurezza

La prospettiva di “intervento della prompt” si analogizza bene alla sicurezza del sistema operativo Windows, che è evoluta da un patchwork di prodotti commerciali (opzionalmente installati) negli anni ’90 a un set non opzionale e rigidamente applicato di strumenti di difesa della rete che vengono standard con un’installazione di Windows e che richiedono alcuni sforzi per disattivarli o ridurne l’intensità.

Se la sanificazione della prompt evolve come i firewall di rete hanno fatto negli ultimi 30 anni, la proposta del paper di IBM potrebbe servire come modello per il futuro: distribuire un LLM completamente locale sulla macchina dell’utente per filtrare le prompt in uscita dirette a LLM API noti. Questo sistema dovrebbe naturalmente integrare framework GUI e notifiche, dando agli utenti il controllo – a meno che le politiche amministrative non lo annullino, come spesso accade in ambienti aziendali.

I ricercatori hanno condotto un’analisi di una versione open-source del set di dati ShareGPT per capire quanto spesso la privacy contestuale venga violata in scenari del mondo reale.

Llama-3.1-405B-Instruct è stato utilizzato come modello “giudice” per rilevare le violazioni dell’integrità contestuale. Da un grande set di conversazioni, un subset di conversazioni a turno singolo è stato analizzato in base alla lunghezza. Il modello giudice ha quindi valutato il contesto, le informazioni sensibili e la necessità di completamento del compito, portando all’identificazione di conversazioni che contengono potenziali violazioni dell’integrità contestuale.

Un subset più piccolo di queste conversazioni, che hanno dimostrato violazioni definitive della privacy contestuale, è stato analizzato ulteriormente.

Il framework stesso è stato implementato utilizzando modelli che sono più piccoli dei soliti agenti di chat come ChatGPT, per consentire la distribuzione locale tramite Ollama.