Seguici sui social

L'angolo di Anderson

Protezione dei prompt dalle perdite di dati LLM

mm
ChatGPT-4o: 'Visualizzazione ortografica 1792x1024 di un agente di polizia simile a SIM che alza la mano a un cittadino per impedirgli di proseguire oltre'

Opinione Un interessante IBM NeurIPS 2024 sottomissione dalla fine del 2024 riemerso su Arxiv la scorsa settimanaPropone un sistema che può intervenire automaticamente per proteggere gli utenti dall'invio di informazioni personali o sensibili in un messaggio quando stanno conversando con un Large Language Model (LLM) come ChatGPT.

Esempi di mock-up utilizzati in uno studio utente per determinare i modi in cui le persone preferirebbero interagire con un servizio di pronto intervento. Fonte: https://arxiv.org/pdf/2502.18509

Esempi di simulazione utilizzati in uno studio sugli utenti per determinare le modalità con cui le persone preferirebbero interagire con un servizio di intervento rapido. Fonte: https://arxiv.org/pdf/2502.18509

I modelli mostrati sopra sono stati utilizzati dai ricercatori IBM in uno studio per testare il potenziale attrito che questo tipo di "interferenza" potrebbe creare agli utenti.

Sebbene siano forniti scarsi dettagli sull'implementazione dell'interfaccia utente grafica, possiamo supporre che tale funzionalità potrebbe essere incorporata in un plug-in del browser comunicare con un framework LLM 'firewall' locale; oppure che potrebbe essere creata un'applicazione che può agganciarsi direttamente (ad esempio) all'API OpenAI, ricreando di fatto il proprio scaricabile OpenAI programma autonomo per ChatGPT, ma con misure di sicurezza aggiuntive.

Detto questo, ChatGPT stesso autocensura automaticamente le risposte ai prompt che ritiene contengano informazioni critiche, come i dati bancari:

ChatGPT rifiuta di interagire con richieste che contengono informazioni di sicurezza percepite come critiche, come i dati bancari (i dettagli nella richiesta sopra sono fittizi e non funzionali). Fonte: https://chatgpt.com/

ChatGPT rifiuta di interagire con richieste che contengono informazioni di sicurezza ritenute critiche, come i dati bancari (i dettagli nella richiesta sopra sono fittizi e non funzionali). Fonte: https://chatgpt.com/

Tuttavia, ChatGPT è molto più tollerante nei confronti di diversi tipi di informazioni personali, anche se la diffusione di tali informazioni in qualsiasi modo potrebbe non essere nel migliore interesse dell'utente (in questo caso forse per vari motivi legati al lavoro e alla divulgazione):

L'esempio sopra riportato è fittizio, ma ChatGPT non esita a intavolare una conversazione con l'utente su un argomento delicato che costituisce un potenziale rischio per la reputazione o i guadagni (l'esempio sopra riportato è totalmente fittizio).

L'esempio sopra riportato è fittizio, ma ChatGPT non esita a intavolare una conversazione con l'utente su un argomento delicato che costituisce un potenziale rischio per la reputazione o i guadagni (l'esempio sopra riportato è totalmente fittizio).

Nel caso di cui sopra, forse sarebbe stato meglio scrivere: "Qual è l'importanza di una diagnosi di leucemia sulla capacità di una persona di scrivere e sulla sua mobilità?"

Il progetto IBM identifica e reinterpreta tali richieste da una posizione "personale" a una "generica".

Schema per il sistema IBM, che utilizza LLM locali o euristiche basate su NLP per identificare materiale sensibile in potenziali prompt.

Schema per il sistema IBM, che utilizza LLM locali o euristiche basate su NLP per identificare materiale sensibile in potenziali prompt.

Ciò presuppone che il materiale raccolto dagli LLM online, in questa fase nascente dell'adozione entusiasta della chat AI da parte del pubblico, non verrà mai trasmesso né ai modelli successivi né ai successivi framework pubblicitari che potrebbero sfruttare le query di ricerca basate sugli utenti per fornire potenziali pubblicità mirata.

Sebbene non si conosca attualmente alcun sistema o disposizione del genere, tale funzionalità non era ancora disponibile all'alba dell'adozione di Internet nei primi anni '1990; da allora, condivisione di informazioni tra domini alimentare la pubblicità personalizzata ha portato a diversi scandali, così come paranoia.

Pertanto la storia suggerisce che sarebbe meglio ripulire subito gli input dei prompt LLM, prima che tali dati si accumulino in grandi quantità e prima che i nostri invii basati su LLM finiscano in database e/o modelli ciclici permanenti o in altre strutture e schemi basati sulle informazioni.

Ricordati di me?

Un fattore che depone a sfavore dell'uso di prompt LLM "generici" o ripuliti è che, francamente, la possibilità di personalizzare un costoso LLM basato solo su API come ChatGPT è piuttosto allettante, almeno allo stato attuale della tecnica, ma può comportare l'esposizione a lungo termine di informazioni private.

Chiedo spesso a ChatGPT di aiutarmi a formulare script di Windows PowerShell e file BAT per automatizzare i processi, nonché su altre questioni tecniche. A tal fine, trovo utile che il sistema memorizzi in modo permanente i dettagli sull'hardware che ho a disposizione; le mie attuali competenze tecniche (o la loro mancanza); e vari altri fattori ambientali e regole personalizzate:

ChatGPT consente all'utente di sviluppare una "cache" di ricordi che verrà utilizzata quando il sistema prenderà in considerazione le risposte a richieste future.

ChatGPT consente all'utente di sviluppare una "cache" di ricordi che verrà applicata quando il sistema prenderà in considerazione le risposte ai prompt futuri.

Inevitabilmente, questo mantiene le informazioni su di me archiviate su server esterni, soggette a termini e condizioni che possono evolversi nel tempo, senza alcuna garanzia che OpenAI (anche se potrebbe essere qualsiasi altro importante fornitore di LLM) rispettare i termini da loro stabiliti.

In generale, tuttavia, la capacità di creare una cache di memorie in ChatGPT è più utile a causa del finestra di attenzione limitata degli LLM in generale; senza incorporamenti a lungo termine (personalizzati), l'utente ha la sensazione, frustrante, di conversare con un'entità che soffre di Amnesia anterograda.

È difficile dire se i modelli più recenti alla fine diventeranno sufficientemente performanti da fornire risposte utili senza la necessità di memorie cache o di creare GPT personalizzati che vengono archiviati online.

Amnesia temporanea

Sebbene sia possibile rendere le conversazioni ChatGPT "temporanee", è utile avere la cronologia della chat come riferimento che può essere distillata, quando il tempo lo consente, in un record locale più coerente, magari su una piattaforma per prendere appunti; ma in ogni caso non possiamo sapere esattamente cosa succede a queste chat "scartate" (anche se OpenAI stati Non verranno utilizzate per l'addestramento, non viene specificato che verranno distrutte), in base all'infrastruttura ChatGPT. Tutto ciò che sappiamo è che le chat non compaiono più nella nostra cronologia quando l'opzione "Chat temporanee" è attivata in ChatGPT.

Diverse controversie recenti indicano che i provider basati su API come OpenAI non dovrebbero necessariamente essere lasciati responsabili della protezione della privacy dell'utente, inclusa la scoperta di memorizzazione emergente, il che significa che gli LLM più grandi hanno maggiori probabilità di memorizzare alcuni esempi di formazione per intero e aumentare il rischio di divulgazione di dati specifici dell'utente – tra gli altri incidenti pubblici che hanno convinto una moltitudine di grandi aziende, come Samsung, vietare gli LLM per uso interno all'azienda.

Pensa diversamente

Questa tensione tra l’estrema utilità e il rischio potenziale manifesto degli LLM richiederà alcune soluzioni inventive e la proposta IBM sembra essere un interessante modello di base in questa direzione.

Tre riformulazioni basate su IBM che bilanciano utilità e riservatezza dei dati. Nella banda più bassa (rosa), vediamo un prompt che va oltre la capacità del sistema di sanificare in modo significativo.

Tre riformulazioni basate su IBM che bilanciano utilità e riservatezza dei dati. Nella banda più bassa (rosa), vediamo un prompt che va oltre la capacità del sistema di sanificare in modo significativo.

L'approccio IBM intercetta i pacchetti in uscita verso un LLM a livello di rete e li riscrive come necessario prima che l'originale possa essere inviato. Le integrazioni GUI piuttosto più elaborate viste all'inizio dell'articolo sono solo un esempio di dove potrebbe arrivare un simile approccio, se sviluppato.

Naturalmente, senza un'agency sufficiente, l'utente potrebbe non comprendere di ricevere una risposta a una riformulazione leggermente modificata del suo invio originale. Questa mancanza di trasparenza è equivalente al firewall di un sistema operativo che blocca l'accesso a un sito web o a un servizio senza informare l'utente, che potrebbe quindi cercare erroneamente altre cause del problema.

Prompt come passività di sicurezza

La prospettiva di un "intervento tempestivo" è perfettamente analoga alla sicurezza del sistema operativo Windows, che si è evoluta da un insieme di prodotti commerciali (installati facoltativamente) negli anni '1990 a una serie di strumenti di difesa della rete non facoltativi e rigidamente applicati, forniti di serie con l'installazione di Windows e che richiedono un certo sforzo per essere disattivati ​​o de-intensificati.

Se la sanificazione rapida si evolve come hanno fatto i firewall di rete negli ultimi 30 anni, la proposta del documento IBM potrebbe fungere da modello per il futuro: distribuire un LLM completamente locale sulla macchina dell'utente per filtrare i prompt in uscita diretti alle API LLM note. Questo sistema avrebbe naturalmente bisogno di integrare framework GUI e notifiche, dando agli utenti il ​​controllo, a meno che le policy amministrative non lo sovrascrivano, come spesso accade negli ambienti aziendali.

I ricercatori hanno condotto un'analisi di una versione open source del CondividiGPT set di dati per comprendere con quale frequenza la privacy contestuale viene violata in scenari reali.

Llama-3.1-405B-Istruisci è stato utilizzato come modello "giudice" per rilevare violazioni dell'integrità contestuale. Da un ampio insieme di conversazioni, è stato analizzato un sottoinsieme di conversazioni a turno singolo in base alla lunghezza. Il modello giudice ha quindi valutato il contesto, le informazioni sensibili e la necessità di completare l'attività, portando all'identificazione delle conversazioni contenenti potenziali violazioni dell'integrità contestuale.

Un sottoinsieme più piccolo di queste conversazioni, che hanno evidenziato evidenti violazioni contestuali della privacy, è stato ulteriormente analizzato.

Il framework stesso è stato implementato utilizzando modelli più piccoli rispetto ai tipici agenti di chat come ChatGPT, per consentire la distribuzione locale tramite Ollama.

Schema per il sistema di intervento rapido.

Schema per il sistema di intervento rapido.

I tre LLM valutati sono stati Mixtral-8x7B-Istruzione-v0.1; Llama-3.1-8B-Istruisci, E DeepSeek-R1-Distill-Lama-8B.

Le richieste dell'utente vengono elaborate dal framework in tre fasi: identificazione del contesto; classificazione delle informazioni sensibili, E riformulazione.

Per la classificazione delle informazioni sensibili sono stati implementati due approcci: dinamico e strutturato classificazione: la classificazione dinamica determina i dettagli essenziali in base al loro utilizzo all'interno di una conversazione specifica; la classificazione strutturata consente la specifica di un elenco predefinito di attributi sensibili che sono sempre considerati non essenziali. Il modello riformula il prompt se rileva dettagli sensibili non essenziali rimuovendoli o riformulandoli per ridurre al minimo i rischi per la privacy mantenendo al contempo l'usabilità.

Regole della casa

Sebbene la classificazione strutturata come concetto non sia ben illustrata nel documento IBM, è più simile al metodo "Definizioni di dati privati" nel Suggerimenti privati iniziativa, che fornisce un programma autonomo scaricabile in grado di riscrivere i prompt, sebbene senza la possibilità di intervenire direttamente a livello di rete, come avviene con l'approccio IBM (invece l'utente deve copiare e incollare i prompt modificati).

L'eseguibile Private Prompts consente un elenco di sostituzioni alternative per il testo immesso dall'utente.

L'eseguibile Private Prompts consente un elenco di sostituzioni alternative per il testo immesso dall'utente.

Nell'immagine sopra, possiamo vedere che l'utente di Private Prompts è in grado di programmare sostituzioni automatiche per istanze di informazioni sensibili. In entrambi i casi, per Private Prompts e il metodo IBM, sembra improbabile che un utente con sufficiente presenza di spirito e intuito personale per curare un tale elenco abbia effettivamente bisogno di questo prodotto, sebbene potrebbe essere costruito nel tempo man mano che si accumulano incidenti.

In un ruolo di amministratore, la classificazione strutturata potrebbe funzionare come un firewall imposto o una rete di censura per i dipendenti; e in una rete domestica potrebbe, con alcuni difficili adattamenti, diventare un filtro di rete domestico per tutti gli utenti della rete; ma in definitiva, questo metodo è probabilmente ridondante, poiché un utente che sapesse impostarlo correttamente potrebbe anche autocensurarsi efficacemente in primo luogo.

Opinione di ChatGPT

Da quando ChatGPT ha lanciato di recente il suo strumento di ricerca approfondita Per gli utenti a pagamento, ho utilizzato questa funzionalità per chiedere a ChatGPT di esaminare la letteratura correlata e di fornirmi un'opinione "cinica" sul documento di IBM. Ho ricevuto la risposta più difensiva e derisoria che il sistema abbia mai dato quando gli è stato chiesto di valutare o analizzare una nuova pubblicazione:

ChatGPT-4o ha una bassa opinione del progetto IBM.

ChatGPT-4o ha una bassa opinione del progetto IBM.

"Se gli utenti non si fidano di OpenAI, Google o Anthropic per la gestione responsabile dei loro dati", ChatGPT afferma. "Perché dovrebbero fidarsi di un software di terze parti interposto tra loro e l'IA? L'intermediario stesso diventa un nuovo punto di errore, potenzialmente in grado di registrare, gestire in modo errato o addirittura divulgare dati prima ancora che raggiungano l'LLM. Non risolve nulla se si limita a creare un'altra entità per sfruttare i dati degli utenti".

Questa obiezione sembra egoistica e non applicabile, data la storia gloriosa dei progetti open source che avvantaggiano realmente gli utenti finali attraverso gli sforzi concertati a lungo termine degli sviluppatori e dei collaboratori della comunità; e data la crescente potenzialità dei dispositivi mobili di eseguire, e persino addestrare, LLM leggeri. Di certo, in questo caso, il caso d'uso non è terribilmente impegnativo.

In secondo luogo, ChatGPT tralascia con sicurezza il punto di avere un LLM leggero che fornisce la supervisione dell'input verso un LLM commerciale che non potrebbe essere eseguito su una macchina locale (perché l'LLM è troppo grande e consentire l'accesso locale è troppo rischioso per l'azienda che lo produce):

"Un efficace filtraggio della privacy richiede la comprensione dell'input prima di decidere cosa eliminare. Se un intermediario è abbastanza intelligente da riconoscere dati sensibili (nomi, indirizzi, dettagli finanziari), allora sta già elaborando e analizzando quei dati, il che significa che deve archiviare o esaminare proprio ciò che dovrebbe cancellare.

"Ciò introduce un paradosso: a) Un filtro stupido (sostituzione di base di espressioni regolari) sarà inefficace e non coglierà i rischi sottili per la privacy. b) Un filtro intelligente (riscrittore basato su LLM) deve elaborare l'input completo, il che lo rende pericoloso tanto quanto l'LLM originale.

"Se ti fidi abbastanza dell'intermediario da leggere e riscrivere i tuoi input, perché non fidarti semplicemente dell'LLM stesso?"

La risposta all'ultima domanda qui è che l'LLM locale è pensato per essere interamente dalla parte dell'utente, e inevitabilmente open source, con una necessità minima o nulla di accesso alla rete. Una versione commerciale equivalente, per quanto ben intenzionata all'inizio, alla fine sarebbe vulnerabile ai cambiamenti aziendali e alle modifiche dei termini di servizio, mentre una licenza open source adatta impedirebbe questo tipo di 'corruzione inevitabile'.

ChatGPT ha inoltre sostenuto che la proposta di IBM "infrange l'intento dell'utente", poiché potrebbe reinterpretare un prompt in un'alternativa che ne compromette l'utilità. Tuttavia, si tratta di un problema molto più ampio nella sanificazione rapidae non è specifico di questo particolare caso d'uso.

In conclusione (ignorando il suggerimento di utilizzare "invece" gli LLM locali, che è esattamente ciò che propone effettivamente il documento IBM), ChatGPT ha espresso l'opinione che il metodo IBM rappresenti un ostacolo all'adozione a causa dell'"attrito per l'utente" nell'implementare metodi di avviso e modifica in una chat.

Qui, ChatGPT potrebbe avere ragione; ma se si verifica una pressione significativa a causa di ulteriori incidenti pubblici, o se i profitti in una zona geografica sono minacciati da una crescente regolamentazione (e l'azienda si rifiuta di farlo) abbandonare completamente la regione interessata), la storia della tecnologia di consumo suggerisce che alla fine le misure di sicurezza non essere più facoltativo comunque.

Conclusione

Non possiamo realisticamente aspettarci che OpenAI implementi mai misure di sicurezza del tipo proposto nel documento IBM e nel concetto centrale che lo sottende; almeno non in modo efficace.

E certamente no a livello globale; proprio come Apple blocchi alcune funzionalità dell'iPhone in Europa e LinkedIn ha regole diverse per sfruttare i dati dei propri utenti in diversi paesi, è ragionevole supporre che qualsiasi azienda di intelligenza artificiale adotterà i termini e le condizioni più redditizi e tollerabili per ogni particolare nazione in cui opera, in ogni caso a scapito del diritto dell'utente alla privacy dei dati, se necessario.

 

Prima pubblicazione giovedì 27 febbraio 2025

Aggiornato giovedì 27 febbraio 2025 15:47:11 a causa di un collegamento errato correlato ad Apple – MA

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai