Conectează-te cu noi

Unghiul lui Anderson

Protejarea solicitărilor de scurgeri de date LLM

mm
ChatGPT-4o: „Vizualizare ortografică 1792x1024 a unui ofițer de poliție asemănător SIM-urilor care ridică mâna către un cetățean pentru a-l împiedica să meargă mai departe”

Opinie Un IBM NeurIPS 2024 interesant supunere de la sfarsitul lui 2024 a reapărut pe Arxiv săptămâna trecută. Propune un sistem care poate interveni automat pentru a proteja utilizatorii de trimiterea de informații personale sau sensibile într-un mesaj atunci când au o conversație cu un model de limbă mare (LLM), cum ar fi Chat GPT.

Exemple modele utilizate într-un studiu asupra utilizatorilor pentru a determina modalitățile în care oamenii ar prefera să interacționeze cu un serviciu de intervenție promptă. Sursa: https://arxiv.org/pdf/2502.18509

Exemple modele utilizate într-un studiu asupra utilizatorilor pentru a determina modalitățile în care oamenii ar prefera să interacționeze cu un serviciu de intervenție promptă. Sursa: https://arxiv.org/pdf/2502.18509

Machetele prezentate mai sus au fost folosite de cercetătorii IBM într-un studiu menit să testeze potențialele dificultăți ale utilizatorilor față de acest tip de „interferență”.

Deși sunt date puține detalii despre implementarea GUI, putem presupune că o astfel de funcționalitate ar putea fi fie încorporată într-un plugin de browser. comunicarea cu un framework LLM local de tip „firewall”; sau că s-ar putea crea o aplicație care se poate conecta direct (de exemplu) la API-ul OpenAI, recreând efectiv propriul API descărcabil al OpenAI program independent pentru ChatGPT, dar cu garanții suplimentare.

Acestea fiind spuse, ChatGPT însuși autocenzurează automat răspunsurile la solicitările pe care le percepe a conține informații critice, cum ar fi detaliile bancare:

ChatGPT refuză să interacționeze cu solicitările care conțin informații de securitate percepute, cum ar fi detaliile bancare (detaliile din promptul de mai sus sunt fictive și nefuncționale). Sursa: https://chatgpt.com/

ChatGPT refuză să interacționeze cu solicitările care conțin informații de securitate percepute, cum ar fi detaliile bancare (detaliile din promptul de mai sus sunt fictive și nefuncționale). Sursa: https://chatgpt.com/

Cu toate acestea, ChatGPT este mult mai tolerant în ceea ce privește diferitele tipuri de informații personale – chiar dacă diseminarea unor astfel de informații în orice mod ar putea să nu fie în interesul utilizatorului (în acest caz, poate din diverse motive legate de muncă și divulgare):

Exemplul de mai sus este fictiv, dar ChatGPT nu ezită să se angajeze într-o conversație cu utilizatorul pe un subiect sensibil care constituie un potențial risc de reputație sau de câștig (exemplul de mai sus este total fictiv).

Exemplul de mai sus este fictiv, dar ChatGPT nu ezită să se angajeze într-o conversație cu utilizatorul pe un subiect sensibil care constituie un potențial risc de reputație sau de câștig (exemplul de mai sus este total fictiv).

În cazul de mai sus, ar fi fost mai bine să scrieți: „Care este semnificația unui diagnostic de leucemie asupra capacității unei persoane de a scrie și asupra mobilității sale?”

Proiectul IBM identifică și reinterpretează astfel de solicitări dintr-o perspectivă „personală” într-una „generică”.

Schemă pentru sistemul IBM, care utilizează LLM-uri locale sau euristică bazată pe NLP pentru a identifica materialul sensibil în eventualele solicitări.

Schemă pentru sistemul IBM, care utilizează LLM-uri locale sau euristică bazată pe NLP pentru a identifica materialul sensibil în eventualele solicitări.

Aceasta presupune că materialul colectat de către LLM-urile online, în această etapă incipientă a adoptării entuziaste de către public a chat-ului bazat pe inteligență artificială, nu va fi niciodată transmis nici modelelor ulterioare, nici cadrelor publicitare ulterioare care ar putea exploata interogările de căutare bazate pe utilizatori pentru a oferi potențiale informații. publicitate orientată.

Deși nu se știe că există un astfel de sistem sau aranjament acum, nici o astfel de funcționalitate nu era încă disponibilă în zorii adoptării internetului la începutul anilor 1990; de atunci, schimbul de informații pe mai multe domenii pentru a alimenta publicitatea personalizată a condus la diverse scandaluri, precum și paranoia.

Prin urmare, istoria sugerează că ar fi mai bine să dezinfectăm intrările prompte LLM acum, înainte ca astfel de date să se acumuleze în volum și înainte ca trimiterile noastre bazate pe LLM să ajungă în baze de date și/sau modele ciclice permanente sau în alte structuri și scheme bazate pe informații.

Amintește-ți de mine?

Un factor care contracarează utilizarea prompturilor LLM „generice” sau igienizate este că, sincer, posibilitatea de a personaliza un LLM scump, bazat exclusiv pe API, cum ar fi ChatGPT, este destul de convingătoare, cel puțin în stadiul actual al tehnologiei - dar acest lucru poate implica expunerea pe termen lung a informațiilor private.

Cer frecvent ChatGPT să mă ajute să formulez scripturi Windows PowerShell și fișiere BAT pentru automatizarea proceselor, precum și în alte chestiuni tehnice. În acest scop, mi se pare util ca sistemul să memoreze permanent detalii despre hardware-ul pe care îl am la dispoziție; competențele mele tehnice existente (sau lipsa acestora); și diverși alți factori de mediu și reguli personalizate:

ChatGPT permite unui utilizator să dezvolte o „cache” de amintiri care va fi aplicată atunci când sistemul ia în considerare răspunsurile la solicitările viitoare.

ChatGPT permite unui utilizator să dezvolte o „memorie cache” de amintiri care vor fi aplicate atunci când sistemul ia în considerare răspunsurile la solicitări viitoare.

În mod inevitabil, acest lucru păstrează informațiile despre mine stocate pe servere externe, sub rezerva unor termeni și condiții care pot evolua în timp, fără nicio garanție că OpenAI (deși ar putea fi orice alt furnizor important de LLM) va respectă termenii pe care i-au stabilit.

În general, totuși, capacitatea de a construi un cache de amintiri în ChatGPT este cea mai utilă din cauza fereastra de atenție limitată a LLM-urilor în general; fără înglobări (personalizate) pe termen lung, utilizatorul simte, în mod frustrant, că conversa cu o entitate care suferă de Amnezie anterogradă.

Este dificil de spus dacă modelele mai noi vor deveni în cele din urmă suficient de performante pentru a oferi răspunsuri utile fără a fi nevoie să memorăm în cache sau să creați GPT-uri personalizate care sunt stocate online.

Amnezie temporară

Deși conversațiile ChatGPT pot fi „temporare”, este util să avem istoricul chat-urilor ca referință care poate fi distilată, atunci când timpul permite, într-o înregistrare locală mai coerentă, poate pe o platformă de luare de notițe; dar în orice caz nu putem ști exact ce se întâmplă cu aceste chat-uri „abandonate” (deși OpenAI Statele acestea nu vor fi folosite pentru antrenament, nu se specifică faptul că sunt distruse), bazate pe infrastructura ChatGPT. Tot ce știm este că chat-urile nu mai apar în istoricul nostru atunci când „Chaturi temporare” sunt activate în ChatGPT.

Diverse controverse recente indică faptul că furnizorii bazați pe API, cum ar fi OpenAI, nu ar trebui neapărat să fie responsabili de protejarea confidențialității utilizatorului, inclusiv de descoperirea... memorare emergentă, ceea ce înseamnă că cursurile LLM mai mari au mai multe șanse să memoreze în totalitate unele exemple de formare și cresc riscul de dezvăluirea datelor specifice utilizatorului – printre alte incidente publice care au convins o multitudine de companii de renume, precum Samsung, Pentru a interziceți LLM-urile pentru uz intern al companiei.

Gandeste diferit

Această tensiune între utilitatea extremă și riscul potențial manifest al LLM-urilor va avea nevoie de niște soluții inventive – iar propunerea IBM pare a fi un șablon de bază interesant în această linie.

Trei reformulări bazate pe IBM care echilibrează utilitatea și confidențialitatea datelor. În banda cea mai joasă (roz), vedem un prompt care depășește capacitatea sistemului de a dezinfecta într-un mod semnificativ.

Trei reformulări bazate pe IBM care echilibrează utilitatea cu confidențialitatea datelor. În banda cea mai joasă (roz), vedem o solicitare care depășește capacitatea sistemului de a o igieniza într-un mod semnificativ.

Abordarea IBM interceptează pachetele de ieșire către un LLM la nivel de rețea și le rescrie după cum este necesar înainte ca originalul să poată fi trimis. Integrațiile GUI destul de mai elaborate văzute la începutul articolului sunt doar ilustrative despre unde ar putea ajunge o astfel de abordare, dacă este dezvoltată.

Desigur, fără suficientă autoritate, utilizatorul s-ar putea să nu înțeleagă că primește un răspuns la o reformulare ușor modificată a mesajului său inițial. Această lipsă de transparență este echivalentă cu blocarea accesului la un site web sau serviciu de către un firewall al unui sistem de operare fără a informa utilizatorul, care poate apoi să caute în mod eronat alte cauze ale problemei.

Solicitări ca obligații de securitate

Perspectiva unei „intervenții prompte” se aseamănă bine cu securitatea sistemului de operare Windows, care a evoluat de la un mozaic de produse comerciale (instalate opțional) în anii 1990 la o suită de instrumente de apărare a rețelei, neopționale și aplicate rigid, care vin standard cu o instalare Windows și care necesită un anumit efort pentru a fi dezactivate sau dezactivate.

Dacă igienizarea promptă evoluează așa cum au evoluat firewall-urile de rețea în ultimii 30 de ani, propunerea lucrării IBM ar putea servi drept model pentru viitor: implementarea unui LLM complet local pe mașina utilizatorului pentru a filtra solicitările trimise către API-urile LLM cunoscute. Acest sistem ar trebui în mod natural să integreze cadrele GUI și notificările, oferind utilizatorilor control – cu excepția cazului în care politicile administrative îl înlocuiesc, așa cum se întâmplă adesea în mediile de afaceri.

Cercetătorii au efectuat o analiză a unei versiuni open-source a ShareGPT set de date pentru a înțelege cât de des este încălcată confidențialitatea contextuală în scenariile din lumea reală.

Lama-3.1-405B-Instruct a fost utilizat ca model de „judecător” pentru a detecta încălcări ale integrității contextuale. Dintr-un set mare de conversații, un subset de conversații cu o singură tură a fost analizat în funcție de lungime. Modelul de judecător a evaluat apoi contextul, informațiile sensibile și necesitatea finalizării sarcinii, ducând la identificarea conversațiilor care conțin potențiale încălcări ale integrității contextuale.

Un subset mai mic al acestor conversații, care au demonstrat încălcări definitive ale confidențialității contextuale, au fost analizate în continuare.

Cadrul în sine a fost implementat folosind modele mai mici decât agenții de chat tipici, cum ar fi ChatGPT, pentru a permite implementarea locală prin Ollama.

Schema pentru sistemul de intervenție promptă.

Schema pentru sistemul de intervenție promptă.

Cele trei LLM evaluate au fost Mixtral-8x7B-Instruct-v0.1; Lama-3.1-8B-InstructŞi DeepSeek-R1-Distill-Llama-8B.

Solicitările utilizatorului sunt procesate de cadru în trei etape: identificarea contextului; clasificarea informațiilor sensibileŞi reformulare.

Au fost implementate două abordări pentru clasificarea informațiilor sensibile: dinamic și structurat clasificare: clasificarea dinamică determină detaliile esențiale pe baza utilizării lor în cadrul unei anumite conversații; clasificarea structurată permite specificarea unei liste predefinite de atribute sensibile care sunt întotdeauna considerate neesențiale. Modelul reformulează promptul dacă detectează detalii sensibile neesențiale fie eliminându-le, fie reformulându-le pentru a minimiza riscurile de confidențialitate, menținând în același timp capacitatea de utilizare.

Reguli de acasă

Deși clasificarea structurată ca și concept nu este bine ilustrată în lucrarea IBM, ea este cel mai asemănătoare cu metoda „Definițiilor Datelor Private” din Solicitari private inițiativa, care oferă un program de sine stătător descărcabil care poate rescrie solicitările – deși fără posibilitatea de a interveni direct la nivel de rețea, așa cum face abordarea IBM (în schimb, utilizatorul trebuie să copieze și să lipească prompturile modificate).

Executabilul Private Prompts permite o listă de substituții alternative pentru textul introdus de utilizator.

Executabilul Private Prompts permite o listă de substituții alternative pentru textul introdus de utilizator.

În imaginea de mai sus, putem vedea că utilizatorul Private Prompts poate programa înlocuiri automate pentru cazurile de informații sensibile. În ambele cazuri, pentru Private Prompts și metoda IBM, pare puțin probabil ca un utilizator cu suficientă prezență a minții și cunoștințe personale pentru a realiza o astfel de listă să aibă într-adevăr nevoie de acest produs - deși ar putea fi construit în timp pe măsură ce incidentele se acumulează.

Într-un rol de administrator, clasificarea structurată ar putea funcționa ca un firewall impus sau ca rețea de cenzură pentru angajați; iar într-o rețea de domiciliu ar putea, cu unele ajustări dificile, să devină un filtru de rețea domestică pentru toți utilizatorii rețelei; dar, în cele din urmă, această metodă este, fără îndoială, redundantă, deoarece un utilizator care ar putea configura acest lucru în mod corespunzător s-ar putea autocenzura eficient în primul rând.

Opinia ChatGPT

De când ChatGPT și-a lansat recent instrument de cercetare profundă Pentru utilizatorii plătiți, am folosit această facilitate pentru a cere ChatGPT să analizeze literatura conexă și să-mi ofere o perspectivă „cinică” asupra lucrării IBM. Am primit cel mai defensiv și batjocoritor răspuns pe care sistemul l-a dat vreodată atunci când i s-a cerut să evaluez sau să analizez o publicație nouă:

ChatGPT-4o are o părere slabă despre proiectul IBM.

ChatGPT-4o are o părere slabă despre proiectul IBM.

„Dacă utilizatorii nu au încredere în OpenAI, Google sau Anthropic că le vor gestiona datele în mod responsabil” Poziții ChatGPT. „De ce ar avea încredere într-un strat software terț care se află între ei și inteligența artificială? Intermediarul în sine devine un nou punct de eșec - putând înregistra, gestiona greșit sau chiar scurge date înainte ca acestea să ajungă la LLM. Nu rezolvă nimic dacă pur și simplu creează o altă entitate pentru a exploata datele utilizatorilor.”

Această obiecție pare utilă și neaplicabilă, având în vedere istoria istorică a proiectelor open source care beneficiază cu adevărat utilizatorii finali prin eforturile concertate pe termen lung ale dezvoltatorilor și contribuitorilor comunității; și având în vedere potențialul în creștere al dispozitivelor mobile de a rula – și chiar antrena – LLM-uri ușoare. Cu siguranță, în acest caz, cazul de utilizare nu este teribil de solicitant.

În continuare, ChatGPT pierde cu încredere punctul de a avea un LLM ușor să ofere supraveghere a contribuțiilor către un LLM comercial care nu ar putea fi rulat pe o mașină locală (deoarece LLM-ul este prea mare și permiterea accesului local este prea riscantă pentru compania care îl produce):

„Filtrarea eficientă a confidențialității necesită înțelegerea intrării înainte de a decide ce să eliminați. Dacă un intermediar este suficient de inteligent pentru a recunoaște date sensibile (nume, adrese, detalii financiare), atunci procesează și analizează deja acele date, ceea ce înseamnă că trebuie să stocheze sau să examineze exact ceea ce ar trebui să îl ștergă.

„Acest lucru introduce un paradox: a) Un filtru prost (substituție de bază regex) va fi ineficient și va pierde riscuri subtile de confidențialitate. b) Un filtru inteligent (rescriere alimentată de LLM) trebuie să proceseze întreaga intrare, făcându-l la fel de periculos ca și LLM original.

„Dacă ai suficientă încredere în intermediar pentru a-ți citi și rescrie datele, de ce să nu ai încredere pur și simplu în masteratul în masterat?”

Răspunsul la întrebarea finală aici este că LLM local este destinat să fie în întregime de partea utilizatorului și, inevitabil, open source, cu o nevoie minimă sau zero de acces la rețea. O versiune comercială echivalentă, oricât de bine intenționată la început, ar fi în cele din urmă vulnerabilă la schimbările corporative și la modificările termenilor și condițiilor, în timp ce o licență open source adecvată ar împiedica acest tip de „corupție inevitabilă”.

ChatGPT a susținut în continuare că propunerea IBM „încalcă intenția utilizatorului”, deoarece ar putea reinterpreta o solicitare într-o alternativă care îi afectează utilitatea. Cu toate acestea, aceasta este o problemă mult mai largă în igienizarea promptă, și nu specific acestui caz de utilizare particular.

În concluzie (ignorând sugestia de a utiliza „în schimb” LLM-uri locale, exact ceea ce propune de fapt articolul IBM), ChatGPT a opinat că metoda IBM reprezintă o barieră în calea adoptării din cauza „fricțiunilor utilizatorilor” legate de implementarea metodelor de avertizare și editare într-un chat.

Aici, ChatGPT poate avea dreptate; dar dacă se exercită presiuni semnificative din cauza unor incidente publice ulterioare sau dacă profiturile într-o zonă geografică sunt amenințate de o reglementare în creștere (și compania refuză doar să abandona complet regiunea afectată), istoria tehnologiei de consum sugerează că garanțiile vor fi în cele din urmă nu mai fi optional oricum.

Concluzie

Nu ne putem aștepta în mod realist ca OpenAI să implementeze vreodată măsuri de siguranță de tipul celor propuse în lucrarea IBM și în conceptul central din spatele acesteia; cel puțin nu în mod eficient.

Și cu siguranță nu la nivel global; la fel ca Apple blocuri anumite funcții iPhone din Europa, iar LinkedIn are reguli diferite Pentru exploatarea datelor utilizatorilor săi în diferite țări, este rezonabil să sugerăm că orice companie de inteligență artificială va respecta implicit cei mai profitabili termeni și condiții tolerabile pentru orice națiune în care operează – în fiecare caz, în detrimentul dreptului utilizatorului la confidențialitatea datelor, după cum este necesar.

 

Prima dată publicată joi, 27 februarie 2025

Actualizat joi, 27 februarie 2025 15:47:11 din cauza linkului incorect legat de Apple – MA

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai