Andersonov kut
Zaštita upita od curenja LLM podataka

Mišljenje Zanimljiv IBM NeurIPS 2024 podnošenje od kraja 2024 ponovno se pojavio na Arxivu prošli tjedan. Predlaže sustav koji može automatski intervenirati kako bi zaštitio korisnike od slanja osobnih ili osjetljivih podataka u poruku kada razgovaraju s velikim jezičnim modelom (LLM) kao što je ChatGPT.

Modeli primjera korišteni u korisničkoj studiji za određivanje načina na koje bi ljudi radije komunicirali s uslugom brze intervencije. Izvor: https://arxiv.org/pdf/2502.18509
Gore prikazane makete istraživači IBM-a koristili su u studiji kako bi testirali potencijalno trenje korisnika s ovom vrstom 'smetnji'.
Iako su dani oskudni detalji o GUI implementaciji, možemo pretpostaviti da bi se takva funkcionalnost mogla ugraditi u dodatak preglednika komuniciranje s lokalnim LLM okvirom 'vatrozida'; ili da bi se mogla stvoriti aplikacija koja se može izravno spojiti na (na primjer) OpenAI API, učinkovito rekreirajući OpenAI-jev vlastiti sadržaj za preuzimanje samostalni program za ChatGPT, ali s dodatnim zaštitnim mjerama.
Uz to, sam ChatGPT automatski samocenzurira odgovore na upite za koje smatra da sadrže kritične informacije, kao što su bankovni detalji:

ChatGPT odbija odgovoriti na upite koji sadrže percipirane kritične sigurnosne informacije, kao što su bankovni podaci (pojedinosti u gornjem upitu su izmišljeni i nefunkcionalni). Izvor: https://chatgpt.com/
Međutim, ChatGPT je puno tolerantniji u pogledu različitih vrsta osobnih podataka - čak i ako širenje takvih informacija na bilo koji način možda nije u najboljem interesu korisnika (u ovom slučaju možda iz različitih razloga povezanih s poslom i otkrivanjem):

Gore navedeni primjer je izmišljen, ali ChatGPT ne oklijeva uključiti se u razgovor o korisniku o osjetljivoj temi koja predstavlja potencijalni rizik za reputaciju ili zaradu (gornji primjer je potpuno izmišljen).
U gornjem slučaju možda je bolje napisati: 'Koji je značaj dijagnoze leukemije na sposobnost pisanja i pokretljivost osobe?'
IBM-ov projekt identificira i reinterpretira takve zahtjeve od „osobnog“ do „generičkog“ stava.

Shema za IBM sustav, koji koristi lokalne LLM-ove ili heuristiku temeljenu na NLP-u za prepoznavanje osjetljivog materijala u potencijalnim upitima.
To pretpostavlja da materijal prikupljen online LLM-ovima, u ovoj početnoj fazi javnog entuzijastičnog prihvaćanja AI chata, nikada neće biti prenesen ni na kasnije modele ni na kasnije okvire za oglašavanje koji bi mogli iskoristiti korisničke upite za pretraživanje kako bi pružili potencijalne ciljano oglašavanje.
Iako nije poznato da takav sustav ili aranžman sada postoji, niti takva funkcionalnost još nije bila dostupna u zoru usvajanja interneta ranih 1990-ih; od tada, dijeljenje informacija među domenama hraniti personalizirano oglašavanje dovelo je do raznih skandala, kao i parnoja.
Stoga povijest sugerira da bi bilo bolje dezinficirati promptne unose LLM-a sada, prije nego što se takvi podaci nakupe u količini i prije nego što naši podnesci temeljeni na LLM-u završe u stalnim cikličkim bazama podataka i/ili modelima ili drugim strukturama i shemama temeljenim na informacijama.
Zapamti me?
Jedan faktor koji se protivi korištenju 'generičkih' ili pročišćenih LLM promptova jest, iskreno, mogućnost prilagodbe skupog LLM-a koji koristi samo API, poput ChatGPT-a, prilično je uvjerljiva, barem na trenutnom stanju tehnike - ali to može uključivati dugoročno otkrivanje privatnih podataka.
Često tražim ChatGPT da mi pomogne formulirati Windows PowerShell skripte i BAT datoteke za automatizaciju procesa, kao i za druga tehnička pitanja. U tu svrhu, smatram korisnim da sustav trajno pamti detalje o hardveru koji mi je na raspolaganju; moje postojeće kompetencije tehničkih vještina (ili nedostatak istih); i razni drugi čimbenici okoliša i prilagođena pravila:

ChatGPT omogućuje korisniku razvoj 'predmemorije' sjećanja koja će se primijeniti kada sustav razmatra odgovore na buduće upite.
Neizbježno, ovo čuva informacije o meni pohranjene na vanjskim poslužiteljima, podložno odredbama i uvjetima koji se mogu mijenjati tijekom vremena, bez ikakvog jamstva da će OpenAI (iako to može biti bilo koji drugi veći pružatelj LLM-a) poštivati uvjete koje su postavili.
Općenito, međutim, sposobnost izgradnje predmemorije sjećanja u ChatGPT-u najkorisnija je zbog prozor ograničene pažnje LLM općenito; bez dugotrajnih (personaliziranih) ugrađivanja, korisnik se osjeća, frustrirajuće, da razgovara s entitetom koji pati od Anterogradna amnezija.
Teško je reći hoće li noviji modeli na kraju postati dovoljno učinkoviti da daju korisne odgovore bez potrebe za predmemorijom memorije ili stvoriti prilagođene GPT-ove koji su pohranjeni online.
Privremena amnezija
Iako se ChatGPT razgovori mogu učiniti 'privremenima', korisno je imati povijest razgovora kao referencu koja se, kada vrijeme dopusti, može sažeti u koherentniji lokalni zapis, možda na platformi za bilješke; ali u svakom slučaju ne možemo točno znati što se događa s tim 'odbačenim' razgovorima (iako OpenAI države neće se koristiti za obuku, ne navodi se da su uništeni), na temelju ChatGPT infrastrukture. Sve što znamo jest da se chatovi više ne prikazuju u našoj povijesti kada je u ChatGPT-u uključena opcija 'Privremeni chatovi'.
Razne nedavne kontroverze ukazuju na to da pružatelji usluga temeljeni na API-jima, poput OpenAI-a, ne bi nužno trebali biti zaduženi za zaštitu privatnosti korisnika, uključujući otkrivanje emergentno pamćenje, što znači da je veća vjerojatnost da će veći LLM-i zapamtiti neke primjere obuke u cijelosti i povećava rizik od otkrivanje podataka specifičnih za korisnika – između ostalih javnih incidenata koji su uvjerili mnoštvo velikih tvrtki, kao što je Samsung, Kako bi se zabraniti LLM za internu upotrebu tvrtke.
Misli drugačije
Ova napetost između ekstremne korisnosti i očitog potencijalnog rizika LLM-a zahtijevat će neka inventivna rješenja – a prijedlog IBM-a čini se zanimljivim osnovnim predloškom u ovoj liniji.

Tri IBM-ove reformulacije koje uravnotežuju korisnost i privatnost podataka. U najnižem (ružičastom) pojasu vidimo upit koji je izvan mogućnosti sustava da na smislen način dezinficira.
IBM-ov pristup presreće odlazne pakete LLM-u na mrežnoj razini i prepisuje ih prema potrebi prije nego što se original može poslati. Prilično razrađenije integracije GUI-ja viđene na početku članka samo su ilustrativne za to kamo bi takav pristup mogao ići, ako se razvije.
Naravno, bez dovoljne kontrole korisnik možda neće razumjeti da dobiva odgovor na neznatno izmijenjenu preformulaciju svoje izvorne prijave. Ovaj nedostatak transparentnosti jednak je vatrozidu operacijskog sustava koji blokira pristup web stranici ili usluzi bez obavještavanja korisnika, koji tada može pogrešno tražiti druge uzroke problema.
Upiti kao sigurnosne obveze
Izgled 'brze intervencije' dobro se slaže sa sigurnošću Windows OS-a, koja se razvila od šarolikosti (opcionalno instaliranih) komercijalnih proizvoda 1990-ih do neizbornog i strogo provodivog skupa alata za mrežnu obranu koji standardno dolaze s instalacijom Windowsa i koji zahtijevaju određeni napor za isključivanje ili smanjenje intenziteta.
Ako se brza sanacija razvije kao što su se mrežni vatrozidi razvijali u proteklih 30 godina, prijedlog IBM-ovog dokumenta mogao bi poslužiti kao nacrt za budućnost: implementacija potpuno lokalnog LLM-a na korisničkom računalu za filtriranje odlaznih upita usmjerenih na poznate LLM API-je. Ovaj bi sustav prirodno trebao integrirati GUI okvire i obavijesti, dajući korisnicima kontrolu – osim ako ga administrativne politike ne nadjačaju, kao što se često događa u poslovnim okruženjima.
Istraživači su proveli analizu verzije otvorenog koda ShareGPT skup podataka kako biste razumjeli koliko se često kontekstualna privatnost krši u scenarijima stvarnog svijeta.
Llama-3.1-405B-Uputa korišten je kao 'sudijski' model za otkrivanje kršenja kontekstualnog integriteta. Iz velikog skupa razgovora, podskup razgovora u jednom potezu analiziran je na temelju duljine. Sudijski model zatim je procijenio kontekst, osjetljive informacije i nužnost za dovršetak zadatka, što je dovelo do identifikacije razgovora koji sadrže potencijalna kršenja kontekstualnog integriteta.
Manji podskup tih razgovora, koji su pokazali konačne kontekstualne povrede privatnosti, dodatno je analiziran.
Sam okvir je implementiran korištenjem modela koji su manji od tipičnih agenata za chat kao što je ChatGPT, kako bi se omogućila lokalna implementacija putem Ollama.

Shema za sustav brze intervencije.
Tri LLM-a koja su ocijenjena bila su Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-Uputa, Te DeepSeek-R1-Distill-Llama-8B.
Korisničke upite okvir obrađuje u tri faze: identifikacija konteksta; klasifikacija osjetljivih informacija, Te preformulisanje.
Primijenjena su dva pristupa za klasifikaciju osjetljivih informacija: dinamičan i strukturirani klasifikacija: dinamička klasifikacija utvrđuje bitne pojedinosti na temelju njihove upotrebe unutar određenog razgovora; strukturirana klasifikacija omogućuje specifikaciju unaprijed definiranog popisa osjetljivih atributa koji se uvijek smatraju nebitnim. Model preformulira upit ako otkrije nebitne osjetljive pojedinosti uklanjanjem ili preformuliranjem istih kako bi se minimizirao rizik privatnosti uz zadržavanje upotrebljivosti.
Domaća pravila
Iako strukturirana klasifikacija kao koncept nije dobro ilustrirana u IBM-ovom radu, najsličnija je metodi 'Definicija privatnih podataka' u Privatne upute inicijativa, koja nudi samostalni program koji se može preuzeti i koji može prepisati upite – iako bez mogućnosti izravne intervencije na mrežnoj razini, kao što to čini IBM pristup (umjesto toga korisnik mora kopirati i zalijepiti modificirane upite).

Izvršna datoteka Private Prompts dopušta popis alternativnih zamjena za tekst koji unose korisnici.
Na gornjoj slici možemo vidjeti da korisnik privatnih upita može programirati automatizirane zamjene za instance osjetljivih informacija. U oba slučaja, za Private Prompts i IBM-ovu metodu, čini se malo vjerojatnim da bi korisnik s dovoljno prisebnosti i osobnog uvida da pripremi takav popis zaista trebao ovaj proizvod – iako bi se on mogao izgraditi tijekom vremena kako se incidenti gomilaju.
U ulozi administratora, strukturirana klasifikacija mogla bi djelovati kao nametnuti vatrozid ili cenzorska mreža za zaposlenike; au kućnoj mreži mogao bi, uz neke teške prilagodbe, postati domaći mrežni filter za sve korisnike mreže; ali u konačnici, ova je metoda nedvojbeno suvišna, budući da bi korisnik koji bi to mogao ispravno postaviti mogao također učinkovito samocenzurirati na prvom mjestu.
Mišljenje ChatGPT-a
Budući da je ChatGPT nedavno pokrenuo svoj alat za duboko istraživanje Za plaćene korisnike, koristio sam ovu mogućnost kako bih zamolio ChatGPT da pregleda srodnu literaturu i da mi da 'ciničan' stav o IBM-ovom radu. Dobio sam najobrambeniji i najpodsmjehljiviji odgovor koji je sustav ikada dao kada su me zamolili da procijenim ili analiziram novu publikaciju:

ChatGPT-4o ima loše mišljenje o IBM projektu.
'Ako korisnici ne vjeruju OpenAI-ju, Googleu ili Anthropicu da će odgovorno rukovati njihovim podacima' ChatGPT pozicije. „Zašto bi vjerovali sloju softvera treće strane koji stoji između njih i umjetne inteligencije? Sam posrednik postaje nova točka kvara - potencijalno bilježi, nepravilno rukuje ili čak curi podatke prije nego što uopće stignu do LLM-a. To ne rješava ništa ako samo stvara još jedan entitet za iskorištavanje korisničkih podataka.“
Ova se primjedba čini sebičnom i neprimjenjivom, s obzirom na legendarnu povijest projekata otvorenog koda koji istinski koriste krajnjim korisnicima kroz usklađene dugoročne napore programera zajednice i suradnika; i s obzirom na rastući potencijal mobilnih uređaja za pokretanje – pa čak i treniranje – laganih LLM-ova. Naravno, u ovom slučaju slučaj upotrebe nije pretjerano zahtjevan.
Dalje, ChatGPT pouzdano propušta poantu da lagani LLM pruža nadzor nad unosom prema komercijalnom LLM-u koji se nikako ne bi mogao pokrenuti na lokalnom stroju (jer je LLM prevelik, a dopuštanje lokalnog pristupa prerizično za tvrtku koja ga proizvodi):
'Učinkovito filtriranje privatnosti zahtijeva razumijevanje unosa prije nego što se odluči što ukloniti. Ako je posrednik dovoljno pametan da prepozna osjetljive podatke (imena, adrese, financijske detalje), tada već obrađuje i analizira te podatke — što znači da mora pohraniti ili ispitati upravo ono što bi trebao izbrisati.
'Ovo uvodi paradoks: a) Glupi filtar (osnovna zamjena regularnog izraza) bit će neučinkovit i propustit će suptilne rizike privatnosti. b) Pametni filtar (prepravljač koji pokreće LLM) mora obraditi cijeli unos, što ga čini jednako opasnim kao i izvorni LLM.
'Ako dovoljno vjerujete posredniku da čita i prepisuje vaše unose, zašto ne biste jednostavno vjerovali samom LLM-u?'
Odgovor na posljednje pitanje ovdje je da je namjera lokalnog LLM-a biti u potpunosti na strani korisnika, i neizbježno otvorenog koda, s minimalnom ili nultom potrebom za pristupom mreži. Ekvivalentna komercijalna verzija, koliko god bila dobronamjerna na početku, na kraju bi bila osjetljiva na korporativne promjene i promjene uvjeta usluge, dok bi odgovarajuća licenca otvorenog koda spriječila ovu vrstu 'neizbježna korupcija'.
ChatGPT je nadalje tvrdio da IBM-ov prijedlog 'narušava namjeru korisnika', budući da bi mogao reinterpretirati upit u alternativu koja utječe na njegovu korisnost. Međutim, ovo je mnogo širi problem u brzoj sanaciji, a ne specifično za ovaj slučaj upotrebe.
Zaključno (ignorirajući prijedlog da se umjesto toga koriste lokalni LLM-ovi, što je upravo ono što IBM-ov dokument zapravo predlaže), ChatGPT je izrazio mišljenje da IBM-ova metoda predstavlja prepreku prihvaćanju zbog 'korisničkog trenja' pri implementaciji metoda upozorenja i uređivanja u chat.
Ovdje je ChatGPT možda u pravu; ali ako dođe do značajnog pritiska zbog daljnjih javnih incidenata ili ako je profit u jednoj zemljopisnoj zoni ugrožen rastućim propisima (a tvrtka odbija samo potpuno napustiti zahvaćeno područje), povijest potrošačke tehnologije sugerira da će zaštitne mjere na kraju više neće biti izborni u svakom slučaju.
Zaključak
Ne možemo realno očekivati da će OpenAI ikada implementirati zaštitne mjere tipa onih koje su predložene u IBM-ovom dokumentu i u središnjem konceptu koji stoji iza njega; barem ne učinkovito.
I sigurno ne globalno; baš kao i Apple blokovi određene značajke iPhonea u Europi, a LinkedIn ima drugačija pravila Za iskorištavanje podataka svojih korisnika u različitim zemljama, razumno je pretpostaviti da će se svaka tvrtka za umjetnu inteligenciju pridržavati najprofitabilnijih uvjeta koji su prihvatljivi za bilo koju određenu zemlju u kojoj posluje - u svakom slučaju, na štetu prava korisnika na privatnost podataka, prema potrebi.
Prvi put objavljeno u četvrtak, 27. veljače 2025
Ažurirano četvrtak, 27. veljače 2025. 15:47:11 zbog netočne poveznice koja se odnosi na Apple – MA