Spojte se s námi

Andersonův úhel

Stínící výzvy před úniky dat LLM

mm
ChatGPT-4o: 'Ortografický pohled 1792x1024 na policistu podobného SIM kartě, který zvedl ruku k občanovi, aby mu zabránil jít dál'

Názor Zajímavý IBM NeurIPS 2024 podání od konce roku 2024 se minulý týden znovu vynořil na Arxivu. Navrhuje systém, který může automaticky zasáhnout, aby chránil uživatele před odesláním osobních nebo citlivých informací do zprávy, když konverzují s velkým jazykovým modelem (LLM), jako je např. ChatGPT.

Modelové příklady použité v uživatelské studii k určení způsobů, jakými by lidé preferovali interakci se službou rychlého zásahu. Zdroj: https://arxiv.org/pdf/2502.18509

Modelové příklady použité v uživatelské studii k určení způsobů, jakými by lidé preferovali interakci se službou rychlého zásahu. Zdroj: https://arxiv.org/pdf/2502.18509

Výše uvedené makety použili výzkumníci z IBM ve studii, která měla otestovat potenciální tření uživatelů vůči tomuto druhu „rušení“.

I když je o implementaci GUI uvedeno jen málo podrobností, můžeme předpokládat, že taková funkce by mohla být začleněna do zásuvného modulu prohlížeče komunikující s lokálním frameworkem LLM typu „firewall“; nebo že by mohla být vytvořena aplikace, která se může přímo připojit (například) k API OpenAI, čímž by se efektivně znovu vytvořila vlastní stahovatelná platforma OpenAI samostatný program pro ChatGPT, ale s extra zabezpečením.

To znamená, že ChatGPT sám automaticky autocenzuruje odpovědi na výzvy, které považuje za kritické informace, jako jsou bankovní údaje:

ChatGPT se odmítá zabývat výzvami, které obsahují vnímané kritické bezpečnostní informace, jako jsou bankovní údaje (podrobnosti ve výzvě výše jsou smyšlené a nefunkční). Zdroj: https://chatgpt.com/

ChatGPT se odmítá zabývat výzvami, které obsahují vnímané kritické bezpečnostní informace, jako jsou bankovní údaje (podrobnosti ve výzvě výše jsou smyšlené a nefunkční). Zdroj: https://chatgpt.com/

ChatGPT je však mnohem tolerantnější, pokud jde o různé typy osobních údajů – i když šíření takových informací jakýmkoli způsobem nemusí být v nejlepším zájmu uživatele (v tomto případě možná z různých důvodů souvisejících s prací a zveřejňováním):

Výše uvedený příklad je smyšlený, ale ChatGPT neváhá zapojit se do konverzace o uživateli na citlivé téma, které představuje potenciální riziko pro pověst nebo zisk (výše uvedený příklad je zcela smyšlený).

Výše uvedený příklad je smyšlený, ale ChatGPT neváhá zapojit se do konverzace o uživateli na citlivé téma, které představuje potenciální riziko pro pověst nebo zisk (výše uvedený příklad je zcela smyšlený).

Ve výše uvedeném případě by bylo možná lepší napsat: „Jaký je význam diagnózy leukémie pro schopnost člověka psát a pro jeho mobilitu?“

Projekt IBM identifikuje a reinterpretuje takové požadavky z „osobního“ na „obecný“ přístup.

Schéma pro systém IBM, který používá místní LLM nebo heuristiku založenou na NLP k identifikaci citlivého materiálu v potenciálních výzvách.

Schéma pro systém IBM, který používá místní LLM nebo heuristiku založenou na NLP k identifikaci citlivého materiálu v potenciálních výzvách.

To předpokládá, že materiál shromážděný online programy LLM v této rané fázi nadšeného přijetí chatu s umělou inteligencí veřejností nikdy neprospěje ani k pozdějším modelům, ani k pozdějším reklamním rámcům, které by mohly zneužívat vyhledávací dotazy založené na uživatelích k poskytování potenciálních cílené reklamy.

Ačkoli v současnosti není známo, že by takový systém nebo uspořádání existovalo, ani na počátku 1990. let nebyla taková funkce dostupná; od té doby, sdílení informací mezi doménami krmit personalizovanou reklamou vedlo k různé skandály, jakož i paranoia.

Historie proto naznačuje, že by bylo lepší dezinfikovat okamžité vstupy LLM nyní, než se taková data nahromadí ve velkém, a než naše podání založená na LLM skončí ve stálých cyklických databázích a/nebo modelech nebo jiných strukturách a schématech založených na informacích.

Zapamatuj si mě?

Jedním z faktorů, které hovoří proti použití „obecných“ nebo upravených výzev LLM, je, upřímně řečeno, možnost přizpůsobení drahého LLM pouze s API, jako je ChatGPT, je poměrně přesvědčivá, alespoň za současného stavu techniky – ale to může znamenat dlouhodobé zveřejnění soukromých informací.

Často žádám ChatGPT, aby mi pomohl formulovat skripty Windows PowerShell a soubory BAT pro automatizaci procesů, stejně jako v jiných technických záležitostech. Za tímto účelem považuji za užitečné, aby si systém trvale zapamatoval podrobnosti o hardwaru, který mám k dispozici; mé stávající technické dovednosti (nebo jejich nedostatek); a různé další faktory prostředí a vlastní pravidla:

ChatGPT umožňuje uživateli vytvořit „mezipaměť“ vzpomínek, která bude použita, když systém zvažuje reakce na budoucí výzvy.

ChatGPT umožňuje uživateli vytvořit si „mezipaměť“ vzpomínek, která bude použita, když systém bude zvažovat odpovědi na budoucí výzvy.

To nevyhnutelně udržuje informace o mně uložené na externích serverech, v souladu s podmínkami, které se mohou časem vyvíjet, bez jakékoli záruky, že OpenAI (ačkoli to může být jakýkoli jiný významný poskytovatel LLM) respektovat podmínky, které si stanovili.

Obecně je však kapacita pro vytváření mezipaměti v ChatGPT nejužitečnější z důvodu okno omezené pozornosti LLM obecně; bez dlouhodobých (personalizovaných) vložení má uživatel frustrující pocit, že konverzuje s entitou trpící Anterograde amnézie.

Je těžké říci, zda se novější modely nakonec stanou dostatečně výkonnými, aby poskytovaly užitečné odezvy bez nutnosti ukládat paměti do mezipaměti nebo vytvářet vlastní značky GPT které jsou uloženy online.

Dočasná amnézie

I když je možné konverzace ChatGPT nastavit jako „dočasné“, je užitečné mít historii chatu jako referenci, kterou lze, až to čas dovolí, zredukovat do souvislejšího lokálního záznamu, třeba na platformě pro psaní poznámek; v každém případě ale nemůžeme přesně vědět, co se s těmito „zahozenými“ chaty stane (ačkoli OpenAI uvádí nebudou použity k výcviku, neuvádí se, že jsou zničeny), na základě infrastruktury ChatGPT. Víme pouze to, že chaty se již nezobrazují v naší historii, když je v ChatGPT zapnutá možnost „Dočasné chaty“.

Různé nedávné kontroverze naznačují, že poskytovatelé založené na API, jako je OpenAI, by neměli nutně nést odpovědnost za ochranu soukromí uživatelů, včetně odhalování... emergentní zapamatování, což znamená, že větší LLM si s větší pravděpodobností zapamatují některé příklady školení v plném rozsahu a zvyšují riziko zpřístupnění dat specifických pro uživatele – mimo jiné veřejné incidenty, které přesvědčily velké množství významných společností, jako je Samsung, Na zakázat LLM pro vnitrofiremní použití.

Mysli jinak

Toto napětí mezi extrémní užitečností a zjevným potenciálním rizikem LLM bude vyžadovat některá vynalézavá řešení – a návrh IBM se zdá být v tomto směru zajímavou základní šablonou.

Tři nové formulace založené na IBM, které vyvažují užitečnost a soukromí dat. V nejnižším (růžovém) pásmu vidíme výzvu, která je mimo možnosti systému smysluplně sanitovat.

Tři přeformulace od IBM, které vyvažují užitečnost a ochranu osobních údajů. V nejnižším (růžovém) pásu vidíme výzvu, kterou systém nedokáže smysluplně očistit.

Přístup IBM zachycuje odchozí pakety do LLM na úrovni sítě a podle potřeby je přepisuje před odesláním originálu. Poněkud propracovanější integrace GUI na začátku článku jsou pouze ilustrací toho, kam by se takový přístup mohl ubírat, pokud by byl vyvinut.

Uživatel samozřejmě bez dostatečné angažovanosti nemusí pochopit, že dostává odpověď na mírně upravenou formulaci svého původního příspěvku. Tento nedostatek transparentnosti je ekvivalentní tomu, jak firewall operačního systému blokuje přístup k webovým stránkám nebo službám, aniž by o tom informoval uživatele, který pak může mylně hledat jiné příčiny problému.

Výzvy jako bezpečnostní závazky

Vyhlídka na „rychlý zásah“ se dobře připomíná zabezpečení operačního systému Windows, které se v 1990. letech vyvinulo z mozaiky (volitelně instalovaných) komerčních produktů v nevolitelné a přísně vynucované sadě nástrojů pro síťovou obranu, které jsou standardně součástí instalace Windows a jejichž vypnutí nebo deintenzifikace vyžaduje určité úsilí.

Pokud se rychlá dezinfekce vyvine stejně jako síťové firewally za posledních 30 let, návrh z dokumentu IBM by mohl sloužit jako plán pro budoucnost: nasazení plně lokálního LLM na počítači uživatele pro filtrování odchozích výzev směrovaných na známá LLM API. Tento systém by přirozeně potřeboval integrovat rámce grafického uživatelského rozhraní a oznámení, což uživatelům poskytuje kontrolu – pokud to nebudou převažovat administrativní zásady, jak se často v podnikových prostředích stává.

Výzkumníci provedli analýzu open-source verze Sdílet GPT datové sady, abyste pochopili, jak často je kontextové soukromí porušováno ve scénářích reálného světa.

Lama-3.1-405B-Pokyn byl použit jako „hodnotící“ model k detekci porušení kontextové integrity. Z velké sady konverzací byla na základě délky analyzována podmnožina konverzací s jedním obratem. Hodnocovací model poté posoudil kontext, citlivé informace a nutnost dokončení úkolu, což vedlo k identifikaci konverzací obsahujících potenciální porušení kontextové integrity.

Menší podmnožina těchto konverzací, které prokázaly definitivní kontextové porušení soukromí, byla dále analyzována.

Samotný rámec byl implementován pomocí modelů, které jsou menší než typické chatovací agenty, jako je ChatGPT, aby bylo možné místní nasazení prostřednictvím Ollama.

Schéma systému rychlého zásahu.

Schéma systému rychlého zásahu.

Tři hodnocené LLM byly Mixtral-8x7B-Instruct-v0.1; Lama-3.1-8B-PokynA DeepSeek-R1-Distill-Llama-8B.

Uživatelské výzvy zpracovává framework ve třech fázích: kontextová identifikace; klasifikace citlivých informacíA přeformulování.

Pro klasifikaci citlivých informací byly implementovány dva přístupy: dynamický si strukturovaný klasifikace: dynamická klasifikace určuje podstatné detaily na základě jejich použití v rámci konkrétní konverzace; strukturovaná klasifikace umožňuje specifikovat předem definovaný seznam citlivých atributů, které jsou vždy považovány za nepodstatné. Model přeformuluje výzvu, pokud detekuje nepodstatné citlivé podrobnosti, a to tak, že je odstraní nebo přeformuluje, aby se minimalizovala rizika ochrany osobních údajů při zachování použitelnosti.

Domácí pravidla

Ačkoli strukturovaná klasifikace jako koncept není v článku IBM dobře ilustrována, nejvíce se podobá metodě „Definice soukromých dat“ v… Soukromé výzvy iniciativa, která poskytuje ke stažení samostatný program, který umí přepisovat výzvy – i když bez možnosti přímo zasahovat na úrovni sítě, jak to dělá přístup IBM (místo toho musí uživatel zkopírovat a vložit upravené výzvy).

Spustitelný soubor Private Prompts umožňuje seznam alternativních náhrad za text zadaný uživatelem.

Spustitelný soubor Private Prompts umožňuje seznam alternativních náhrad za text zadaný uživatelem.

Na obrázku výše můžeme vidět, že uživatel soukromých výzev je schopen naprogramovat automatické náhrady pro případy citlivých informací. V obou případech, pro Private Prompts a metodu IBM, se zdá nepravděpodobné, že by uživatel s dostatkem duchapřítomnosti a osobního náhledu na to, aby takový seznam vytvořil, skutečně potřeboval tento produkt – i když by se mohl časem s přibývajícími incidenty vytvořit.

V roli administrátora by strukturovaná klasifikace mohla fungovat jako vnucený firewall nebo cenzorská síť pro zaměstnance; a v domácí síti by se s některými náročnými úpravami mohl stát filtrem domácí sítě pro všechny uživatele sítě; ale v konečném důsledku je tato metoda pravděpodobně nadbytečná, protože uživatel, který by ji mohl správně nastavit, by také mohl v první řadě účinně autocenzurovat.

Názor ChatGPT

Vzhledem k tomu, ChatGPT nedávno spustil svůj nástroj pro hluboký výzkum Pro platící uživatele jsem tuto funkci využil k tomu, abych požádal ChatGPT o zhodnocení související literatury a „cynický“ pohled na článek IBM. Dostal jsem nejdefenzivnější a nejpohrdavější reakci, jakou kdy systém poskytl, když jsem byl požádán o vyhodnocení nebo analýzu nové publikace:

ChatGPT-4o má nízké mínění o projektu IBM.

ChatGPT-4o má nízké mínění o projektu IBM.

„Pokud uživatelé nedůvěřují OpenAI, Googlu nebo Anthropic, že ​​budou s jejich daty nakládat zodpovědně,“ ChatGPT klade. „Proč by důvěřovali softwarové vrstvě třetí strany, která stojí mezi nimi a umělou inteligencí? Samotný prostředník se stává novým bodem selhání – potenciálně může docházet k zaznamenávání, nesprávnému nakládání nebo dokonce k úniku dat ještě předtím, než se dostanou do LLM. Nic to nevyřeší, pokud jen vytvoří další entitu pro zneužívání uživatelských dat.“

Tato námitka se zdá být samoúčelná a nepoužitelná, vzhledem k legendární historii projektů s otevřeným zdrojovým kódem, které skutečně prospívají koncovým uživatelům díky společnému dlouhodobému úsilí komunitních vývojářů a přispěvatelů; a vzhledem k rostoucímu potenciálu mobilních zařízení provozovat – a dokonce trénovat – lehké LLM. V tomto případě jistě není případ použití nijak zvlášť náročný.

Dále ChatGPT s jistotou postrádá smysl toho, že lehký LLM poskytuje dohled nad vstupy do komerčního LLM, který by nemohl být provozován na místním počítači (protože LLM je příliš velký a povolení místního přístupu je pro společnost, která jej vyrábí, příliš riskantní):

„Efektivní filtrování soukromí vyžaduje pochopení vstupu před rozhodnutím, co odstranit. Pokud je zprostředkovatel dostatečně chytrý, aby rozpoznal citlivá data (jména, adresy, finanční údaje), pak tato data již zpracovává a analyzuje – to znamená, že musí ukládat nebo zkoumat právě to, co má vymazat.

„To zavádí paradox: a) Hloupý filtr (základní náhrada regulárního výrazu) bude neúčinný a postrádá nepatrná rizika ochrany soukromí. b) Inteligentní filtr (přepisovač napájený LLM) musí zpracovat celý vstup, takže je stejně nebezpečný jako původní LLM.

„Pokud dostatečně důvěřujete zprostředkovateli, aby si přečetl a přepsal vaše vstupy, proč nedůvěřovat samotnému LLM?“

Odpověď na poslední otázku je, že místní LLM má být zcela na straně uživatele a nevyhnutelně open source s minimální nebo nulovou potřebou přístupu k síti. Ekvivalentní komerční verze, jakkoli dobře míněná na začátku, by byla nakonec zranitelná vůči firemním posunům a změnám podmínek služby, zatímco vhodná open source licence by tomuto druhu zabránila. „nevyhnutelná korupce“.

ChatGPT dále argumentoval, že návrh IBM „narušuje záměr uživatele“, protože by mohl přeinterpretovat výzvu do alternativy, což ovlivňuje její užitečnost. Jedná se však o... mnohem širší problém v rychlé sanitacia není specifické pro tento konkrétní případ použití.

Závěrem (ignorujíc návrh používat „místo“ lokální LLM, což je přesně to, co dokument IBM ve skutečnosti navrhuje) se ChatGPT vyjádřil, že metoda IBM představuje překážku pro její přijetí kvůli „uživatelskému tření“ při implementaci metod varování a úprav do chatu.

Zde může mít ChatGPT pravdu; ale pokud dojde k výraznému tlaku kvůli dalším veřejným incidentům nebo pokud jsou zisky v jedné geografické zóně ohroženy rostoucí regulací (a společnost odmítá jen úplně opustit postiženou oblast), historie spotřební techniky naznačuje, že záruky nakonec budou již nebude volitelné tak jako tak.

Proč investovat do čističky vzduchu?

Nemůžeme realisticky očekávat, že OpenAI někdy zavede ochranná opatření takového typu, jaká jsou navržena v dokumentu IBM a v ústředním konceptu, který za ním stojí; alespoň ne efektivně.

A rozhodně ne globálně; stejně jako Apple bloky některé funkce iPhonu v Evropě a LinkedIn má jiná pravidla Pokud jde o zneužívání dat svých uživatelů v různých zemích, je rozumné se domnívat, že jakákoli společnost zabývající se umělou inteligencí bude standardně dodržovat nejziskovější podmínky, které jsou přijatelné pro jakoukoli konkrétní zemi, ve které působí – v každém případě na úkor práva uživatele na soukromí údajů, je-li to nezbytné.

 

Poprvé publikováno ve čtvrtek 27. února 2025

Aktualizováno čtvrtek 27. února 2025 15:47:11 z důvodu nesprávného odkazu souvisejícího s Apple – MA

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí obsahu výzkumu na Metaphysic.ai.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai