Connect with us

Existuje jasné řešení rizik pro soukromí, která představuje generativní umělá inteligence?

Myslitelé

Existuje jasné řešení rizik pro soukromí, která představuje generativní umělá inteligence?

mm

Rizika pro soukromí, která představuje generativní umělá inteligence, jsou velmi reálná. Od zvýšeného dohledu a expozice až po účinnější phishingové a vishingové kampaně než kdykoli dříve, generativní umělá inteligence eroduje soukromí hromadně, nekontrolovatelně, zatímco poskytují špatným aktérům, ať už jsou to zločinci, sponzorovaní státem nebo vládou, nástroje, které potřebují k cílení na jednotlivce a skupiny.

Nejjasnější řešení tohoto problému spočívá v tom, že spotřebitelé a uživatelé společně otočí záda k hype kolem umělé inteligence, požadují transparentnost od těch, kteří vyvíjejí nebo implementují takzvané funkce umělé inteligence, a efektivní regulaci ze strany vládních orgánů, které dohlížejí na jejich operace. Ačkoli je to něco, za co stojí za to usilovat, je nepravděpodobné, že se to stane brzy.

Co zbývá, jsou rozumné, i když nutně neúplné, přístupy ke zmírnění rizik pro soukromí generativní umělé inteligence. Dlouhodobá, jistá, ale nudná předpověď je, že čím více se veřejnost vzdělává o ochraně dat obecně, tím menší jsou rizika pro soukromí, která představuje hromadná adopce generativní umělé inteligence.

Chápeme všichni koncept generativní umělé inteligence správně?

Hype kolem umělé inteligence je tak všudypřítomný, že průzkum toho, co lidé rozumí pod pojmem generativní umělá inteligence, je stěží nutné. Samozřejmě, že žádné z těchto „funkcí umělé inteligence“, funkcí a produktů vlastně nepředstavují příklady skutečné umělé inteligence, ať už by to vypadalo jakkoli. Spíše se jedná o příklady machine learning (ML), deep learning (DL) a large language models (LLMs).

Generativní umělá inteligence, jak název napovídá, může generovat nový obsah – ať už text (včetně programovacích jazyků), audio (včetně hudby a hlasů podobných lidským) nebo videa (se zvukem, dialogy, střihy a změnami kamery). To vše je dosaženo tím, že se LLMs učí identifikovat, odpovídat a reprodukovat vzory v obsahu vytvořeném lidmi.

Podívejme se na ChatGPT jako příklad. Jako mnoho LLMs je trénován ve třech širokých fázích:

  • Předtrénování: Během této fáze je LLM „krmen“ textovým materiálem z internetu, knih, akademických časopisů a čehokoli jiného, co obsahuje potenciálně relevantní nebo užitečný text.
  • Dohlížený instrukční jemné ladění: Modely jsou trénovány, aby reagovaly koherentněji na instrukce pomocí vysoce kvalitních instrukcí a odpovědí, obvykle zdrojovaných z lidí.
  • Učení se z lidské zpětné vazby (RLHF): LLMs jako ChatGPT často procházejí touto další trénovací fází, během které jsou interakce s lidskými uživateli použity ke zpřesnění modelu v souladu s typickými uživatelskými případy.

Všechny tři fáze trénovacího procesu zahrnují data, ať už se jedná o obrovské zásoby předem shromážděných dat (jako těch, která se používají v předtrénování) nebo data shromážděná a zpracovaná téměř v reálném čase (jako ta, která se používají v RLHF). Právě tato data nesou největší podíl rizik pro soukromí, která vyplývají z generativní umělé inteligence.

Jaká jsou rizika pro soukromí, která představuje generativní umělá inteligence?

Soukromí je ohroženo, když jsou osobní informace týkající se jednotlivce (subjektu údajů) zpřístupněny jiným jednotlivcům nebo entitám bez souhlasu subjektu údajů. LLMs jsou předtrénovány a jemně laděny na velmi širokém spektru dat, která mohou a často obsahují osobní data. Tato data jsou obvykle získávána z veřejně dostupných zdrojů, ale ne vždy.

I když jsou tato data získávána z veřejně dostupných zdrojů, jejich agregace a zpracování LLM a následné zpřístupnění prostřednictvím rozhraní LLM by mohlo být považováno za další porušení soukromí.

Fáze učení se z lidské zpětné vazby (RLHF) komplikuje věci. V této trénovací fázi jsou skutečné interakce s lidskými uživateli použity k iterativnímu opravování a zpřesňování odpovědí LLM. To znamená, že interakce uživatele s LLM mohou být zobrazeny, sdíleny a šířeny kýmkoli s přístupem k trénovacím datům.

Ve většině případů není to porušením soukromí, protože většina vývojářů LLMs zahrnuje zásady ochrany soukromí a podmínky služby, které vyžadují, aby uživatelé souhlasili před interakcí s LLM. Riziko pro soukromí zde spočívá spíše v tom, že mnoho uživatelů si není vědomo toho, že souhlasili se shromažďováním a používáním takových dat. Tito uživatelé jsou pravděpodobně odhalí soukromé a citlivé informace během interakce s těmito systémy, aniž by si uvědomovali, že tyto interakce nejsou důvěrné ani soukromé.

Tímto způsobem se dostáváme ke třem hlavním způsobům, jak generativní umělá inteligence představuje rizika pro soukromí:

  • Velké zásoby předtrénovacích dat potenciálně obsahující osobní informace jsou zranitelné vůči kompromisu a vyčerpání.
  • Osobní informace obsažené v předtrénovacích datech mohou být propuštěny jiným uživatelům stejného LLM prostřednictvím jeho odpovědí na dotazy a instrukce.
  • Osobní a důvěrné informace poskytnuté během interakce s LLMs končí u zaměstnanců LLMs a možná i u třetích smluvních stran, odkud mohou být zobrazeny nebo propuštěny.

Tato jsou všechna rizika pro soukromí uživatelů, ale šance na to, že se osobní identifikační informace (PII) dostanou do špatných rukou, se zdají být poměrně nízké. To je alespoň do té doby, než se na scénu dostanou data brokers. Tyto společnosti se specializují na vyhledávání PII a shromažďování, agregaci a šíření, ne-li přímo vysílání.

S PII a jinými osobními daty, která se stala jakýmsi komoditou, a odvětvím data brokerů, které vyrostlo, aby z toho profitovalo, je každé osobní údaje, které se „dostanou ven“, příliš pravděpodobné, že budou nasáknuty datovými brokery a rozšířeny široko daleko.

Rizika pro soukromí generativní umělé inteligence v kontextu

Než se podíváme na rizika, která generativní umělá inteligence představuje pro soukromí uživatelů v kontextu konkrétních produktů, služeb a firemních partnerství, podívejme se na širší pohled na celou paletu rizik generativní umělé inteligence. Psaní pro IAPP, Moraes a Previtali použili datový přístup k rafinaci Soloveho „Taxonomie soukromí“ z roku 2006, snížení 16 rizik pro soukromí popsaných v něm na 12 specifických rizik pro umělou inteligenci.

Tato jsou 12 rizik pro soukromí zahrnutých v revidované taxonomii Moraes a Previtali:

  • Dohled: Umělá inteligence zhoršuje rizika dohledu zvýšením rozsahu a všudypřítomnosti shromažďování osobních dat.
  • Identifikace: Technologie umělé inteligence umožňují automatizované propojení identit napříč různými zdroji dat, zvyšující rizika související s expozicí osobních identit.
  • Agregace: Umělá inteligence kombinuje různé kusy dat o osobě, aby vytvořila odhady, vytvářející rizika invaze do soukromí.
  • Frenologie a fysiognomie: Umělá inteligence odhaduje osobnost nebo sociální atributy z fyzických charakteristik, nová kategorie rizik, která není v Soloveho taxonomii.
  • Sekundární použití: Umělá inteligence zhoršuje použití osobních dat pro účely jiné než původně určené prostřednictvím opětovného použití dat.
  • Vyloučení: Umělá inteligence činí selhání informovat nebo poskytnout uživatelům kontrolu nad tím, jak jsou jejich data používána, horší prostřednictvím neprůhledných praktik zpracování dat.
  • Nezabezpečení: Požadavky na data a praktiky úložiště umělé inteligence riskují úniků dat a neoprávněného přístupu.
  • Expozice: Umělá inteligence může odhalit citlivé informace, jako je prostřednictvím technik generativní umělé inteligence.
  • Deformace: Schopnost umělé inteligence generovat realistické, ale falešné obsahy, zvyšuje šíření falešných nebo zavádějících informací.
  • Odhalení: Umělá inteligence může způsobit neoprávněné sdílení dat, když odhaduje další citlivé informace z surových dat.
  • Zvýšená dostupnost: Umělá inteligence činí citlivé informace dostupnější širšímu publiku, než bylo zamýšleno.
  • Invaze: Technologie umělé inteligence invazivně vstupují do osobního prostoru nebo osamělosti, často prostřednictvím opatření dohledu.

To činí poměrně alarmující čtení. Je důležité poznamenat, že tato taxonomie, ke svému kreditu, bere v úvahu tendenci generativní umělé inteligence hallucinovat – generovat a předkládat s jistotou fakticky nepravdivé informace. Tento jev, i když zřídka odhalí skutečné informace, je také rizikem pro soukromí. Šíření falešných a zavádějících informací ovlivňuje soukromí subjektu způsoby, které jsou jemnější než v případě přesných informací, ale ovlivňují je přesto.

Podívejme se na konkrétní příklady toho, jak tato rizika pro soukromí vstupují do hry v kontextu skutečných produktů umělé inteligence.

Přímé interakce s textově založenými generativními systémy umělé inteligence

Nejjednodušší případ je ten, který zahrnuje uživatele, který přímo interaguje s generativním systémem umělé inteligence, jako je ChatGPT, Midjourney nebo Gemini. Interakce uživatele s mnoha z těchto produktů jsou protokolovány, uloženy a použity pro RLHF (učení se z lidské zpětné vazby), dohlížené instrukční jemné ladění a dokonce i předtrénování jiných LLMs.

Analýza zásad ochrany soukromí mnoha služeb, jako jsou tyto, také odhaluje další aktivity sdílení dat podložené velmi odlišnými účely, jako je marketing a data brokerage. To je jiný typ rizika pro soukromí, který představuje generativní umělá inteligence: tyto systémy lze charakterizovat jako obrovské datové trychty, shromažďující data poskytnutá uživateli, jakož i data generovaná prostřednictvím jejich interakce s podkladovým LLM.

Interakce s vestavěnými generativními systémy umělé inteligence

Někteří uživatelé mohou interagovat s generativními rozhraními umělé inteligence, která jsou vestavěna do produktu, který údajně používají. Uživatel může vědět, že používá „funkci umělé inteligence“, ale je méně pravděpodobné, že ví, co to znamená z hlediska rizik pro soukromí dat. Co se dostává do popředí s vestavěnými systémy, je nedostatek uvědomění si toho, že osobní data sdílená s LLM by mohla skončit v rukou vývojářů a datových brokerů.

Existují dva stupně nedostatku uvědomění: někteří uživatelé si uvědomují, že interagují s produktem generativní umělé inteligence; a někteří věří, že používají produkt, do kterého je generativní umělá inteligence vestavěna nebo přístupná. V každém případě může uživatel mít (a pravděpodobně měl) technicky souhlasil s podmínkami a ujednáními spojenými s jejich interakcemi s vestavěným systémem.

Jiné partnerství, které vystavují uživatele generativním systémem umělé inteligence

Některé společnosti vestavují nebo jinak zahrnují generativní rozhraní umělé inteligence do svého softwaru způsobem, který je méně zjevný, což způsobuje, že uživatelé interagují – a sdílejí informace – s třetími stranami, aniž by si to uvědomovali. Naštěstí se „umělá inteligence“ stala tak účinným prodejním bodem, že je nepravděpodobné, že by společnost udržel takové implementace v tajnosti.

Jiným jevem v tomto kontextu je rostoucí zpětná vazba, kterou takové společnosti zažily po pokusu o sdílení uživatelských nebo zákaznických dat s generativními společnostmi umělé inteligence, jako je OpenAI. Společnost pro odstranění dat Optery, například, nedávno zrušila rozhodnutí sdílet uživatelská data s OpenAI na základě opt-out, což znamená, že uživatelé byli zapsáni do programu výchozím nastavením.

Nejenže byli zákazníci rychlí vyjádřit své zklamání, ale služba pro odstranění dat společnosti byla okamžitě odstraněna z listu doporučených služeb pro odstranění dat Privacy Guides. Kredit společnosti Optery, že rychle a transparentně zrušila své rozhodnutí, ale obecná zpětná vazba je zde významná: lidé začínají si uvědomovat rizika spojená se sdílením dat s „umělou inteligencí“.

Příklad Optery je zde dobrým příkladem, protože jeho uživatelé jsou v nějakém smyslu na špici rostoucí skepse vůči takzvaným implementacím umělé inteligence. Druh lidí, kteří si vyberou službu pro odstranění dat, jsou také typicky ti, kteří budou dbát na změny podmínek služby a zásad ochrany soukromí.

Důkaz rostoucí zpětné vazby proti generativní umělé inteligenci

Spotřebitelé, kteří dbají na ochranu soukromí, nebyli jedinými, kdo vyjadřovali obavy o systémy generativní umělé inteligence a související rizika pro soukromí dat. Na legislativní úrovni kategorizuje Evropský zákon o umělé inteligenci rizika podle jejich závažnosti, s ochranou dat jako výslovně nebo implicitně uvedeným kritériem pro přiřazování závažnosti ve většině případů. Zákon také řeší problémy s informovaným souhlasem, o kterých jsme dříve diskutovali.

USA, které jsou známé tím, že jsou pomalé v přijímání komplexních, federálních zákonů o ochraně dat, mají alespoň některé zábrany díky výkonnému příkazu 14110. Opět jsou obavy o ochranu dat na předním místě účelů stanovených v příkazu: „neresponsabilní použití [technologií umělé inteligence] by mohlo zhoršit společenské újmy, jako je podvod, diskriminace, předpojatost a dezinformace“ – vše související s dostupností a šířením osobních dat.

Návrat k úrovni spotřebitelů, není to jen zvláště spotřebitelé, kteří dbají na ochranu soukromí, kteří se zdráhají přijmout invazivní implementace generativní umělé inteligence. Nyní již nechvalně známá „AI-pohoněná“ funkce Recall od Microsoftu, určená pro jeho operační systém Windows 11, je příkladem. Jakmile byla odhalena míra rizik pro soukromí a bezpečnost, zpětná vazba byla dostatečná, aby donutila technologického giganta couvnout. Bohužel, Microsoft se zdá se, že nedal up na tuto myšlenku, ale počáteční veřejná reakce je přesto povzbudivá.

Zůstáváme u Microsoftu, jeho program Copilot byl široce kritizován za obě rizika pro soukromí a bezpečnost dat. Jakmile byl Copilot trénován na datech GitHubu (převážně zdrojovém kódu), vznikl také spor o údajných porušování licenčních smluv softwaru programátory a vývojáři. Je to případ, kdy se hranice mezi ochranou dat a duševním vlastnictvím začínají stírat, poskytující ochraně dat peněžní hodnotu – něco, co se snadno nedá udělat.

Možná největší indikací toho, že umělá inteligence se stává červenou vlajkou v očích spotřebitelů, je vlažná, ne-li přímo negativní, veřejná reakce, kterou Apple dostal na svou počáteční spuštění umělé inteligence, zejména ve vztahu ke sdílení dat s OpenAI.

Kusé řešení

Existují kroky, které zákonodárci, vývojáři a společnosti mohou podniknout, aby zmírnili některá rizika, která představuje generativní umělá inteligence. Tyto jsou specializovaná řešení konkrétních aspektů celkového problému, žádná z nich není dostatečná, ale všechny dohromady by mohly mít skutečný dopad.

  • Minimalizace dat. Minimalizace množství shromážděných a uložených dat je rozumným cílem, ale je přímo v rozporu s přáním vývojářů generativní umělé inteligence mít trénovací data.
  • Transparentnost. Vzhledem k současnému stavu umění v oblasti ML, může to být i technicky nemožné v mnoha případech. Přehled o tom, která data jsou zpracovávána a jak, při generování daného výstupu, je jedním ze způsobů, jak zajistit soukromí v interakcích s generativní umělou inteligencí.
  • Anonymizace. Jakékoli PII, které nelze vyloučit z trénovacích dat (prostřednictvím minimalizace dat), by mělo být anonymizováno. Problém spočívá v tom, že mnoho populárních technik anonymizace a pseudonymizace je snadno poraženo.
  • Souhlas uživatele. Požadovat, aby uživatelé souhlasili se shromažďováním a sdílením svých dat, je nezbytné, ale příliš otevřené zneužití a příliš náchylné k spotřebitelské lenivosti, aby to bylo efektivní. Je to informovaný souhlas, který je zde potřebný, a většina spotřebitelů, řádně informovaných, by nesouhlasila se sdílením takových dat, takže pobídky jsou nesouladné.
  • Zabezpečení dat během přenosu a v klidovém stavu. Další základ pro ochranu dat a bezpečnost, chránit data prostřednictvím kryptografických a jiných prostředků, může být vždy učiněno účinnějším. Generativní systémy umělé inteligence však tendují k úniku dat prostřednictvím svých rozhraní, což je pouze část řešení.
  • Vynucení autorského práva a práva duševního vlastnictví v kontextu takzvané umělé inteligence. ML může fungovat v „černé skříňce“, což činí obtížným, ne-li nemožným, stopovat, které autorské materiály a duševní vlastnictví skončí v jakémkoli výstupu generativní umělé inteligence.
  • Audity. Další kritický bezpečnostní opatření zmařený „černou skříňkou“ LLMs a generativních systémů umělé inteligence, které podporují. Sčítání tohoto vrozeného omezení je uzavřená povaha většiny produktů generativní umělé inteligence, která omezuje audity pouze na ty, které jsou prováděny na uvážení vývojáře.

Všechny tyto přístupy k problému jsou platné a nezbytné, ale žádná z nich není dostatečná. Všechny vyžadují legislativní podporu, aby měly skutečný dopad, což znamená, že jsou odsouzeny k tomu, aby zůstaly pozadu za tímto dynamickým oborem, který pokračuje ve vývoji.

Jasná řešení

Řešení rizik pro soukromí, která představuje generativní umělá inteligence, není revoluční ani vzrušující, ale pokud se dojde k jeho logickému závěru, jeho výsledky by mohly být oběma. Jasná řešení spočívá v tom, že běžní spotřebitelé se stanou vědomými hodnoty svých dat pro společnosti a nepostradatelnosti ochrany dat pro sebe.

Spotřebitelé jsou zdroje a motory za soukromými informacemi, které pohánějí takzvanou moderní ekonomiku dohledu. Jakmile kritická masa spotřebitelů začne brzdit tok soukromých dat do veřejného prostoru a začne požadovat odpovědnost od společností, které nakládají s osobními daty, systém se bude muset sám opravit.

Povzbudivou věcí o generativní umělé inteligenci je, že na rozdíl od současných modelů reklamy a marketingu nemusí zahrnovat osobní informace na žádné úrovni. Předtrénovací a jemné ladění dat nemusí zahrnovat PII nebo jiná osobní data, a uživatelé nemusí odhalit stejná během interakce s generativními systémy umělé inteligence.

Aby lidé odstranili své osobní informace z trénovacích dat, mohou jít přímo k zdroji a odstranit své profily z různých datových brokerů (včetně vyhledávačů lidí), kteří shromažďují veřejné záznamy a přivádějí je do oběhu na otevřeném trhu. Služby pro odstranění osobních dat automatizují proces, což z něj činí rychlý a snadný. Samozřejmě, že odstranění osobních dat z databází těchto společností má mnoho dalších výhod a žádné nevýhody.

Lidé také generují osobní data, když interagují se softwarem, včetně generativní umělé inteligence. Aby omezili tok těchto dat, uživatelé budou muset být více vědomi toho, že jejich interakce jsou zaznamenávány, přezkoumávány, analyzovány a sdíleny. Jejich možnosti pro vyhnutí se tomu se omezují na omezení toho, co odhalí online systémům, a používání místních, otevřených LLMs, kdykoli je to možné. Lidé, obecně, již dělají dobrou práci při modulaci toho, o čem diskutují ve veřejném prostoru – prostě potřebujeme prodloužit tyto instinkty do oblasti generativní umělé inteligence.

David Balaban je počítačový bezpečnostní výzkumník s více než 17 lety zkušeností v analýze malwaru a hodnocení antivirových softwarů. David provozuje MacSecurity.net a Privacy-PC.com projekty, které prezentují odborná stanoviska k současným informačním bezpečnostním otázkám, včetně sociálního inženýrství, malwaru, penetračního testování, threat intelligence, online soukromí a white hat hackingu. David má silné zázemí v odstraňování problémů s malwary, se současným zaměřením na protiopatření proti ransomwaru.