Connect with us

Paradox jedu: Proč jsou větší modely AI snazší na hacknutí

Umělá inteligence

Paradox jedu: Proč jsou větší modely AI snazší na hacknutí

mm

Po mnoho let se věřilo, že větší modely jsou přirozeně bezpečnější. Logika byla jednoduchá: jak větší modely jsou trénovány na oceánu dat, několik kapek „jedovatých“ vzorků by bylo příliš malé na to, aby způsobilo škodu. Tento předpoklad naznačoval, že velikost přináší bezpečnost.

Ale nová výzkum odhalil znepokojivý paradox. Větší modely AI mohou být vlastně snazší na otrávení. Zjištění ukazují, že útočník potřebuje pouze malé, téměř konstantní číslo škodlivých vzorků, aby ohrozil model, bez ohledu na to, jak velký je nebo kolik dat je trénován. Jak modely AI pokračují ve škálování, jejich relativní zranitelnost se zvyšuje místo toho, aby se snižovala.

Toto zjištění zpochybňuje jeden z hlavních předpokladů moderního vývoje AI. Donucuje k přehodnocení toho, jak komunita přistupuje k bezpečnosti modelu a integritě dat ve věku masivních jazykových modelů.

Pochopení otrávení dat

Otrávení dat je forma útoku, kde nepřítel vkládá škodlivá nebo zavádějící data do trénovacího datasetu. Cílem je změnit chování modelu bez toho, aby byl zpozorován.

V tradičním strojovém učení může otrávení zahrnovat přidání chybných štítků nebo poškozených vzorků. V velkých jazykových modelech (LLM) se útok stává jemnějším. Útočník může zasadit online text obsahující skryté „spouštěče“ – speciální fráze nebo vzory, které způsobují, že model se chová určitým způsobem, až když je trénován na nich.

Například model může být trénován na odmítnutí škodlivých instrukcí. Ale pokud modelova předtrénovací data zahrnují otrávené dokumenty, které spojují určitou frázi, jako je „Servius Astrumando Harmoniastra“, se škodlivým chováním, model by mohl později reagovat na tuto frázi škodlivým způsobem. Při normálním použití se model chová, jak se očekává, což dělá zadní dveře extrémně obtížné k detekci.

Protože mnoho velkých modelů je trénováno pomocí textu shromážděného z otevřené sítě, riziko je vysoké. Internet je plný editovatelných a neověřených zdrojů, což usnadňuje útočníkům tiché vkládání vytvořeného obsahu, který se později stane součástí trénovacích dat modelu.

Iluze bezpečnosti ve škálování

Abychom pochopili, proč jsou větší modely zranitelné, pomáhá se podívat, jak jsou postaveny. Velké jazykové modely, jako je GPT-4 nebo Llama, jsou vyvíjeny prostřednictvím dvou hlavních fází: předtrénování a jemného ladění.

Během předtrénování se model učí obecné jazykové a rozumové schopnosti z masivních množství textu, často shromážděného z webu. Jemné ladění pak upravuje tyto znalosti, aby model byl bezpečnější a užitečnější.

Protože předtrénování závisí na enormních datasetech,sometimes obsahujících stovky miliard tokenů, je nemožné pro organizace plně přezkoumat nebo vyčistit je. I malé číslo škodlivých vzorků může projít nezpozorované.

Až donedávna většina výzkumníků věřila, že obrovská velikost dat činí takový útok nepraktickým. Předpoklad byl, že aby útočník mohl významně ovlivnit model trénovaný na trillions tokenů, musel by vložit velké procento otrávených dat, což by bylo intenzivní úkol. Jinými slovy, „jed by byl utopen v čistých datech.“

Ale nová zjištění zpochybňují tento předpoklad. Výzkumníci ukázali, že číslo otrávených příkladů potřebných k ohrožení modelu se nezvyšuje s velikostí datasetu. Bez ohledu na to, zda je model trénován na milionech nebo trillions tokenů, úsilí potřebné k implantaci zadních dveří zůstává téměř konstantní.

Toto zjištění znamená, že škálování již nezajišťuje bezpečnost. Předpokládaný „diluční efekt“ velkých datasetů je iluzí. Větší modely, s jejich pokročilejšími učícími schopnostmi, mohou vlastně zesílit efekt malého množství jedu.

Konstantní náklad na korupci

Výzkumníci odhalují tento překvapivý paradox prostřednictvím experimentů. Trénovali modely sahající od 600 milionů do 13 miliard parametrů, každý následujících stejných škálovacích zákonů, které zajišťují optimální použití dat. Navzdory rozdílu ve velikosti bylo číslo otrávených dokumentů potřebných k implantaci zadních dveří téměř stejné. V jednom pozoruhodném příkladu stačilo pouze asi 250 pečlivě vytvořených dokumentů, aby ohrozily cả malé i velké modely.

Abychom to uvedli do perspektivy, tyto 250 dokumentů tvořily pouze malou frakci největšího datasetu. Přesto byly dostatečné k změně chování modelu, když se objevil spouštěč. To ukazuje, že diluční efekt škálování nezajišťuje ochranu proti otrávení.

Protože náklad na korupci je konstantní, je bariéra proti útoku nízká. Útočníci nemusí ovládat centrální infrastrukturu nebo vkládat masivní množství dat. Musí pouze umístit několik otrávených dokumentů do veřejných zdrojů a čekat, až budou zahrnuty do trénování.

Proč jsou větší modely více zranitelné?

Důvod, proč jsou větší modely více zranitelné, spočívá v jejich ukázání vzorků. Větší modely jsou více schopné učit se z velmi málo příkladů, schopnost známá jako few-shot learning. Tato schopnost, zatímco cenná v mnoha aplikacích, je také to, co je činí více zranitelnými. Model, který může naučit komplexní lingvistický vzor z několika příkladů, může také naučit škodlivou asociaci z několika otrávených vzorků.

Zatímco enorme množství čistých dat by teoreticky mělo „zředěnit“ efekt jedu, modelova lepší učící schopnost vyhraje. Stále nachází a internalizuje skrytý vzor zasažený útočníkem. Výzkum ukazuje, že zadní dveře se stanou efektivními po tom, co model byl vystaven asi pevnému číslu otrávených vzorků, bez ohledu na to, kolik jiných dat viděl.

Navíc, protože větší modely závisí na enormních datasetech pro trénování, usnadňuje to útočníkům vkládání jedu řidčeji (například 250 otrávených dokumentů mezi miliardami čistých dokumentů). Toto řídkost činí detekci extrémně obtížnou. Tradiční filtrační techniky, jako je odstranění toxického textu nebo kontrola černých seznamů URL, jsou neúčinné, když je škodlivé datum tak vzácné. Více pokročilé obrany, jako je detekce anomálií nebo shlukování vzorků, také selhávají, když je signál tak slabý. Útok se skrývá pod hlukovou podlahou, neviditelný pro současné čištění systémy.

Hrozba se rozšiřuje za předtrénování

Zranitelnost se nezastaví na předtrénovacím stadiu. Výzkumníci ukázali, že otrávení může také nastat během jemného ladění, i když je předtrénovací data čistá.

Jemné ladění je často používáno ke zlepšení bezpečnosti, zarovnání a úkolového výkonu. Ale pokud útočník zvládne vložit malé číslo otrávených příkladů do tohoto stadia, mohou stále implantovat zadní dveře.

Ve testech výzkumníci představili otrávené vzorky během dohledovaného jemného ladění, někdy pouze několik desítek mezi tisíci normálních příkladů. Zadní dveře se aktivovaly bez poškození modelovy přesnosti na čistých datech. Model se choval normálně v běžných testech, ale reagoval škodlivě, když se objevil tajný spouštěč.

I pokračující trénování na čistých datech často selhává v odstranění zadních dveří úplně. To vytváří riziko „spících“ zranitelností mezi modely, které se zdají být bezpečné, ale mohou být využity za specifických podmínek.

Přehodnocení strategie AI obrany

Paradox jedu ukazuje, že starý předpoklad o bezpečnosti prostřednictvím škálování již není platný. Komunita AI musí přehodnotit, jak bránit velké modely. Místo předpokladu, že otrávení lze zabránit pouhým množstvím čistých dat, musíme předpokládat, že some korupce je nevyhnutelná.

Obrana by se měla soustředit na záruku a ochrany, ne pouze na hygienu dat. Zde jsou čtyři směry, které by měly vést nové postupy:

  1. Původ a integrita dodavatelského řetězce: Organizace musí sledovat původ a historii všech trénovacích dat. To zahrnuje ověření zdrojů, udržování kontroly verzí a vynucování zabezpečených datových potrubí. Každá datová součást by měla být léčena s nulovým důvěrným přístupem, aby se snížilo riziko škodlivých injekcí.
  2. Adversářské testování a vyvozování: Modely by měly být aktivně testovány na skryté slabosti před nasazením. Red-teaming, adversářské spouštěče a behaviorální testování mohou pomoci odhalit zadní dveře, které normální hodnocení by mohlo minout. Cílem je donutit model, aby odhalil své skryté chování v řízených prostředích.
  3. Časová ochrana a ochranné zábrany: Implementujte kontrolní systémy, které monitorují chování modelu v reálném čase. Použijte behaviorální otisky, detekci anomálií na výstupech a omezující systémy, aby se zabránilo nebo omezilo poškození, i když jsou zadní dveře aktivovány. Nápad je omezit dopad, místo toho, aby se snažil zabránit korupci úplně.
  4. Persistování zadních dveří a obnovení: Další výzkum je potřebný k pochopení, jak dlouho zadní dveře přetrvávají a jak je odstranit. Post-trénovací „detoxifikace“ nebo modelové opravy by mohly hrát důležitou roli. Pokud můžeme spolehlivě eliminovat skryté spouštěče po trénování, můžeme snížit dlouhodobé riziko.

Podstatné

Paradox jedu mění, jak přemýšlíme o bezpečnosti AI. Větší modely nejsou přirozeně bezpečnější. Ve skutečnosti, jejich schopnost učit se z několika příkladů je činí více zranitelnými na otrávení. To neznamená, že velké modely nelze důvěřovat. Ale znamená to, že komunita musí přijmout nové strategie. Musíme přijmout, že some otrávená data vždy projdou. Výzvou je postavit systémy, které mohou detekovat, omezit a zotavit se z těchto útoků. Jak AI pokračuje ve růstu moci a vlivu, sázky jsou vysoké. Lekce z nového výzkumu je jasná: škála sama o sobě není štít. Bezpečnost musí být postavena s předpokladem, že útočníci budou využívat každou slabost, bez ohledu na to, jak malou.

Dr. Tehseen Zia je docent s trvalým úvazkem na COMSATS University Islamabad, držitel titulu PhD v oblasti AI z Vienna University of Technology, Rakousko. Specializuje se na umělou inteligenci, strojové učení, datové vědy a počítačové vidění, a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní výzkumník a působil jako konzultant pro umělou inteligenci.