Kiberbiztonság
A megmagyarázható AI könnyebben adhat át bizalmas adatokat
A Szingapúri Nemzeti Egyetem kutatói arra a következtetésre jutottak, hogy minél jobban megmagyarázható a mesterséges intelligencia, annál könnyebb lesz megkerülni a gépi tanulási rendszerek létfontosságú adatvédelmi funkcióit. Azt is megállapították, hogy még akkor is, ha egy modell nem magyarázható, lehetséges a hasonló modellek magyarázata a nem magyarázható modellben található érzékeny adatok „dekódolására”.
A kutatás, címe A modellinverziós támadások magyarázatainak kihasználása, rámutat azokra a kockázatokra, amelyek a neurális hálózatok működésének „véletlen” átlátszatlanságát úgy használják, mintha ez egy előre megtervezett biztonsági funkció lenne – nem utolsósorban azért, mert új globális kezdeményezések hulláma, köztük az Európai Unió AI szabályzat tervezeteVan jellemző magyarázható AI (XAI), mint a gépi tanulás esetleges normalizálásának előfeltétele a társadalomban.
A kutatók így kommentálják:
„A megmagyarázható mesterséges intelligencia (XAI) több információval segíti a felhasználókat a modelldöntések megértésében, de ez a kiegészítő tudás további kockázatokat rejt magában az adatvédelmi támadásokkal szemben. Ezért a magyarázat sérti a magánéletet.
A személyes adatok újbóli azonosítása
Előfordulhat, hogy a gépi tanulási adatkészletek résztvevői anonimitásuk feltételezésével hozzájárultak a felvételükhöz; a személyazonosításra alkalmas adatok (PII) esetében, amelyek ad hoc adatgyűjtéssel (például közösségi hálózatokon) keresztül kerülnek a mesterséges intelligencia rendszerekbe, a részvétel technikailag legális lehet, de megfeszíti a „beleegyezés” fogalmát.
Az elmúlt években számos módszer jelent meg, amelyek alkalmasnak bizonyultak a személyes adatok anonimizálására a látszólag átláthatatlan gépi tanulási adatfolyamokból. Modell kivonás API-hozzáférést (azaz „fekete doboz” hozzáférést, a forráskód vagy az adatok külön elérhetősége nélkül) használ a személyazonosításra alkalmas adatok kinyerésére még a nagyszabású MLaaS szolgáltatóktól is, beleértve az Amazon Web Services szolgáltatást is, míg a tagsági következtetés támad (MIA-k), amelyek hasonló korlátok mellett működnek, lehetséges szerez bizalmas egészségügyi információk; emellett az Attribution Inference Attack (AIA) is képes érzékeny adatok helyreállítása API kimenetből.
Leleplező arcok
Az új tanulmányban a kutatók egy modell inverziós támadásra összpontosítottak, amelynek célja, hogy az arc érzelmi adatainak egy részhalmazából identitást szerezzenek, amely nem képes felfedni ezeket az információkat.
A rendszer célja az volt, hogy a vadonban talált képeket (akár véletlenül az interneten, akár egy esetleges adatsértéssel) társítsa a gépi tanulási algoritmust alátámasztó adatkészletekbe való felvételükkel.
A kutatók kidolgoztak egy inverziós támadási modellt, amely képes rekonstruálni a közreműködő képet az anonim API-kimenetből, anélkül, hogy az eredeti architektúrához külön hozzáférnének. Az ezen a területen végzett korábbi munkák olyan rendszerekre koncentráltak, ahol az azonosítás (védés vagy felfedés) mind a célrendszer, mind a támadó rendszer célja volt; ebben az esetben a keretrendszert úgy tervezték, hogy kihasználja egy tartomány kimenetét, és alkalmazza azt egy másik tartományra.
A átültetve A konvolúciós neurális hálózatot (CNN) alkalmazták egy érzelemfelismerő rendszer célpredikciós vektora (kiugrósági térkép) alapján egy „eredeti” forrásarc előrejelzésére. U-Net architektúra az arcrekonstrukciós teljesítmény javítására.
Tesztelés
A rendszer tesztelésekor a kutatók három adatkészletre alkalmazták: iCV-MEFED arckifejezések; CelebA, És MNIST kézzel írt számjegyek. A kutatók által használt modellmérethez igazodva a három adatkészletet 128×128, 265×256 és 32×32 pixelre méreteztük át. Az egyes készletek 50%-át képzési adatként, a másik felét pedig támadási adatkészletként használták fel az antagonista modellek betanításához.
Minden adatkészletnek más-más célmodellje volt, és minden támadási hálózatot a folyamatot alátámasztó magyarázatok korlátaihoz méreteztek, ahelyett, hogy mélyebb neurális modelleket használtak volna, amelyek összetettsége meghaladja a magyarázatok általánosítását.
A kísérletek végrehajtásához használt XAI magyarázattípusok is szerepelnek Gradiens magyarázata, Gradiens bemenet, Grad-CAM és rétegenkénti relevanciaterjesztés (LRP). A kutatók több magyarázatot is értékeltek a kísérletekben.
A teszt metrikáit pixelenkénti hasonlóság értékelte ki Átlagos négyzetes hiba (MSE); Kép hasonlóság (SSIM), egy észlelési alapú hasonlósági index; támadási pontosság, amelyet az határozza meg, hogy egy osztályozó sikeresen át tudja-e címkézni a rekonstruált képet; és a támadás beágyazási hasonlósága, amely összehasonlítja az ismert forrásadatok jellemző beágyazásait a rekonstruált adatokkal.
Az újraazonosítást a feladattól és az adatkészletektől függően különböző szintekkel sikerült elérni az összes készletben. Továbbá a kutatók azt találták, hogy egy helyettesítő célmodell kitalálásával (amely felett természetesen teljes ellenőrzésük volt) továbbra is lehetséges volt a külső, „zárt” modellekből származó adatok újraazonosítása az ismert XAI-elvek alapján.
A kutatók azt találták, hogy a legpontosabb eredményeket az aktiváláson alapuló (szempontossági térkép) magyarázatok adták, amelyek több PII-t szivárogtattak ki, mint az érzékenység alapú (gradiens) megközelítések.
A jövőbeni munkája során a csapat különböző típusú XAI magyarázatokat kíván beépíteni újszerű támadásokba, mint pl jellemző vizualizációk és a koncepció aktiváló vektorok.