Kiberbiztonság

A megmagyarázható AI könnyebben adhat át bizalmas adatokat

Közzététel:

3 éve

26. augusztus 2021.

A Szingapúri Nemzeti Egyetem kutatói arra a következtetésre jutottak, hogy minél jobban megmagyarázható a mesterséges intelligencia, annál könnyebb lesz megkerülni a gépi tanulási rendszerek létfontosságú adatvédelmi funkcióit. Azt is megállapították, hogy még akkor is, ha egy modell nem magyarázható, lehetséges a hasonló modellek magyarázata a nem magyarázható modellben található érzékeny adatok „dekódolására”.

A kutatás, címe A modellinverziós támadások magyarázatainak kihasználása, rámutat azokra a kockázatokra, amelyek a neurális hálózatok működésének „véletlen” átlátszatlanságát úgy használják, mintha ez egy előre megtervezett biztonsági funkció lenne – nem utolsósorban azért, mert új globális kezdeményezések hulláma, köztük az Európai Unió AI szabályzat tervezeteVan jellemző magyarázható AI (XAI), mint a gépi tanulás esetleges normalizálásának előfeltétele a társadalomban.

A kutatás során az arckifejezésekkel kapcsolatos, feltételezett névtelen adatokból sikeresen rekonstruálják a tényleges identitást, a gépi tanulási rendszer többféle magyarázatának kiaknázásával. Forrás: https://arxiv.org/pdf/2108.10800.pdf

A kutatók így kommentálják:

„A megmagyarázható mesterséges intelligencia (XAI) több információval segíti a felhasználókat a modelldöntések megértésében, de ez a kiegészítő tudás további kockázatokat rejt magában az adatvédelmi támadásokkal szemben. Ezért a magyarázat sérti a magánéletet.

A személyes adatok újbóli azonosítása

Előfordulhat, hogy a gépi tanulási adatkészletek résztvevői anonimitásuk feltételezésével hozzájárultak a felvételükhöz; a személyazonosításra alkalmas adatok (PII) esetében, amelyek ad hoc adatgyűjtéssel (például közösségi hálózatokon) keresztül kerülnek a mesterséges intelligencia rendszerekbe, a részvétel technikailag legális lehet, de megfeszíti a „beleegyezés” fogalmát.

Az elmúlt években számos módszer jelent meg, amelyek alkalmasnak bizonyultak a személyes adatok anonimizálására a látszólag átláthatatlan gépi tanulási adatfolyamokból. Modell kivonás API-hozzáférést (azaz „fekete doboz” hozzáférést, a forráskód vagy az adatok külön elérhetősége nélkül) használ a személyazonosításra alkalmas adatok kinyerésére még a nagyszabású MLaaS szolgáltatóktól is, beleértve az Amazon Web Services szolgáltatást is, míg a tagsági következtetés támad (MIA-k), amelyek hasonló korlátok mellett működnek, lehetséges szerez bizalmas egészségügyi információk; emellett az Attribution Inference Attack (AIA) is képes érzékeny adatok helyreállítása API kimenetből.

Leleplező arcok

Az új tanulmányban a kutatók egy modell inverziós támadásra összpontosítottak, amelynek célja, hogy az arc érzelmi adatainak egy részhalmazából identitást szerezzenek, amely nem képes felfedni ezeket az információkat.

A rendszer célja az volt, hogy a vadonban talált képeket (akár véletlenül az interneten, akár egy esetleges adatsértéssel) társítsa a gépi tanulási algoritmust alátámasztó adatkészletekbe való felvételükkel.

A kutatók kidolgoztak egy inverziós támadási modellt, amely képes rekonstruálni a közreműködő képet az anonim API-kimenetből, anélkül, hogy az eredeti architektúrához külön hozzáférnének. Az ezen a területen végzett korábbi munkák olyan rendszerekre koncentráltak, ahol az azonosítás (védés vagy felfedés) mind a célrendszer, mind a támadó rendszer célja volt; ebben az esetben a keretrendszert úgy tervezték, hogy kihasználja egy tartomány kimenetét, és alkalmazza azt egy másik tartományra.

A átültetve A konvolúciós neurális hálózatot (CNN) alkalmazták egy érzelemfelismerő rendszer célpredikciós vektora (kiugrósági térkép) alapján egy „eredeti” forrásarc előrejelzésére. U-Net architektúra az arcrekonstrukciós teljesítmény javítására.

Az újraazonosítási rendszert a megmagyarázható AI (XAI) hajtja és tájékoztatja, ahol a neuronok aktiválásával kapcsolatos ismereteket, a sok nyilvános XAI aspektus mellett arra használják fel, hogy az architektúra belső machinációit csak a kimenetéből rekonstruálják, lehetővé téve a hozzájáruló személyek újraazonosítását. adatkészlet képek.

Tesztelés

A rendszer tesztelésekor a kutatók három adatkészletre alkalmazták: iCV-MEFED arckifejezések; CelebA, És MNIST kézzel írt számjegyek. A kutatók által használt modellmérethez igazodva a három adatkészletet 128×128, 265×256 és 32×32 pixelre méreteztük át. Az egyes készletek 50%-át képzési adatként, a másik felét pedig támadási adatkészletként használták fel az antagonista modellek betanításához.

Minden adatkészletnek más-más célmodellje volt, és minden támadási hálózatot a folyamatot alátámasztó magyarázatok korlátaihoz méreteztek, ahelyett, hogy mélyebb neurális modelleket használtak volna, amelyek összetettsége meghaladja a magyarázatok általánosítását.

A kísérletek végrehajtásához használt XAI magyarázattípusok is szerepelnek Gradiens magyarázata, Gradiens bemenet, Grad-CAM és rétegenkénti relevanciaterjesztés (LRP). A kutatók több magyarázatot is értékeltek a kísérletekben.

A képrekonstrukciót egy XAI-kognitív inverziós támadás segíti elő a három adatkészletben, amelyek azonos cél- és támadási feladatokat tartalmaznak.

A teszt metrikáit pixelenkénti hasonlóság értékelte ki Átlagos négyzetes hiba (MSE); Kép hasonlóság (SSIM), egy észlelési alapú hasonlósági index; támadási pontosság, amelyet az határozza meg, hogy egy osztályozó sikeresen át tudja-e címkézni a rekonstruált képet; és a támadás beágyazási hasonlósága, amely összehasonlítja az ismert forrásadatok jellemző beágyazásait a rekonstruált adatokkal.

Az újraazonosítást a feladattól és az adatkészletektől függően különböző szintekkel sikerült elérni az összes készletben. Továbbá a kutatók azt találták, hogy egy helyettesítő célmodell kitalálásával (amely felett természetesen teljes ellenőrzésük volt) továbbra is lehetséges volt a külső, „zárt” modellekből származó adatok újraazonosítása az ismert XAI-elvek alapján.

A kutatók azt találták, hogy a legpontosabb eredményeket az aktiváláson alapuló (szempontossági térkép) magyarázatok adták, amelyek több PII-t szivárogtattak ki, mint az érzékenység alapú (gradiens) megközelítések.

A jövőbeni munkája során a csapat különböző típusú XAI magyarázatokat kíván beépíteni újszerű támadásokba, mint pl jellemző vizualizációk és a koncepció aktiváló vektorok.

Kapcsolódó témák:magyarázhatóság Megmagyarázható AI magyarázható neurális hálózatok modell inverziója kutatás

Up Next

A szalaggal létrehozott technológiát fel lehetne használni a hackerek ellen

Ne hagyd ki

Az NVIDIA megerősíti a Tesla Autopilot feszültséghiba elleni támadási sebezhetőségét

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai

Egyesül.AI

A megmagyarázható AI könnyebben adhat át bizalmas adatokat

Kiberbiztonság