Kiberbiztonság
CAPTCHA-k megoldása gépi tanulással a sötét webes kutatás lehetővé tétele érdekében
Egy amerikai közös tudományos kutatási projekt kifejlesztett egy módszert a CAPTCHA* tesztek meghiúsítására, amely állítólag felülmúlja a hasonló legkorszerűbb gépi tanulási megoldásokat a Generative Adversarial Networks használatával (Gans) a vizuálisan összetett kihívások dekódolásához.
Az új rendszert a legjobb jelenlegi keretrendszerekkel szemben tesztelve a kutatók arra a következtetésre jutottak, hogy módszerük több mint 94.4%-os sikert ér el egy gondosan összeállított valós benchmark adathalmazon, és képesnek bizonyult „kiküszöbölni az emberi részvételt”, amikor egy erősen CAPTCHA-védett feltörekvőben navigálnak. Dark Net Marketplace, amely automatikusan megoldja a CAPTCHA kihívásokat legfeljebb három próbálkozással.
A szerzők azt állítják, hogy megközelítésük áttörést jelent a kiberbiztonsági kutatók számára, akiknek hagyományosan viselniük kellett a CAPTCHA-k manuális megoldásához a hurokban lévő emberek ellátásának költségeit, általában tömeges beszerzési platformokon, például az Amazon Mechanical Turkon (AMT) keresztül.
Ha a rendszer alkalmazkodóképesnek és rugalmasnak bizonyul, akkor még jobban kikövezheti az utat az automatizáltabb felügyeleti rendszerek, valamint a TOR-hálózatok indexelésének és web-lekaparásának. Ez lehetővé teheti a méretezhető és nagy volumenű elemzéseket, valamint új kiberbiztonsági megközelítések és technikák kifejlesztését, amelyeket eddig a CAPTCHA tűzfalak akadályoztak.
A papír címet viseli A sötét webes szövegalapú CAPTCHA elleni küzdelem generatív, ellenséges tanulással a proaktív kiberfenyegetés intelligencia érdekében, és az Arizonai Egyetem, a Dél-Floridai Egyetem és a Georgiai Egyetem kutatóitól származik.
Következmények
Mivel a rendszer – Dark Web-GAN (DW-GAN, elérhető a GitHubon) – láthatóan sokkal performatívabb, mint elődei, fennáll annak a lehetősége, hogy általános módszerként használják a szabványos weben található (általában kevésbé bonyolult) CAPTCHA-anyag leküzdésére, akár ebben a konkrét megvalósításban, akár a általános elveket, amelyeket az új dolgozat felvázol. A GitHub korlátozott tárhelye miatt azonban jelenleg fel kell venni a kapcsolatot a vezető szerzővel, Ning Zhanggal a keretrendszerhez kapcsolódó adatok beszerzése érdekében.
Mert a DW-GAN „pozitív” küldetése a CAPTCHA-k feltörése (ahogyan a TOR-nak eredetileg a katonai kommunikáció és később az újságírók védelme volt), és mivel a CAPTCHA-k jogos védelmet jelentenek (gyakran és ellentmondásosan is használt a mindenütt jelenlévő CDN-óriás, a CloudFlare) és az illegitim sötét webes piacterek kedvenc eszköze, a megközelítés vitathatatlanul „szintező” technológia.
Maguk a szerzők elismerik, hogy a DW-GAN szélesebb körű felhasználási területei vannak:
"[Míg] ez a tanulmány főként a sötét webes CAPTCHA-ra összpontosít, mint nagyobb kihívást jelentő problémára, a tanulmányban javasolt módszer várhatóan más típusú CAPTCHA-ra is alkalmazható lesz az általánosság elvesztése nélkül."
Feltehetően a DW-GAN-nak vagy egy hasonló rendszernek széles körben és nyilvánvalóan elterjedtté kell válnia ahhoz, hogy a sötét webes piacokat kevésbé gépi feloldható megoldások keresésére késztesse, vagy legalábbis időszakonként fejlesszék CAPTCHA-konfigurációikat, ez a „hidegháborús” forgatókönyv.
Motivációk
Amint a cikk megjegyzi, a sötét web a kibertámadásokkal kapcsolatos hacker-intelligencia elsődleges forrása. becsült 10-re 2025 billió dollárba kerül a globális gazdaságnak. Ezért a hagymahálózatok továbbra is viszonylag biztonságos környezet maradnak az illegális sötét netes közösségek számára, amelyek különféle módszerekkel, például munkamenet-időtúllépéssel, cookie-kkal és felhasználói hitelesítéssel taszíthatják a határokat.
A szerzők azonban megjegyzik, hogy ezen akadályok egyike sem olyan nagy, mint a CAPTCHA-k részlete, amelyek egy „érzékeny” közösség böngészési élményét jelzik:
„Míg ezeknek az intézkedéseknek a többsége hatékonyan megkerülhető automatizált ellenintézkedések bejáróprogramban történő bevezetésével, a CAPTCHA a leginkább akadályozó feltérképezés elleni intézkedés a sötét webben, amelyet nem lehet könnyen megkerülni az automatizálás által gyakran nem birtokolt magas kognitív képességek miatt. szerszámok'
A szövegalapú CAPTCHA nem az egyetlen elérhető lehetőség; Vannak sokunk számára ismert változatok, amelyek kihívást jelentenek a felhasználó számára a videó, a hang és különösen a képek értelmezésében. Ennek ellenére, ahogy a szerzők megfigyelik, a szövegalapú CAPTCHA az jelenleg a választás kihívása sötét webes piacokra, és természetes kiindulópont a TOR-hálózatok érzékenyebbé tételéhez a gépi elemzésre.
Építészet
Bár a kínai Northwest University korábbi megközelítése a Generatív Adversarial Networks módszert használta a jellemző minták CAPTCHA platformokból való származtatására, az új cikk szerzői megjegyzik, hogy ez a módszer egy raszterizált kép értelmezésére támaszkodik, nem pedig a kihívásban felismert betűk mélyebb vizsgálatára. ; és hogy a DW-GAN hatékonyságát nem befolyásolja az értelmetlen szavak (és a számok) változó hossza, amelyek jellemzően a sötét webes CAPTCHA-kban találhatók.
A DW-GAN négylépcsős csővezetéket használ: először rögzíti a képet, majd egy háttérzaj-csökkentő modulba továbbítja, amely egy GAN-t használ, amelyet a megjegyzésekkel ellátott CAPTCHA-mintákra tanítottak, és ezért képes megkülönböztetni a betűket a zavart háttértől. pihennek. A kivont betűket ezután tovább szűrjük a GAN alapú kivonás után a fennmaradó zajból.
Ezután a kivont szövegen szegmentálást hajtanak végre, amelyet azután kontúrészlelő algoritmusok segítségével alkotó karakterekre bontanak.
Végül a „kitalált” karakterszegmensek karakterfelismerésnek vannak kitéve egy konvolúciós neurális hálózaton (CNN) keresztül.
Néha a karakterek átfedhetik egymást, ez egy hiper-kerning, amelyet kifejezetten a gépi rendszerek megtévesztésére terveztek. A DW-GAN ezért intervallum alapú szegmentációt használ a határok növelésére és elkülönítésére, hatékonyan elválasztva a karaktereket. Mivel a szavak általában értelmetlenek, nincs szemantikai kontextus, amely segítené ezt a folyamatot.
Eredmények
A DW-GAN-t három különböző sötét webes adatkészletből származó CAPTCHA-képekkel, valamint egy népszerű CAPTCHA-szintetizátorral szemben tesztelték. A sötét piacok, ahonnan a képek származtak, két kártolóüzletből, a Rescator-1-ből és a Rescator-2-ből, valamint egy, az akkor feltörekvő, Yellow Brick nevű piacról származó regényből álltak (ami jelentett hogy később eltűntek a DarkMarket leállítása nyomán).
A szerzők szerint a teszteléshez felhasznált adatokat a Cyber Threat Intelligence (CTI) szakértői javasolták a sötét netes piacokon való széles körű elterjedésük alapján.
Az egyes adatkészletek tesztelése egy TOR-ra néző pók kifejlesztését jelentette, amelynek feladata 500 CAPTCHA-kép összegyűjtése volt, amelyeket ezt követően a CTI tanácsadói felcímkéztek és gondoztak.
Három kísérletet terveztek. Az első a DW-GAN általános CAPTCHA-legyőző teljesítményét értékelte a szabványos SOTA módszerekkel szemben. A rivális módszerek voltak képszintű CNN előfeldolgozással, amely magában foglalja a szürkeárnyalatos konverziót, a normalizálást és a Gauss-simítást, amely Irán és az Egyesült Királyság közös tudományos erőfeszítése; karakter szintű CNN intervallum alapú szegmentálással; és képszintű CNN, az Oxfordi Egyetemről az Egyesült Királyságban.
A kutatók azt találták, hogy a DW-GAN képes volt javítani a korábbi eredményeken (lásd a fenti táblázatot).
A második kísérlet egy ablációs vizsgálat volt, ahol az aktív keret különböző összetevőit eltávolítják vagy letiltják annak érdekében, hogy kizárják annak lehetőségét, hogy külső vagy másodlagos tényezők befolyásolják az eredményeket.
A szerzők itt is azt találták, hogy az architektúra kulcsfontosságú szakaszainak letiltása szinte minden esetben csökkentette a DW-GAN teljesítményét (lásd a fenti táblázatot).
A harmadik offline kísérlet a DW-GAN hatékonyságát hasonlította össze a benchmark képalapú módszerrel és két karakterszintű módszerrel, hogy megállapítsa, milyen mértékben befolyásolta a DW-GAN karakterértékelése a hasznosságát olyan esetekben, amikor egy értelmetlen CAPTCHA szó tetszőleges. (nem pedig előre meghatározott) hosszúság. Ezekben az esetekben a CAPTCHA hossza 4 és 7 karakter között változott.
Ehhez a kísérlethez a szerzők egy 50,000 5,000 CAPTCHA képből álló képzési készletet használtak, amelyből 90 volt fenntartva tesztelésre, tipikus 10/XNUMX arányban.
A DW-GAN itt is felülmúlta a korábbi megközelítéseket:
Élő teszt a Dark Net Marketen
Végül a DW-GAN-t bevetették az (akkor még élő) Yellow Brick sötét netes piac ellen. Ehhez a teszthez egy Tor webböngészőt fejlesztettek ki, amely a DW-GAN-t integrálta a böngészési képességeibe, automatikusan elemzi a CAPTCHA kihívásokat.
Ebben a forgatókönyvben átlagosan minden 15 HTTP-kérés után egy CAPTCHA-t mutattak be az automatizált bejárónak. A bejáró 1,831 illegális árut tudott indexelni a Yellow Brick-ben, köztük 1,223 kábítószerrel kapcsolatos terméket (köztük opioidokat és kokaint), 44 hackercsomagot és kilenc hamisított dokumentumot. A rendszer összesen 286 kiberbiztonsággal kapcsolatos elemet tudott azonosítani, köztük 102 ellopott hitelkártyát és 131 ellopott fiókbejelentkezést.
A szerzők kijelentik, hogy a DW-GAN minden esetben képes volt feltörni egy CAPTCHA-t három vagy annál kevesebb próbálkozással, és 76 perc feldolgozási időre volt szükség ahhoz, hogy figyelembe vegyék a CAPTCHA-kat, amelyek mind az 1,831 terméket őrzik. Nem volt szükség emberre a beavatkozáshoz, és nem fordult elő végponthiba.
A szerzők megjegyzik olyan kihívások megjelenését, amelyek a szöveges CAPTCHA-knál nagyobb kifinomultságot kínálnak, köztük olyanokat is, amelyek Turing-tesztek alapján készültek, és megfigyelik, hogy a DW-GAN továbbfejleszthető, hogy alkalmazkodjon ezekhez az új trendekhez, amint népszerűvé válnak.
*Teljesen automatizált nyilvános Turing-teszt a számítógép és az ember megkülönböztetésére
Első megjelenés: 11. január 2022.