csonk CAPTCHA-k megoldása gépi tanulással, hogy lehetővé tegye a sötét webes kutatást – Unite.AI
Kapcsolatba velünk

Kiberbiztonság

CAPTCHA-k megoldása gépi tanulással a sötét webes kutatás lehetővé tétele érdekében

mm

Közzététel:

 on

Egy amerikai közös tudományos kutatási projekt kifejlesztett egy módszert a CAPTCHA* tesztek meghiúsítására, amely állítólag felülmúlja a hasonló legkorszerűbb gépi tanulási megoldásokat a Generative Adversarial Networks használatával (Gans) a vizuálisan összetett kihívások dekódolásához.

Az új rendszert a legjobb jelenlegi keretrendszerekkel szemben tesztelve a kutatók arra a következtetésre jutottak, hogy módszerük több mint 94.4%-os sikert ér el egy gondosan összeállított valós benchmark adathalmazon, és képesnek bizonyult „kiküszöbölni az emberi részvételt”, amikor egy erősen CAPTCHA-védett feltörekvőben navigálnak. Dark Net Marketplace, amely automatikusan megoldja a CAPTCHA kihívásokat legfeljebb három próbálkozással.

A DW-GAN architektúrája. Forrás: https://arxiv.org/pdf/2201.02799.pdf

DW-GAN munkafolyamat. Forrás: https://arxiv.org/pdf/2201.02799.pdf

A szerzők azt állítják, hogy megközelítésük áttörést jelent a kiberbiztonsági kutatók számára, akiknek hagyományosan viselniük kellett a CAPTCHA-k manuális megoldásához a hurokban lévő emberek ellátásának költségeit, általában tömeges beszerzési platformokon, például az Amazon Mechanical Turkon (AMT) keresztül.

Ha a rendszer alkalmazkodóképesnek és rugalmasnak bizonyul, akkor még jobban kikövezheti az utat az automatizáltabb felügyeleti rendszerek, valamint a TOR-hálózatok indexelésének és web-lekaparásának. Ez lehetővé teheti a méretezhető és nagy volumenű elemzéseket, valamint új kiberbiztonsági megközelítések és technikák kifejlesztését, amelyeket eddig a CAPTCHA tűzfalak akadályoztak.

A papír címet viseli A sötét webes szövegalapú CAPTCHA elleni küzdelem generatív, ellenséges tanulással a proaktív kiberfenyegetés intelligencia érdekében, és az Arizonai Egyetem, a Dél-Floridai Egyetem és a Georgiai Egyetem kutatóitól származik.

Következmények

Mivel a rendszer – Dark Web-GAN (DW-GAN, elérhető a GitHubon) – láthatóan sokkal performatívabb, mint elődei, fennáll annak a lehetősége, hogy általános módszerként használják a szabványos weben található (általában kevésbé bonyolult) CAPTCHA-anyag leküzdésére, akár ebben a konkrét megvalósításban, akár a általános elveket, amelyeket az új dolgozat felvázol. A GitHub korlátozott tárhelye miatt azonban jelenleg fel kell venni a kapcsolatot a vezető szerzővel, Ning Zhanggal a keretrendszerhez kapcsolódó adatok beszerzése érdekében.

Mert a DW-GAN „pozitív” küldetése a CAPTCHA-k feltörése (ahogyan a TOR-nak eredetileg a katonai kommunikáció és később az újságírók védelme volt), és mivel a CAPTCHA-k jogos védelmet jelentenek (gyakran és ellentmondásosan is használt a mindenütt jelenlévő CDN-óriás, a CloudFlare) és az illegitim sötét webes piacterek kedvenc eszköze, a megközelítés vitathatatlanul „szintező” technológia.

Maguk a szerzők elismerik, hogy a DW-GAN szélesebb körű felhasználási területei vannak:

"[Míg] ez a tanulmány főként a sötét webes CAPTCHA-ra összpontosít, mint nagyobb kihívást jelentő problémára, a tanulmányban javasolt módszer várhatóan más típusú CAPTCHA-ra is alkalmazható lesz az általánosság elvesztése nélkül."

Feltehetően a DW-GAN-nak vagy egy hasonló rendszernek széles körben és nyilvánvalóan elterjedtté kell válnia ahhoz, hogy a sötét webes piacokat kevésbé gépi feloldható megoldások keresésére késztesse, vagy legalábbis időszakonként fejlesszék CAPTCHA-konfigurációikat, ez a „hidegháborús” forgatókönyv.

Motivációk

Amint a cikk megjegyzi, a sötét web a kibertámadásokkal kapcsolatos hacker-intelligencia elsődleges forrása. becsült 10-re 2025 billió dollárba kerül a globális gazdaságnak. Ezért a hagymahálózatok továbbra is viszonylag biztonságos környezet maradnak az illegális sötét netes közösségek számára, amelyek különféle módszerekkel, például munkamenet-időtúllépéssel, cookie-kkal és felhasználói hitelesítéssel taszíthatják a határokat.

Kétféle CAPTCHA, mindkettő homályos hátteret és megdöntött betűket használ, hogy kevésbé legyen gépi olvashatóságuk.

Kétféle CAPTCHA, mindkettő homályos hátteret és megdöntött betűket használ, hogy kevésbé legyen gépi olvashatóságuk.

A szerzők azonban megjegyzik, hogy ezen akadályok egyike sem olyan nagy, mint a CAPTCHA-k részlete, amelyek egy „érzékeny” közösség böngészési élményét jelzik:

„Míg ezeknek az intézkedéseknek a többsége hatékonyan megkerülhető automatizált ellenintézkedések bejáróprogramban történő bevezetésével, a CAPTCHA a leginkább akadályozó feltérképezés elleni intézkedés a sötét webben, amelyet nem lehet könnyen megkerülni az automatizálás által gyakran nem birtokolt magas kognitív képességek miatt. szerszámok'

A szövegalapú CAPTCHA nem az egyetlen elérhető lehetőség; Vannak sokunk számára ismert változatok, amelyek kihívást jelentenek a felhasználó számára a videó, a hang és különösen a képek értelmezésében. Ennek ellenére, ahogy a szerzők megfigyelik, a szövegalapú CAPTCHA az jelenleg a választás kihívása sötét webes piacokra, és természetes kiindulópont a TOR-hálózatok érzékenyebbé tételéhez a gépi elemzésre.

Építészet

Bár a kínai Northwest University korábbi megközelítése a Generatív Adversarial Networks módszert használta a jellemző minták CAPTCHA platformokból való származtatására, az új cikk szerzői megjegyzik, hogy ez a módszer egy raszterizált kép értelmezésére támaszkodik, nem pedig a kihívásban felismert betűk mélyebb vizsgálatára. ; és hogy a DW-GAN hatékonyságát nem befolyásolja az értelmetlen szavak (és a számok) változó hossza, amelyek jellemzően a sötét webes CAPTCHA-kban találhatók.

A DW-GAN négylépcsős csővezetéket használ: először rögzíti a képet, majd egy háttérzaj-csökkentő modulba továbbítja, amely egy GAN-t használ, amelyet a megjegyzésekkel ellátott CAPTCHA-mintákra tanítottak, és ezért képes megkülönböztetni a betűket a zavart háttértől. pihennek. A kivont betűket ezután tovább szűrjük a GAN alapú kivonás után a fennmaradó zajból.

Ezután a kivont szövegen szegmentálást hajtanak végre, amelyet azután kontúrészlelő algoritmusok segítségével alkotó karakterekre bontanak.

A karakterszegmentálás elkülöníti a pixelcsoportot, és határkövetéssel kísérli meg a felismerést.

A karakterszegmentálás elkülöníti a pixelcsoportot, és határkövetéssel kísérli meg a felismerést.

Végül a „kitalált” karakterszegmensek karakterfelismerésnek vannak kitéve egy konvolúciós neurális hálózaton (CNN) keresztül.

Néha a karakterek átfedhetik egymást, ez egy hiper-kerning, amelyet kifejezetten a gépi rendszerek megtévesztésére terveztek. A DW-GAN ezért intervallum alapú szegmentációt használ a határok növelésére és elkülönítésére, hatékonyan elválasztva a karaktereket. Mivel a szavak általában értelmetlenek, nincs szemantikai kontextus, amely segítené ezt a folyamatot.

Eredmények

A DW-GAN-t három különböző sötét webes adatkészletből származó CAPTCHA-képekkel, valamint egy népszerű CAPTCHA-szintetizátorral szemben tesztelték. A sötét piacok, ahonnan a képek származtak, két kártolóüzletből, a Rescator-1-ből és a Rescator-2-ből, valamint egy, az akkor feltörekvő, Yellow Brick nevű piacról származó regényből álltak (ami jelentett hogy később eltűntek a DarkMarket leállítása nyomán).

Minta CAPTCHA-k a három adatkészletből, valamint a nyílt forráskódú CAPTCHA szintetizátorból.

Minta CAPTCHA-k a három adatkészletből, valamint a nyílt forráskódú CAPTCHA szintetizátorból.

A szerzők szerint a teszteléshez felhasznált adatokat a Cyber ​​Threat Intelligence (CTI) szakértői javasolták a sötét netes piacokon való széles körű elterjedésük alapján.

Az egyes adatkészletek tesztelése egy TOR-ra néző pók kifejlesztését jelentette, amelynek feladata 500 CAPTCHA-kép összegyűjtése volt, amelyeket ezt követően a CTI tanácsadói felcímkéztek és gondoztak.

Három kísérletet terveztek. Az első a DW-GAN általános CAPTCHA-legyőző teljesítményét értékelte a szabványos SOTA módszerekkel szemben. A rivális módszerek voltak képszintű CNN előfeldolgozással, amely magában foglalja a szürkeárnyalatos konverziót, a normalizálást és a Gauss-simítást, amely Irán és az Egyesült Királyság közös tudományos erőfeszítése; karakter szintű CNN intervallum alapú szegmentálással; és képszintű CNN, az Oxfordi Egyetemről az Egyesült Királyságban.

A DW-GAN eredményei az első kísérlethez, összehasonlítva a korábbi legkorszerűbb megközelítésekkel.

A DW-GAN eredményei az első kísérlethez, összehasonlítva a korábbi legkorszerűbb megközelítésekkel.

A kutatók azt találták, hogy a DW-GAN képes volt javítani a korábbi eredményeken (lásd a fenti táblázatot).

A második kísérlet egy ablációs vizsgálat volt, ahol az aktív keret különböző összetevőit eltávolítják vagy letiltják annak érdekében, hogy kizárják annak lehetőségét, hogy külső vagy másodlagos tényezők befolyásolják az eredményeket.

Az ablációs vizsgálat eredményei.

Az ablációs vizsgálat eredményei.

A szerzők itt is azt találták, hogy az architektúra kulcsfontosságú szakaszainak letiltása szinte minden esetben csökkentette a DW-GAN teljesítményét (lásd a fenti táblázatot).

A harmadik offline kísérlet a DW-GAN hatékonyságát hasonlította össze a benchmark képalapú módszerrel és két karakterszintű módszerrel, hogy megállapítsa, milyen mértékben befolyásolta a DW-GAN karakterértékelése a hasznosságát olyan esetekben, amikor egy értelmetlen CAPTCHA szó tetszőleges. (nem pedig előre meghatározott) hosszúság. Ezekben az esetekben a CAPTCHA hossza 4 és 7 karakter között változott.

Ehhez a kísérlethez a szerzők egy 50,000 5,000 CAPTCHA képből álló képzési készletet használtak, amelyből 90 volt fenntartva tesztelésre, tipikus 10/XNUMX arányban.

A DW-GAN itt is felülmúlta a korábbi megközelítéseket:

Élő teszt a Dark Net Marketen

Végül a DW-GAN-t bevetették az (akkor még élő) Yellow Brick sötét netes piac ellen. Ehhez a teszthez egy Tor webböngészőt fejlesztettek ki, amely a DW-GAN-t integrálta a böngészési képességeibe, automatikusan elemzi a CAPTCHA kihívásokat.

Ebben a forgatókönyvben átlagosan minden 15 HTTP-kérés után egy CAPTCHA-t mutattak be az automatizált bejárónak. A bejáró 1,831 illegális árut tudott indexelni a Yellow Brick-ben, köztük 1,223 kábítószerrel kapcsolatos terméket (köztük opioidokat és kokaint), 44 hackercsomagot és kilenc hamisított dokumentumot. A rendszer összesen 286 kiberbiztonsággal kapcsolatos elemet tudott azonosítani, köztük 102 ellopott hitelkártyát és 131 ellopott fiókbejelentkezést.

A szerzők kijelentik, hogy a DW-GAN minden esetben képes volt feltörni egy CAPTCHA-t három vagy annál kevesebb próbálkozással, és 76 perc feldolgozási időre volt szükség ahhoz, hogy figyelembe vegyék a CAPTCHA-kat, amelyek mind az 1,831 terméket őrzik. Nem volt szükség emberre a beavatkozáshoz, és nem fordult elő végponthiba.

A szerzők megjegyzik olyan kihívások megjelenését, amelyek a szöveges CAPTCHA-knál nagyobb kifinomultságot kínálnak, köztük olyanokat is, amelyek Turing-tesztek alapján készültek, és megfigyelik, hogy a DW-GAN továbbfejleszthető, hogy alkalmazkodjon ezekhez az új trendekhez, amint népszerűvé válnak.

 

*Teljesen automatizált nyilvános Turing-teszt a számítógép és az ember megkülönböztetésére

Első megjelenés: 11. január 2022.