სტუბი CAPTCHA-ების გადაჭრა მანქანური სწავლებით ბნელი ვებ-ძიების გასააქტიურებლად - Unite.AI
დაკავშირება ჩვენთან ერთად

კიბერ უსაფრთხოება

CAPTCHA-ების გადაჭრა მანქანური სწავლებით, ბნელი ვებ-ძიების გასააქტიურებლად

mm

გამოქვეყნებულია

 on

შეერთებული შტატების ერთობლივმა აკადემიურმა კვლევითმა პროექტმა შეიმუშავა მეთოდი CAPTCHA* ტესტების ჩასაშლელად, რომელიც, გავრცელებული ინფორმაციით, აღემატება მსგავს უახლესი ტექნიკის სწავლის გადაწყვეტილებებს გენერაციული საპირისპირო ქსელების გამოყენებით (განები) ვიზუალურად რთული გამოწვევების გაშიფვრა.

ახალი სისტემის საუკეთესო მიმდინარე ჩარჩოების ტესტირებისას, მკვლევარებმა დაადგინეს, რომ მათი მეთოდი 94.4%-ზე მეტ წარმატებას აღწევს რეალურ სამყაროში საგულდაგულოდ შერჩეულ საორიენტაციო მონაცემთა ბაზაში და დადასტურდა, რომ შეუძლია „აუქმოს ადამიანის ჩართულობა“ CAPTCHA-ით დაცულ განვითარებად ნავიგაციაში. Dark Net Marketplace, ავტომატურად გადაჭრის CAPTCHA გამოწვევებს მაქსიმუმ სამი მცდელობით.

არქიტექტურა DW-GAN-ისთვის. წყარო: https://arxiv.org/pdf/2201.02799.pdf

სამუშაო პროცესი DW-GAN-ისთვის. წყარო: https://arxiv.org/pdf/2201.02799.pdf

ავტორები ამტკიცებენ, რომ მათი მიდგომა წარმოადგენს გარღვევას კიბერუსაფრთხოების მკვლევარებისთვის, რომლებსაც ტრადიციულად უწევთ ადამიანების მიწოდების ხარჯები CAPTCHA-ების ხელით გადასაჭრელად, ჩვეულებრივ, ხალხმრავალი პლატფორმების საშუალებით, როგორიცაა Amazon Mechanical Turk (AMT).

თუ სისტემას შეუძლია ადაპტირებადი და ელასტიური აღმოჩნდეს, ამან შესაძლოა გზა გაუხსნას უფრო ავტომატიზირებულ ზედამხედველობის სისტემებს და TOR ქსელების ინდექსირებას და ვებ სკრაპს. ეს საშუალებას მისცემს მასშტაბური და დიდი მოცულობის ანალიზს, ასევე კიბერუსაფრთხოების ახალი მიდგომებისა და ტექნიკის შემუშავებას, რომლებიც დღემდე შეფერხებულია CAPTCHA ფაიერვოლებით.

ის ქაღალდი სახელდება ბნელ ვებ ტექსტზე დაფუძნებული CAPTCHA-ს წინააღმდეგობა გენერაციული წინააღმდეგობრივი სწავლებით პროაქტიული კიბერ საფრთხის დაზვერვისთვის, და მოდის არიზონას უნივერსიტეტის, სამხრეთ ფლორიდის უნივერსიტეტისა და საქართველოს უნივერსიტეტის მკვლევარებისგან.

შედეგები

მას შემდეგ, რაც სისტემა - სახელწოდებით Dark Web-GAN (DW-GAN, ხელმისაწვდომია GitHub-ზე) – როგორც ჩანს, ბევრად უფრო ეფექტურია, ვიდრე მისი წინამორბედები, არსებობს შესაძლებლობა, რომ ის გამოიყენებოდეს როგორც ზოგადი მეთოდი CAPTCHA (ჩვეულებრივ ნაკლებად რთული) მასალის დასაძლევად სტანდარტულ ვებსაიტზე, ამ კონკრეტულ განხორციელებაში ან საფუძველზე. ზოგადი პრინციპები, რომლებსაც ახალი ნაშრომი ასახავს. თუმცა, GitHub-ზე შეზღუდული მეხსიერების გამო, ამჟამად აუცილებელია დაუკავშირდეთ წამყვან ავტორს ნინგ ჟანგს, რათა მიიღოთ ფრეიმორთან დაკავშირებული მონაცემები.

იმის გამო, რომ DW-GAN-ს აქვს "პოზიტიური" მისია CAPTCHA-ების გატეხვისთვის (ისევე, როგორც თავად TOR-ს თავდაპირველად ჰქონდა პოზიტიური მისია სამხედრო კომუნიკაციების და, მოგვიანებით, ჟურნალისტების დასაცავად), და რადგან CAPTCHA არის როგორც ლეგიტიმური დაცვა (ხშირად და საკამათო. გამოიყენება ყოვლისმომცველი CDN გიგანტის CloudFlare) და არალეგიტიმური ბნელი ვებ ბაზრების საყვარელი ინსტრუმენტის მიერ, მიდგომა, სავარაუდოდ, არის „გათანაბრების“ ტექნოლოგია.

თავად ავტორები აღიარებენ, რომ DW-GAN-ს უფრო ფართო გამოყენება აქვს:

„[მიუხედავად იმისა, რომ] ეს კვლევა ძირითადად ფოკუსირებულია მუქი ვებ CAPTCHA-ზე, როგორც უფრო რთულ პრობლემაზე, ამ კვლევაში შემოთავაზებული მეთოდი, სავარაუდოდ, გამოყენებული იქნება სხვა ტიპის CAPTCHA-სთვის, ზოგადის დაკარგვის გარეშე“.

სავარაუდოდ, DW-GAN, ან მსგავსი სისტემა, უნდა გახდეს ფართოდ და აშკარად გავრცელებული, რათა აიძულოს ბნელ ვებ ბაზრებს ეძიონ ნაკლები მანქანით მოგვარებული გადაწყვეტილებები, ან ყოველ შემთხვევაში, პერიოდულად განავითარონ CAPTCHA კონფიგურაციები, „ცივი ომის“ სცენარი.

მოტივაცია

როგორც ნაშრომი აღნიშნავს, ბნელი ვებ არის ჰაკერული დაზვერვის ძირითადი შრიფტი, რომელიც დაკავშირებულია კიბერ შეტევებთან, რომლებიც სავარაუდო 10 წლისთვის გლობალურ ეკონომიკას $2025 ტრილიონი აშშ დოლარი დაუჯდება. ამიტომ ხახვის ქსელები რჩება შედარებით უსაფრთხო გარემო უკანონო ბნელი ქსელისთვის, რომელსაც შეუძლია საზღვრების მოგერიება სხვადასხვა მეთოდით, მათ შორის სესიის დროის ამოწურვის, ქუქიების და მომხმარებლის ავთენტიფიკაციის ჩათვლით.

ორი ტიპის CAPTCHA, ორივე იყენებს დამაბნეველ ფონს და დახრილ ასოებს, რათა ისინი ნაკლებად იკითხებოდეს მანქანაში.

ორი ტიპის CAPTCHA, ორივე იყენებს დამაბნეველ ფონს და დახრილ ასოებს, რათა ისინი ნაკლებად იკითხებოდეს მანქანაში.

თუმცა, ავტორები აკვირდებიან, რომ არცერთი ეს დაბრკოლება არ არის ისეთი დიდი, როგორც CAPTCHA-ების ტრანში, რომელიც ხაზს უსვამს დათვალიერების გამოცდილებას „სენსიტიურ“ საზოგადოებაში:

„მიუხედავად იმისა, რომ ამ ზომების უმეტესი ნაწილი შეიძლება ეფექტურად იქნას აცილებული მცოცავი პროგრამაში ავტომატური მცოცავი ზომების განხორციელებით, CAPTCHA არის ყველაზე შემაფერხებელი ანტი-მცოცავი ღონისძიება ბნელ ქსელში, რომლის გვერდის ავლა შეუძლებელია მაღალი შემეცნებითი შესაძლებლობების გამო, რომლებიც ხშირად არ არის ავტომატიზირებული. ხელსაწყოები'

ტექსტზე დაფუძნებული CAPTCHA არ არის ერთადერთი ხელმისაწვდომი ვარიანტი; ბევრი ჩვენგანისთვის ნაცნობი ვარიანტებია, რომლებიც მომხმარებელს უწევს ვიდეოს, აუდიოს და განსაკუთრებით სურათების ინტერპრეტაციას. მიუხედავად ამისა, როგორც ავტორები აღნიშნავენ, ტექსტზე დაფუძნებული CAPTCHA არის ამჟამად არჩევანის გამოწვევაა ბნელი ვებ ბაზრებისთვის და ბუნებრივი საწყისი ადგილი, რათა TOR ქსელები უფრო მგრძნობიარე გახდეს მანქანური ანალიზისთვის.

არქიტექტურა

მიუხედავად იმისა, რომ ჩინეთის ჩრდილო-დასავლეთის უნივერსიტეტის წინა მიდგომა გამოიყენა Generative Adversarial Networks CAPTCHA პლატფორმებიდან ფუნქციების შაბლონების გამოსატანად, ახალი ნაშრომის ავტორები აღნიშნავენ, რომ ეს მეთოდი ეყრდნობა რასტერიზებული სურათის ინტერპრეტაციას და არა გამოწვევაში აღიარებული ასოების უფრო ღრმა გამოკვლევას. ; და რომ DW-GAN-ის ეფექტურობაზე გავლენას არ ახდენს უაზრო სიტყვების (და რიცხვების) ცვლადი სიგრძე, რომლებიც ჩვეულებრივ გვხვდება ბნელ ვებ CAPTCHA-ებში.

DW-GAN იყენებს ოთხსაფეხურიან მილსადენს: ჯერ სურათი გადაღებულია და შემდეგ მიეწოდება ფონის დენოიზირების მოდულს, რომელიც იყენებს GAN-ს, რომელიც გაწვრთნილია ანოტირებულ CAPTCHA ნიმუშებზე და, შესაბამისად, შეუძლია განასხვავოს ასოები აშლილი ფონისგან. ისვენებენ. ამოღებული ასოები შემდგომ იფილტრება GAN-ზე დაფუძნებული ამოღების შემდეგ დარჩენილი ხმაურისგან.

შემდეგ, სეგმენტაცია ხორციელდება ამოღებულ ტექსტზე, რომელიც შემდეგ იშლება, როგორც შემადგენელი სიმბოლოები, კონტურის გამოვლენის ალგორითმების გამოყენებით.

სიმბოლოების სეგმენტაცია იზოლირებს პიქსელების ჯგუფს და ცდილობს ამოცნობას საზღვრების მიკვლევით.

სიმბოლოების სეგმენტაცია იზოლირებს პიქსელების ჯგუფს და ცდილობს ამოცნობას საზღვრების მიკვლევით.

დაბოლოს, პერსონაჟების "გამოცნობილი" სეგმენტები ექვემდებარება სიმბოლოების ამოცნობას კონვოლუციური ნერვული ქსელის (CNN) საშუალებით.

ზოგჯერ სიმბოლოები შეიძლება გადაფარონ, ჰიპერკერნინგი, რომელიც სპეციალურად შექმნილია მანქანების სისტემების მოსატყუებლად. ამიტომ DW-GAN იყენებს ინტერვალზე დაფუძნებულ სეგმენტაციას საზღვრების გასაძლიერებლად და იზოლირებისთვის, სიმბოლოების ეფექტურად გამიჯვნის მიზნით. ვინაიდან სიტყვები, როგორც წესი, უაზროა, არ არსებობს სემანტიკური კონტექსტი ამ პროცესში დასახმარებლად.

შედეგები

DW-GAN ტესტირება ჩატარდა CAPTCHA სურათებზე სამი მრავალფეროვანი ბნელი ვებ მონაცემთა ნაკრებიდან, ასევე პოპულარული CAPTCHA სინთეზატორიდან. ბნელი ბაზრები, საიდანაც სურათები წარმოიშვა, მოიცავდა ორ კარდინგის მაღაზიას, Rescator-1 და Rescator-2, და რომანს მაშინდელი განვითარებადი ბაზრიდან, სახელწოდებით Yellow Brick (რომელიც იყო იტყობინება რომელიც მოგვიანებით გაუჩინარდა DarkMarket-ის წაშლის კვალდაკვალ).

აიღეთ CAPTCHA სამი მონაცემთა ნაკრებიდან, ასევე ღია კოდის CAPTCHA სინთეზატორიდან.

აიღეთ CAPTCHA სამი მონაცემთა ნაკრებიდან, ასევე ღია კოდის CAPTCHA სინთეზატორიდან.

ავტორების თქმით, ტესტირებაში გამოყენებული მონაცემები რეკომენდირებული იყო კიბერ საფრთხის დაზვერვის (CTI) ექსპერტების მიერ, მათი ფართო გავრცელების საფუძველზე ბნელ ქსელში.

თითოეული მონაცემთა ნაკრების ტესტირება მოიცავდა TOR-ისკენ მიმართული ობობის შემუშავებას, რომელსაც დაევალა 500 CAPTCHA სურათის შეგროვება, რომლებიც შემდგომში ეტიკეტირებული და კურირებული იქნა CTI მრჩევლების მიერ.

შეიმუშავეს სამი ექსპერიმენტი. პირველმა შეაფასა DW-GAN-ის ზოგადი CAPTCHA დამარცხების მოქმედება სტანდარტული SOTA მეთოდების მიმართ. კონკურენტი მეთოდები იყო სურათის დონის CNN წინასწარი დამუშავებით, რომელიც მოიცავს რუხი ფერის კონვერტაციას, ნორმალიზებას და გაუსიან გამარტივებას, ერთობლივი აკადემიური ძალისხმევა ირანისა და დიდი ბრიტანეთისგან; პერსონაჟის დონის CNN ინტერვალზე დაფუძნებული სეგმენტირებით; და სურათის დონის CNN, დიდი ბრიტანეთის ოქსფორდის უნივერსიტეტიდან.

DW-GAN-ის შედეგები პირველი ექსპერიმენტისთვის, წინა თანამედროვე მიდგომებთან შედარებით.

DW-GAN-ის შედეგები პირველი ექსპერიმენტისთვის, წინა თანამედროვე მიდგომებთან შედარებით.

მკვლევარებმა დაადგინეს, რომ DW-GAN-მა შეძლო წინა შედეგების გაუმჯობესება მთლიანობაში (იხ. ცხრილი ზემოთ).

მეორე ექსპერიმენტი იყო აბლაციის კვლევა, სადაც აქტიური ჩარჩოს სხვადასხვა კომპონენტები ამოღებულია ან გამორთულია, რათა შემცირდეს შესაძლებლობა, რომ გარე ან მეორადი ფაქტორები გავლენას ახდენენ შედეგებზე.

აბლაციის კვლევის შედეგები.

აბლაციის კვლევის შედეგები.

აქაც ავტორებმა დაადგინეს, რომ არქიტექტურის ძირითადი მონაკვეთების გამორთვა ამცირებს DW-GAN-ის მუშაობას თითქმის ყველა შემთხვევაში (იხ. ცხრილი ზემოთ).

მესამე ოფლაინ ექსპერიმენტმა შეადარა DW-GAN-ის ეფექტურობა გამოსახულებაზე დაფუძნებული საორიენტაციო მეთოდისა და სიმბოლოების დონის ორი მეთოდის წინააღმდეგ, რათა განესაზღვრა, რამდენად ახდენდა გავლენას DW-GAN-ის სიმბოლოების შეფასება მის სარგებლობაზე იმ შემთხვევებში, როდესაც უაზრო CAPTCHA სიტყვა იყო თვითნებური. (და არა წინასწარ განსაზღვრული) სიგრძე. ამ შემთხვევებში, CAPTCHA სიგრძე მერყეობდა 4-დან 7 სიმბოლომდე.

ამ ექსპერიმენტისთვის ავტორებმა გამოიყენეს 50,000 CAPTCHA გამოსახულების სასწავლო ნაკრები, 5,000 დაჯავშნილი ტესტირებისთვის ტიპიური 90/10 გაყოფით.

აქაც DW-GAN-მა აჯობა წინა მიდგომებს:

ცოცხალი ტესტი ბნელ ქსელში

საბოლოოდ, DW-GAN განლაგდა (მაშინ ცოცხალი) ყვითელი აგურის მუქი ქსელის ბაზრის წინააღმდეგ. ამ ტესტისთვის შემუშავდა Tor ვებ ბრაუზერი, რომელიც აერთიანებდა DW-GAN-ს მის დათვალიერების შესაძლებლობებში, ავტომატურად აანალიზებს CAPTCHA გამოწვევებს.

ამ სცენარში, CAPTCHA წარდგენილი იყო ავტომატური მცოცავისთვის, საშუალოდ ყოველი 15 HTTP მოთხოვნისთვის. მცოცავმა შეძლო ყვითელ აგურში გასაყიდი 1,831 უკანონო ნივთის ინდექსირება, მათ შორის ნარკოტიკებთან დაკავშირებული 1,223 პროდუქტი (ოპიოიდების და კოკაინის ჩათვლით), 44 ჰაკერული პაკეტი და ცხრა ყალბი დოკუმენტის სკანირება. მთლიანობაში სისტემამ შეძლო კიბერუსაფრთხოებასთან დაკავშირებული 286 ელემენტის იდენტიფიცირება, მათ შორის 102 მოპარული საკრედიტო ბარათი და 131 მოპარული ანგარიშის შესვლა.

ავტორები აცხადებენ, რომ DW-GAN-ს ყველა შემთხვევაში შეეძლო CAPTCHA-ის გატეხვა სამ ან ნაკლებ მცდელობაში და რომ 76 წუთი დამუშავების დრო იყო საჭირო იმისათვის, რომ CAPTCHA-ები იცავდნენ 1,831-ვე პროდუქტს. არ იყო საჭირო ადამიანების ჩარევა და არ მომხდარა საბოლოო წერტილის წარუმატებლობის შემთხვევები.

ავტორები აღნიშნავენ გამოწვევების გაჩენას, რომლებიც გვთავაზობენ დახვეწილობის უფრო მაღალ დონეს, ვიდრე ტექსტური CAPTCHA, მათ შორის ზოგიერთი, რომელიც, როგორც ჩანს, ტურინგის ტესტებზეა დაფუძნებული, და აკვირდებიან, რომ DW-GAN შეიძლება გაუმჯობესდეს ამ ახალი ტენდენციების დასაკმაყოფილებლად, როდესაც ისინი პოპულარული გახდებიან.

 

*სრულიად ავტომატური სახალხო Turing Test ვუთხრა კომპიუტერები და ადამიანებმა გარდა

პირველად გამოქვეყნდა 11 წლის 2022 იანვარს.