კიბერ უსაფრთხოება

მანქანური სწავლების მეთოდი რეკლამების დაბლოკვის მიზნით, ადგილობრივი ბრაუზერის ქცევის საფუძველზე

გამოქვეყნებულია

3 წლის წინ

ივლისი 26, 2021

მკვლევარებმა შვეიცარიაში და აშშ-ში შეიმუშავეს ახალი მანქანური სწავლის მიდგომა ვებსაიტის სარეკლამო მასალის აღმოსაჩენად, რომელიც ეფუძნება ბრაუზერთან ამ მასალის ურთიერთქმედების გზას და არა მისი შინაარსის ან ქსელის ქცევის ანალიზს - ორი მიდგომა, რომელიც არაეფექტური აღმოჩნდა გრძელვადიანი პერსპექტივა CNAME-ის დაფარვის ფონზე (იხ. ქვემოთ).

Dubbed ვებგრაფი, ჩარჩო იყენებს ა გრაფაში- AI-ზე დაფუძნებული რეკლამის დაბლოკვის მიდგომა სარეკლამო კონტენტის გამოსავლენად ქსელური რეკლამის ისეთ არსებით აქტივობებზე კონცენტრირებით - ტელემეტრიის მცდელობების და ადგილობრივი ბრაუზერის შენახვის ჩათვლით - რომ ერთადერთი ეფექტური მორიდების ტექნიკა იქნება ამ აქტივობების შეუსრულებლობა.

მიუხედავად იმისა, რომ წინა მიდგომებმა მიაღწიეს ოდნავ უფრო მაღალ გამოვლენის სიჩქარეს, ვიდრე WebGraph, ყველა მათგანი მიდრეკილია ავარიული ტექნიკისკენ, ხოლო WebGraph-ს შეუძლია მიუახლოვდეს 100% მთლიანობას მოწინააღმდეგე პასუხების წინაშე, მათ შორის უფრო დახვეწილი ჰიპოთეზირებული პასუხების ჩათვლით, რომლებიც შეიძლება წარმოიშვას ამის ფონზე. რეკლამის დაბლოკვის ახალი მეთოდი.

ნაშრომს უძღვება ორი მკვლევარი შვეიცარიის ფედერალური ტექნოლოგიური ინსტიტუტიდან, კალიფორნიის უნივერსიტეტის დევისისა და აიოვას უნივერსიტეტის მკვლევარებთან ერთად.

AdGraph-ის მიღმა

ნამუშევარი არის განვითარება 2020 წლის კვლევის ინიციატივიდან Brave ბრაუზერთან, სახელწოდებით AdGraph, რომელშიც წარმოდგენილი იყო ახალი ნაშრომის ორი მკვლევარი.

AdGraph-ის და WebGraph-ის შედარება, წერტილოვანი ხაზებით, რომლებიც წარმოადგენს წინა მიდგომის არქიტექტურულ სიახლეებს. წყარო: https://arxiv.org/pdf/2107.11309.pdf

AdGraph ეყრდნობა (რეკლამას) შინაარსს მახასიათებლები, მიღებული URL-ების ანალიზიდან, როგორც კომერციული მასალის აღმოჩენის გასაღები. თუმცა, ეს მახასიათებლები წარმოადგენს მარცხის ერთ პოტენციურ წერტილს მოწინააღმდეგეებისთვის, რომლებიც ცდილობენ დაადგინონ რეკლამის აღმოჩენის სისტემების არსებობა და ჩამოაყალიბონ მეთოდები მათი თავიდან ასაცილებლად. ეს დამოკიდებულება შინაარსზე თვისებები AdGraph-ს არსებითად აქცევს ხელით კურირებულ ფილტრების სიებზე დაფუძნებული მიდგომების მექანიზებულ ვერსიას, იზიარებს მათ სისუსტეებს.

CNAME Cloaking

მასალა, რომელიც წარმოიქმნება ვებსაიტის საკუთარი დომენიდან, მიეკუთვნება „სანდო“ კატეგორიას, რამდენადაც თავად დომენი სანდოა. მაღალი ავტორიტეტის ვებსაიტისთვის, არის ღირებული პრემია სარეკლამო კამპანიების გაშვებაში, რომლებიც შეიცავს ამ მასალას გამოჩნდება მასპინძლობს თავად ავტორიტეტულ საიტს, რადგან ასეთი რეკლამა იმუნურია ფილტრზე დაფუძნებული რეკლამის დაბლოკვის სიებისგან და თუნდაც 2020 წლის AdGraph მიდგომისგან.

თუმცა, მორგებული კამპანიები ძნელია მოლაპარაკება, ძვირადღირებული განხორციელება და ეწინააღმდეგება ბოლო 25 წლის განმავლობაში შემუშავებული ქსელური სარეკლამო მოდელის ძირითად პრინციპებს, სადაც მესამე მხარის პლატფორმა ათავსებს კოდს პირდაპირ მასპინძელ საიტზე, ჩვეულებრივ „აუქციონზე“. სარეკლამო სლოტი მიკროწამებში საკვანძო სიტყვების სასურველობაზე და სხვადასხვა სხვა ფაქტორებზე დაყრდნობით.

მას შემდეგ, რაც თითქმის ყველა რეკლამის დაბლოკვის სისტემა კლავს მესამე მხარის მასალას ვებ გვერდებზე (ანუ ელემენტები, რომლებიც განთავსებულია „უცხო“ დომენებზე), რეკლამის განმთავსებლები ებრძვიან. CNAME cloaking ტექნიკა ბოლო ხუთი წლის განმავლობაში. CNAME cloaking ატყუებს ტრეკერებს და სჯერათ, რომ მასპინძელი საიტის ქვედომენი (მაგალითად, information.example.com ნაცვლად example.com) არის საიტის ნამდვილი დანამატი, როდესაც ფაქტია, რომ ეს არის პროქსი რეკლამის სერვისის მექანიზმი, რომელიც მოწყობილია მესამე მხარის რეკლამით. პროვაიდერები.

2021 წლის მარტში ერთი კვლევა გამოვლინდა რომ CNAME ფარული ინციდენტები გაიზარდა 22%-ით 2018-დან 2020 წლამდე, Tranco-ს ტოპ 10 ვებსაიტის თითქმის 10,000%-მა გამოიყენა მინიმუმ ერთი CNAME-ზე დაფუძნებული ტრეკერი 2020 წლის ოქტომბრისთვის.

დისკონტირება ნდობა URL-ებში

CNAME მოტყუების ტექნიკა მოიცავს URL-ების მანიპულირებას, რომლებიც მონაწილეობენ რეკლამის განთავსების პროცესში. ნებისმიერი რეკლამის დაბლოკვის სისტემა, რომელიც ენდობა URL-ის ჯაჭვს, ექვემდებარება მანიპულირებას და თავის არიდებას. ამიტომ WebGraph შემთხვევით ცვლის მიწოდებულ URL-ებს პროცესის განმავლობაში (მათ შორის, მოთხოვნის სტრიქონები, პარამეტრების რაოდენობა და პარამეტრების სახელები), ეძებს გამოყენების ნიმუშებს და არა კონკრეტულ აკრძალულ ან მიღებულ URL-ებს.

სისტემამ უნდა განიხილოს ორი საერთო კონფიგურაცია რეკლამის სერვისის არქიტექტურაში: ერთი, სადაც მასპინძელი უშუალოდ აწყობს რეკლამის განმთავსებელს; და მეორე (უფრო გავრცელებული) სცენარი, როდესაც რეკლამის განმთავსებელი უზრუნველყოფს შეზღუდულ თანამშრომლობას მისი კლიენტების მანიპულაციისგან თავის დაცვის აუცილებლობის გამო.

სიაზე დაფუძნებულ მიდგომებში, მათ შორის AdGraph-ში, რეკლამის სერვისის სისტემის მიერ URL-ების წარმატებული მანიპულირება თითქმის სრული გამარჯვებაა, რეკლამას „ლოკალური“ წარმოშობის მინიჭება და, შესაბამისად, სარეკლამო შინაარსის სისტემატური დაბლოკვის თითქმის ყველა მცდელობის თავიდან აცილება.

რა დარჩა ხელმოწერის გზით? WebGraph ყურადღებას ამახვილებს სარეკლამო სისტემების საჭიროებაზე ინფორმაციის გაზიარების სხვადასხვა ნახევრად ბუნდოვანი საშუალებებით, როგორიცაა ვებ ტრეკერები, კომუნიკაციები iframes-სა და ვებ „მსმენელებს“ შორის, რომლებიც მუდმივად ამოწმებენ მასპინძელი გვერდის ცოცხალ მდგომარეობას აქტივობისთვის, რომელიც მნიშვნელობის მქონეა. ვებ-მეტრიკის რეკლამა. ასეთი აქტივობა მოიცავს ცვლადების შენახვას ქუქიებში ან HTML5-ზე დაფუძნებულ ადგილობრივ მეხსიერებაში.

WebGraph იყენებს Mozilla-ს ვებ კონფიდენციალურობის გაზომვას (OpenWPM Framework) Firefox-ში ასეთი აქტივობის თვალყურის დევნებისთვის. ის იჭერს JavaScript ფენის ყველა აქტივობას და ქსელის ყველა გამავალ მოთხოვნას და მათ პასუხებს ქსელის ფენაში.

ეს დამატებითი გამოკვლევა შემოაქვს ახალ „ინფორმაციის ნაკადის“ კიდეებს გრაფიკულ ქსელში ადრე შემოთავაზებული AdGraph-ის მიერ, რაც საშუალებას აძლევს WebGraph-ს მკაფიოდ ჩაიწეროს და რაოდენობრივად დააფიქსიროს ინფორმაციის გაზიარების შაბლონები ადგილობრივ აქტივობაზე დაყრდნობით და ტელემეტრიის ან სხვა სახის შიდა კომუნიკაციების წარმოშობისა და დანიშნულების URL-ების მიუხედავად რეკლამის სერვისის სისტემები.

შედეგები

მკვლევარებმა გამოიყენეს OpenWPM-ის გაფართოებული ვერსია სისტემატიურად დასათვალიერებლად Alexa-ს ტოპ 10,000 საიტიდან აღებული 100,000 ვებსაიტის და 9,000k-1k შორის რანჟირებული 100 საიტის შემთხვევითი ნიმუშის დასადგენად, და ინახავდნენ მათ გრაფიკულ წარმოდგენებს, სანამ შედეგებს გადასცემდნენ გადაწყვეტილების ხეების კლასიფიკატორს AdGraph მოდელის მიხედვით. ორიგინალური დიზაინი და პოპულარული სარეკლამო ფილტრების სიების გამოყენება, როგორც საფუძველი. ამ გზით, შეიქმნა მონაცემთა ბაზა ძირითადი მოდელის მომზადებისთვის.

სისტემამ მიაღწია AdGraph-თან შედარებით შედეგს, 92.33% სიზუსტით. თუმცა, ახალი სისტემის მდგრადობა საპირისპირო წინააღმდეგობის მიმართ იზრდება AdGraph-ის თითქმის სრული წარუმატებლობის მაჩვენებლიდან მხოლოდ 8%-მდე მგრძნობელობამდე WebGraph-ის პირობებში.

მომავლის მიმართულებები

ნაშრომი ამტკიცებს, რომ სარეკლამო ქსელებს სჭირდებათ თავიანთი სისტემების ხელახალი არქიტექტურა, რათა თავიდან აიცილონ გამოვლენა WebGraph-ის მიდგომის პირობებში და ვარაუდობენ, რომ ასეთი ცვლილებები საჭიროებს ამჟამად ფრთხილი ნდობის ურთიერთობის გადახედვას მესამე მხარის რეკლამის განმთავსებლებსა და მასპინძლობს საიტებს, რომლებზეც გამოჩნდება მათი რეკლამები.

ნაშრომი ასევე აღნიშნავს, რომ WebGraph არ ითვალისწინებს მოქალაქეობის არმქონე თვალთვალის ტექნიკას, როგორიცაა ბრაუზერის თითის ანაბეჭდი (კანვას ელემენტის მეშვეობით), რომელიც იყენებს API-ებს, რომლებსაც სისტემა ამჟამად არ აკონტროლებს. მკვლევარები ვარაუდობენ, რომ WebGraph შეიძლება გაფართოვდეს მომავალში, რათა გაითვალისწინოს აგრეთვე ამ ტიპის ურთიერთქმედება და ადგილობრივი შენახვის აღმნიშვნელები.

დაკავშირებული თემები:სარეკლამო კვლევის

შემდეგი

მოწყვლადობის მართვის საფუძვლები

არ გამოტოვოთ

ინფორმაცია ვებ აპლიკაციების Firewall Market-ზე

მარტინ ანდერსონი

მწერალი მანქანათმცოდნეობის, ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ.
პირადი საიტი: მარტინადერსონი.აი
კონტაქტი: [ელ.ფოსტით დაცულია]
Twitter: @manders_ai

Unite.AI

მანქანური სწავლების მეთოდი რეკლამების დაბლოკვის მიზნით, ადგილობრივი ბრაუზერის ქცევის საფუძველზე

კიბერ უსაფრთხოება