Liity verkostomme!

Kyberturvallisuus

Adblock-eston torjunta koneoppimisen avulla

mm

Julkaistu

 on

Uusi yhdysvaltalainen ja pakistanilainen tutkimusaloite on kehittänyt koneoppimiseen perustuvan menetelmän sellaisten verkkosivustojen tunnistamiseen, jotka vastustavat mainosten estoa ja muita yksityisyyttä säilyttäviä tekniikoita, sekä purkamaan tekniikoita, joita kyseiset sivustot käyttävät mainosten alkuperän "sekoittamiseen" ja todellista sisältöä, jotta sisältö ei ole katseltavissa, jos mainokset estetään.

Havainnoista kehitetyt uudet mainosten estotekniikat voisivat tehdä lopun tapauksista, joissa artikkelin keskeinen sisältö ei ole näkyvissä, kun mainoksia estetään, mikä tarjoaa automaattisen menetelmän mainos- ja komentosarjaresurssien erottamiseen sen sijaan, että suosittujen mainosten estokehysten nykyisin käyttämä manuaalinen lähestymistapa olisi mahdollista. .

Kirjoittajat suorittivat laajan tutkimuksen "sekoitetuista resursseista" 100,000 17 verkkosivustolla ja havaitsivat, että 48 % verkkotunnuksista, 6 % isäntänimistä, 9 % komentosarjoista ja XNUMX % sisällön toimitusmenetelmistä yhdistävät tarkoituksella seuranta- (esim. mainonta) toimintoja. prosesseilla, jotka tuottavat todellista sisältöä. Tällaisissa tapauksissa artikkelin sisältö katoaa käyttäjiltä, ​​jotka käyttävät mainosten esto- tai seurantaohjelmistoja, jolloin käyttäjät pakotetaan poistamaan nämä toimet käytöstä nähdäkseen sisällön.

Useimmissa tapauksissa tämä ei tarkoita vain sitä, että mainokset ovat jälleen näkyvissä, vaan myös sitä, että käyttäjät pakotetaan takaisin verkkotunnusten välisiin seurantajärjestelmiin, jotka ovat kiihottuneita tietosuojakampanjoita viime vuosina.

Uusi tutkimus tarjoaa järjestelmän, joka pystyy erottamaan näiden "sekoitettujen" verkkoresurssien komponentit 98 %:n tarkkuudella, jolloin mainosten esto- ja seurantaratkaisut voivat erottaa streamit ohjelmistojen myöhemmissä iteraatioissa ja mahdollistaa jälleen kerran. pääsy sisältöön mainostenestoisilla sivuilla.

- uusi paperi on otsikko TrackerSift: Sekalaisten seurannan ja toiminnallisten verkkoresurssien purkaminen, ja se tulee Virginia Techin ja UoC Davisin tutkijoilta Yhdysvalloista sekä FAST NUCESin ja Lahoren johtamistieteen yliopiston (LUMS) tutkijoilta Pakistanista.

Adblock Wars

Mainostenestojärjestelmät luottavat yleensä siihen, että verkkosivun mainossisällön on oltava peräisin tietyiltä, ​​omistetuilta verkkotunnuksilta – yleensä adtech-alustoilta, joilla on verkkotunnuksia ja/tai IP-osoitteita, jotka voidaan luokitella "kolmannen osapuolen mainoksiksi", mikä mahdollistaa estoluettelot, jotka eivät renderöi sisältöä näistä lähteistä verkkosivun sisällä.

Lisäksi estoluetteloihin voidaan lisätä mainoskohtaisten resurssien, kuten komentosarjojen, nimiä, jotta ne eivät toimi edes tapauksissa, joissa niiden alkuperä on tahallisesti peitetty. Tällaisten systemaattisesti luotujen komentosarjojen nimeämisskeemat ovat usein johdonmukaisia, mikä mahdollistaa tunnistuksen ja estoluettelon.

Koska Web-sivulla oleva mainos valitaan usein sivun lataamisen viimeisten millisekuntien aikana dynaamiset huutokauppaprosessit (sivulta löytyneiden avainsanojen, kampanjan kohdemittareiden ja monien muiden tekijöiden perusteella) ei ole käytännöllistä tallentaa mainoksia isäntäverkkotunnukseen, mikä teoriassa estäisi mainosten estäjiä piilottamasta kaupallista sisältöä.

Verkkosivustot taistelevat yhä useammin mainosten estämistä vastaan CNAME-naamiointi – aidon verkkotunnuksen aliverkkotunnusten käyttö mainospalvelimien välityspalvelimena (eli content.example.com näyttää mainoksia osoitteelle example.com, vaikka aliverkkotunnuksella ei ole muuta tarkoitusta kuin mainosten näyttäminen, eikä sitä ylläpidä isäntäsivusto, vaan pikemminkin sen mainostajat).

Tämä menetelmä voidaan kuitenkin kvantifioida ja estää erottamalla aliverkkotunnuksen sisältö mainoksina tai käyttämällä verkkoanalyysitekniikoita aliverkkotunnuksen poikkeavan ja epäsäännöllisen suhteen tunnistamiseksi ydinverkkotunnukseen.

TrackerSift

Kirjoittajien artikkelissa ehdotetaan TrackerSiftiä, alustaa, joka analysoi verkkosivustojen hakemia verkkoresursseja ja luokittelee sitten sekaresurssit uudelleen "sisältöön" ja "mainontaan". Yleisimmällä analyysitasolla TrackerSift tallentaa perusverkoston resursseja koskevat pyynnöt, kuten sisällönjakeluverkostosta (CDN) tai mainosalustasta haetun mainossisällön. mutta sitten se porautuu haettujen resurssien sisältöön, suorittaa kooditason analyysin ja erottaa erityyppisten koodikutsujen ja proseduurien toiminnot.

TrackerSiftin analyysihierarkia resurssien seurannasta (punainen) tarvittaviin toiminnallisiin resursseihin (vihreä). Sekaresurssit, jotka todennäköisesti johtavat sisällön hämärtymiseen (keltainen), analysoidaan tarkemmin. Lähde: https://arxiv.org/pdf/2108.13923.pdf

TrackerSiftin analyysihierarkia resurssien seurannasta (punainen) tarvittaviin toiminnallisiin resursseihin (vihreä). Sekaresurssit, jotka todennäköisesti johtavat sisällön hämärtymiseen (keltainen), analysoidaan tarkemmin. Lähde: https://arxiv.org/pdf/2108.13923.pdf

Päiväys

TrackerSiftiä käyttävän tietojoukon saamiseksi kirjoittajat troolasivat 100,000 2018 satunnaisesti valittua verkkosivustoa vuodelta XNUMX. Trancon top-miljoonien lista. Seleeni Tehtävän suorittamiseen käytettiin selainautomaatiota yhdessä Google Chromen kanssa.

Verkkoindeksointiverkko perustui Pohjois-Amerikan yliopistoihin, ja se käsitti 13-solmun klusterin, jossa oli 112 ydintä, 52 teratavua tallennustilaa ja 823 gigatavua operatiivista RAM-muistia koko järjestelmässä.

Jokainen solmu perustui Docker-säilöön ja omistettu indeksoimaan osajoukko 100,000 XNUMX valitusta verkkosivusta, ohjelmalliset keskeytykset kestävyyden takaamiseksi ja kaikkien evästeiden ja tunnisteiden täydellinen poistaminen uutta verkkotunnusta ladattaessa, jotta aiemmat istunnot ja tilat eivät vaikuttaneet verkkotunnukseen. seuraavan verkkotunnuksen luettavuus.

Mixed Scripts

Tulokset osoittavat laajaa käyttöä skriptien niputtaminen, jossa mainosalustat ja sisältöisännät yhdistävät tarkoituksella sisältöön ja mainoksiin perustuvia komentosarjoja "uberscripteiksi", jotka estävät sisällön näyttämisen, jos ne estetään. Kirjoittajat huomauttavat esimerkiksi, että pressl.co palvelee web-skriptiä, joka on niputettu kautta Verkkopaketti JavaScript concatenator -alusta, joka sisältää Facebook-seurantapikselin sekä koodin, joka mahdollistaa todellisen sisällön renderöinnin.

Lisäksi julkaisussa todetaan, että useat verkkotunnukset ovat valmiita upottamaan komentosarjoja suoraan verkkosivujen koodiin, mikä tekee välttämättömäksi, että mainosten estokehykset käsittelevät komentosarjojen toimintoja sen sijaan, että ne yksinkertaisesti estävät skriptin latautumisen sen kolmannen koodin perusteella. puolueen lähde-URL-osoite.

Lokalisoimalla nämä menetelmät, polku on selkeä tällaisen koodin järjestelmälliselle jakamiselle sisältö- ja mainosluokkiin sekä sisällön näyttämisen mahdollista palauttaminen mainostenestoympäristöissä.

Vaikka olemassa olevat mainosten estoratkaisut, kuten NoScript, AdGuard, uBlock Origin ja Firefox Smartblock käyttävät korvausskriptejä, jotka hajottavat tällaiset yhdistetyt skriptit estettäväksi komponenttikomentosarjaksi, nämä riippuvat manuaalinen uudelleenkirjoitus käsikirjoituksia, mikä johtaa jatkuvaan kylmään sotaan estäjien ja jatkuvasti muuttuvien tekniikoiden välillä, jotka rikkovat ne. Sitä vastoin TrackerSift tarjoaa potentiaalisen ohjelmallisen menetelmän sekasisällön hajottamiseen.

 

Koneoppimisen kirjoittaja, ihmiskuvan synteesin asiantuntija. Entinen tutkimussisällön johtaja Metaphysic.ai:ssa.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai