քոթուկ Պայքար Adblock-Blocking With Machine Learning - Unite.AI
Միացեք մեզ

Cybersecurity- ը

Adblock-blocking-ի դեմ պայքար մեքենայական ուսուցման միջոցով

mm

Հրատարակված է

 on

ԱՄՆ-ի և Պակիստանի նոր հետազոտական ​​նախաձեռնությունը մշակել է մեքենայական ուսուցման վրա հիմնված մեթոդ՝ հայտնաբերելու կայքերը, որոնք դիմացկուն են գովազդի արգելափակմանը և գաղտնիությունը պահպանող այլ տեխնոլոգիաներին, ինչպես նաև քանդելու մեթոդները, որոնք օգտագործում են այդպիսի կայքերը՝ գովազդի ծագումը «խառնելու» համար: իրական բովանդակություն, որպեսզի բովանդակությունը տեսանելի չլինի, եթե գովազդն արգելափակված է:

Գովազդի արգելափակման նոր տեխնոլոգիաները, որոնք մշակվել են գտածոներից, կարող են վերջ դնել այնպիսի միջադեպերին, երբ հոդվածի կենտրոնական բովանդակությունը տեսանելի չէ, երբ գովազդն արգելափակված է, ապահովելով գովազդի և սցենարի ռեսուրսների առանձնացման ավտոմատացված մեթոդ, այլ ոչ թե ներկայումս օգտագործվող գովազդային արգելափակման հանրաճանաչ շրջանակները ձեռքով: .

Հեղինակները «խառը ռեսուրսների» լայնածավալ ուսումնասիրություն են անցկացրել 100,000 վեբկայքերի վրա՝ պարզելով, որ տիրույթների 17%-ը, հոսթ-անունների 48%-ը, սցենարների 6%-ը և բովանդակության առաքման մեթոդների 9%-ը միտումնավոր միախառնում են հետևելու (այսինքն՝ գովազդի) գործառույթները։ իրական բովանդակություն մատուցող գործընթացներով: Նման դեպքերում հոդվածի բովանդակությունը կվերանա այն օգտատերերի համար, ովքեր օգտագործում են գովազդը արգելափակող կամ հակահետևողական ծրագրակազմ՝ ստիպելով օգտվողին անջատել այդ միջոցները՝ բովանդակությունը դիտելու համար:

Շատ դեպքերում դա նշանակում է ոչ միայն, որ գովազդները կրկին տեսանելի կլինեն, այլ նաև, որ օգտատերերը ստիպված կլինեն վերադառնալ միջդոմենային հետևման համակարգեր, որոնք ունեն բորբոքված գաղտնիության քարոզիչներ Վերջին տարիներին.

Նոր հետազոտությունն առաջարկում է մի համակարգ, որն ի վիճակի է առանձնացնել այս «խառը» վեբ ռեսուրսների բաղադրիչները 98% ճշգրտությամբ՝ թույլ տալով գովազդային արգելափակման և հակահետագծման լուծումներին հնարավորություն տալ անջատել հոսքերը իրենց ծրագրաշարի հետագա կրկնություններում և ևս մեկ անգամ հնարավորություն տալ: բովանդակության հասանելիություն գովազդի արգելափակված էջերում:

The նոր թուղթ վերնագրված է TrackerSift. Խառը հետագծման և ֆունկցիոնալ վեբ ռեսուրսների վերացում, և գալիս է ԱՄՆ-ում գտնվող Virginia Tech-ի և UoC Davis-ի և Պակիստանի FAST NUCES-ի և Լահորի կառավարման գիտությունների համալսարանի (LUMS) հետազոտողների կողմից:

Adblock Wars

Գովազդի արգելափակման համակարգերը հիմնականում հիմնվում են վեբ-էջի գովազդային բովանդակության անհրաժեշտության վրա, որը ծագում է հատուկ, հատուկ տիրույթներից. սովորաբար adtech հարթակներ տիրույթի անուններով և/կամ IP հասցեներով, որոնք կարող են դասակարգվել որպես «երրորդ կողմի գովազդ», ինչը թույլ է տալիս զարգացնել արգելափակման ցուցակներ, որոնք վեբ էջի ներսում չեն ցուցադրի այդ ծագման բովանդակությունը:

Բացի այդ, գովազդին հատուկ ռեսուրսների անունները, ինչպիսիք են սկրիպտները, կարող են ավելացվել արգելափակման ցուցակներում, որպեսզի դրանք չաշխատեն նույնիսկ այն դեպքերում, երբ դրանց ծագումը միտումնավոր թաքցված է: Նման համակարգված ձևավորված սցենարների անվանման սխեմաները հաճախ հետևողական են, ինչը հնարավորություն է տալիս ճանաչել և արգելափակել ցուցակը:

Քանի որ վեբ էջում ներկայացված գովազդը հաճախ ընտրվում է էջի բեռնման վերջին միլիվայրկյանների ընթացքում՝ դինամիկ աճուրդային գործընթացներ (հիմնվելով էջում հայտնաբերված հիմնաբառերի, քարոզարշավի թիրախային չափումների և շատ այլ գործոնների վրա), հնարավոր չէ գովազդ պահել հյուրընկալող տիրույթում, ինչը տեսականորեն կխանգարի գովազդային արգելափակողներին թաքցնել առևտրային բովանդակությունը:

Ավելի ու ավելի շատ կայքերը պայքարում են գովազդի արգելափակման դեմ CNAME քողարկում – «authentic» տիրույթի ենթադոմեյնների օգտագործումը որպես պրոքսիներ գովազդային սերվերների համար (այսինքն՝ content.example.com-ը կծառայի ads example.com-ին, թեև ենթադոմեյնը չունի այլ նպատակ, քան գովազդներ մատուցելը, և չի պահպանվում հյուրընկալող կայքը, այլ ավելի շուտ դրա գովազդատուների կողմից):

Այնուամենայնիվ, այս մեթոդը կարող է քանակական գնահատվել և արգելափակվել՝ տարբերակելով ենթադոմեյնի բովանդակությունը որպես գովազդ կամ օգտագործելով ցանցային վերլուծության տեխնիկան՝ բացահայտելու ենթադոմեյնի անկանոն և անկանոն հարաբերությունները հիմնական տիրույթի հետ:

TrackerSift

Հեղինակների աշխատությունն առաջարկում է TrackerSift հարթակ՝ վերլուծելու ցանցային ռեսուրսները, որոնք առբերվում են կայքերից, այնուհետև խառը ռեսուրսները վերադասակարգվում են «բովանդակության» և «գովազդի» մեջ: Վերլուծության ամենաընդհանուր մակարդակում TrackerSift-ը գրանցում է հիմնական ցանցային հարցումները ռեսուրսների համար, ինչպես օրինակ՝ Բովանդակության առաքման ցանցից (CDN) կամ գովազդային հարթակից վերցված գովազդային բովանդակություն. բայց այնուհետև այն ուսումնասիրում է վերցված ռեսուրսների բովանդակությունը՝ կատարելով կոդի մակարդակի վերլուծություն և տարբերակելով տարբեր տեսակի կոդի կանչերի և ընթացակարգերի գործառույթները:

TrackerSift-ի վերլուծության հիերարխիան՝ ռեսուրսների հետևումից (կարմիր) մինչև անհրաժեշտ ֆունկցիոնալ ռեսուրսներ (կանաչ): Խառը ռեսուրսները, որոնք հավանաբար կհանգեցնեն բովանդակության մշուշման (դեղին) ենթարկվում են ավելի խորը վերլուծության: Աղբյուր՝ https://arxiv.org/pdf/2108.13923.pdf

TrackerSift-ի վերլուծության հիերարխիան՝ ռեսուրսների հետևումից (կարմիր) մինչև անհրաժեշտ ֆունկցիոնալ ռեսուրսներ (կանաչ): Խառը ռեսուրսները, որոնք հավանաբար կհանգեցնեն բովանդակության մշուշման (դեղին) ենթարկվում են ավելի խորը վերլուծության: Աղբյուր՝ https://arxiv.org/pdf/2108.13923.pdf

Ամսաթիվ

TrackerSift-ը սնուցող տվյալների շտեմարան ստանալու համար հեղինակները 100,000թ. Tranco-ի թոփ-միլիոնանոց ցուցակը. Selenium Առաջադրանքը կատարելու համար բրաուզերի ավտոմատացումն օգտագործվել է Google Chrome-ի հետ միասին:

Վեբ-սողացող ցանցը հիմնված էր Հյուսիսային Ամերիկայի համալսարանական կայքերի վրա, որը ներառում էր 13 հանգույցներից բաղկացած կլաստեր՝ 112 միջուկներով, 52 տերաբայթ պահեստով և 823 գիգաբայթ օպերատիվ RAM-ով ամբողջ համակարգի մեջ:

Յուրաքանչյուր հանգույց հիմնված էր Docker կոնտեյներով և նվիրված էր ընտրված 100,000 վեբ էջերի ենթաբազմությանը սողալուն՝ կայունության համար ծրագրային դադարներով և նոր տիրույթը բեռնելիս բոլոր թխուկների և նույնացուցիչների ամբողջական ջնջմամբ՝ ապահովելու համար, որ նախորդ նիստերն ու վիճակները չեն ազդի հաջորդ տիրույթի ընթերցելիությունը:

Խառը սցենարներ

Արդյունքները ցույց են տալիս լայնածավալ օգտագործումը սցենարների փաթեթավորում, որտեղ գովազդային հարթակները և բովանդակության հոսթերը միտումնավոր միացնում են բովանդակության վրա հիմնված և գովազդի վրա հիմնված սկրիպտները «uberscripts»-ի մեջ, ինչը կխանգարի բովանդակության ցուցադրմանը, եթե արգելափակվի: Օրինակ՝ հեղինակները նշում են, որ pressl.co-ն ծառայում է վեբ սկրիպտ՝ փաթեթավորված դրա միջոցով WebPack JavaScript concatenator հարթակ, որը պարունակում է Facebook-ի հետագծման պիքսել, ինչպես նաև կոդ, որը հնարավորություն է տալիս իրական բովանդակության մատուցում:

Բացի այդ, թերթը նշում է, որ մի շարք տիրույթներ պատրաստ են սկրիպտներ ներդնել ուղղակիորեն վեբ էջերի կոդի մեջ, ինչը անհրաժեշտ է դարձնում գովազդի արգելափակման շրջանակները լուծելու սկրիպտների ֆունկցիոնալությունը, այլ ոչ թե պարզապես կանխելու սկրիպտի բեռնումը` հիմնվելով իր երրորդ-ի վրա: կուսակցության աղբյուրի URL.

Այս մեթոդները տեղայնացնելով, պարզ է ճանապարհը նման կոդի համակարգված բաժանման համար բովանդակության և գովազդի կատեգորիաների, ինչպես նաև գովազդի արգելափակված միջավայրում բովանդակության ցուցադրման հնարավոր վերականգնման համար:

Թեև գովազդի արգելափակման գոյություն ունեցող լուծումները, ինչպիսիք են NoScript-ը, AdGuard-ը, uBlock Origin-ը և Firefox Smartblock-ը, օգտագործում են փոխարինող սկրիպտներ, որոնք ապամոնտաժում են նման միաձուլված սցենարները արգելափակվող բաղադրիչ սկրիպտների, դրանք կախված են. ձեռքով վերաշարադրում սցենարների, ինչը հանգեցնում է շարունակական սառը պատերազմի արգելափակողների և անընդհատ փոփոխվող տեխնիկայի միջև, որոնք կոտրում են դրանք: Ի հակադրություն, TrackerSift-ն առաջարկում է պոտենցիալ ծրագրային մեթոդ խառը բովանդակության տարրալուծման համար: