stub Machine Learning vs. Cookie Consent Systems - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Машины сургалтын эсрэг күүки зөвшөөрлийн систем

mm
шинэчлэгдсэн on
Hellraiser франчайзын нууцлаг кубуудын нэг.

Висконсины Их Сургууль болон Google-ийн хооронд хийсэн судалгааны шинэ хамтын ажиллагаа нь сүүлийн 10 жилийн хамгийн алдартай вэб хэрэглэгчдийн таагүй байдлын нэг болох GDPR-д нийцсэн күүки зөвшөөрлийн баннеруудын тунгалаг байдал, урвуулан ашиглах явдал болох машин сургалтыг эсэргүүцэж байна.

Нэртэй Cookie Enforcer, шинэ хүрээ ашигладаг Семантик текстийн ойлголт Домэйн эзэмшигчид байж болох бүх жинхэнэ "шаардлагагүй" күүкиг идэвхгүй болгохын тулд "нэг товшилтоор" дутагдаж буй шийдлийг хэрэглэгчдэд өгөхийн тулд күүкийг зөвшөөрөх цонх эсвэл баннерын цаана байгаа үндсэн кодын ач холбогдол, ашиг тусыг задлан шинжлэх. биш ч гэсэн "зайлшгүй чухал" гэж танилцуулна.

CookieEnforcer нь www.askubuntu.com вэб сайтаас күүкийн зөвшөөрлийн кодыг шалгадаг. Эх сурвалж: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer нь www.askubuntu.com вэб сайтаас күүкийн зөвшөөрлийн кодыг шалгадаг. Эх сурвалж: https://arxiv.org/pdf/2204.04221.pdf

Систем нь хэрэглэгчийн суулгасан вэб хөтчийн залгаасаар хэрэгждэг бөгөөд энэ нь хэрэглэгчийн тодорхойлсон дүрмийг нэг товшилтоор хэрэгжүүлэх чадвартай. Веб сайт дээр күүки зөвшөөрлийн хүрээ гарч ирсний дараа хэрэглэгч залгаасыг идэвхжүүлэх боломжтой бөгөөд дараа нь хэрэглэгчийн нэрийн өмнөөс сонголтуудыг хэрэгжүүлэхийн тулд тохирох JavaScript үүсгэхээс өмнө боломжит үйлдлүүдийн хувьд күүкийн зөвшөөрлийн кодыг ашиглана.

Энэ залгаасыг хэрэглэгчийн тохиргоог автоматаар хэрэгжүүлэхээр тохируулж болох юм уу эсвэл тохиолдлыг тус тусад нь авч үзэх боломжтой бөгөөд ингэснээр хэрэглэгч эцсийн оруулахаасаа өмнө тохиргоог тохируулах боломжтой болно.

Күүки хэрэгжүүлэгч ажиллаж байна. Хэрэв хүсвэл Chrome залгаас нь энэ үйл явцыг хэрэглэгчийн хувь нэмэргүйгээр бүрэн автоматжуулах боломжтой. Дэлгэрэнгүй мэдээллийг дараа нь суулгасан видеоноос үзнэ үү. Эх сурвалж: https://www.youtube.com/watch?v=5NI6Q981quc

Күүки хэрэгжүүлэгч ажиллаж байна. Хэрэв хүсвэл Chrome залгаас нь энэ үйл явцыг хэрэглэгчийн хувь нэмэргүйгээр бүрэн автоматжуулах боломжтой. Дэлгэрэнгүй мэдээллийг дараа нь суулгасан видеоноос үзнэ үү. Эх сурвалж: https://www.youtube.com/watch?v=5NI6Q981quc

"Зөвшөөрөхгүй байх" боломжит хувилбаруудыг задлан шинжлэхэд тулгардаг бэрхшээлүүд нь ихэвчлэн нууцлаг, ачаалал ихтэй тохиргооны бүлгүүдэд (хэрэглэгчдэд ээлтэй тохиргоо гэхээсээ илүү) нуугдаж байдаг. бүгдийг хүлээн зөвшөөр зөвшөөрлийн хүрээний ердийн) загварчилсан байна дараалалаас дараалалд үүрэг.

Төгсгөлийн нарийвчлалын үнэлгээгээр CookieEnforcer нь системийн машин сургалтын загварыг сургах явцад хараагүй домэйн дээр судлагдсан тохиолдлын 91% -д нь нууцлаг күүки зөвшөөрлийн процедурыг арилгахад шаардлагатай бүх алхмуудыг хийж чадсан. Хэрэглэгчийн судалгаагаар систем нь зөвшөөрлийн модулиудыг удирдахад хэрэглэгчийн хүчин чармайлтыг эрс багасгадаг болохыг харуулсан.

The цаасан аргыг танилцуулж байна CookieEnforcer: Автомат күүки мэдэгдлийн дүн шинжилгээ ба хэрэгжилт, мөн Мадисон дахь Висконсины их сургуулийн гурван судлаач, Google Inc-ийн нэг судлаачаас гаралтай.

Күүки зөвшөөрөл авах нууцлаг замууд

Мэдээлэл хамгаалах ерөнхий журам батлагдсанаас хойш (GDPR) 2016 онд болон Калифорнийн Хэрэглэгчийн Нууцлалын тухай хууль (CCPA) 2018 онд ийм хууль тогтоомжид хамрагдсан бүс нутгийн хэрэглэгчдийг татан оролцуулахыг хүсч буй вэб сайтууд күүки сонгох механизмыг (ихэвчлэн хэрэглэгчийн IP хаягийг прокси болгон илрүүлэхэд үндэслэн) хангах шаардлагатай болсон. гарал үүслийн улс).

Гэсэн хэдий ч домэйн эзэмшигчид күүкиний тунгалаг бөгөөд ихэвчлэн үл үзэгдэх хэрэгжилтээс хэрэглэгчийн үнэ цэнэтэй, үр дүнтэй мэдээллийг цуглуулж дассан тул шинээр эрх мэдэлтэй болсон хэрэглэгчдэдээ хялбархан татгалзах боломж олгохоос татгалзсан.

Күүки зөвшөөрлийн интерфейсийн өгөгдмөл UI (хэрэв хэрэглэгч домэйнд анх удаа зочлох үед эсвэл тухайн домэйны күүкийг устгасан тохиолдолд гарч ирдэг) хурдан тохируулагдсан. харанхуй хэв маяг Зөвшөөрөх эрхээ эдлэхийг хүссэн тохиолдолд үзэгчийг нарийн ширхэгтэй, цаг хугацаа шаардсан, өргөн сонголттойгоор ядраах зорилготой; эсвэл домэйн эзэмшигчийн ажиллуулахыг хүссэн бүх күүки рүү хэрэглэгчийг сонгосон энгийн бөгөөд хялбархан хандах боломжтой товчлуур. Энэхүү лабиринт хэлбэрийн UI сонголтын соёлыг 2020 оны нэгэн судалгаагаар тодорхойлсон 'хогийн ан'.

Шинэ сонинд бичсэн сэтгэгдэл:

'[Хэрэглэгчид] төвөгтэй мэдэгдэл бүхий вэб сайтуудад мэдээлэлтэй күүки хяналт тавихад хэцүү байж магадгүй. Тэд [вэбсайт] тус бүрдээ күүки тохиргоогоо нарийн тааруулахаас илүү анхдагч тохиргоонд найдах магадлал өндөр байдаг. Хэд хэдэн тохиолдолд эдгээр өгөгдмөл тохиргоонууд нь нууцлалыг алдагдуулдаг бөгөөд үйлчилгээ үзүүлэгчдийг дэмждэг бөгөөд энэ нь нууцлалыг [эрсдэлд] хүргэдэг.'

Нэгэн дээр бичсэн сэтгэгдэл алдартай форумын нийтлэл эдгээр үйлдлүүдийн талаар "хорлонтой дагаж мөрдөх" гэж тодорхойлсон. Хэрэглэгч күүкийн зөвшөөрлийн хүрээтэй холбоотой бухимдал нь томоохон нийтлэгчидтэй зөрчилддөг сэдэв бөгөөд хэрэв тэд энэ талаар өөрсдийн үйлдлээрээ биечлэн илчлээгүй бол нэмэлт мэдээлэл авах боломжтой байж магадгүй юм.

Энэ тохиолдолд TechCrunch вэбсайтаас күүки зөвшөөрөл гэж юу болох талаар ЕХ-ны хандлага өөрчлөгдөж байгаа тухай нийтлэлийн оршил болгон танилцуулсан ердийн төөрдөг. Хавсаргасан URL танигч болон дэгээ нь 262 тэмдэгттэй (энд устгасан). "Бүгдээс татгалзах" товчлуур нь күүкийн тодорхой ангилалд ашиглах боломжтой боловч боломжит күүкиг бүхэлд нь ашиглах боломжгүй; Эдгээр онцгой тохиолдлуудад хэрэглэгч "шилжүүлэх" бүрийг ажиллуулах ёстой.

Энэ тохиолдолд TechCrunch вэбсайтаас танилцуулсан сонголтуудын ердийн төөрдөг шороог нь илэн далангүй өгүүлбэрийн оршил болгожээ. дугаар күүки зөвшөөрөл гэж юу болох талаар ЕХ-ны хандлага өөрчлөгдөж байгаа талаар. Хавсаргасан URL танигч болон дэгээ нь 262 тэмдэгттэй (энд устгасан). "Бүгдээс татгалзах" товчлуур нь күүкийн тодорхой ангилалд ашиглах боломжтой боловч боломжит күүкиг бүхэлд нь ашиглах боломжгүй; Эдгээр онцгой тохиолдлуудад хэрэглэгч "шилжүүлэх" бүрийг ажиллуулах ёстой.

A 2019 цаас Германаас ирсэн судалгаанд хамрагдсан домэйн дэх сайтад зочилсон хүмүүсийн дийлэнх нь өргөн хүрээний зөвшөөрөл авахыг уриалж байсан бөгөөд зөвхөн вэбсайтуудын гуравны нэг нь мэдээлэл цуглуулах практикийн зорилгыг бодитоор тайлбарласан болохыг олж мэдэв.

Сүүлийн жилүүдэд энэ асуудлыг шийдвэрлэхийн тулд вэб хөтчийн хэд хэдэн залгаасууд, нэмэлтүүд болон өргөтгөлүүд гарч ирсэн. Күүки QuickManager Firefox өргөтгөл болон a өргөн хүрээ Chrome-ын хувилбаруудын нэг бол Европын холбоо хаахыг эрэлхийлж байна күүки зөвшөөрлийн архитектурын эргэн тойронд нийцлийн цоорхой.

Арга ба өгөгдөл

Шинэ баримт бичгийн судлаачид сүүлийн үед ижил төстэй хэд хэдэн судалгааны гол арга болох түлхүүр үг эсвэл гар аргаар боловсруулсан дүрэмд найдахаас зайлсхийж, күүкийн зөвшөөрлийн удирдлагын тогтолцоог бий болгохоор шийдсэн. ML-ийн тусламжтай төсөл.

CookieEnforcer нь гурван зорилготой: күүки мэдэгдэл болон интерфэйсийг машин уншигдах формат руу хөрвүүлэх; чухал бус күүкиг идэвхгүй болгох байдлаар күүки тохиргооны тохиргоог тодорхойлох; мөн хэрэглэгч хүсвэл нэмэлт хязгаарлалтыг хэрэглэгчийн нэмэлт оруулахгүйгээр автоматаар хэрэглэх.

Уг систем нь күүки мэдэгдлийг илрүүлж, дүн шинжилгээ хийдэг арын хэсгийн бүрэлдэхүүн хэсэг ба хөтчийн өргөтгөл хэлбэрээр чухал бус күүкиг (жишээ нь, навигаци хийх, хандахад саад болохгүй күүки) үүсгэж, идэвхгүй болгох функцээс бүрдэнэ. блоклогдсон бол домэйн).

Энэхүү хүрээ нь Chrome-д тусгайлан суулгасан орон нутгийн өргөтгөлөөр хийгдсэн байдаг селен доорх вэб тестийн номын сан ChromeDriver тогтолцоо.

Арын хэсэг нь илрүүлэх, дүн шинжилгээ хийх, шийдвэр гаргах загварт зориулсан модулиудыг агуулдаг. Шинжилгээний модуль нь хэрэглэгчийн харилцан үйлчлэлийн үр дүнд оруулсан кодын өөрчлөлтийг харгалзан үздэг бөгөөд ингэснээр хэрэглэгчийн хайгуулын загварчилсан кодыг хүчингүй болгохгүй.

Байгалийн хэлний ойлголт

Код илэрсэн тул унтраах товчлуурын ард байгаа хэл нь эцсийн хэрэглэгчдэд ашиг тустай байх тал дээр хоёрдмол утгатай байж болох тул CookieEnforcer одоо хийж болох үйлдлүүдийн төлөвийг ойлгох нь чухал юм.

Үүний тулд судлаачид а Текстээс текст рүү шилжүүлэх хувиргагч (T5) шийдвэрийн бүрэлдэхүүн хэсгийн загвар. 5 сая параметр агуулсан T770-Large загвар нь оролт/гаралтын кодын захиалгат мэдээллийн сан (өөрөөр хэлбэл, сонголтуудыг сэлгэх функцийг тайлбарлаж, идэвхжүүлдэг код) дээр нарийн тааруулсан.

T5 загварт зориулсан загвар формат (дээр) ба сургалтын өгөгдөл (доор). Өгөгдлийн жишээг www.askubuntu.com сайтаас авсан болно.

T5 загварт зориулсан загвар формат (дээр) ба сургалтын өгөгдөл (доор). Өгөгдлийн жишээг www.askubuntu.com сайтаас авсан болно.

Tranco-с сонгосон күүки мэдэгдэл бүхий 300 вэб сайтаас дээж авч өгөгдлийн багц үүсгэсэн топ-50k алдартай вэб сайтууд жагсаалт. Илрүүлэгч болон анализаторын модулиуд нь ажиллах үеийн эх кодоос күүкийн зөвшөөрлийн сонголтуудыг гаргаж, үндсэн төлөвийг нь үнэлэв.

Судлаачдын нэг нь судлагдсан бүх вэб сайтын чухал бус күүкиг идэвхгүй болгоход шаардлагатай тайлбарласан товшилтуудын цувралыг гараар тэмдэглэснээр 300 бүрэн хаяглагдсан домэйн бий болсон.

Захиалгат өгөгдлийн багцын жишээн дэх эх кодын төрөл бүрийн байршил.

Захиалгат өгөгдлийн багцын жишээн дэх эх кодын төрөл бүрийн байршил.

60 вэб сайтыг туршилтын багц болгон тусгаарласан бөгөөд T5-Large загварыг 0.003 эриний турш 16 багцын хэмжээгээр 20 сурах хурдтай, хамгийн их оролтын дарааллын урт нь 256 жетон, зорилтот дарааллын дээд урттай бэлтгэгдсэн. нь 64. Токенууд нь Google-ийн тогтоосон дэд үгсээс бүрддэг SentencePiece токенизатор.

Эцэст нь боловсруулсан мэдээллийг локал мэдээллийн санд хадгалж, системийн урд хэсэгт ашиглах боломжтой болгодог. Зохиогчид үүнийг илүүд үздэг querySelector () XML замын хэл дээрх HTML функц (XPath) күүки мэдэгдлийн XPaths нь DOM шинэчлэлтэд өртөмтгий байдаг (өөрөөр хэлбэл хэрэглэгчийн харилцан үйлчлэлийн хариуд анх ачаалсны дараа код өөрчлөгдөж болно) тул өмнөх ижил төстэй төслүүдийн хэрэгжүүлсэн арга. Ийм байдлаар элементийн замууд нь динамик, гадны хүчин зүйлсэд хариу үйлдэл үзүүлэх чадвартай байсан ч хэвээр үлдэж болно.

Туршилт ба гүйцэтгэл

Практикт CookieEnforcer нь өгөгдлийн багц дахь хамгийн харанхуй бараан хэв маягийн заримыг чиглүүлж чаддаг, тухайлбал күүки зөвшөөрлийн хүрээн дэх далд сонголттой байсан. Шинэ эрдэмтэн Хэрэглэгч үүнийг харахыг тодорхой хүсэх хүртэл JavaScript-ээр далдлагдсан байдаг.

Зохиогчид тайлбар:

'Хэрэглэгчид үүнийг харахын тулд нэмэлт хүрээг өргөжүүлэх шаардлагатай тул энэ сонголтыг амархан алдаж болно. CookieEnforcer зөвхөн энэ сонголтыг олохоос гадна семантикийг ойлгож, эсэргүүцэх шийдвэр гаргадаг. Эдгээр жишээнүүд нь загвар контекстийг сурч, шинэ жишээнүүдийг нэгтгэн дүгнэж байгааг харуулж байна.'

Судлаачид 500 үл үзэгдэх домэйн (жишээ нь CookieEnforcer тусгайлан сургаагүй вэб сайтууд) дээрх хүрээний гүйцэтгэлийн төгсгөл хүртэлх үнэлгээг багтаасан гурван туршилт хийсэн бөгөөд зохиогчид энэ нь чухал бус күүкиг 91% амжилттай идэвхгүй болгож чадна гэж мэдээлсэн. сайтуудын.

Хоёрдахь тест нь 14 вэб сайтыг хамарсан онлайн хэрэглэгчийн судалгаа, гарын авлагын суурь үзүүлэлтийн эсрэг Системийн ашиглалтын хэмжүүрийг (оноо) ашигласан. Энэхүү туршилтын хувьд CookieEnforcer нь үндсэн үзүүлэлтээс 15%-иар илүү оноо авсан гэж зохиогчид мэдээлж байна.

CookieEnforcer нь үндсэн (тусламжгүй) хэрэглээнээс 15%-иар илүү оноо авах боломжийг олгодог бөгөөд үүний зэрэгцээ уйтгартай үйл явцыг автоматжуулдаг.

CookieEnforcer нь үндсэн (тусламжгүй) хэрэглээнээс 15%-иар илүү оноо авах боломжийг олгодог бөгөөд үүний зэрэгцээ уйтгартай үйл явцыг автоматжуулдаг.

Эцэст нь CookieEnforcer-ийн бэлтгэгдсэн параметрүүдийг АНУ болон Европын шилдэг 5000 вэб сайтад туршиж, күүки мэдэгдлүүдийг удирдах чадавхийг тодорхойлсон. Зохиогчид хэлэхдээ:

"Ийм масштабтай хэмжилтийг өмнө нь хийж байсан ч CookieEnforcer нь түлхүүр үгэнд суурилсан эвристикээс гадна сонголтуудыг илүү гүнзгий ойлгох боломжийг олгодог. Ялангуяа, Их Британид күүки мэдэгдэл үзүүлдэг вэб сайтуудын 16.7% нь дор хаяж нэг чухал биш күүки идэвхжүүлсэн болохыг бид олж мэдсэн. АНУ-ын вэбсайтуудын хувьд ижил тоо 22% байна.'

Зохиогчид CookieEnforcer-ийг хэрхэн ажиллаж байгааг харуулсан богино хэмжээний YouTube видеог нийтлэв.

Cookie Enforcer askubuntu.com дээрх чухал бус күүкиг идэвхгүй болгож байна

 

Анх 12 оны дөрөвдүгээр сарын 2022-нд нийтлэгдсэн.