Արհեստական բանականություն

AI հետազոտողները գնահատում են, որ ԵՄ կայքերի 97%-ը ձախողում է GDPR-ի գաղտնիության պահանջները՝ հատկապես օգտատերերի պրոֆիլավորումը

Թարմացվել է on Դեկտեմբերի 9, 2022

ԱՄՆ-ի հետազոտողները օգտագործել են մեքենայական ուսուցման տեխնիկա՝ ԵՄ-ում տեղակայված ավելի քան հազար ներկայացուցչական կայքերի GDPR-ի գաղտնիության քաղաքականությունն ուսումնասիրելու համար: Նրանք պարզել են, որ ուսումնասիրված կայքերի 97%-ը չեն համապատասխանել Եվրամիության 2018 թվականի կարգավորող դաշտի առնվազն մեկ պահանջին, և որ նրանք ամենաքիչը համապատասխանում են «օգտատերերի պրոֆիլավորման» պրակտիկային վերաբերող կարգավորող պահանջներին:

Թերթում նշվում է.

«[Քանի որ] գաղտնիության քաղաքականությունը օգտատերերի համար հաղորդակցման հիմնական ալիքն է՝ հասկանալու և վերահսկելու իրենց գաղտնիությունը, շատ ընկերություններ թարմացրել են իրենց գաղտնիության քաղաքականությունը GDPR-ի կիրառումից հետո: Այնուամենայնիվ, գաղտնիության քաղաքականությունների մեծ մասը խիտ են, լի ժարգոններով և անորոշ կերպով նկարագրում են ընկերությունների տվյալների պրակտիկան և օգտատերերի իրավունքները: Հետևաբար, անհասկանալի է, թե արդյոք դրանք համապատասխանում են GDPR-ին»:

Այն շարունակվում է.

«Մեր արդյունքները ցույց են տալիս, որ նույնիսկ GDPR-ի ուժի մեջ մտնելուց հետո, կայքերի 97%-ը դեռ չի համապատասխանում GDPR-ի առնվազն մեկ պահանջին»:

The սովորել վերնագրված է GDPR-ի բացահայտման պահանջների ավտոմատ հայտնաբերում Գաղտնիության քաղաքականության մեջ՝ օգտագործելով Deep Active Learning, և գալիս է Շառլոտսվիլի Վիրջինիայի համալսարանի երեք հետազոտողներից:

Գաղտնիություն Վերջին

Հետազոտության համաձայն, նվազագույն համապատասխանության ոլորտը վերաբերում էր GDPR-ին դրույթները օգտատերերի պրոֆիլավորման մասին, հեղինակները նշել են, որ ուսումնասիրված կայքերի միայն 15.3%-ն է լիովին համապատասխանում այս կոնկրետ կանոնին:

Հետազոտության համար ուսումնասիրված 9761 կայքերի միջև համապատասխանության գրաֆիկ: Աղբյուր՝ https://arxiv.org/pdf/2111.04224.pdf

Հետազոտության համար ուսումնասիրված կայքերի GDPR քաղաքականության միջև համապատասխանության գրաֆիկ: Աղբյուր՝ https://arxiv.org/pdf/2111.04224.pdf

Օգտատերերի պրոֆիլավորումը (որտեղ անձի փոխազդեցությունը վեբ կայքերի հետ գրանցվում է և հաճախ օգտագործվում է նրանց «թիրախավորելու» այլ առցանց համատեքստերում, ինչպիսիք են գովազդը) դարձել է տեխնոլոգիայի ամենաթեժ հակասություններից մեկը Cambridge Analytica-ի սկանդալից հետո:

Երեքշաբթի օրը Եվրախորհրդարանի առանցքային հանձնաժողովը անցել Թվային շուկաների նոր օրենքի առաջին փուլը (DMAօրենսդրությունը, որն արգելում է անչափահասների վարքագծային թիրախավորումը, տուգանքներ սահմանելով մինչև 20%-ի չափով. համաշխարհային տարեկան վաճառք խախտող ընկերությունների համար:

Թեև օրենքն ընդունվել է լրատվամիջոցների կողմից որպես ուղղակի պատասխան տեխնոլոգիական հսկաների աճող ազդեցությանը, ինչպիսիք են Facebook-ը և Google-ը, նոր հետազոտության կողմից ներկայացված անհամապատասխանության զգալի մասշտաբը ցույց է տալիս, որ ԵՄ ընկերությունների ճնշող մեծամասնությունը (ներառյալ ԵՄ-ն) Եվրոպայում առևտուր անող ամերիկյան ընկերությունների ռեզիդենտ գրասենյակները օրինականորեն ենթարկվում են GDPR տուգանքների:

Բացի այդ, Իտալիան այս շաբաթ սահմանել է առավելագույն թույլատրելի տուգանք 10 միլիոն եվրոյի չափով (11.2 միլիոն ԱՄՆ դոլար) ընդդեմ Apple-ի և Google-ի՝ օգտատերերի պրոֆիլավորումը շահագործելու համար, ի թիվս այլ խախտումների:

Ամսաթիվ

Նոր հետազոտության մեջ ուսումնասիրված կայքերը ընտրվել են Quantcast-ում թվարկված լավագույն 10,000 կայքերից, որոնց անգլերեն լեզվով գաղտնիության քաղաքականությունը արդյունահանվել է Yandex-ի որոնումների միջոցով Մեծ Բրիտանիայում գործող VPN-ներում (ապահովելու համար, որ քաղաքականությունը աշխարհագրական արգելափակված չէ): .

ԵՄ կայքերը պարտավորվել են տրամադրել սահմանված գաղտնիության քաղաքականություն՝ ընդգրկելով 18 կենտրոնական պահանջներ (տե՛ս վերևի գծապատկերը) 2018 թվականի մայիսին Տվյալների պաշտպանության ընդհանուր կանոնակարգի (GDPR) ակտի լրիվ ուժի մեջ մտնելուց հետո:

Հետազոտողները սահմանափակել են իրենց գաղտնիության քաղաքականության արդյունահանումը 2018 թվականի օգոստոսից սկսած՝ ողջամիտ ժամանակ տրամադրելու համար, որպեսզի տիրույթները հրապարակեն պահանջվող քաղաքականությունը (պարտադիր, որի մասին նրանք նախնական գիտելիքներ ունենային զարգացման երկամյա փուլի առնվազն մեկ տարվա ընթացքում։ GDPR 2016 թվականից):

Զտման գործընթացը ստեղծեց 9,761 քաղաքականությունից բաղկացած գաղտնիության կորպուս, որոնցից հետազոտողների կողմից պատահականության սկզբունքով ընտրվեցին 1,080 քաղաքականություններ:

Նախամշակում

Թիմն աշխատանքի է ընդունել երկու իրավաբանական փորձագետ՝ չորս մարդկային ծանոթագրողներ պատրաստելու համար՝ նշելու GDPR-ի կողմից սահմանված գաղտնիության 18 հնարավոր քաղաքականություններից յուրաքանչյուրը:

Քաղաքականության որոշ օրինականներ ընդգրկում էին 18 պահանջներից մեկից ավելին, ինչը անհրաժեշտ է դարձնում օգտագործել Convolutional Neural Network (CNN)՝ յուրաքանչյուր քաղաքականության հետ կապված լեզվական առանձնահատկությունները հայտնաբերելու համար:

Լեզվի վրա հիմնված համապատասխանությունը բացահայտելու համար մոդել պատրաստելու նախնական փորձը հասել է 80.5% հաջողության: Այս արդյունքները բարելավելու համար հետազոտողները դիմել են Ակտիվ ուսուցում մոդելի արդյունավետությունն ուժեղացնելու համար՝ օգտագործելով ավելի քիչ պիտակավորված տվյալներ: Այս միջոցներով հնարավոր է եղել վերապատրաստել CNN դասակարգիչը մինչև 89.2% ճշգրտությամբ՝ F1 հաշիվ 0.88-ից (որտեղ «1»-ը լիակատար հաջողություն է):

Որպեսզի համոզվեն, որ ներկառուցված բառերը հատուկ են գաղտնիության քաղաքականությանը, հետազոտողները վարժեցրել են բառերի ներկառուցման չվերահսկվող մոդել՝ օգտագործելով Facebook-ի FastText Python գրադարան.

Ստանդարտ պրակտիկայի համաձայն, վերջնական տվյալները բաժանվել են 80/20-ով պատրաստված տվյալների և թեստային տվյալների միջև (այսինքն՝ պատահականորեն ընտրված տվյալները, որոնց հիման վրա գնահատվելու է ալգորիթմի ճշգրտությունը): Արդյունքների որակը գնահատելու նպատակով ճարտարապետությանն ավելացվել է մարդու ցիկլի չափման ուսումնասիրություն:

Դասակարգիչ համակարգի ճարտարապետությունը:

Աշխատանքային ընթացքի ընթացքում մշակվել են 11,271 մարդու կողմից ծանոթագրված գաղտնիության քաղաքականության սեգմենտներ, որոնցից յուրաքանչյուրը վերանայվել է չորս մարդկային ծանոթագրողների կողմից, որոնք վերապատրաստվել են հետազոտության մեջ ներգրավված երկու իրավական փորձագետների կողմից: Անհամաձայնությունների դեպքում անհրաժեշտ էր 75% համաձայնության հարաբերակցություն՝ ներառման տվյալները չմերժելու համար:

Humans-in-the-loop – հնարավոր չէր ամբողջությամբ ավտոմատացնել քաղաքականության տվյալների պիտակավորումը, թեև Active Learning-ը հնարավորություն տվեց լողավազանի վրա հիմնված աշխատանքային հոսք, որն իրագործելի դարձրեց նախագիծը:

Բացի արդեն նշված արդյունքներից, օգտատերերը գտել են դա շարժունակությունը – GDPR-ի համաձայն՝ ընկերության կողմից պահվող տվյալները տեղափոխելու կամ արտահանելու իրավունքը գրեթե նույնքան վատ էր մատուցվում, որքան պրոֆիլավորումը:

Հետազոտողները եզրակացնում են.

«[Պահանջները], ինչպիսիք են օգտատերերի տեղափոխելիության իրավունքը և տվյալների պաշտպանության պատասխանատուի (DPO կոնտակտ) կոնտակտային տվյալներ տրամադրելը, համապատասխանաբար 15.5% և 16.4% վեբկայքերով են ծածկված: Այլ առաջնային պահանջները, ինչպիսիք են օգտատերերի՝ բողոք ներկայացնելու իրավունքը, հետ վերցնել համաձայնությունը, առարկության իրավունքը և համապատասխանության որոշումը, ծածկված են կայքերի 17-20%-ով:

…և շարունակեք.

«Թվում է, որ կայքերի միայն 3%-ն է լիովին համապատասխանում 18 պահանջներին։ Այս բացահայտումները ցույց են տալիս, որ շատ կայքեր դեռ չեն հետևում GDPR-ի պահանջներին»:

7:26 11/2021/XNUMX – Հստակեցված առաջին գրաֆիկի վերնագիրը: - Մ.Ա

Հարակից թեմաներ.համապատասխանության Եվրոպա իրավական բնական լեզվով մշակման գործընթացը nlp հետազոտություն

Հաջորդը

Human Brain Project-ը նոր փաստաթուղթ է թողարկել Exascale հաշվողական հզորության մասին

Բաց մի թողեք

Նյարդային փոխանցում. NeRF-ը զբոսնում է մաքուր օդում

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai