Արհեստական բանականություն

Վերլուծելով 25 տարվա գաղտնիության քաղաքականությունը մեքենայական ուսուցման միջոցով

Թարմացվել է on Դեկտեմբերի 9, 2022

Վերջերս անցկացված ուսումնասիրությունը օգտագործել է մեքենայական ուսուցման վերլուծության տեխնիկան՝ գծագրելու ավելի քան 50,000 գաղտնիության քաղաքականության ընթեռնելիությունը, օգտակարությունը, երկարությունը և բարդությունը հանրաճանաչ կայքերում 25 տարի 1996-2021 թվականներին: Հետազոտությունը եզրակացնում է, որ սովորական ընթերցողը պետք է նվիրի 400 ժամ «տարեկան ընթերցանության ժամանակ» (օրական մեկ ժամից ավելի)՝ բառերի աճող թվաքանակի մեջ ներթափանցելու համար, շփոթեցնող լեզուն և անորոշ լեզվի օգտագործումը, որոնք բնութագրում են ամենատարածված որոշ կայքերի գաղտնիության ժամանակակից քաղաքականությունը:

Զեկույցում ասվում է.

«Վերջին տասը տարում քաղաքականության միջին երկարությունը գրեթե կրկնապատկվել է՝ 2159 բառով 2011 թվականի մարտին և 4191 բառով՝ 2021 թվականի մարտին, և գրեթե քառապատկվել է 2000 թվականից ի վեր (1146 բառ):

Ուսումնասիրված կորպուսի մեջ բառերի և նախադասությունների միջին քանակը 25 տարվա ընթացքում: Աղբյուր՝ https://arxiv.org/pdf/2201.08739.pdf

Թեև երկարության աճի տեմպերը մեծացան, երբ ուժի մեջ մտան GDPR-ը և Կալիֆորնիայի սպառողների գաղտնիության մասին օրենքը (CCPA), թերթը զեղչում է այս տատանումները որպես «փոքր ազդեցության չափեր», որոնք աննշան են թվում ավելի լայն երկարաժամկետ միտման դեմ: Այնուամենայնիվ, GDPR-ը բացահայտվում է որպես քաղաքականության մեջ «անորոշ» լեզվի աճի հնարավոր պատճառ (տես ստորև):

Ենթադրելով րոպեում 250 բառ կարդալու արագությունը՝ թերթը պնդում է, որ միջին գաղտնիության քաղաքականության ընթերցումն այժմ տևում է 17 րոպե, մինչդեռ ավելի հայտնի քաղաքականությունները (այսինքն՝ օգտատերերի մեծ թվի հետ կապված քաղաքականությունները) 23 րոպե են պահանջում:

Ըստ հետազոտության, որն օգտագործել է մի շարք տվյալների բազայի ամենաերկար քաղաքականությունը՝ Microsoft-ից, պահանջում է 152 րոպե՝ սպառելու համար: տարբերակներ Google-ի վրա BERT լեզվի մոդել.

Գաղտնիության ժամանակակից քաղաքականության ընթերցման համար անհրաժեշտ տարեկան ժամերի տեմպերի աճ՝ ենթադրելով, որ ընթերցողը տարեկան այցելում է 1462 եզակի կայք:

Գաղտնիության ժամանակակից քաղաքականությունը կարդալու համար անհրաժեշտ տարեկան ժամերի տեմպերի աճ՝ ենթադրելով, որ ընթերցողը այցելում է Տարեկան 1462 եզակի կայք.

Գաղտնիության քաղաքականության վերաբերյալ վերջին երկու տասնամյակների ընթացքում խոսակցությունների և երկիմաստության աճի մեծ մասը վերագրվում է որպես կանոնակարգեր պարտադրելու վերջին երկու տասնամյակների փորձերին, ինչպես նաև կանոնակարգային համապատասխանության պահանջների անազնիվ օգտագործմանը՝ որպես պատրվակ՝ գաղտագողի մեծացնելու շրջանակը և գաղտնիության քաղաքականության անթափանցիկություն:

«Ընդհանուր առմամբ, մեր արդյունքները ցույց են տալիս, որ գաղտնիության վերաբերյալ վերջին կանոնակարգերը էապես չեն բարելավել առցանց օգտատերերի գաղտնիությունը, այլ ավելի շուտ հանգեցրել են գաղտնիության ավելի փքված քաղաքականության, որը նկարագրում է տվյալների ավելի ու ավելի ինվազիվ պրակտիկաները»:

Թեև Բնական լեզվի մշակման (NLP) մի շարք փաստաթղթեր վերջին տարիներին անդրադարձել են գաղտնիության քաղաքականության ընթեռնելիությանը և այլ ասպեկտներին, հեղինակը կարծում է, որ սա իր տեսակի մեջ առաջին նախագիծն է, որը տրամադրում է քաղաքականության մշակման նման լայն ակնարկ վերջին տասնամյակների ընթացքում:

The թուղթ վերնագրված է Գաղտնիության քաղաքականություն դարերի ընթացքում. Գաղտնիության քաղաքականության բովանդակությունը և ընթեռնելիությունը 1996–2021 թթ., և գալիս է Իզաբել Վագներից Մեծ Բրիտանիայի Դե Մոնֆորտ համալսարանի Կիբերտեխնոլոգիական ինստիտուտից:

Էլիպսիկ լեզու

Զեկույցը նաև առաջարկում է, որ «շփոթեցնող բառերի» միջին թիվը (այսինքն ընդունելի, էական, գլխավորապեսև այլ բառեր, որոնք վերջնական նշանակություն չեն տալիս) գաղտնիության քաղաքականության մեջ անշեղորեն աճել է մինչև 2018 թվականը, սակայն այնուհետև 227-ի միջինից 2018 թվականի մարտին հասել է 304-ի՝ 2020 թվականի հունիսին:

Հեղինակը պնդում է, որ այս աճը վերագրվում է GDPR-ի ազդեցությանը, և թերթը գտնում է, որ ուսումնասիրված գաղտնիության քաղաքականության նախադասությունների ավելի քան երկու երրորդը (72%) պարունակում է առնվազն մեկ խաբուսիկ բառ:

Readability

Ընթերցանության դժվարության երեք ընդհանուր չափորոշիչներով ուսումնասիրությունը պարզել է, որ «Գաղտնիության քաղաքականությունը տարիների ընթացքում ավելի ու ավելի դժվար է դարձել կարդալը». Հեղինակները գնահատում են, որ 41 թվականին հասանելի գործող գործող քաղաքականությունների 2021%-ն ունեցել է միջին Flesch ընթերցանության հեշտություն (ԱՆՎՃԱՐ, ավելի բարձր, ավելի լավ) ընդամենը 31.8-ից, հեղինակը դիտարկելով «Այս միավորը ցույց է տալիս շատ բարդ տեքստ, որը լավագույնս հասկանում են համալսարանի շրջանավարտները».

Միևնույն ժամանակ, միայն 6.7% պոլիսներից 45-ից բարձր միավոր են ստացել FRE (ինչը, ինչպես նշվում է զեկույցում, Ֆլորիդայի նահանգում ապահովագրական քաղաքականության համար պահանջվող ընթերցման ստանդարտն է):

Քաղաքականության փոփոխության իրազեկում

Աշխատանքը նաև անդրադառնում է այն չափին, որով գաղտնիության քաղաքականությունը ներառում է մանրամասներ այն մասին, թե ինչպես ի վերջո կտեղեկացվի հավանական համաձայնողը հետագա թարմացումների դեպքում, ինչը կարող է ազդել համաձայնագիրը պահպանելու օգտատիրոջ պատրաստակամության վրա:

Հեղինակը նկատում է.

«2021 թվականին քաղաքականության 73%-ը ներառում է հայտարարություն քաղաքականության փոփոխության մասին։ Դրանցից 34%-ը նշում է, որ փոփոխությունները կհայտարարվեն գաղտնիության քաղաքականության ծանուցմամբ, 37%-ը ծանուցում կտեղադրի կայքում, իսկ 22%-ը կուղարկի անձնական ծանուցում (մնացած քաղաքականությունը թողնում է ծանուցման տեսակը չճշտված):

«Արդյունքում օգտատերերի մեծամասնությունը դժվար թե տեղյակ լինի գաղտնիության քաղաքականության փոփոխությունների մասին։

«Բացի այդ, օգտատերերին գրեթե ոչ մի իմաստալից ընտրություն չի առաջարկվում, երբ քաղաքականությունը փոխվում է: Քաղաքականություններից, որոնք ծանուցում են օգտվողին փոփոխությունների մասին, միայն 12%-ն է առաջարկում նոր ընտրության իրավունք, մինչդեռ 34%-ը ընտրություն չի տալիս, իսկ 54%-ը թողնում է այն չճշտված։

Թերթի բացահայտումները քաղաքականության փոփոխությունների մասին օգտվողներին ծանուցելու նկարագրված մեթոդների վերաբերյալ:

Սահմանափակ ընտրություն՝ կապված հետևելու հետ

Հետազոտության համաձայն, գաղտնիության քաղաքականության մեջ մեխանիզմների շատ ավելի մեծ շրջանակ է առաջարկվում օգտատերերի հաշվի տեղեկատվություն մուտք գործելու համար, քան օգտվողի պրոֆիլի տվյալներ մուտք գործելու համար: Պրոֆիլի տվյալները կարող են ստեղծվել և թարմացվել ավտոմատացված և ոչ ակնհայտ մեխանիզմների միջոցով, մինչդեռ օգտատիրոջ հաշվի տվյալները ոչ միայն բացահայտորեն տրամադրվում են օգտատիրոջ կողմից, այլև պարտավոր են խմբագրելի լինել տարբեր իրավասությունների կանոնակարգերի համաձայն:

Գաղտնիության քաղաքականության մեջ թխուկների համաձայնության փոխարեն սպառողի ընտրությունը (թեմա, որը գրավել է թեժ բանավեճ քանի որ GDPR-ի գալուստը հրապարակեց հարյուր հազարավոր թխուկների համաձայնության թռուցիկներ ԵՄ օրինակների համար միջազգային և եվրոպական վեբկայքերի համար) ընդհանուր առմամբ վերաբերում է քաղաքականությանը, բայց թաքցնում է ավելի քիչ հասանելի տվյալների ավելի կարևոր շերտ*.

«Քուքիների հետ կապված ընտրությունները բավարար չեն օգտատերերին բոլոր հետևումներից պաշտպանելու համար, քանի որ ընտրության կամ վերահսկման մեխանիզմները հազվադեպ են առաջարկվում։ համակարգչային տեղեկատվություն, սարքի նույնացուցիչներ, եւ անձնական նույնացուցիչներ, որոնք թույլ են տալիս հետևել օգտատերերին մատնահետքի միջոցով։'

Գաղտնիության քաղաքականության կողմից տրված հսկողության հասանելի մակարդակի կտրուկ հակադրություն պրոֆիլի տվյալների (որոնք կարող են ստացվել անուղղակի կամ գաղտնի միջոցներով) և օգտատերերի հաշվի տվյալների միջև (որտեղ վերահսկողության որոշ չափումներ հաճախ հանձնարարված են GDPR-ի կողմից՝ Կալիֆորնիայի սպառողների գաղտնիության մասին ակտի (CCPA): ), և համանման ազգային և տարածաշրջանային մեխանիզմներ):

Ամսաթիվ

Հետազոտության համար տվյալներ ձեռք բերելու համար հեղինակը սողել է վեբկայքեր՝ հղումներ գտնելու իրենց գաղտնիության քաղաքականությանը, հաճախ անհրաժեշտ է համարել ընդլայնել շրջանակը սկզբնական արդյունքից դուրս՝ պայմանավորված ոչ ամբողջական քաղաքականությունների քանակով, որոնք կապված են հետագա քաղաքականության հետ (յուրաքանչյուրը որը կարող է փոխվել ծնողի կամ հարակից քաղաքականության հետ կամ անկախ նրանից):

The Wayback Machine օգտագործվել է պատմական քաղաքականություններ ձեռք բերելու համար, թեև արդյունքները դիտարկելիս անհրաժեշտ էր հաշվի առնել այն քաղաքականությունները, որոնք արգելափակված են եղել սողալուց կամ արխիվացնելով robots.txt կազմաձևման ֆայլի միջոցով (փոքր տեքստային ֆայլ, որը պարունակում է հրահանգներ վեբ-սողացող ինդեքսավորման գործակալներին էջերի և այլ նյութերի վերաբերյալ: սուբյեկտներ, որոնք նրանք չպետք է ներառեն հանրային ինդեքսում):

Ամսական մեկ լուսանկար ստացվել է Wayback Machine-ից իր կողմից CDX API յուրաքանչյուր ճանաչելի և շարունակական կիրառելի քաղաքականության համար՝ օգտագործելով Firefox-ը Selenium-ի տակ. Միայն PDF ձևաչափով հասանելի քաղաքականությունների վրա օպտիկական նիշերի ճանաչում կատարելը հաշվի չի առնվել նախագծի համար, ինչը սահմանափակվել է հասանելի HTML քաղաքականության (շատ ավելի մեծ) քանակով:

Ծրագրի հետաքրքիր արդյունքներից մեկն այն է, որ պոռնոգրաֆիկ կայքերի պարզությունն ու ընթեռնելիությունը իրականում բարելավվել է ուսումնասիրված միջակայքում, հնարավոր է` ակնկալելով կանոնակարգման և հստակության աճող պահանջներ: Այս փաստաթղթերը հավաքելու համար անհրաժեշտ էր դրանք ստանալ բնակելի IP հասցեներից հավելյալ սկանավորմամբ՝ կապված համալսարանի բովանդակության արգելափակման արձանագրությունների հետ։

Սկզբում ձեռք է բերվել 1,068,683 փաստաթուղթ, որը հավասար է 120,265 եզակի փաստաթղթերի, որոնք պարունակում են միջինը 39.1 քաղաքականության հոդվածներ կամ կետեր և 4.4 եզակի քաղաքականության տեքստ յուրաքանչյուր հղման համար:

Միայն անգլերեն

Ինչպես սովորաբար տեղի է ունենում նմանատիպ վերջին ուսումնասիրություններում, նախագիծը չի կարողացել անդրադառնալ ոչ անգլերեն գաղտնիության քաղաքականությանը, որոնք անտեսվել են տվյալների մաքրման փուլում՝ օգտագործելով PYCLD2 փաթեթ:

Գաղտնիության քաղաքականությունը նյութերի այլ տեսակներից տարբերելու համար նախագիծն օգտագործել է դասակարգիչ մշակվել է 2019 թ Վիսկոնսինի համալսարանի և Լոզանի Ֆեդերալ պոլիտեխնիկական դպրոցի համատեղ նախաձեռնությամբ:

IS-POLICY դասակարգչի ճարտարապետությունը: Աղբյուր՝ https://arxiv.org/pdf/1809.08396.pdf

Թեև IS-POLICY դասակարգիչը վերապատրաստվել է նույն 1,000 փաստաթղթի կորպուսի վրա, ինչ սկզբնական թերթում, հեղինակը ստիպված է եղել վերապատրաստման համար ձեռք բերել նոր ոչ քաղաքական փաստաթղթեր, քանի որ սկզբնական աղբյուրները հասանելի չեն եղել:

Զտումից հետո տվյալները կրճատվել են մինչև 56,416 եզակի գաղտնիության քաղաքականություն:

* Թերթի ներդիրային մեջբերումն այստեղ վերածվում է հիպերհղման, շեղ փոխարկումը թղթից է:

Առաջին անգամ հրապարակվել է 31 թվականի հունվարի 2022-ին։

Հաջորդը

Օգտագործելով ակնարկներ՝ առաջարկող համակարգ ստեղծելու համար, որն աշխատում է

Բաց մի թողեք

Նոր համակարգը նպատակ ունի լուծել AI էներգիայի սպառման խնդիրը

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai