stub Machine Learning ашиглан 25 жилийн нууцлалын бодлогод дүн шинжилгээ хийх нь - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Machine Learning ашиглан 25 жилийн нууцлалын бодлогод дүн шинжилгээ хийж байна

mm
шинэчлэгдсэн on

Саяхны нэгэн судалгаагаар 50,000-25 он хүртэл 1996 жилийн хугацаанд алдартай вэб сайтууд дахь 2021 гаруй нууцлалын бодлогын уншигдах чадвар, ашиг тус, урт, нарийн төвөгтэй байдлыг тодорхойлохын тулд машин сургалтын шинжилгээний арга техникийг ашигласан байна. Судалгаанаас харахад дундаж уншигч бүх зүйлээ зориулах шаардлагатай гэж дүгнэжээ. 400 цагийн "жилийн унших цаг" (өдөрт нэг цагаас илүү) нь өсөн нэмэгдэж буй үгийн тоо, бүдүүлэг хэллэг, зарим хамгийн түгээмэл вэбсайтуудын орчин үеийн нууцлалын бодлогыг тодорхойлдог бүдэг бадаг хэл ярианы хэрэглээг нэвтрүүлэх.

Тайланд дурдсан байдаг.

"Бодлогын дундаж урт сүүлийн арван жилд бараг хоёр дахин нэмэгдэж, 2159 оны гуравдугаар сард 2011 үг, 4191 оны гуравдугаар сард 2021 үг, 2000 оноос хойш бараг дөрөв дахин нэмэгдсэн (1146 үг).'

25 жилийн хугацаанд судлагдсан корпусын дунд үгийн тоо, өгүүлбэрийн дундаж тоо. Эх сурвалж: https://arxiv.org/pdf/2201.08739.pdf

25 жилийн хугацаанд судлагдсан корпусын дунд үгийн тоо, өгүүлбэрийн дундаж тоо. Эх сурвалж: https://arxiv.org/pdf/2201.08739.pdf

Хэдийгээр GDPR болон Калифорнийн Хэрэглэгчийн Нууцлалын тухай хууль (CCPA) хамгаалалт хүчин төгөлдөр болсноор уртын өсөлтийн хурд нэмэгдсэн ч уг баримт бичигт эдгээр өөрчлөлтийг урт хугацааны чиг хандлагын эсрэг ач холбогдолгүй мэт харагдах "жижиг нөлөөллийн хэмжээ" гэж тооцсон байна. Гэсэн хэдий ч, GDPR нь бодлогод "тодорхойгүй" хэллэг нэмэгдэж болзошгүй шалтгаан болж байна (доороос үзнэ үү).

Унших хурдыг минутанд 250 үг гэж үзвэл нууцлалын дундаж бодлогыг одоо уншихад 17 минут зарцуулдаг бол илүү алдартай бодлогыг (өөрөөр хэлбэл олон хэрэглэгчтэй холбоотой бодлогуудыг) 23 минут уншиж дуусгана гэж уг баримт бичжээ.

Судалгаанаас харахад Microsoft-оос гаргасан мэдээллийн багц дахь хамгийн урт бодлого нь 152 минут зарцуулдаг. хувилбарууд Google дээр BERT хэлний загвар.

Уншигчид жилд 1462 өвөрмөц вэб сайтад зочилдог гэж үзвэл орчин үеийн нууцлалын бодлогыг уншихад шаардагдах жилийн цагийн хурдны өсөлт.

Уншигч зочилдог гэж үзвэл орчин үеийн нууцлалын бодлогыг уншихад шаардагдах жилийн цагийн хурдны өсөлт Жилд 1462 өвөрмөц вэбсайт.

Сүүлийн үед нууцлалын бодлогод олон үг, ойлгомжгүй байдал ихэссэн нь сүүлийн хорин жилийн хугацаанд хууль журам тогтоох оролдлогын хариу үйлдэл, харин хууль тогтоомжид нийцүүлэх шаардлагыг үл тоомсорлож, хамрах хүрээг нууцаар нэмэгдүүлэх шалтаг болгон ашиглаж байгаатай холбоотой гэж уг баримт бичжээ. нууцлалын бодлогын тунгалаг байдал.

"Ерөнхийдөө бидний үр дүнгээс харахад сүүлийн үеийн нууцлалын зохицуулалтууд нь онлайн хэрэглэгчдийн нууцлалыг дорвитой сайжруулаагүй, харин улам бүр инвазив мэдээллийн практикийг тодорхойлсон нууцлалын бодлогыг улам бүр дордуулж байгааг харуулж байна."

Сүүлийн жилүүдэд байгалийн хэлний боловсруулалтын (NLP) хэд хэдэн баримт бичиг нь нууцлалын бодлогын уншигдахуйц байдал болон бусад асуудлыг хөндсөн ч энэ нь сүүлийн хэдэн арван жилийн бодлогын хөгжлийн талаар ийм өргөн тоймыг харуулсан анхны төсөл гэж зохиогч үзэж байна.

The цаасан гэсэн гарчигтай Эрин үе дэх нууцлалын бодлого: 1996–2021 он хүртэлх Нууцлалын бодлогын агуулга, унших боломжтой байдал, мөн Их Британийн Де Монфортын их сургуулийн Кибер технологийн хүрээлэнгийн Изабель Вагнераас гаралтай.

Зууван хэл

Тус тайланд мөн "төвөрүүлсэн үгс"-ийн дундаж тоо (өөрөөр хэлбэл хүлээн авах, чухал ач холбогдолтой, ихэвчлэн, болон тодорхой утгыг өгдөггүй бусад үгс) 2018 он хүртэл нууцлалын бодлогод тогтмол өссөн боловч дараа нь 227 оны 2018-р сарын орчимд дундаж 304 байсан бол 2020 оны XNUMX-р сард XNUMX болж өссөн.

Зохиогч энэхүү өсөлт нь GDPR-ийн нөлөөлөлтэй холбоотой гэж үзэж байгаа бөгөөд судалгаанд хамрагдсан нууцлалын бодлогын өгүүлбэрүүдийн гуравны хоёроос илүү хувь нь (72%) нь дор хаяж нэг ойлгомжгүй үг агуулж байгааг олж мэдсэн.

Унших чадвартай

Уншихад хүндрэлтэй байдлын гурван нийтлэг хэмжүүрийн дагуу судалгаанд дурдсан байна "Нууцлалын бодлого жил ирэх тусам уншихад хэцүү болж байна". Зохиогчдын тооцоолсноор 41 онд хэрэгжих боломжтой бодлогын 2021% нь дундаж утгатай байна. Флесч уншихад хялбар (ҮНЭГҮЙ, өндөр байх нь дээр) ердөө 31.8, зохиогчийн ажигласнаар "Энэ оноо нь их, дээд сургуулийн төгсөгчдийн хамгийн сайн ойлгогдохуйц хэцүү текстийг харуулж байна".

Үүний зэрэгцээ, зөвхөн 6.7% Бодлогуудын нэг нь 45-аас дээш ҮНЭГҮЙ оноо авсан (энэ нь Флорида муж улсын даатгалын бодлогод шаардлагатай унших стандарт юм гэж тайланд тэмдэглэжээ).

Бодлогын өөрчлөлтийн талаарх ойлголт

Энэхүү ажил нь хэрэглэгчийн гэрээг хадгалах хүсэл эрмэлзэлд нөлөөлж болзошгүй дараагийн шинэчлэлтүүдийн үед боломжит зөвшөөрөл өгөгчид хэрхэн мэдэгдэх талаарх дэлгэрэнгүй мэдээллийг нууцлалын бодлогод багтаасан зэргийг мөн тусгасан болно.

Зохиогч тэмдэглэв:

2021 онд бодлогын 73% нь бодлогын өөрчлөлтийн тухай мэдэгдэлтэй байна. Эдгээрийн 34% нь өөрчлөлтийг нууцлалын бодлогод мэдэгдлээр зарлана, 37% нь вэб сайтад мэдэгдэл нийтэлнэ, 22% нь хувийн мэдэгдэл илгээнэ (үлдсэн бодлогод мэдэгдлийн төрлийг тодорхой заагаагүй).

'Үүний үр дүнд ихэнх хэрэглэгчид нууцлалын бодлогод өөрчлөлт орсныг мэдэхгүй байх магадлал багатай.

“Үүнээс гадна бодлого өөрчлөгдөхөд хэрэглэгчдэд бараг ямар ч утга учиртай сонголт санал болгодоггүй. Өөрчлөлтийг хэрэглэгчдэд мэдэгддэг бодлогын зөвхөн 12% нь шинээр элсэхийг санал болгодог бол 34% нь сонголт хийх боломжгүй, 54% нь тодорхойгүй орхидог.'

Бодлогын өөрчлөлтийн талаар хэрэглэгчдэд мэдээлэх тайлбарласан аргуудын талаарх баримт бичгийн дүгнэлт.

Бодлогын өөрчлөлтийн талаар хэрэглэгчдэд мэдээлэх тайлбарласан аргуудын талаарх баримт бичгийн дүгнэлт.

Хяналтын талаархи хязгаарлагдмал сонголт

Судалгаанаас үзэхэд нууцлалын бодлогод хэрэглэгчийн профайлын мэдээлэлд хандахаас хамаагүй илүү өргөн хүрээний механизмыг хэрэглэгчийн дансны мэдээлэлд хандахыг санал болгож байна. Профайлын өгөгдлийг автоматжуулсан болон тодорхой бус механизмаар үүсгэж, шинэчлэх боломжтой байдаг бол хэрэглэгчийн дансны мэдээллийг зөвхөн хэрэглэгч тодорхой өгөөд зогсохгүй янз бүрийн хууль эрх зүйн зохицуулалтын дагуу засварлах боломжтой байх үүрэгтэй.

Хувийн нууцлалын бодлогод хэрэглэгчийн күүки зөвшөөрлийг сонгохгүй байх сонголт (сонирхсон сэдэв халуухан мэтгэлцээн GDPR гарч ирснээс хойш олон улсын болон Европын вэбсайтуудын ЕХ-ны жишээнүүдэд зориулсан олон зуун мянган күүки зөвшөөрлийн попапуудыг нийтэлсэн) нь бодлогод ерөнхийдөө тусгагдсан боловч хүртээмжгүй мэдээллийн илүү чухал давхаргыг нуудаг*:

"Күүкитэй холбоотой сонголтууд нь хэрэглэгчдийг бүх хяналтаас хамгаалахад хангалтгүй, учир нь сонголт эсвэл хяналтын механизмыг санал болгох нь ховор байдаг. компьютерийн мэдээлэл, төхөөрөмжийн танигчБолон хувийн таниулбарууд, энэ нь хурууны хээгээр дамжуулан хэрэглэгчдийг хянах боломжийг олгодог.'

Профайлын өгөгдөл (далд эсвэл далд аргаар олж авч болно) болон хэрэглэгчийн бүртгэлийн өгөгдөл (хяналтын зарим хэмжүүрийг GDPR, Калифорнийн Хэрэглэгчийн Нууцлалын тухай хууль (CCPA) байнга шаарддаг) хооронд нууцлалын бодлогоор олгосон хяналтын боломжит түвшин эрс ялгаатай. ), үндэсний болон бүс нутгийн ижил төстэй механизмууд).

Профайлын өгөгдөл (далд эсвэл далд аргаар олж авч болно) болон хэрэглэгчийн бүртгэлийн өгөгдөл (хяналтын зарим хэмжүүрийг GDPR, Калифорнийн Хэрэглэгчийн Нууцлалын тухай хууль (CCPA) байнга шаарддаг) хооронд нууцлалын бодлогоор олгосон хяналтын боломжит түвшин эрс ялгаатай. ), үндэсний болон бүс нутгийн ижил төстэй механизмууд).

Өгөгдөл

Судалгаанд шаардлагатай өгөгдлийг олж авахын тулд зохиогч нь вэбсайтуудыг нууцлалын бодлогын холбоосыг хайж олохын тулд цаашдын бодлоготой холбодог салшгүй бодлогын тооноос шалтгаалан анхны үр дүнгээс илүү хамрах хүрээг өргөжүүлэх шаардлагатай гэж байн байн олж мэджээ. эцэг эх эсвэл холбогдох бодлоготой уялдуулан эсвэл хамааралгүй өөрчлөгдөх боломжтой).

The Wayback Машины robots.txt тохиргооны файлаар (хуудас болон бусад зүйлсийн талаар вэб-мөлхөгч индексжүүлэгчийн зааврыг агуулсан жижиг текст файл) дамжуулан мөлхөх, архивлахыг хориглосон бодлогыг харгалзан үр дүнг авч үзэх шаардлагатай байсан ч түүхэн бодлогыг олж авахад ашигласан. олон нийтийн индекст оруулах ёсгүй байгууллагууд).

Сард нэг агшин зуурын зургийг Wayback машинаас авсан CDX API тодорхойлох боломжтой, тасралтгүй хэрэгжих бодлого бүрийн хувьд, ашиглан Selenium дор Firefox. Зөвхөн PDF форматаар ашиглах боломжтой бодлогууд дээр оптик тэмдэгт танилтыг гүйцэтгэх нь төслийн хувьд тооцогдоогүй бөгөөд энэ нь боломжтой HTML бодлогуудын тоогоор (илүү их) хязгаарлагддаг.

Төслийн нэг сонирхолтой үр дүн нь порнографын вэбсайтуудын тодорхой байдал, унших боломжтой байдал нь судлагдсан хугацааны туршид сайжирсан явдал юм - магадгүй зохицуулалт, ойлгомжтой байдлыг нэмэгдүүлэх уриалгыг хүлээж байна. Эдгээр баримт бичгүүдийг цуглуулахын тулд их сургуулийн агуулгыг хориглох протоколын улмаас орон сууцны IP хаягуудаас нэмэлт мөлхөгчөөр авах шаардлагатай болсон.

Эхний ээлжинд 1,068,683 баримт бичиг авсан бөгөөд энэ нь холбоос тус бүрд дунджаар 120,265 бодлогын нийтлэл, заалт, 39.1 бодлогын өвөрмөц текст агуулсан 4.4 өвөрмөц баримт бичигтэй тэнцэж байна.

Зөвхөн англи хэл

Сүүлийн үеийн ижил төстэй судалгаануудын нэгэн адил төсөл нь англи хэлнээс өөр нууцлалын бодлогыг шийдвэрлэх боломжгүй байсан бөгөөд өгөгдлийг цэвэрлэх үе шатанд хэрэгсэхгүй болгосон. PYCLD2 багц.

Нууцлалын бодлогыг бусад төрлийн материалаас ялгахын тулд төсөл нь ангилагч ашигласан 2019 онд боловсруулсан Висконсины их сургууль болон École Polytechnique Fédérale de Lozanne-ийн хамтарсан санаачилгаар.

IS-POLICY ангилагчийн архитектур. Эх сурвалж: https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY ангилагчийн архитектур. Эх сурвалж: https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY ангилагчийг эх сурвалжтай ижил 1,000 баримт бичигт сургасан боловч эх сурвалж байхгүй байсан тул зохиогч сургалтанд зориулж бодлогын бус шинэ баримт бичгүүдийг авах шаардлагатай болсон.

Шүүлтүүр хийсний дараа өгөгдлийг 56,416 өвөрмөц нууцлалын бодлого болгон бууруулсан.

 

* Цаасан доторх ишлэлийг энд гипер холбоос болгон хувиргасан бөгөөд налуу шилжилтийг цаасан дээрээс хийсэн.

Анх 31 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.