stuacach Ní Chosnaíonn Sonraí Sintéiseacha Príobháideacht go hiontaofa, Éilíonn Taighdeoirí - Unite.AI
Ceangail le linn

Cúram Sláinte

Ní Chosnaíonn Sonraí Sintéiseacha Príobháideacht go hiontaofa, éilíonn Taighdeoirí

mm

foilsithe

 on

Cuireann comhoibriú taighde nua idir an Fhrainc agus an RA amhras ar mhuinín an tionscail atá ag méadú gur féidir le sonraí sintéiseacha na saincheisteanna príobháideachta, cáilíochta agus infhaighteachta a réiteach (i measc saincheisteanna eile) a chuireann dul chun cinn san earnáil mheaisínfhoghlama i mbaol.

I measc na bpríomhphointí ar díríodh orthu, dearbhaíonn na húdair go gcoimeádann sonraí sintéiseacha a mhúnlaítear ó fhíorshonraí a ndóthain den fhíorfhaisnéis chun nach dtugtar aon chosaint iontaofa ar thátal agus ar ionsaithe ballraíochta, a fhéachann le sonraí a dhí-ainm agus a athcheangal le daoine iarbhír.

Ina theannta sin, is é is dóichí ná na daoine aonair is mó atá i mbaol ó ionsaithe den sórt sin, lena n-áirítear iad siúd a bhfuil riochtaí míochaine criticiúla nó billí arda ospidéil orthu (i gcás taifid leighis a bheith anaithnid), de bharr nádúr 'aslua' a riochta, a athaithint ag na teicníochtaí seo.

Tugann an páipéar faoi deara:

'I bhfianaise rochtain ar thacar sonraí sintéiseacha, is féidir le sáraí straitéiseach tátal a bhaint as, le muinín ard, go bhfuil taifead sprice sna sonraí bunaidh.'

Tugann an páipéar faoi deara freisin go sonraí sintéiseacha príobháideacha go difreálach, a dhéanann doiléir síniú taifead aonair, go deimhin a chosnaíonn príobháideacht daoine aonair, ach amháin trí cur isteach suntasach ar úsáideacht na gcóras aisghabhála faisnéise a úsáideann iad.

Más rud ar bith, tugann na taighdeoirí faoi deara, cur chuige difreálach príobháideach - a úsáideann faisnéis 'fhíor' 'ag a haon bain' trí shonraí sintéiseacha – déan an cás slándála níos measa ná mar a bheadh ​​a mhalairt:

'Ní thugann tacair shonraí [sintéiseacha] aon trédhearcacht maidir leis an gcomhbhabhtáil seo. Ní féidir a thuar cad iad na tréithe sonraí a chaomhnófar agus cad iad na patrúin a chuirfear faoi chois.'

An nua páipéar, dar teideal Sonraí Sintéiseacha – Lá Groundhog gan Ainm, a thagann ó bheirt thaighdeoirí ag École Polytechnique Fédérale de Lausanne (EPFL) i bPáras agus taighdeoir ó University College London (UCL).

Rinne na taighdeoirí tástálacha ar halgartaim oiliúna samhail giniúna príobháideacha atá ann cheana féin, agus fuair siad amach go sáraíonn cinntí áirithe cur chun feidhme na ráthaíochtaí foirmiúla príobháideachais a chuirtear ar fáil sna creataí, rud a fhágann go bhfuil taifid éagsúla faoi lé ionsaithe tátail.

Tairgeann na húdair leagan athbhreithnithe de gach algartam a d'fhéadfadh na neamhchosaintí seo a mhaolú, agus tá an cód á dhéanamh acu ar fáil mar leabharlann foinse oscailte. Maíonn siad go gcabhróidh sé seo le taighdeoirí measúnú a dhéanamh ar ghnóthachain phríobháideachta sonraí sintéiseacha agus comparáid úsáideach a dhéanamh ar mhodhanna anaithnidithe coitianta. Ionchorpraíonn an creat nua dhá mhodh ionsaithe príobháideachais ábhartha is féidir a chur i bhfeidhm ar aon algartam oiliúna samhail giniúna.

Sonraí Sintéiseacha

Úsáidtear sonraí sintéiseacha chun múnlaí meaisínfhoghlama a oiliúint i gcásanna éagsúla, lena n-áirítear cásanna inar féidir le sonraí ersatz easpa faisnéise cuimsitheach a líonadh isteach. Sampla amháin de seo is ea an fhéidearthacht aghaidheanna ginte CGI a úsáid chun grianghraif aghaidhe ‘deacra’ nó neamhchoitianta a sholáthar do thacair sonraí sintéise íomhá, nuair is annamh a fheictear íomhánna próifíle, géaruillinneacha nó slonn neamhghnácha sa bhunábhar.

Baineadh úsáid as cineálacha eile d'íomhánna CGI chun tacair shonraí a chur le chéile a reáchtálfar ar deireadh thiar ar shonraí neamhshintéiseacha, mar thacair sonraí a bhfuil gné acu lámha agus troscán.

Maidir le cosaint príobháideachta, is féidir sonraí sintéiseacha a ghiniúint ó fhíorshonraí trí chórais Ghinearálta Sáraíochta (GAN) a bhaineann gnéithe ó na fíorshonraí agus a chruthaíonn taifid bhréige den chineál céanna ar dócha go ginearálfaidh siad go maith go sonraí níos déanaí (neamhfheicthe, fíor), ach tá siad ceaptha chun sonraí na ndaoine fíor atá le feiceáil sna sonraí foinse a cheilt.

Modheolaíocht

Chun críocha an taighde nua, rinne na húdair measúnú ar ghnóthachain phríobháideachta thar chúig algartam oiliúna samhail giniúna. Ní thairgeann trí cinn de na samhlacha cosaint phríobháideachta follasach, agus tagann an dá mhúnla eile le ráthaíochtaí príobháideachais difreálacha. Roghnaíodh na samhlacha táblaí seo chun raon leathan ailtireachta a léiriú.

Ba iad na samhlacha a ionsaíodh BayNet, PrivBay (díorthú PrivBayes/BayNet), CTGAN, PATEGAN agus IndHist.

Cuireadh an creat meastóireachta do na samhlacha i bhfeidhm mar leabharlann Python le dhá chroí-rang - Múnlaí Ginealaíocha agus PríobháideachtAttacks. Tá dhá ghné ag baint leis an dara ceann – namhaid tátal ballraíochta, agus ionsaí tátal ballraíochta. Tá an creat in ann meastóireacht a dhéanamh freisin ar na buntáistí príobháideachais a bhaineann le sonraí ‘sláintithe’ (ie gan ainm) agus sonraí sintéiseacha.

Ba iad an dá thacar sonraí a úsáideadh sna trialacha ná an Tacar Sonraí do Dhaoine Fásta ó Stór Foghlama Meaisín UCI, agus an Comhad Sonraí Úsáide Poiblí Sonraí Scaoilte Ospidéil ó Roinn Seirbhísí Sláinte Stáit Texas. Tá 50,000 taifead a sampláladh ó thaifid othar don bhliain 2013 sa leagan tacair sonraí ó Texas a úsáideann na taighdeoirí.

Ionsaithe agus Cinntí

Is é cuspóir ginearálta an taighde 'nascthacht' a bhunú (shonraí réadacha a athcheangal le sonraí sintéiseacha a spreag é). I measc na múnlaí ionsaithe a úsáideadh sa staidéar tá Aischéimniú Lóistíochta, Foraoisí Randamach agus aicmitheoirí K-Na Comharsana is cóngaraí.

Roghnaigh na húdair dhá spriocghrúpa ina raibh cúig thaifead a roghnaíodh go randamach do chatagóirí ‘mionlaigh’ den daonra, ós rud é gur Is dócha a bheith so-ghabhálach i leith ionsaí nascála. Roghnaíodh siad freisin taifid a raibh 'luachanna aitreabúide catagóiriúla annamh' orthu lasmuigh de chainníocht na tréithe sin 95%. I measc na samplaí tá taifid a bhaineann le riosca ard mortlaíochta, táillí iomlána arda ospidéil, agus déine tinnis.

Cé nach ndéanann an páipéar mionsaothrú ar an ngné seo, ó thaobh na bhfíor-ionsaitheoirí dóchúla de, is iad seo go díreach an cineál othair ‘daor’ nó ‘ardriosca’ is dóichí a ndíreofar orthu ag tátal ballraíochta agus cineálacha eile cur chuige eis-scagtha. chuig taifid othar.

Cuireadh oiliúint ar mhúnlaí iolracha ionsaithe in aghaidh faisnéise tagartha poiblí chun 'scáthmhúnlaí' a fhorbairt thar dheich sprioc. Léiríonn na torthaí thar raon turgnaimh (mar a thuairiscítear níos luaithe) go raibh roinnt taifead 'an-leochaileach' maidir le hionsaithe nascachta a bhí dírithe orthu ag na taighdeoirí. Fuarthas amach sna torthaí freisin go bhfuair 20% de na spriocanna go léir sna trialacha gnóthachan príobháideachta de náid ó shonraí sintéiseacha arna dtáirgeadh ag modhanna GAN.

Tugann na taighdeoirí faoi deara go raibh éagsúlacht sna torthaí, ag brath ar an modh a úsáideadh chun sonraí sintéiseacha a ghiniúint, an veicteoir ionsaithe agus gnéithe an tacar sonraí spriocdhírithe. Fuarthas amach sa tuarascáil, i go leor cásanna, go n-íslíonn cosc ​​éifeachtach aitheantais trí chur chuige sonraí sintéiseacha áisiúlacht na gcóras a bhíonn mar thoradh air. Go héifeachtach, is féidir le húsáideacht agus cruinneas córais den sórt sin i go leor cásanna a bheith ina innéacs díreach ar a leochaileacht atá siad i leith ionsaithe ath-aitheanta.

Is é tátal na dtaighdeoirí:

'Má chaomhnaíonn tacar sonraí sintéiseacha saintréithe na mbunsonraí le cruinneas ard, agus dá bhrí sin go gcoimeádtar áirgiúlacht sonraí do na cásanna úsáide a bhfógraítear ina leith, cuireann sé ar chumas na n-eachtrannach faisnéis íogair faoi dhaoine aonair a bhaint amach ag an am céanna.

'Ní féidir gnóthachan ard i bpríobháideacht trí aon cheann de na meicníochtaí anaithnidithe a ndearnamar meastóireacht orthu a bhaint amach ach amháin mura n-iompraíonn an leagan sintéiseach nó sláintíochta foilsithe de na sonraí bunaidh comhartha na dtaifead aonair sna sonraí amh agus go ndéanann sé a dtaifead a shochtadh i ndáiríre.'