стуб Синтетички подаци не штите поуздано приватност, тврде истраживачи - Уните.АИ
Повежите се са нама

Здравство

Синтетички подаци не штите поуздано приватност, тврде истраживачи

mm

објављен

 on

Нова истраживачка сарадња између Француске и Велике Британије доводи у сумњу растуће поверење индустрије да синтетички подаци могу да реше проблеме приватности, квалитета и доступности (између осталог) који угрожавају напредак у сектору машинског учења.

Међу неколико кључних тачака којима се бави, аутори тврде да синтетички подаци моделовани из стварних података задржавају довољно правих информација да не пружају поуздану заштиту од закључака и напада на чланство, који настоје да деанонимизују податке и поново их повежу са стварним људима.

Штавише, појединци који су у највећем ризику од таквих напада, укључујући оне са критичним здравственим стањем или високим болничким рачунима (у случају анонимизације медицинског картона), највероватније ће бити поново идентификовани од стране ове технике.

У раду се примећује:

„С обзиром на приступ синтетичком скупу података, стратешки противник може са великом поузданошћу закључити о присуству циљног записа у оригиналним подацима.“

Лист такође напомиње да различито приватни синтетички подаци, који прикрива потпис појединачних записа, заиста штити приватност појединаца, али само тако што значајно онемогућава корисност система за проналажење информација који га користе.

Ако ништа друго, истраживачи примећују, различито приватни приступи – који користе 'праве' информације 'у једном уклањању' преко синтетичких података – направите безбедносни сценарио горе него што би иначе било:

„[Синтетички] скупови података не дају никакву транспарентност о овом компромису. Немогуће је предвидети које карактеристике података ће бити сачуване, а који обрасци ће бити потиснути.'

Нове папир, под називом Синтетички подаци – Дан мрмота анонимизације, долази од два истраживача са Ецоле Политецхникуе Федерале де Лаусанне (ЕПФЛ) у Паризу и истраживача са Универзитетског колеџа у Лондону (УЦЛ).

Истраживачи су спровели тестове постојећих приватних алгоритама за обуку генеративног модела и открили да одређене одлуке о имплементацији крше формалне гаранције приватности које су дате у оквирима, остављајући различите записе изложене нападима закључивања.

Аутори нуде ревидирану верзију сваког алгоритма који потенцијално ублажава ове изложености и праве код на располагању као библиотека отвореног кода. Они тврде да ће то помоћи истраживачима да процене добитке у приватности синтетичких података и корисно упореде популарне методе анонимизације. Нови оквир укључује две релевантне методе напада на приватност које се могу применити на било који алгоритам обуке генеративног модела.

Синтетички подаци

Синтетички подаци се користе за обуку модела машинског учења у различитим сценаријима, укључујући случајеве у којима се недостатак свеобухватних информација потенцијално може попунити ерзац подацима. Један пример овога је могућност коришћења лица генерисаних ЦГИ-ом да би се обезбедиле „тешке“ или ретке фотографије лица за скупове података за синтезу слика, где се слике профила, оштри углови или необични изрази често ретко виде у изворном материјалу.

Други типови ЦГИ слика су коришћени за попуњавање скупова података који ће на крају бити покренути на несинтетичким подацима, као што су скупови података који садрже руке намештај.

У смислу заштите приватности, синтетички подаци се могу генерисати из стварних података помоћу система Генеративне Адверсариал Нетворк (ГАН) који издвајају карактеристике из стварних података и креирају сличне, фиктивне записе који ће се вероватно добро генерализовати на касније (невидљиве, стварне) податке, али имају за циљ да прикрију детаље стварних људи који се налазе у изворним подацима.

Методологија

За потребе новог истраживања, аутори су проценили добит од приватности кроз пет алгоритама обуке генеративних модела. Три модела не нуде експлицитну заштиту приватности, док друга два имају различите гаранције приватности. Ови табеларни модели су изабрани да представљају широк спектар архитектура.

Нападнути модели су били БаиНет, ПривБаи (извод од ПривБаиес/БаиНет), ЦТГАН, ПАТЕГАН ИндХист.

Оквир за евалуацију модела је имплементиран као Питхон библиотека са две основне класе – ГенеративеМоделс ПривациАттацкс. Потоњи има два аспекта – противника закључивања чланства и напад закључивања чланства. Оквир такође може да процени предности приватности „дезинфикованих“ (тј. анонимизованих) података и синтетичких података.

Два скупа података коришћена у тестовима су била Скуп података за одрасле из УЦИ репозиторија машинског учења, и Датотека података о јавној употреби података о отпусту из болнице из Министарства државних здравствених служби Тексаса. Тексашка верзија скупа података коју користе истраживачи садржи 50,000 записа узоркованих из картона пацијената за 2013. годину.

Напади и налази

Општи циљ истраживања је да се успостави 'повезљивост' (поновно повезивање стварних података са синтетичким подацима који су инспирисани њима). Модели напада коришћени у студији укључују класификаторе логистичке регресије, случајних шума и К-најближих суседа.

Аутори су одабрали две циљне групе које се састоје од пет насумично одабраних записа за „мањинске“ категорије становништва, будући да су то највероватније да буде подложан нападу везе. Такође су одабрали записе са 'ретким категоричким вредностима атрибута' ван тог квантила атрибута 95%. Примери укључују евиденцију у вези са високим ризиком од смртности, високим укупним болничким трошковима и озбиљношћу болести.

Иако се у раду не елаборира овај аспект, са тачке гледишта вероватних нападача из стварног света, ово је управо она врста „скупих“ или „високо ризичних“ пацијената који ће највероватније бити на мети закључивања о чланству и других врста приступа ексфилтрацији. на картоне пацијената.

Вишеструки модели напада су обучени на основу јавних референтних информација да би се развили 'модели у сенци' на десет мета. Резултати низа експеримената (као што је раније описано) показују да је одређени број записа био „веома рањив“ на нападе на повезивање које су истраживачи циљали на њих. Резултати су такође открили да је 20% свих мета у испитивањима добило заштиту приватности од нула из синтетичких података произведених ГАН методама.

Истраживачи примећују да су резултати варирали, у зависности од методе коришћене за генерисање синтетичких података, вектора напада и карактеристика циљаног скупа података. Извештај открива да у многим случајевима ефикасно потискивање идентитета путем приступа синтетичким подацима смањује корисност резултујућих система. У ствари, корисност и тачност таквих система у многим случајевима могу бити директан показатељ колико су они рањиви на нападе поновне идентификације.

Истраживачи закључују:

„Ако синтетички скуп података чува карактеристике оригиналних података са високом прецизношћу, и стога задржава корисност података за случајеве употребе за које се оглашава, он истовремено омогућава противницима да извуку осетљиве информације о појединцима.

„Високи добитак у приватности кроз било који од механизама анонимизације које смо проценили може се постићи само ако објављена синтетичка или дезинфицирана верзија оригиналних података не преноси сигнал појединачних записа у необрађеним подацима и у ствари потискује њихов запис.“