எங்களை தொடர்பு கொள்ளுங்கள்

ஹெல்த்கேர்

செயற்கைத் தரவு நம்பகத்தன்மையுடன் தனியுரிமையைப் பாதுகாக்காது, ஆராய்ச்சியாளர்கள் கூறுகின்றனர்

mm

Published

 on

இயந்திர கற்றல் துறையில் முன்னேற்றத்தை அச்சுறுத்தும் தனியுரிமை, தரம் மற்றும் கிடைக்கும் சிக்கல்களை (பிற சிக்கல்களுடன்) செயற்கைத் தரவு தீர்க்க முடியும் என்ற தொழில்துறையின் நம்பிக்கையை பிரான்ஸ் மற்றும் யுகே இடையே ஒரு புதிய ஆராய்ச்சி ஒத்துழைப்பு சந்தேகத்தை எழுப்புகிறது.

குறிப்பிடப்பட்ட பல முக்கிய புள்ளிகளில், உண்மையான தரவுகளிலிருந்து செயற்கைத் தரவுகள் போதுமான அளவு உண்மையான தகவலைத் தக்கவைத்துக்கொள்வதாக ஆசிரியர்கள் வலியுறுத்துகின்றனர், இது அனுமானம் மற்றும் உறுப்பினர் தாக்குதல்களிலிருந்து நம்பகமான பாதுகாப்பை வழங்காது, இது தரவை பெயரிடாமல் மற்றும் உண்மையான நபர்களுடன் மீண்டும் இணைக்க முயல்கிறது.

மேலும், ஆபத்தான மருத்துவ நிலைமைகள் அல்லது அதிக மருத்துவமனை கட்டணங்கள் உள்ளவர்கள் (மருத்துவப் பதிவேடு அநாமதேயமாக இருந்தால்) போன்ற தாக்குதல்களால் மிகவும் ஆபத்தில் உள்ள நபர்கள், அவர்களின் நிலையின் 'வெளிப்புற' தன்மை மூலம், பெரும்பாலும் மீண்டும் அடையாளம் காணப்படுவார்கள். இந்த நுட்பங்கள்.

காகிதம் கவனிக்கிறது:

'செயற்கை தரவுத்தொகுப்புக்கான அணுகல் கொடுக்கப்பட்டால், ஒரு மூலோபாய எதிரி, அதிக நம்பிக்கையுடன், அசல் தரவுகளில் இலக்குப் பதிவின் இருப்பை ஊகிக்க முடியும்.'

என்றும் அந்த தாள் குறிப்பிடுகிறது வேறுபட்ட தனிப்பட்ட செயற்கை தரவு, இது தனிப்பட்ட பதிவுகளின் கையொப்பத்தை மறைக்கிறது, உண்மையில் தனிநபர்களின் தனியுரிமையைப் பாதுகாக்கிறது, ஆனால் அதைப் பயன்படுத்தும் தகவல் மீட்டெடுப்பு அமைப்புகளின் பயனை கணிசமாக முடக்குவதன் மூலம் மட்டுமே.

ஏதேனும் இருந்தால், ஆராய்ச்சியாளர்கள் வித்தியாசமான தனிப்பட்ட அணுகுமுறைகளைக் கவனிக்கின்றனர் - இது 'உண்மையான' தகவலைப் பயன்படுத்துகிறது 'ஒரே நீக்கத்தில்' செயற்கை தரவு மூலம் - பாதுகாப்பு காட்சியை உருவாக்கவும் மோசமாக அது வேறுவிதமாக இருந்திருப்பதை விட:

'[செயற்கை] தரவுத்தொகுப்புகள் இந்த பரிமாற்றத்தைப் பற்றி எந்த வெளிப்படைத்தன்மையையும் கொடுக்கவில்லை. என்ன தரவு பண்புகள் பாதுகாக்கப்படும் மற்றும் என்ன மாதிரிகள் அடக்கப்படும் என்பதை கணிக்க இயலாது.'

புதிய காகித, என்ற தலைப்பில் செயற்கை தரவு - அநாமதேய கிரவுண்ட்ஹாக் தினம், பாரிஸில் உள்ள École Polytechnique Fédérale de Lausanne (EPFL) இல் இரண்டு ஆராய்ச்சியாளர்கள் மற்றும் லண்டன் யுனிவர்சிட்டி காலேஜ் (UCL) இன் ஆராய்ச்சியாளர்.

ஆராய்ச்சியாளர்கள் தற்போதுள்ள தனியார் உற்பத்தி மாதிரி பயிற்சி வழிமுறைகளின் சோதனைகளை மேற்கொண்டனர், மேலும் சில செயலாக்க முடிவுகள் கட்டமைப்பில் வழங்கப்பட்ட முறையான தனியுரிமை உத்தரவாதங்களை மீறுவதாகக் கண்டறிந்தனர்.

ஆசிரியர்கள் ஒவ்வொரு அல்காரிதத்தின் திருத்தப்பட்ட பதிப்பை வழங்குகிறார்கள், இது இந்த வெளிப்பாடுகளைத் தணிக்கும் மற்றும் குறியீட்டை உருவாக்குகிறது கிடைக்கும் திறந்த மூல நூலகமாக. செயற்கைத் தரவின் தனியுரிமை ஆதாயங்களை மதிப்பிடுவதற்கும், பிரபலமான அநாமதேய முறைகளை பயனுள்ள வகையில் ஒப்பிடுவதற்கும் இது ஆராய்ச்சியாளர்களுக்கு உதவும் என்று அவர்கள் கூறுகின்றனர். புதிய கட்டமைப்பானது இரண்டு பொருத்தமான தனியுரிமை தாக்குதல் முறைகளை உள்ளடக்கியது, அவை எந்த உருவாக்க மாதிரி பயிற்சி வழிமுறையிலும் பயன்படுத்தப்படலாம்.

செயற்கை தரவு

செயற்கைத் தரவு பல்வேறு சூழ்நிலைகளில் இயந்திரக் கற்றல் மாதிரிகளைப் பயிற்றுவிக்கப் பயன்படுகிறது, இதில் விரிவான தகவல்களின் பற்றாக்குறை ersatz தரவு மூலம் நிரப்பப்படலாம். இதற்கு ஒரு உதாரணம், சிஜிஐ-உருவாக்கிய முகங்களைப் பயன்படுத்தி படத் தொகுப்பு தரவுத்தொகுப்புகளுக்கு 'கடினமான' அல்லது அரிதான முகப் புகைப்படங்களை வழங்குவதற்கான சாத்தியக்கூறு உள்ளது, அங்கு சுயவிவரப் படங்கள், கடுமையான கோணங்கள் அல்லது அசாதாரண வெளிப்பாடுகள் பெரும்பாலும் மூலப் பொருட்களில் அரிதாகவே காணப்படுகின்றன.

பிற வகையான CGI படத்தொகுப்புகள் தரவுத்தொகுப்புகளை விரிவுபடுத்த பயன்படுத்தப்படுகின்றன, அவை இறுதியில் செயற்கை அல்லாத தரவுகளில் இயங்கும் கைகளை மற்றும் மரச்சாமான்களை.

தனியுரிமைப் பாதுகாப்பைப் பொறுத்தவரை, செயற்கைத் தரவை ஜெனரேட்டிவ் அட்வர்ஸரியல் நெட்வொர்க் (GAN) அமைப்புகளால் உண்மையான தரவுகளிலிருந்து உருவாக்க முடியும், அவை உண்மையான தரவிலிருந்து அம்சங்களைப் பிரித்தெடுத்து, பிற்கால (பார்க்காத, உண்மையான) தரவுகளுக்குப் பொதுமைப்படுத்தக்கூடிய ஒத்த, கற்பனையான பதிவுகளை உருவாக்குகின்றன. ஆனால் மூலத் தரவுகளில் இடம்பெற்றுள்ள உண்மையான நபர்களின் விவரங்களைத் தெளிவடையச் செய்யும் நோக்கம் கொண்டது.

முறை

புதிய ஆராய்ச்சியின் நோக்கங்களுக்காக, ஐந்து உருவாக்கும் மாதிரி பயிற்சி அல்காரிதம்களில் தனியுரிமை ஆதாயங்களை ஆசிரியர்கள் மதிப்பீடு செய்தனர். மூன்று மாதிரிகள் வெளிப்படையான தனியுரிமைப் பாதுகாப்பை வழங்கவில்லை, மற்ற இரண்டும் வேறுபட்ட தனியுரிமை உத்தரவாதங்களுடன் வருகின்றன. இந்த அட்டவணை மாதிரிகள் பரந்த அளவிலான கட்டிடக்கலைகளை பிரதிநிதித்துவப்படுத்த தேர்ந்தெடுக்கப்பட்டன.

மாடல்கள் தாக்கப்பட்டனர் பேநெட், PrivBay (PrivBayes/BayNet என்பதன் வழித்தோன்றல்), CTGAN, படேகன் மற்றும் IndHist.

மாதிரிகளுக்கான மதிப்பீட்டு கட்டமைப்பு இரண்டு முக்கிய வகுப்புகளுடன் பைதான் நூலகமாக செயல்படுத்தப்பட்டது - உருவாக்கும் மாதிரிகள் மற்றும் தனியுரிமைத் தாக்குதல்கள். பிந்தையது இரண்டு அம்சங்களைக் கொண்டுள்ளது - உறுப்பினர் அனுமான எதிரி மற்றும் உறுப்பினர் அனுமான தாக்குதல். கட்டமைப்பானது 'சுத்தப்படுத்தப்பட்ட' (அதாவது அநாமதேயப்படுத்தப்பட்ட) தரவு மற்றும் செயற்கைத் தரவின் தனியுரிமைப் பலன்களை மதிப்பீடு செய்ய முடியும்.

சோதனைகளில் பயன்படுத்தப்பட்ட இரண்டு தரவுத்தொகுப்புகள் வயது வந்தோர் தரவுத் தொகுப்பு UCI இயந்திர கற்றல் களஞ்சியத்தில் இருந்து, மற்றும் மருத்துவமனை வெளியேற்ற தரவு பொது பயன்பாட்டு தரவு கோப்பு டெக்சாஸ் மாநில சுகாதார சேவைகள் துறையிலிருந்து. ஆராய்ச்சியாளர்கள் பயன்படுத்தும் டெக்சாஸ் தரவுத்தொகுப்பு பதிப்பில் 50,000 ஆம் ஆண்டிற்கான நோயாளி பதிவுகளிலிருந்து மாதிரி எடுக்கப்பட்ட 2013 பதிவுகள் உள்ளன.

தாக்குதல்கள் மற்றும் கண்டுபிடிப்புகள்

ஆராய்ச்சியின் பொதுவான நோக்கம் 'இணைப்புத்தன்மை' (உண்மையான தரவுகளை செயற்கைத் தரவுகளுடன் மீண்டும் இணைத்தல்) நிறுவுவதாகும். ஆய்வில் பயன்படுத்தப்படும் தாக்குதல் மாதிரிகளில் லாஜிஸ்டிக் ரிக்ரஷன், ரேண்டம் காடுகள் மற்றும் கே-அருகிலுள்ள அண்டை நாடுகளின் வகைப்படுத்திகள் ஆகியவை அடங்கும்.

மக்கள்தொகையின் 'சிறுபான்மை' வகைகளுக்காக தோராயமாக தேர்ந்தெடுக்கப்பட்ட ஐந்து பதிவுகளைக் கொண்ட இரண்டு இலக்கு குழுக்களை ஆசிரியர்கள் தேர்ந்தெடுத்துள்ளனர், ஏனெனில் இவை பெரும்பாலும் இணைப்பு தாக்குதலுக்கு ஆளாக வேண்டும். 95% அளவுள்ள பண்புக்கூறுகளுக்கு வெளியே 'அரிய வகைப் பண்புக்கூறு மதிப்புகள்' கொண்ட பதிவுகளையும் அவர்கள் தேர்ந்தெடுத்தனர். இறப்புக்கான அதிக ஆபத்து, அதிக மொத்த மருத்துவமனை கட்டணங்கள் மற்றும் நோயின் தீவிரம் தொடர்பான பதிவுகள் எடுத்துக்காட்டுகளில் அடங்கும்.

இந்தக் கட்டுரை இந்த அம்சத்தைப் பற்றி விரிவாகக் கூறவில்லை என்றாலும், நிஜ உலகில் தாக்குதல் நடத்துபவர்களின் பார்வையில், இந்த வகையான 'விலையுயர்ந்த' அல்லது 'அதிக ஆபத்து' நோயாளிகள்தான் உறுப்பினர் அனுமானம் மற்றும் பிற வகையான வெளியேற்ற அணுகுமுறைகளால் இலக்காகக் கூடும். நோயாளி பதிவுகளுக்கு.

பத்து இலக்குகளுக்கு மேல் 'நிழல் மாதிரிகளை' உருவாக்க பொதுக் குறிப்புத் தகவலுக்கு எதிராகப் பல தாக்குதல் மாதிரிகள் பயிற்சியளிக்கப்பட்டன. சோதனைகளின் வரம்பில் உள்ள முடிவுகள் (முன்பு விவரிக்கப்பட்டபடி) ஆராய்ச்சியாளர்களால் இலக்காகக் கொண்ட இணைப்பு தாக்குதல்களுக்கு பல பதிவுகள் 'மிகவும் பாதிக்கப்படக்கூடியவை' என்பதைக் குறிக்கிறது. சோதனைகளின் அனைத்து இலக்குகளில் 20% தனியுரிமை ஆதாயத்தைப் பெற்றதாகவும் முடிவுகள் கண்டறிந்துள்ளன பூஜ்யம் GAN முறைகளால் உருவாக்கப்பட்ட செயற்கைத் தரவுகளிலிருந்து.

செயற்கைத் தரவை உருவாக்கப் பயன்படுத்தப்படும் முறை, தாக்குதல் திசையன் மற்றும் இலக்கு தரவுத்தொகுப்பின் அம்சங்களைப் பொறுத்து முடிவுகள் மாறுபடும் என்று ஆராய்ச்சியாளர்கள் குறிப்பிடுகின்றனர். பல சந்தர்ப்பங்களில், செயற்கை தரவு அணுகுமுறைகள் மூலம் திறமையான அடையாள அடக்குமுறையானது விளைவான அமைப்புகளின் பயன்பாட்டைக் குறைக்கிறது என்று அறிக்கை கண்டறிந்துள்ளது. திறம்பட, இத்தகைய அமைப்புகளின் பயன் மற்றும் துல்லியம் பல சந்தர்ப்பங்களில் அவை மறுஅடையாளத் தாக்குதல்களுக்கு எவ்வளவு பாதிக்கப்படக்கூடியவை என்பதற்கான நேரடிக் குறியீடாக இருக்கலாம்.

ஆராய்ச்சியாளர்கள் முடிவு செய்கிறார்கள்:

'ஒரு செயற்கை தரவுத்தொகுப்பு அசல் தரவின் சிறப்பியல்புகளை அதிக துல்லியத்துடன் பாதுகாத்து, அது விளம்பரப்படுத்தப்படும் பயன்பாட்டு நிகழ்வுகளுக்கான தரவு பயன்பாட்டைத் தக்க வைத்துக் கொண்டால், அது ஒரே நேரத்தில் எதிரிகள் தனிநபர்களைப் பற்றிய முக்கியமான தகவல்களைப் பிரித்தெடுக்க உதவுகிறது.

'நாங்கள் மதிப்பீடு செய்த அநாமதேய வழிமுறைகள் மூலம் தனியுரிமையில் அதிக ஆதாயம் பெறுவது, அசல் தரவின் வெளியிடப்பட்ட செயற்கை அல்லது சுத்திகரிக்கப்பட்ட பதிப்பு, மூலத் தரவில் தனிப்பட்ட பதிவுகளின் சிக்னலைக் கொண்டு செல்லாமல், அவற்றின் பதிவை அடக்கினால் மட்டுமே அடைய முடியும்.'