ஹெல்த்கேர்
செயற்கைத் தரவு நம்பகத்தன்மையுடன் தனியுரிமையைப் பாதுகாக்காது, ஆராய்ச்சியாளர்கள் கூறுகின்றனர்
![](https://www.unite.ai/wp-content/uploads/2021/09/synthetic-data-main.jpg)
இயந்திர கற்றல் துறையில் முன்னேற்றத்தை அச்சுறுத்தும் தனியுரிமை, தரம் மற்றும் கிடைக்கும் சிக்கல்களை (பிற சிக்கல்களுடன்) செயற்கைத் தரவு தீர்க்க முடியும் என்ற தொழில்துறையின் நம்பிக்கையை பிரான்ஸ் மற்றும் யுகே இடையே ஒரு புதிய ஆராய்ச்சி ஒத்துழைப்பு சந்தேகத்தை எழுப்புகிறது.
குறிப்பிடப்பட்ட பல முக்கிய புள்ளிகளில், உண்மையான தரவுகளிலிருந்து செயற்கைத் தரவுகள் போதுமான அளவு உண்மையான தகவலைத் தக்கவைத்துக்கொள்வதாக ஆசிரியர்கள் வலியுறுத்துகின்றனர், இது அனுமானம் மற்றும் உறுப்பினர் தாக்குதல்களிலிருந்து நம்பகமான பாதுகாப்பை வழங்காது, இது தரவை பெயரிடாமல் மற்றும் உண்மையான நபர்களுடன் மீண்டும் இணைக்க முயல்கிறது.
மேலும், ஆபத்தான மருத்துவ நிலைமைகள் அல்லது அதிக மருத்துவமனை கட்டணங்கள் உள்ளவர்கள் (மருத்துவப் பதிவேடு அநாமதேயமாக இருந்தால்) போன்ற தாக்குதல்களால் மிகவும் ஆபத்தில் உள்ள நபர்கள், அவர்களின் நிலையின் 'வெளிப்புற' தன்மை மூலம், பெரும்பாலும் மீண்டும் அடையாளம் காணப்படுவார்கள். இந்த நுட்பங்கள்.
காகிதம் கவனிக்கிறது:
'செயற்கை தரவுத்தொகுப்புக்கான அணுகல் கொடுக்கப்பட்டால், ஒரு மூலோபாய எதிரி, அதிக நம்பிக்கையுடன், அசல் தரவுகளில் இலக்குப் பதிவின் இருப்பை ஊகிக்க முடியும்.'
என்றும் அந்த தாள் குறிப்பிடுகிறது வேறுபட்ட தனிப்பட்ட செயற்கை தரவு, இது தனிப்பட்ட பதிவுகளின் கையொப்பத்தை மறைக்கிறது, உண்மையில் தனிநபர்களின் தனியுரிமையைப் பாதுகாக்கிறது, ஆனால் அதைப் பயன்படுத்தும் தகவல் மீட்டெடுப்பு அமைப்புகளின் பயனை கணிசமாக முடக்குவதன் மூலம் மட்டுமே.
ஏதேனும் இருந்தால், ஆராய்ச்சியாளர்கள் வித்தியாசமான தனிப்பட்ட அணுகுமுறைகளைக் கவனிக்கின்றனர் - இது 'உண்மையான' தகவலைப் பயன்படுத்துகிறது 'ஒரே நீக்கத்தில்' செயற்கை தரவு மூலம் - பாதுகாப்பு காட்சியை உருவாக்கவும் மோசமாக அது வேறுவிதமாக இருந்திருப்பதை விட:
'[செயற்கை] தரவுத்தொகுப்புகள் இந்த பரிமாற்றத்தைப் பற்றி எந்த வெளிப்படைத்தன்மையையும் கொடுக்கவில்லை. என்ன தரவு பண்புகள் பாதுகாக்கப்படும் மற்றும் என்ன மாதிரிகள் அடக்கப்படும் என்பதை கணிக்க இயலாது.'
புதிய காகித, என்ற தலைப்பில் செயற்கை தரவு - அநாமதேய கிரவுண்ட்ஹாக் தினம், பாரிஸில் உள்ள École Polytechnique Fédérale de Lausanne (EPFL) இல் இரண்டு ஆராய்ச்சியாளர்கள் மற்றும் லண்டன் யுனிவர்சிட்டி காலேஜ் (UCL) இன் ஆராய்ச்சியாளர்.
ஆராய்ச்சியாளர்கள் தற்போதுள்ள தனியார் உற்பத்தி மாதிரி பயிற்சி வழிமுறைகளின் சோதனைகளை மேற்கொண்டனர், மேலும் சில செயலாக்க முடிவுகள் கட்டமைப்பில் வழங்கப்பட்ட முறையான தனியுரிமை உத்தரவாதங்களை மீறுவதாகக் கண்டறிந்தனர்.
ஆசிரியர்கள் ஒவ்வொரு அல்காரிதத்தின் திருத்தப்பட்ட பதிப்பை வழங்குகிறார்கள், இது இந்த வெளிப்பாடுகளைத் தணிக்கும் மற்றும் குறியீட்டை உருவாக்குகிறது கிடைக்கும் திறந்த மூல நூலகமாக. செயற்கைத் தரவின் தனியுரிமை ஆதாயங்களை மதிப்பிடுவதற்கும், பிரபலமான அநாமதேய முறைகளை பயனுள்ள வகையில் ஒப்பிடுவதற்கும் இது ஆராய்ச்சியாளர்களுக்கு உதவும் என்று அவர்கள் கூறுகின்றனர். புதிய கட்டமைப்பானது இரண்டு பொருத்தமான தனியுரிமை தாக்குதல் முறைகளை உள்ளடக்கியது, அவை எந்த உருவாக்க மாதிரி பயிற்சி வழிமுறையிலும் பயன்படுத்தப்படலாம்.
செயற்கை தரவு
செயற்கைத் தரவு பல்வேறு சூழ்நிலைகளில் இயந்திரக் கற்றல் மாதிரிகளைப் பயிற்றுவிக்கப் பயன்படுகிறது, இதில் விரிவான தகவல்களின் பற்றாக்குறை ersatz தரவு மூலம் நிரப்பப்படலாம். இதற்கு ஒரு உதாரணம், சிஜிஐ-உருவாக்கிய முகங்களைப் பயன்படுத்தி படத் தொகுப்பு தரவுத்தொகுப்புகளுக்கு 'கடினமான' அல்லது அரிதான முகப் புகைப்படங்களை வழங்குவதற்கான சாத்தியக்கூறு உள்ளது, அங்கு சுயவிவரப் படங்கள், கடுமையான கோணங்கள் அல்லது அசாதாரண வெளிப்பாடுகள் பெரும்பாலும் மூலப் பொருட்களில் அரிதாகவே காணப்படுகின்றன.
பிற வகையான CGI படத்தொகுப்புகள் தரவுத்தொகுப்புகளை விரிவுபடுத்த பயன்படுத்தப்படுகின்றன, அவை இறுதியில் செயற்கை அல்லாத தரவுகளில் இயங்கும் கைகளை மற்றும் மரச்சாமான்களை.
தனியுரிமைப் பாதுகாப்பைப் பொறுத்தவரை, செயற்கைத் தரவை ஜெனரேட்டிவ் அட்வர்ஸரியல் நெட்வொர்க் (GAN) அமைப்புகளால் உண்மையான தரவுகளிலிருந்து உருவாக்க முடியும், அவை உண்மையான தரவிலிருந்து அம்சங்களைப் பிரித்தெடுத்து, பிற்கால (பார்க்காத, உண்மையான) தரவுகளுக்குப் பொதுமைப்படுத்தக்கூடிய ஒத்த, கற்பனையான பதிவுகளை உருவாக்குகின்றன. ஆனால் மூலத் தரவுகளில் இடம்பெற்றுள்ள உண்மையான நபர்களின் விவரங்களைத் தெளிவடையச் செய்யும் நோக்கம் கொண்டது.
முறை
புதிய ஆராய்ச்சியின் நோக்கங்களுக்காக, ஐந்து உருவாக்கும் மாதிரி பயிற்சி அல்காரிதம்களில் தனியுரிமை ஆதாயங்களை ஆசிரியர்கள் மதிப்பீடு செய்தனர். மூன்று மாதிரிகள் வெளிப்படையான தனியுரிமைப் பாதுகாப்பை வழங்கவில்லை, மற்ற இரண்டும் வேறுபட்ட தனியுரிமை உத்தரவாதங்களுடன் வருகின்றன. இந்த அட்டவணை மாதிரிகள் பரந்த அளவிலான கட்டிடக்கலைகளை பிரதிநிதித்துவப்படுத்த தேர்ந்தெடுக்கப்பட்டன.
மாடல்கள் தாக்கப்பட்டனர் பேநெட், PrivBay (PrivBayes/BayNet என்பதன் வழித்தோன்றல்), CTGAN, படேகன் மற்றும் IndHist.
மாதிரிகளுக்கான மதிப்பீட்டு கட்டமைப்பு இரண்டு முக்கிய வகுப்புகளுடன் பைதான் நூலகமாக செயல்படுத்தப்பட்டது - உருவாக்கும் மாதிரிகள் மற்றும் தனியுரிமைத் தாக்குதல்கள். பிந்தையது இரண்டு அம்சங்களைக் கொண்டுள்ளது - உறுப்பினர் அனுமான எதிரி மற்றும் உறுப்பினர் அனுமான தாக்குதல். கட்டமைப்பானது 'சுத்தப்படுத்தப்பட்ட' (அதாவது அநாமதேயப்படுத்தப்பட்ட) தரவு மற்றும் செயற்கைத் தரவின் தனியுரிமைப் பலன்களை மதிப்பீடு செய்ய முடியும்.
சோதனைகளில் பயன்படுத்தப்பட்ட இரண்டு தரவுத்தொகுப்புகள் வயது வந்தோர் தரவுத் தொகுப்பு UCI இயந்திர கற்றல் களஞ்சியத்தில் இருந்து, மற்றும் மருத்துவமனை வெளியேற்ற தரவு பொது பயன்பாட்டு தரவு கோப்பு டெக்சாஸ் மாநில சுகாதார சேவைகள் துறையிலிருந்து. ஆராய்ச்சியாளர்கள் பயன்படுத்தும் டெக்சாஸ் தரவுத்தொகுப்பு பதிப்பில் 50,000 ஆம் ஆண்டிற்கான நோயாளி பதிவுகளிலிருந்து மாதிரி எடுக்கப்பட்ட 2013 பதிவுகள் உள்ளன.
தாக்குதல்கள் மற்றும் கண்டுபிடிப்புகள்
ஆராய்ச்சியின் பொதுவான நோக்கம் 'இணைப்புத்தன்மை' (உண்மையான தரவுகளை செயற்கைத் தரவுகளுடன் மீண்டும் இணைத்தல்) நிறுவுவதாகும். ஆய்வில் பயன்படுத்தப்படும் தாக்குதல் மாதிரிகளில் லாஜிஸ்டிக் ரிக்ரஷன், ரேண்டம் காடுகள் மற்றும் கே-அருகிலுள்ள அண்டை நாடுகளின் வகைப்படுத்திகள் ஆகியவை அடங்கும்.
மக்கள்தொகையின் 'சிறுபான்மை' வகைகளுக்காக தோராயமாக தேர்ந்தெடுக்கப்பட்ட ஐந்து பதிவுகளைக் கொண்ட இரண்டு இலக்கு குழுக்களை ஆசிரியர்கள் தேர்ந்தெடுத்துள்ளனர், ஏனெனில் இவை பெரும்பாலும் இணைப்பு தாக்குதலுக்கு ஆளாக வேண்டும். 95% அளவுள்ள பண்புக்கூறுகளுக்கு வெளியே 'அரிய வகைப் பண்புக்கூறு மதிப்புகள்' கொண்ட பதிவுகளையும் அவர்கள் தேர்ந்தெடுத்தனர். இறப்புக்கான அதிக ஆபத்து, அதிக மொத்த மருத்துவமனை கட்டணங்கள் மற்றும் நோயின் தீவிரம் தொடர்பான பதிவுகள் எடுத்துக்காட்டுகளில் அடங்கும்.
இந்தக் கட்டுரை இந்த அம்சத்தைப் பற்றி விரிவாகக் கூறவில்லை என்றாலும், நிஜ உலகில் தாக்குதல் நடத்துபவர்களின் பார்வையில், இந்த வகையான 'விலையுயர்ந்த' அல்லது 'அதிக ஆபத்து' நோயாளிகள்தான் உறுப்பினர் அனுமானம் மற்றும் பிற வகையான வெளியேற்ற அணுகுமுறைகளால் இலக்காகக் கூடும். நோயாளி பதிவுகளுக்கு.
பத்து இலக்குகளுக்கு மேல் 'நிழல் மாதிரிகளை' உருவாக்க பொதுக் குறிப்புத் தகவலுக்கு எதிராகப் பல தாக்குதல் மாதிரிகள் பயிற்சியளிக்கப்பட்டன. சோதனைகளின் வரம்பில் உள்ள முடிவுகள் (முன்பு விவரிக்கப்பட்டபடி) ஆராய்ச்சியாளர்களால் இலக்காகக் கொண்ட இணைப்பு தாக்குதல்களுக்கு பல பதிவுகள் 'மிகவும் பாதிக்கப்படக்கூடியவை' என்பதைக் குறிக்கிறது. சோதனைகளின் அனைத்து இலக்குகளில் 20% தனியுரிமை ஆதாயத்தைப் பெற்றதாகவும் முடிவுகள் கண்டறிந்துள்ளன பூஜ்யம் GAN முறைகளால் உருவாக்கப்பட்ட செயற்கைத் தரவுகளிலிருந்து.
செயற்கைத் தரவை உருவாக்கப் பயன்படுத்தப்படும் முறை, தாக்குதல் திசையன் மற்றும் இலக்கு தரவுத்தொகுப்பின் அம்சங்களைப் பொறுத்து முடிவுகள் மாறுபடும் என்று ஆராய்ச்சியாளர்கள் குறிப்பிடுகின்றனர். பல சந்தர்ப்பங்களில், செயற்கை தரவு அணுகுமுறைகள் மூலம் திறமையான அடையாள அடக்குமுறையானது விளைவான அமைப்புகளின் பயன்பாட்டைக் குறைக்கிறது என்று அறிக்கை கண்டறிந்துள்ளது. திறம்பட, இத்தகைய அமைப்புகளின் பயன் மற்றும் துல்லியம் பல சந்தர்ப்பங்களில் அவை மறுஅடையாளத் தாக்குதல்களுக்கு எவ்வளவு பாதிக்கப்படக்கூடியவை என்பதற்கான நேரடிக் குறியீடாக இருக்கலாம்.
ஆராய்ச்சியாளர்கள் முடிவு செய்கிறார்கள்:
'ஒரு செயற்கை தரவுத்தொகுப்பு அசல் தரவின் சிறப்பியல்புகளை அதிக துல்லியத்துடன் பாதுகாத்து, அது விளம்பரப்படுத்தப்படும் பயன்பாட்டு நிகழ்வுகளுக்கான தரவு பயன்பாட்டைத் தக்க வைத்துக் கொண்டால், அது ஒரே நேரத்தில் எதிரிகள் தனிநபர்களைப் பற்றிய முக்கியமான தகவல்களைப் பிரித்தெடுக்க உதவுகிறது.
'நாங்கள் மதிப்பீடு செய்த அநாமதேய வழிமுறைகள் மூலம் தனியுரிமையில் அதிக ஆதாயம் பெறுவது, அசல் தரவின் வெளியிடப்பட்ட செயற்கை அல்லது சுத்திகரிக்கப்பட்ட பதிப்பு, மூலத் தரவில் தனிப்பட்ட பதிவுகளின் சிக்னலைக் கொண்டு செல்லாமல், அவற்றின் பதிவை அடக்கினால் மட்டுமே அடைய முடியும்.'
![](https://www.unite.ai/wp-content/uploads/2022/10/join-the-future-newsletter.png)
![](https://www.unite.ai/wp-content/uploads/2024/01/Unite-AI-Mobile-Newsletter-1.png)