நெறிமுறைகள்
தற்போதைய AI நடைமுறைகள் புதிய தலைமுறை பதிப்புரிமை ட்ரோல்களை இயக்கலாம்

Huawei மற்றும் கல்வியாளர்களுக்கு இடையேயான ஒரு புதிய ஆராய்ச்சி ஒத்துழைப்பு, செயற்கை நுண்ணறிவு மற்றும் இயந்திர கற்றல் ஆகியவற்றில் உள்ள மிக முக்கியமான தற்போதைய ஆராய்ச்சிகள் வணிக ரீதியாக முக்கியத்துவம் பெற்றவுடன் வழக்குக்கு ஆளாகக்கூடும் என்று அறிவுறுத்துகிறது, ஏனெனில் முன்னேற்றங்களை சாத்தியமாக்கும் தரவுத்தொகுப்புகள் தவறானதாக விநியோகிக்கப்படுகின்றன. தரவு பெறப்பட்ட பொது முகப்பு டொமைன்களின் அசல் விதிமுறைகளை மதிக்காத உரிமங்கள்.
இதன் விளைவாக, இது கிட்டத்தட்ட தவிர்க்க முடியாத இரண்டு சாத்தியமான விளைவுகளைக் கொண்டுள்ளது: அத்தகைய தரவுத்தொகுப்புகளைப் பயன்படுத்தியதாக அறியப்படும் மிகவும் வெற்றிகரமான, வணிகமயமாக்கப்பட்ட AI அல்காரிதம்கள், அவற்றின் தரவு அகற்றப்படும்போது பதிப்புரிமை மதிக்கப்படாத சந்தர்ப்பவாத காப்புரிமை ட்ரோல்களின் எதிர்கால இலக்குகளாக மாறும்; மற்றும் நிறுவனங்கள் மற்றும் தனிநபர்கள் ஆட்சேபனைக்குரியதாகக் கருதும் இயந்திரக் கற்றல் தொழில்நுட்பங்களின் வரிசைப்படுத்தல் அல்லது பரவலுக்கு எதிர்ப்புத் தெரிவிக்க இதே சட்டரீதியான பாதிப்புகளைப் பயன்படுத்த முடியும்.
தி காகித என்ற தலைப்பில் உள்ளது வணிக AI மென்பொருளை உருவாக்க, பொதுவில் கிடைக்கும் இந்தத் தரவுத்தொகுப்பைப் பயன்படுத்தலாமா? பெரும்பாலும் இல்லை, மற்றும் ஹவாய் கனடா மற்றும் Huawei சீனா இடையேயான ஒத்துழைப்பாகும், இங்கிலாந்தில் உள்ள யார்க் பல்கலைக்கழகம் மற்றும் கனடாவில் உள்ள விக்டோரியா பல்கலைக்கழகம் ஆகியவற்றுடன் இணைந்து செயல்படுகிறது.
ஆறில் ஐந்து (பிரபலமான) ஓப்பன் சோர்ஸ் டேட்டாசெட்கள் சட்டப்பூர்வமாக பயன்படுத்த முடியாதவை
ஆராய்ச்சிக்காக, வணிகத் திட்டங்களில் பயன்படுத்த விரும்பும் மிகவும் விரும்பத்தக்க ஓப்பன் சோர்ஸ் தரவுத்தொகுப்புகளைத் தேர்ந்தெடுக்குமாறு Huawei இல் உள்ள துறைகளிடம் ஆசிரியர்கள் கேட்டுக்கொண்டனர், மேலும் பதில்களில் இருந்து அதிகம் கோரப்பட்ட ஆறு தரவுத்தொகுப்புகளைத் தேர்ந்தெடுத்தனர்: CIFAR-10 (இன் துணைக்குழு 80 மில்லியன் சிறிய படங்கள் தரவுத்தொகுப்பு, இருந்து திரும்ப 'இழிவான சொற்கள்' மற்றும் 'தாக்குதல் படங்கள்', அதன் வழித்தோன்றல்கள் பெருகினாலும்); இமேஜ்நெட்; நகரக் காட்சிகள் (பிரத்தியேகமாக அசல் பொருள் கொண்டிருக்கும்); FFHQ; VGGFace2, மற்றும் MSCOCO.
தேர்ந்தெடுக்கப்பட்ட தரவுத்தொகுப்புகள் வணிகத் திட்டங்களில் சட்டப்பூர்வ பயன்பாட்டிற்கு ஏற்றதா என்பதை பகுப்பாய்வு செய்ய, ஆசிரியர்கள் ஒவ்வொரு தொகுப்பிற்கும் சாத்தியமான உரிமங்களின் சங்கிலியை மீண்டும் கண்டுபிடிக்க ஒரு புதிய பைப்லைனை உருவாக்கினர், இருப்பினும் அவர்கள் பெரும்பாலும் வலை காப்பகப் பிடிப்புகளை நாட வேண்டியிருந்தது. இப்போது காலாவதியான டொமைன்களில் இருந்து உரிமங்களைக் கண்டறிக, மேலும் சில சந்தர்ப்பங்களில் அருகிலுள்ள கிடைக்கக்கூடிய தகவலிலிருந்து உரிம நிலையை 'யூகிக்க' வேண்டியிருந்தது.

ஆசிரியர்களால் உருவாக்கப்பட்ட ஆதார-தடமறிதல் அமைப்புக்கான கட்டிடக்கலை. ஆதாரம்: https://arxiv.org/pdf/2111.02374.pdf
ஆறு தரவுத்தொகுப்புகளில் ஐந்துக்கான உரிமங்களை ஆசிரியர்கள் கண்டறிந்துள்ளனர் 'குறைந்தது ஒரு வணிக பயன்பாட்டுச் சூழலுடன் தொடர்புடைய அபாயங்களைக் கொண்டுள்ளது':
MS COCO ஐத் தவிர, ஆய்வு செய்யப்பட்ட உரிமங்கள் எதுவும் பயிற்சியாளர்களுக்கு தரவு அல்லது பயிற்சியளிக்கப்பட்ட AI மாதிரியின் வெளியீட்டில் பயிற்சியளிக்கப்பட்ட AI மாதிரியை வணிகமயமாக்கும் உரிமையை அனுமதிக்கவில்லை என்பதை நாங்கள் கவனிக்கிறோம். இத்தகைய முடிவு, இந்தத் தரவுத்தொகுப்புகளில் பயிற்சியளிக்கப்பட்ட முன் பயிற்சி பெற்ற மாதிரிகளைப் பயன்படுத்துவதிலிருந்து கூட பயிற்சியாளர்களைத் திறம்பட தடுக்கிறது. பொதுவில் கிடைக்கும் தரவுத்தொகுப்புகள் மற்றும் அவற்றில் முன் பயிற்சியளிக்கப்பட்ட AI மாதிரிகள் வணிக ரீதியாக பரவலாக பயன்படுத்தப்படுகிறது.' *
MS-COCO மட்டுமே இதை அனுமதிப்பதால், ஆய்வு செய்யப்பட்ட ஆறு தரவுத்தொகுப்புகளில் மூன்று தரவுத்தொகுப்பை மாற்றியமைத்தால் வணிகத் தயாரிப்புகளில் உரிம மீறலை ஏற்படுத்தக்கூடும் என்று ஆசிரியர்கள் மேலும் குறிப்பிடுகின்றனர். இருப்பினும் தரவு பெருக்குதல் மற்றும் துணை-தொகுப்புகள் மற்றும் செல்வாக்குமிக்க தரவுத்தொகுப்புகளின் சூப்பர்-செட் ஆகியவை பொதுவான நடைமுறையாகும்.
CIFAR-10 ஐப் பொறுத்தவரை, அசல் கம்பைலர்கள் எந்த வழக்கமான உரிமத்தையும் உருவாக்கவில்லை, தரவுத்தொகுப்பைப் பயன்படுத்தும் திட்டங்களுக்கு தரவுத்தொகுப்பின் வெளியீட்டுடன் கூடிய அசல் காகிதத்தின் மேற்கோளைச் சேர்த்து, நிறுவுவதற்கு மேலும் தடையாக உள்ளது. தரவின் சட்ட நிலை.
மேலும், சிட்டிஸ்கேப்ஸ் தரவுத்தொகுப்பில் மட்டுமே தரவுத்தொகுப்பின் தோற்றுவிப்பாளர்களால் பிரத்தியேகமாக உருவாக்கப்பட்ட உள்ளடக்கம் உள்ளது, மாறாக நெட்வொர்க் மூலங்களிலிருந்து 'கியூரேட்' (ஸ்கிராப்) செய்யப்படாமல், CIFAR-10 மற்றும் ImageNet பல ஆதாரங்களைப் பயன்படுத்தி, ஒவ்வொன்றும் ஆராயப்பட வேண்டும். எந்த வகையான பதிப்புரிமை பொறிமுறையையும் (அல்லது அர்த்தமுள்ள மறுப்பு) நிறுவுவதற்காக மீண்டும் கண்டுபிடிக்கப்பட்டது.
வெளியேறுவதற்கு வழி இல்லை
AI அல்காரிதம்களைப் பயிற்றுவிப்பதற்காக, தரவுத்தொகுப்புகளிலிருந்து பதிப்புரிமை பெற்ற உள்ளடக்கத்தை சுதந்திரமாகவும் அனுமதியின்றியும் பயன்படுத்திய தயாரிப்புகளைச் சுற்றியுள்ள வழக்குகளில் இருந்து பாதுகாக்க வணிக AI நிறுவனங்கள் மூன்று காரணிகளை நம்பியிருப்பதாகத் தெரிகிறது. இவற்றில் எதுவுமே அதிக (அல்லது ஏதேனும்) நம்பகமான நீண்ட காலப் பாதுகாப்பைக் கொடுக்கவில்லை:
1: லைசெஸ் ஃபேர் தேசிய சட்டங்கள்
உலகெங்கிலும் உள்ள அரசாங்கங்கள் செயல்திறன் AI (வழக்கமான பதிப்புரிமை இணக்கம் மற்றும் உரிமம் வழங்குவது உண்மையற்றதாக இருக்கும் அதிக அளவிலான நிஜ உலகத் தரவை நம்பியிருக்கும்) பந்தயத்தில் பின்வாங்காமல் இருப்பதற்காக தரவு ஸ்கிராப்பிங் தொடர்பான சட்டங்களை தளர்த்த வேண்டிய கட்டாயத்தில் உள்ளது. இந்த வகையில் அமெரிக்கா முழு அளவிலான நோய் எதிர்ப்பு சக்தியை வழங்குகிறது நியாயமான பயன்பாட்டுக் கோட்பாடு - உடன் 2015 இல் அங்கீகரிக்கப்பட்ட ஒரு கொள்கை தீர்மானம் ஆதர்ஸ் கில்ட் v. Google, Inc.
நியாயமான பயன்பாட்டுக் கொள்கை எப்போதாவது மாறினால் (அதாவது போதுமான அளவு அதிக அதிகாரம் கொண்ட நிறுவனங்கள் அல்லது நிறுவனங்களை உள்ளடக்கிய மற்றொரு முக்கிய நிகழ்வின் பிரதிபலிப்பாக), அது கருதப்படும் ஒரு முன்னோடி தற்போதைய பதிப்புரிமை மீறும் தரவுத்தளங்களை சுரண்டுதல், முந்தைய பயன்பாட்டைப் பாதுகாத்தல் ஆனால் இல்லை நடந்து ஒப்பந்தம் இல்லாமல் பதிப்புரிமை பெற்ற பொருள் மூலம் இயக்கப்பட்ட அமைப்புகளின் பயன்பாடு மற்றும் மேம்பாடு.
இது நியாயமான பயன்பாட்டுக் கோட்பாட்டின் தற்போதைய பாதுகாப்பை மிகவும் தற்காலிக அடிப்படையில் வைக்கிறது, மேலும் அந்தச் சூழ்நிலையில், பதிப்புரிமை பெற்ற பொருட்களால் அவற்றின் தோற்றம் செயல்படுத்தப்பட்ட சந்தர்ப்பங்களில், நிறுவப்பட்ட, வணிகமயமாக்கப்பட்ட இயந்திர கற்றல் வழிமுறைகள் செயல்பாட்டை நிறுத்த வேண்டியிருக்கலாம். மாதிரியின் எடைகள் இப்போது அனுமதிக்கப்பட்ட உள்ளடக்கத்துடன் பிரத்தியேகமாக கையாளப்படுகிறது, ஆனால் சட்டவிரோதமாக நகலெடுக்கப்பட்ட உள்ளடக்கத்தில் பயிற்சியளிக்கப்பட்டது (மற்றும் பயனுள்ளதாக்கப்பட்டது).
அமெரிக்காவிற்கு வெளியே, ஆசிரியர்கள் புதிய தாளில் குறிப்பிடுவது போல், கொள்கைகள் பொதுவாக குறைவான மென்மையுடன் இருக்கும். ஐக்கிய இராச்சியம் மற்றும் கனடா ஆகியவை வணிக நோக்கங்களுக்காக பதிப்புரிமை பெற்ற தரவைப் பயன்படுத்துவதற்கு மட்டுமே இழப்பீடு வழங்குகின்றன, அதே நேரத்தில் ஐரோப்பிய ஒன்றியத்தின் உரை மற்றும் தரவுச் சுரங்கச் சட்டம் (இது முழுவதுமாக மேலெழுதப்படவில்லை. சமீபத்திய முன்மொழிவுகள் மேலும் முறையான AI ஒழுங்குமுறைக்காக) அசல் தரவின் பதிப்புரிமைத் தேவைகளுக்கு இணங்காத AI அமைப்புகளுக்கான வணிகச் சுரண்டலையும் விலக்குகிறது.
இந்த பிந்தைய ஏற்பாடுகள், ஒரு நிறுவனம் மற்ற நபர்களின் தரவைக் கொண்டு பெரிய விஷயங்களைச் சாதிக்க முடியும் என்பதாகும். அந்த கட்டத்தில், தயாரிப்பு சட்டப்பூர்வமாக வெளிப்படும், அல்லது மில்லியன் கணக்கான பதிப்புரிமைதாரர்களுடன் ஏற்பாடுகள் செய்யப்பட வேண்டும், அவர்களில் பலர் இணையத்தின் மாறுதல் தன்மை காரணமாக இப்போது கண்டுபிடிக்க முடியாதவர்களாக உள்ளனர் - இது சாத்தியமற்ற மற்றும் கட்டுப்படியாகாத வாய்ப்பு.
2: எச்சரிக்கை எம்ப்டர்
மீறும் நிறுவனங்கள் குற்றம் சாட்டுவதை ஒத்திவைக்க நினைக்கும் சந்தர்ப்பங்களில், பதிப்புரிமை துஷ்பிரயோகத்தின் எந்தவொரு கூற்றுக்கும் எதிராக மிகவும் பிரபலமான திறந்த மூல தரவுத்தொகுப்புகளுக்கான பல உரிமங்கள் தானாக இழப்பீடு பெறுவதையும் புதிய தாள் கவனிக்கிறது:
'உதாரணமாக, இமேஜ்நெட்டின் உரிமம், தரவுத்தொகுப்பின் பயன்பாட்டிலிருந்து எழும் எந்தவொரு உரிமைகோரல்களுக்கும் எதிராக இமேஜ்நெட் குழுவிற்கு இழப்பீடு வழங்க பயிற்சியாளர்களுக்குத் தேவைப்படுகிறது. FFHQ, VGGFace2 மற்றும் MS COCO தரவுத்தொகுப்புகளுக்கு, தரவுத்தொகுப்பு விநியோகிக்கப்பட்டாலோ அல்லது மாற்றப்பட்டாலோ, அதே உரிமத்தின் கீழ் வழங்கப்பட வேண்டும்.'
திறம்பட, இது FOSS தரவுத்தொகுப்புகளைப் பயன்படுத்துபவர்களை, பதிப்புரிமை பெற்ற பொருளைப் பயன்படுத்துவதற்கான குற்றத்தை உள்வாங்கும்படி கட்டாயப்படுத்துகிறது.
3: தெளிவின்மை மூலம் இழப்பீடு
இயந்திர கற்றல் சமூகத்தின் கூட்டுத் தன்மையானது, பதிப்புரிமை மீறும் தரவுத்தொகுப்புகளிலிருந்து பயனடைந்த அல்காரிதம்களின் இருப்பை மறைக்க கார்ப்பரேட் அமானுஷ்யத்தைப் பயன்படுத்துவதை மிகவும் கடினமாக்குகிறது. நீண்ட கால வணிகத் திட்டங்கள் பெரும்பாலும் திறந்த FOSS சூழல்களில் தொடங்குகின்றன, அங்கு தரவுத்தொகுப்புகளின் பயன்பாடு பதிவு செய்யக்கூடிய விஷயமாக உள்ளது, GitHub மற்றும் பிற பொது-அணுகக்கூடிய மன்றங்களில் அல்லது திட்டத்தின் தோற்றம் முன் அச்சிடப்பட்ட அல்லது சக மதிப்பாய்வு செய்யப்பட்ட தாள்களில் வெளியிடப்பட்டது.
இது இல்லாத இடத்தில் கூட, மாதிரி தலைகீழ் is பெருகிய முறையில் திறன் தரவுத்தொகுப்புகளின் பொதுவான பண்புகளை வெளிப்படுத்துதல் (அல்லது கூட வெளிப்படையாக வெளியிடுகிறது சில ஆதாரப் பொருட்கள்), ஒன்று தன்னைத்தானே ஆதாரமாக வழங்குதல், அல்லது அல்காரிதத்தின் வளர்ச்சியின் வரலாறு மற்றும் அந்த மேம்பாட்டில் பயன்படுத்தப்பட்ட தரவுத்தொகுப்புகளின் விவரங்களுக்கு நீதிமன்ற உத்தரவின்படி அணுகலைச் செயல்படுத்துவதற்கு போதுமான அளவு மீறல் சந்தேகம்.
தீர்மானம்
அனுமதியின்றி பெறப்பட்ட பதிப்புரிமை பெற்ற உள்ளடக்கத்தின் குழப்பமான மற்றும் தற்காலிகப் பயன்பாடு மற்றும் தர்க்கரீதியாகப் பின்பற்றப்பட்ட தரவுகளின் அசல் ஆதாரம் வரை, ஆயிரக்கணக்கான பதிப்புரிமைதாரர்களுடன் பேச்சுவார்த்தைகள் தேவைப்படும் உரிமச் சங்கிலிகளின் தொடர்ச்சியை இந்த ஆவணம் சித்தரிக்கிறது. பல்வேறு வகையான உரிம விதிமுறைகளைக் கொண்ட தளங்களின் கீழ், பல வழித்தோன்றல் வணிகப் பணிகளைத் தடுக்கிறது.
ஆசிரியர்கள் முடிக்கிறார்கள்:
'வணிக AI மென்பொருளை உருவாக்க பொதுவில் கிடைக்கும் தரவுத்தொகுப்புகள் பரவலாகப் பயன்படுத்தப்படுகின்றன. பொதுவில் கிடைக்கும் தரவுத்தொகுப்புடன் தொடர்புடைய உரிமம் அவ்வாறு செய்வதற்கான உரிமையை வழங்கினால் மட்டுமே ஒருவர் அவ்வாறு செய்ய முடியும். இருப்பினும், பொதுவில் கிடைக்கும் தரவுத்தொகுப்புகளுடன் தொடர்புடைய உரிமத்தில் வழங்கப்பட்டுள்ள உரிமைகள் மற்றும் கடமைகளை சரிபார்ப்பது எளிதானது அல்ல. ஏனெனில், சில நேரங்களில் உரிமம் தெளிவற்றதாகவோ அல்லது செல்லாததாகவோ இருக்கும்.'
என்ற தலைப்பில் மற்றொரு புதிய படைப்பு சட்ட தரவுத்தொகுப்புகளை உருவாக்குதல், சிங்கப்பூர் மேலாண்மைப் பல்கலைக்கழகத்தின் கணக்கீட்டுச் சட்ட மையத்திலிருந்து நவம்பர் 2 ஆம் தேதி வெளியிடப்பட்டது, தற்காலிக தரவு சேகரிப்பின் 'வைல்ட் வெஸ்ட்' சகாப்தம் முடிவுக்கு வருவதை தரவு விஞ்ஞானிகள் அங்கீகரிக்க வேண்டியதன் அவசியத்தையும் வலியுறுத்துகிறது, மேலும் Huawei இன் பரிந்துரைகளை பிரதிபலிக்கிறது. காலப்போக்கில் கலாச்சாரம் மாறுவதால் தரவுத்தொகுப்பு பயன்பாடு சட்டரீதியான மாற்றங்களுக்கு ஒரு திட்டத்தை அம்பலப்படுத்தாது என்பதை உறுதி செய்வதற்காக மிகவும் கடுமையான பழக்கவழக்கங்கள் மற்றும் வழிமுறைகளை கடைப்பிடிக்க காகிதம் . ஆசிரியர் கவனிக்கிறார்*:
தற்போதைய சட்டங்கள் வழங்கும் கவலைகளுக்கு மத்தியில், எம்எல் தரவுத்தொகுப்புகளைப் பாதிக்கும் சட்டத்தின் கார்பஸ் வளரத் தொடங்கியுள்ளது. போதிய பாதுகாப்புகள். வரைவு AIA [EU செயற்கை நுண்ணறிவு சட்டம்], நிறைவேற்றப்பட்டால் மற்றும் போது, AI மற்றும் தரவு ஆளுகை நிலப்பரப்பை கணிசமாக மாற்றும்; பிற அதிகார வரம்புகள் தங்கள் சொந்த சட்டங்களைப் பின்பற்றலாம். '
* எனது இன்லைன் மேற்கோள்களை ஹைப்பர்லிங்க்களாக மாற்றுதல்