Anderson का एंगल

लगभग 80% प्रशिक्षण डेटासेट एंटरप्राइज़ एआई के लिए कानूनी जोखिम हो सकते हैं

Published March 7, 2025

Updated May 19, 2026

Martin Anderson

एलजी एआई रिसर्च से एक हालिया पेपर से पता चलता है कि कथित तौर पर ‘खुले’ डेटासेट, जिनका उपयोग एआई मॉडल को प्रशिक्षित करने के लिए किया जाता है, एक झूठी सुरक्षा की भावना प्रदान कर सकते हैं – यह पता चलता है कि लगभग चार में से तीन एआई डेटासेट, जिन्हें ‘व्यावसायिक रूप से उपयोगी’ के रूप में लेबल किया गया है, वास्तव में छिपे हुए कानूनी जोखिमों को छुपाते हैं।

ऐसे जोखिमों में अनुशंसित कॉपीराइट सामग्री के समावेश से लेकर डेटासेट की निर्भरताओं में दफन लाइसेंस शर्तों तक शामिल हैं। यदि पेपर के निष्कर्ष सटीक हैं, तो सार्वजनिक डेटासेट पर निर्भर कंपनियों को अपनी वर्तमान एआई पाइपलाइनों पर पुनर्विचार करने की आवश्यकता हो सकती है, या जोखिम का सामना करने के लिए आगे बढ़ सकती हैं।

शोधकर्ता एक कट्टरपंथी और संभावित रूप से विवादास्पद समाधान का प्रस्ताव करते हैं: एआई-आधारित अनुपालन एजेंट जो मानव वकीलों की तुलना में तेजी से और सटीकता से डेटासेट इतिहास की जांच और लेखा परीक्षा कर सकते हैं।

पेपर में कहा गया है:

‘यह पेपर यह तर्क देता है कि एआई प्रशिक्षण डेटासेट के कानूनी जोखिम का निर्धारण केवल लाइसेंस शर्तों की समीक्षा करके नहीं किया जा सकता है; डेटासेट पुनर्वितरण के लिए एक विस्तृत, अंत-से-अंत विश्लेषण आवश्यक है।’

‘चूंकि ऐसा विश्लेषण मानव क्षमताओं से परे है क्योंकि इसकी जटिलता और पैमाने के कारण, एआई एजेंट इस अंतर को पाटने के लिए अधिक गति और सटीकता के साथ इसका संचालन कर सकते हैं। बिना स्वचालन के, महत्वपूर्ण कानूनी जोखिम बड़े पैमाने पर अनदेखे रहते हैं, नैतिक एआई विकास और नियामक अनुपालन को खतरे में डालते हैं। ‘

‘हम एआई अनुसंधान समुदाय से आग्रह करते हैं कि वे अंत-से-अंत कानूनी विश्लेषण को एक मूलभूत आवश्यकता के रूप में मान्यता दें और डेटासेट अनुपालन के लिए व्यवहार्य मार्ग के रूप में एआई-संचालित दृष्टिकोण को अपनाएं।’

शोधकर्ताओं ने 2,852 लोकप्रिय डेटासेट की जांच की, जो व्यावसायिक रूप से उपयोगी लग रहे थे क्योंकि उनके व्यक्तिगत लाइसेंस के आधार पर, उनके स्वचालित प्रणाली ने पाया कि केवल 605 (लगभग 21%) वास्तव में व्यावसायीकरण के लिए कानूनी रूप से सुरक्षित थे जब एक बार सभी घटकों और निर्भरताओं को ट्रेस किया गया था।

नया पेपर शीर्षक है डो नॉट ट्रस्ट लाइसेंस यू सी — डेटासेट कंप्लायंस रिक्वायर्स मासिव-स्केल एआई-पावर्ड लाइफसाइकल ट्रेसिंग, और यह एलजी एआई रिसर्च के आठ शोधकर्ताओं से है।

अधिकार और गलत

लेखक एआई विकास के साथ आगे बढ़ने वाली कंपनियों द्वारा सामना की जाने वाली चुनौतियों पर प्रकाश डालते हैं – जैसा कि पूर्व अकादमिक ‘न्यायसंगत उपयोग’ दृष्टिकोण डेटासेट प्रशिक्षण के रूप में एक विभाजित वातावरण में देता है जहां कानूनी सुरक्षा अस्पष्ट है और सुरक्षित बंदरगाह अब गारंटीकृत नहीं है।

जैसा कि एक प्रकाशन हाल ही में इंगित किया, कंपनियां अपने प्रशिक्षण डेटा के स्रोतों के बारे में बढ़ती हुई रक्षात्मक हो रही हैं। लेखक एडम ब्यूक टिप्पणी करते हैं*:

‘[जबकि] ओपनएआई ने जीपीटी-3 के लिए डेटा के मुख्य स्रोतों का खुलासा किया, जीपीटी-4 की पेश करने वाले पेपर प्रकट केवल यह है कि मॉडल को प्रशिक्षित करने वाले डेटा एक ‘सार्वजनिक रूप से उपलब्ध डेटा (जैसे इंटरनेट डेटा) और तीसरे पक्ष के प्रदाताओं से लाइसेंस प्राप्त डेटा’ का मिश्रण था। ‘

‘इस कदम के पीछे प्रेरणाओं को एआई डेवलपर्स द्वारा किसी विशेष विवरण में नहीं बताया गया है, जिनमें से कई मामलों में कोई स्पष्टीकरण नहीं दिया गया है। ‘

‘ओपनएआई ने जीपीटी-4 के बारे में आगे के विवरण जारी नहीं करने का अपना निर्णय ‘प्रतिस्पर्धी परिदृश्य और बड़े पैमाने पर मॉडलों के सुरक्षा निहितार्थ’ के बारे में चिंताओं के आधार पर उचित ठहराया, रिपोर्ट में इसके अलावा कोई और स्पष्टीकरण नहीं दिया गया। ‘

पारदर्शिता एक भ्रामक शब्द हो सकता है – या बस एक गलती; उदाहरण के लिए, एडोब के फ्लैगशिप फायरफ्लाई जेनरेटिव मॉडल, जिसे एडोब के पास शेयर बाजार डेटा पर शोषण करने के लिए अधिकार था, ग्राहकों को प्रणाली के उपयोग की वैधता के बारे में आश्वस्त करने वाला था। बाद में, कुछ सबूत सामने आए कि फायरफ्लाई डेटा पॉट अन्य प्लेटफार्मों से संभावित रूप से कॉपीराइट डेटा के साथ ‘संवर्धित’ हो गया था।

जैसा कि हम इस सप्ताह की शुरुआत में चर्चा की, लाइसेंस अनुपालन में डेटासेट में आश्वस्त करने के लिए बढ़ती पहल है, जिसमें एक ऐसा भी शामिल है जो केवल यूट्यूब वीडियो को क्रिएटिव कॉमन्स लाइसेंस के साथ खोजेगा।

समस्या यह है कि लाइसेंस स्वयं ही त्रुटिपूर्ण हो सकते हैं, या गलती से दिए गए हों, जैसा कि नए शोध का संकेत लगता है।

खुले स्रोत डेटासेट की जांच

यह एक मूल्यांकन प्रणाली जैसे लेखकों के नेक्सस को विकसित करना मुश्किल है जब संदर्भ लगातार बदलता रहता है। इसलिए पेपर में कहा गया है कि नेक्सस डेटा कंप्लायंस फ्रेमवर्क सिस्टम वर्तमान में ‘विभिन्न पूर्ववर्ती और कानूनी आधार’ पर आधारित है।

नेक्सस एक एआई-संचालित एजेंट का उपयोग करता है जिसे ऑटोकंप्लायंस कहा जाता है जो डेटा अनुपालन के लिए स्वचालित है। ऑटोकंप्लायंस में तीन मुख्य मॉड्यूल होते हैं: वेब अन्वेषण के लिए एक नेविगेशन मॉड्यूल; सूचना निष्कर्षण के लिए एक प्रश्न-उत्तर (क्यूए) मॉड्यूल; और कानूनी जोखिम मूल्यांकन के लिए एक स्कोरिंग मॉड्यूल。

ऑटोकंप्लायंस एक उपयोगकर्ता-प्रदान किए गए वेबपेज से शुरू होता है। एआई मुख्य विवरण निकालता है, संबंधित संसाधनों की खोज करता है, लाइसेंस शर्तों और निर्भरताओं की पहचान करता है, और एक कानूनी जोखिम स्कोर सौंपता है। स्रोत: https://arxiv.org/pdf/2503.02784

इन मॉड्यूलों को फाइन-ट्यून किए गए एआई मॉडल द्वारा संचालित किया जाता है, जिसमें एक्सएओएन-3.5-32बी-इन्सट्रक्ट मॉडल शामिल है, जो सिंथेटिक और मानव-लेबल वाले डेटा पर प्रशिक्षित है। ऑटोकंप्लायंस एक डेटाबेस का भी उपयोग करता है जो परिणामों को कैश करने के लिए कार्यक्षमता में सुधार करता है।

ऑटोकंप्लायंस एक उपयोगकर्ता-प्रदान किए गए डेटासेट यूआरएल से शुरू होता है और इसे मूल इकाई के रूप में मानता है, इसकी लाइसेंस शर्तों और निर्भरताओं की खोज करता है, और जुड़े हुए डेटासेट को ट्रेस करने के लिए पुनरावृत्ति रूप से जांच करता है। एक बार सभी कनेक्शन मैप हो जाने के बाद, यह अनुपालन स्कोर की गणना करता है और जोखिम वर्गीकरण सौंपता है।

नेक्सस में वर्णित डेटा कंप्लायंस फ्रेमवर्क विभिन्न प्रकार के इकाई प्रकारों की पहचान करता है जो डेटा लाइफसाइकल में शामिल हैं, जिनमें डेटासेट शामिल हैं, जो एआई प्रशिक्षण के लिए मुख्य इनपुट बनते हैं; डेटा प्रोसेसिंग सॉफ्टवेयर और एआई मॉडल, जो डेटा को बदलने और उपयोग करने के लिए उपयोग किए जाते हैं; और प्लेटफ़ॉर्म सेवा प्रदाता, जो डेटा हैंडलिंग की सुविधा प्रदान करते हैं।

सिस्टम कानूनी जोखिमों का मूल्यांकन करता है जो इन विभिन्न इकाइयों और उनकी अंतर्निर्भरताओं पर विचार करता है, डेटासेट के लाइसेंस के रोटे मूल्यांकन से परे जाकर एआई विकास में शामिल घटकों के व्यापक पारिस्थितिकी तंत्र को शामिल करता है।

डेटा कंप्लायंस पूरे डेटा लाइफसाइकल में कानूनी जोखिम का मूल्यांकन करता है। यह डेटासेट विवरण और 14 मानदंडों के आधार पर स्कोर सौंपता है, व्यक्तिगत इकाइयों को वर्गीकृत करता है और निर्भरताओं में जोखिम को समग्र करता है।

प्रशिक्षण और मेट्रिक्स

लेखकों ने हगिंग फेस पर सबसे अधिक डाउनलोड किए गए शीर्ष 1,000 डेटासेट के यूआरएल निकाले, और 216 आइटम का एक परीक्षण सेट बनाने के लिए यादृच्छिक रूप से उप-नमूना लिया।

एक्सएओएन मॉडल को फाइन-ट्यून किया गया था लेखकों के कस्टम डेटासेट पर, नेविगेशन मॉड्यूल और प्रश्न-उत्तर मॉड्यूल सिंथेटिक डेटा का उपयोग कर रहे थे, और स्कोरिंग मॉड्यूल मानव-लेबल वाले डेटा का उपयोग कर रहा था।

मैदानी-सत्य लेबल पांच कानूनी विशेषज्ञों द्वारा बनाए गए थे जिन्हें कम से कम 31 घंटे के लिए समान कार्यों में प्रशिक्षित किया गया था। ये मानव विशेषज्ञ 216 परीक्षण मामलों के लिए निर्भरताओं और लाइसेंस शर्तों की पहचान करने के लिए मैनुअल रूप से काम करते थे, और फिर चर्चा के माध्यम से अपने निष्कर्षों को समेकित और परिष्कृत करते थे।

प्रशिक्षित, मानव-कैलिब्रेटेड ऑटोकंप्लायंस सिस्टम का परीक्षण चैटजीपीटी-4ओ और पर्प्लेक्सिटी प्रो के खिलाफ किया गया था, जिसमें लाइसेंस शर्तों में अधिक निर्भरताएं पाई गईं:

216 मूल्यांकन डेटासेट के लिए निर्भरताओं और लाइसेंस शर्तों की पहचान में सटीकता।

पेपर में कहा गया है:

‘ऑटोकंप्लायंस ने सभी अन्य एजेंटों और मानव विशेषज्ञों को पार कर लिया, प्रत्येक कार्य में 81.04% और 95.83% की सटीकता हासिल की। इसके विपरीत, चैटजीपीटी-4ओ और पर्प्लेक्सिटी प्रो ने स्रोत और लाइसेंस कार्यों के लिए क्रमशः अपेक्षाकृत कम सटीकता दिखाई। ‘

‘इन परिणामों से ऑटोकंप्लायंस का श्रेष्ठ प्रदर्शन उजागर होता है, जो दोनों कार्यों में उल्लेखनीय सटीकता के साथ इसकी प्रभावशीलता को प्रदर्शित करता है, साथ ही इन क्षेत्रों में एआई-आधारित मॉडल और मानव विशेषज्ञों के बीच एक महत्वपूर्ण प्रदर्शन अंतर भी दर्शाता है। ‘

कार्यक्षमता के संदर्भ में, ऑटोकंप्लायंस दृष्टिकोण ने केवल 53.1 सेकंड में चलने के लिए लिया, जबकि मानव मूल्यांकन के लिए समान कार्यों पर 2,418 सेकंड लगे।
इसके अलावा, मूल्यांकन रन की लागत $0.29 यूएसडी थी, जबकि मानव विशेषज्ञों के लिए $207 यूएसडी थी। हालांकि, यह ध्यान दिया जाना चाहिए कि यह एक जीसीपी ए2-मेगागपू-16जीपीयू नोड को मासिक रूप से $14,225 प्रति माह की दर से किराए पर लेने पर आधारित है – जो दर्शाता है कि इस तरह की लागत-प्रभावशीलता मुख्य रूप से एक बड़े पैमाने पर संचालन से संबंधित है।

डेटासेट जांच

विश्लेषण के लिए, शोधकर्ताओं ने 3,612 डेटासेट का चयन किया, जिसमें हगिंग फेस से 3,000 सबसे अधिक डाउनलोड किए गए डेटासेट और 2023 डेटा प्रोवेनेंस इनिशिएटिव से 612 डेटासेट शामिल थे।

पेपर में कहा गया है:

‘3,612 लक्ष्य इकाइयों से, हमने कुल 17,429 विशिष्ट इकाइयों की पहचान की, जहां 13,817 इकाइयां लक्ष्य इकाइयों के प्रत्यक्ष या परोक्ष निर्भरता के रूप में दिखाई दीं। ‘

‘हमारे अनुभवजन्य विश्लेषण के लिए, हम एक इकाई और इसके लाइसेंस निर्भरता ग्राफ को एकल-स्तरीय संरचना मानते हैं यदि इकाई में कोई निर्भरता नहीं है और एक बहु-स्तरीय संरचना यदि यह एक या अधिक निर्भरताओं को रखता है। ‘

‘3,612 लक्ष्य डेटासेट में से, 2,086 (57.8%) में बहु-स्तरीय संरचनाएं थीं, जबकि अन्य 1,526 (42.2%) में कोई निर्भरता के बिना एकल-स्तरीय संरचनाएं थीं। ‘

कॉपीराइट डेटासेट को केवल कानूनी अधिकार के साथ पुनर्वितरित किया जा सकता है, जो एक लाइसेंस, कॉपीराइट कानून के अपवाद, या अनुबंध की शर्तों से आ सकता है। अनधिकृत पुनर्वितरण कानूनी परिणामों को जन्म दे सकता है, जिसमें कॉपीराइट उल्लंघन या अनुबंध उल्लंघन शामिल हैं। इसलिए, गैर-अनुपालन की स्पष्ट पहचान आवश्यक है।

पेपर के उद्धृत मानदंड 4.4 के तहत डेटा कंप्लायंस के अनुसार वितरण उल्लंघन।

अध्ययन में 9,905 मामलों का पता चला जिसमें डेटासेट पुनर्वितरण गैर-अनुपालन था, जो दो श्रेणियों में विभाजित थे: 83.5% लाइसेंस शर्तों के तहत स्पष्ट रूप से निषिद्ध थे, जो पुनर्वितरण को एक स्पष्ट कानूनी उल्लंघन बनाता था; और 16.5% में संघर्षपूर्ण लाइसेंस शर्तें थीं, जहां पुनर्वितरण सिद्धांत रूप में अनुमति दी गई थी लेकिन आवश्यक शर्तों को पूरा नहीं करती थी, जो डाउनस्ट्रीम कानूनी जोखिम पैदा करती थीं।

लेखक स्वीकार करते हैं कि नेक्सस में प्रस्तावित जोखिम मानदंड सार्वभौमिक नहीं हैं और क्षेत्राधिकार और एआई अनुप्रयोग के अनुसार भिन्न हो सकते हैं, और यह कि भविष्य के सुधारों पर ध्यान केंद्रित किया जाना चाहिए ताकि बदलते वैश्विक नियमों के अनुकूल होने और एआई-संचालित कानूनी समीक्षा को परिष्कृत करने पर ध्यान केंद्रित किया जा सके।

निष्कर्ष

यह एक जटिल और बड़े पैमाने पर पेपर है, लेकिन यह शायद वर्तमान में उद्योग को एआई के अपनाने में सबसे बड़ा बाधक है – यह संभावना है कि कथित तौर पर ‘खुले’ डेटा बाद में विभिन्न संस्थाओं, व्यक्तियों और संगठनों द्वारा दावा किया जा सकता है।

डीएमसीए के तहत, उल्लंघन प्रति मामले के आधार पर बड़े जुर्माने को कानूनी रूप से शामिल कर सकते हैं। जहां उल्लंघन लाखों में हो सकते हैं, जैसा कि शोधकर्ताओं द्वारा खोजा गया है, संभावित कानूनी देयता वास्तव में महत्वपूर्ण है।

इसके अलावा, कंपनियां जो अपस्ट्रीम डेटा से लाभान्वित होने के लिए साबित हो सकती हैं उन्हें (जैसा कि आमतौर पर होता है) अज्ञानता का बहाना नहीं बना सकती हैं, कम से कम प्रभावशाली अमेरिकी बाजार में। न ही उनके पास वर्तमान में कोई वास्तविक उपकरण हैं जिनका उपयोग वे कथित तौर पर खुले स्रोत डेटासेट लाइसेंस समझौतों में दफन जटिल अर्थों में प्रवेश करने के लिए कर सकते हैं।

नेक्सस जैसी प्रणाली को बनाने में समस्या यह है कि यह यूएस के भीतर एक राज्य-दर-राज्य आधार पर या यूरोपीय संघ के भीतर एक राष्ट्र-दर-राष्ट्र आधार पर इसे कैलिब्रेट करने के लिए पर्याप्त चुनौतीपूर्ण होगा; एक वास्तविक वैश्विक फ्रेमवर्क (एक प्रकार का ‘इंटरपोल डेटासेट प्रोवेनेंस’) बनाने की संभावना विभिन्न सरकारों के विभिन्न प्रेरणाओं द्वारा कमजोर होती है, लेकिन यह भी कि ये सरकारें और उनके वर्तमान कानून इस संबंध में लगातार बदलते रहते हैं।

* मेरा लेखकों के उद्धरणों के लिए हाइपरलिंक का प्रतिस्थापन।
† पेपर में छह प्रकार निर्धारित किए गए हैं, लेकिन अंतिम दो परिभाषित नहीं हैं।

पहली बार शुक्रवार, 7 मार्च, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

लगभग 80% प्रशिक्षण डेटासेट एंटरप्राइज़ एआई के लिए कानूनी जोखिम हो सकते हैं

अधिकार और गलत

खुले स्रोत डेटासेट की जांच

प्रशिक्षण और मेट्रिक्स

डेटासेट जांच

निष्कर्ष

You may like