कृत्रिम बुद्धिमत्ता

एआई-आधारित जनरेटिव लेखन मॉडल अक्सर ‘कॉपी और पेस्ट’ स्रोत डेटा करते हैं

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

अमेरिकी नाटककार और उद्यमी विल्सन मिज़नर को अक्सर यह कहते हुए उद्धृत किया जाता है कि ‘जब आप एक लेखक से चोरी करते हैं, तो यह प्लेगियारिज्म है; यदि आप कई लोगों से चोरी करते हैं, तो यह शोध है’।

इसी तरह, नई पीढ़ी के एआई-आधारित रचनात्मक लेखन प्रणालियों के आसपास यह धारणा है कि उन्हें प्रशिक्षण चरण में दी गई विशाल मात्रा में डेटा ने उच्च स्तरीय अवधारणाओं और विचारों का वास्तविक अभिसरण परिणाम दिया है; कि इन प्रणालियों के पास हजारों योगदानकर्ता लेखकों की सार्वजनिक बुद्धिमत्ता है, जिससे वे मूल और अभिनव लेखन तैयार कर सकती हैं; और जो ऐसी प्रणालियों का उपयोग करते हैं वे यह सुनिश्चित कर सकते हैं कि वे अनजाने में प्लेगियारिज्म-बाई-प्रॉक्सी में शामिल नहीं हो रहे हैं।

यह एक धारणा है जिसे एक नए शोध पत्र द्वारा चुनौती दी जा रही है, जिसमें फेसबुक और माइक्रोसॉफ्ट के एआई अनुसंधान प्रभागों (包括 Facebook और Microsoft के AI 研究部門) सहित एक अनुसंधान संघ द्वारा यह पाया गया है कि जीपीटी श्रृंखला जैसे मशीन लर्निंग जनरेटिव भाषा मॉडल ‘कभी-कभी बहुत लंबे पासेज की प्रतिलिपि बनाते हैं’ अपने कथित मूल आउटपुट में, बिना उद्धरण के।

कुछ मामलों में, लेखकों का ध्यान है कि जीपीटी-2 अपने आउटपुट में प्रशिक्षण सेट से 1,000 से अधिक शब्दों की प्रतिलिपि बना देगा।

पत्र का शीर्षक भाषा मॉडल अपने प्रशिक्षण डेटा से कितना कॉपी करते हैं? रेवेन का उपयोग करके पाठ उत्पादन में भाषाई नवाचार का मूल्यांकन है, और यह जॉन्स हॉपकिन्स विश्वविद्यालय, माइक्रोसॉफ्ट रिसर्च, न्यूयॉर्क विश्वविद्यालय और फेसबुक एआई रिसर्च के बीच एक सहयोग है।

रेवेन

अध्ययन एक नए दृष्टिकोण का उपयोग करता है जिसे रेवेन (रेटिंगवर्बलनोवेल्टी), एक संक्षिप्त नाम दिया गया है जिसे एक क्लासिक कविता के पाखंडी पक्षी को दर्शाने के लिए मनोरंजक रूप से प्रतिबिंबित किया गया है:

‘यह संक्षिप्त नाम एडगर एलन पो की “द रेवेन” से संबंधित है, जिसमें कथावाचक एक रहस्यमय रेवेन से मिलता है जो बार-बार “नेवरमोर!” चिल्लाता है। कथावाचक यह नहीं बता सकता कि क्या रेवेन केवल एक मानव द्वारा कही गई बात को दोहरा रहा है, या यदि यह अपने स्वयं के उच्चार बना रहा है (शायद नेवर और मोर को मिलाकर) – यही मूल अस्पष्टता है जिसे हमारे पत्र में संबोधित किया गया है।’

नए पत्र से निष्कर्ष एआई सामग्री-लेखन प्रणालियों के लिए एक बड़े विकास के संदर्भ में आते हैं जो ‘सरल’ संपादन कार्यों को प्रतिस्थापित करने का प्रयास करते हैं, और यहां तक कि पूर्ण लंबाई वाली सामग्री भी लिखते हैं। एक ऐसी प्रणाली को इस सप्ताह की शुरुआत में 21 मिलियन डॉलर का श्रृंखला ए फंडिंग मिला है।

शोधकर्ताओं का ध्यान है कि ‘जीपीटी-2 कभी-कभी प्रशिक्षण पासेज की प्रतिलिपि बनाता है जो 1,000 शब्दों से अधिक लंबे होते हैं‘ (उनका जोर), और जनरेटिव भाषा प्रणालियां स्रोत डेटा में भाषाई त्रुटियों को प्रसारित करती हैं।

रेवेन के तहत अध्ययन किए गए भाषा मॉडल जीपीटी श्रृंखला के रिलीज़ थे जो जीपीटी-2 (लेखकों के पास उस समय जीपीटी-3 तक पहुंच नहीं थी), एक ट्रांसफॉर्मर, ट्रांसफॉर्मर-एक्सएल, और एक एलएसटीएम।

नवाचार

पत्र में यह उल्लेख किया गया है कि जीपीटी-2 बुश 2-शैली के इन्फ्लेक्शन जैसे ‘स्विसीफाइड’ बनाता है, और ‘आईकेईए-नेस’ जैसे व्युत्पन्न, ऐसे नए शब्द (वे जीपीटी-2 के प्रशिक्षण डेटा में दिखाई नहीं देते) बनाता है जो प्रशिक्षण के दौरान स्थापित उच्च आयामी स्थानों से भाषाई सिद्धांतों पर आधारित होते हैं।

परिणाम यह भी दिखाते हैं कि ‘ट्रांसफॉर्मर-एक्सएल द्वारा उत्पन्न 74% वाक्यों में एक वाक्य रचना होती है जो किसी भी प्रशिक्षण वाक्य में नहीं होती’, जो लेखकों के अनुसार, ‘न्यूरल भाषा मॉडल केवल स्मृति नहीं करते हैं; इसके बजाय वे उत्पादक प्रक्रियाओं का उपयोग करते हैं जो उन्हें परिचित भागों को नए तरीकों से जोड़ने की अनुमति देते हैं।’

तो तकनीकी रूप से, सामान्यीकरण और अभिसरण उत्पादक और मूल पाठ उत्पन्न करना चाहिए।

डेटा डुप्लिकेशन समस्या हो सकती है

पत्र यह सिद्धांत देता है कि प्राकृतिक भाषा पीढ़ी (एनएलजी) प्रणालियों द्वारा उत्पादित लंबे और वेरबेटम उद्धरण एआई मॉडल में ‘बेक्ड’ हो सकते हैं क्योंकि मूल स्रोत पाठ को डेटासेट में बार-बार दोहराया जाता है जो पर्याप्त रूप से डी-डुप्लिकेट नहीं किया गया है।

हालांकि एक अन्य शोध परियोजना ने पाया है कि पूर्ण पाठ की प्रतिलिपि तब भी हो सकती है जब स्रोत पाठ केवल एक बार डेटासेट में दिखाई देता है, लेखकों का ध्यान है कि परियोजना में सामान्य चलने वाले सामग्री-उत्पादक एआई प्रणालियों से अलग概念ात्मक वास्तुकला है।

लेखकों का यह भी ध्यान है कि भाषा पीढ़ी प्रणालियों में डिकोडिंग घटक को बदलने से नवाचार बढ़ सकता है, लेकिन परीक्षणों में पाया गया कि यह आउटपुट की गुणवत्ता के खर्चे पर होता है।

अधिक समस्याएं तब उत्पन्न होती हैं जब डेटासेट जो सामग्री-उत्पादक एल्गोरिदम को ईंधन देते हैं बढ़ते जाते हैं। डेटा प्री-प्रोसेसिंग की लागत और व्यवहार्यता के मुद्दों के अलावा, साथ ही डेटा की गुणवत्ता आश्वासन और डी-डुप्लिकेशन के अलावा, कई बुनियादी त्रुटियां स्रोत डेटा में बनी रहती हैं, जो तब एआई द्वारा उत्पन्न सामग्री आउटपुट में प्रसारित हो जाती हैं।

लेखकों का ध्यान है*:

‘हाल के प्रशिक्षण सेट के आकार में वृद्धि यह जांचना尤 biệt महत्वपूर्ण बनाती है कि क्या यह प्राकृतिक रूप से हो सकता है, क्योंकि इन प्रशिक्षण सेटों का आकार हमारी धारणाओं को तोड़ सकता है। उदाहरण के लिए, भाषा अधिग्रहण में कुछ उल्लेखनीय कार्य भाषा से संबंधित है, जो यह मानता है कि नियमित अतीत के रूप में अनियमित क्रियाओं के नियमित रूप (जैसे कि बिकम, टीच्ड) एक शिक्षार्थी के अनुभव में नहीं दिखाई देते हैं, इसलिए यदि एक शिक्षार्थी ऐसे शब्दों का उत्पादन करता है, तो वे शिक्षार्थी के लिए नए होने चाहिए। ‘

‘हालांकि, यह पता चलता है कि अंग्रेजी में 92 बुनियादी अनियमित क्रियाओं में, गलत नियमित रूप (जैसे कि बिकम, टीच्ड) जीपीटी-2 के प्रशिक्षण सेट में दिखाई देते हैं।’

अधिक डेटा क्यूरेशन की आवश्यकता

पत्र यह तर्क देता है कि जनरेटिव भाषा प्रणालियों के निर्माण में नवाचार पर अधिक ध्यान देने की आवश्यकता है, विशेष रूप से यह सुनिश्चित करने पर जोर देने के साथ कि ‘वापस रखा गया’ परीक्षण भाग (स्रोत डेटा का वह हिस्सा जो यह जांचने के लिए अलग रखा जाता है कि अंतिम एल्गोरिदम ने मुख्य प्रशिक्षित डेटा का मूल्यांकन कैसे किया है) कार्य के लिए उपयुक्त है।

‘मशीन लर्निंग में, यह महत्वपूर्ण है कि मॉडल का मूल्यांकन एक वापस रखे गए परीक्षण सेट पर किया जाए। खुले-समाप्त पाठ उत्पादन की प्रकृति के कारण, एक मॉडल का उत्पन्न पाठ प्रशिक्षण सेट से कॉपी किया जा सकता है, जिस स्थिति में यह वापस रखा गया नहीं है – इसलिए उस डेटा का उपयोग मॉडल के मूल्यांकन के लिए (जैसे कि सुसंगतता या व्याकरण के लिए) करना मान्य नहीं है।’

लेखकों का यह भी तर्क है कि भाषा मॉडल के निर्माण में अधिक सावधानी की आवश्यकता है क्योंकि एलिजा प्रभाव के कारण, जो 1966 में पहचाना गया एक सिंड्रोम है, जिसने “लोगों की संपूर्ण समझ की प्रवृत्ति को पहचाना जो कंप्यूटर द्वारा जोड़े गए प्रतीकों की तारों में पढ़ सकते हैं – विशेष रूप से शब्द”‘।

* मेरे द्वारा इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एआई-आधारित जनरेटिव लेखन मॉडल अक्सर ‘कॉपी और पेस्ट’ स्रोत डेटा करते हैं

रेवेन

नवाचार

डेटा डुप्लिकेशन समस्या हो सकती है

अधिक डेटा क्यूरेशन की आवश्यकता

You may like