Anderson рдХрд╛ рдПрдВрдЧрд▓
рдПрдЖрдИ ‘рдкрд┐рдВрдХ рд╕реНрд▓рд╛рдЗрдо’ рд╕рдорд╛рдЪрд╛рд░ рдХреА рдкрд╣рдЪрд╛рди рдореЗрдВ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реИ

जनमत को प्रभावित करने के लिए डिज़ाइन किए गए एजेंडा-चालित राय मिलों, जो सार्वजनिक सेवा की तुलना में जनमत को प्रभावित करने के लिए अधिक डिज़ाइन किए गए हैं, यदि एआई का उपयोग उन्हें अधिक मूल और तर्कसंगत बनाने के लिए किया जाता है, तो उन्हें पहचानना मुश्किल हो सकता है। इसलिए, ‘पिंक स्लाइम डिटेक्शन’ गेम में आगे रहने की दौड़ है।
पिछले बीस वर्षों में, पारंपरिक स्थानीय मीडिया आउटलेट्स को वित्तपोषित करने की कमी, जो मीडिया रुझानों के विकसित होने और – हाल ही में – अमेरिकी सरकार की नीति के कारण है, ने क्षेत्रीय रिपोर्टिंग में एक शून्य छोड़ दिया है जिसे स्वार्थी संगठनों द्वारा उत्सुकता से अपनाया गया है स्वार्थी संगठन एआई का उपयोग करके अपने एजेंडे को चलाने के लिए।
‘स्वार्थी’ शब्द को संदर्भ में रखने के लिए (चूंकि कोई भी समाचार संगठन किसी न किसी तरह की राजनीतिक प्रवृत्ति से मुक्त नहीं है), हम उन तेल कंपनियों की बात कर रहे हैं जो दूरस्थ स्थानों से क्षेत्रीय समाचार साइटों का संचालन कर रही हैं, जिनमें वास्तविक स्थानीय संसाधन नहीं हैं, लेकिन जिनके पास कंपनी की सार्वजनिक प्रतिष्ठा की रक्षा का आदेश है; राजनीतिक रूप से प्रेरित समाचार साइटें किसी भी राजस्व धारा से वंचित चुनाव से पहले तैयार हो रही हैं; और पूरे प्रो-रिपब्लिकन समाचार साइटों के नेटवर्क की तरह चुनाव के समय के करीब से कहीं भी दिखाई दे रहे हैं।
2024 में, इसका अनुमान लगाया गया था कि एआई-संचालित पिंक स्लाइम समाचार ने वास्तविक समाचार आउटलेट्स को अंततः पार कर लिया था; उस समय, एक ऑस्ट्रेलियाई सर्वेक्षण में पाया गया कि 41% उपभोक्ता वास्तविक स्रोतों की तुलना में पिंक स्लाइम स्रोतों को पसंद करते हैं।
इस तरह के गुप्त चुनाव प्रचार को यह तर्क दिया जा सकता है कि यह एक मात्र अंधकारमय कला से विकसित हुआ है लोकतंत्र के लिए एक अस्तित्वगत खतरा (राजनीतिक रूप से प्रेरित आउटलेट्स के संबंध में) और सूचना के यथार्थवादी मानकों में सार्वजनिक विश्वास के लिए।
इसलिए, पिंक स्लाइम प्रकाशकों और प्रसारकों के विशिष्ट आउटपुट को पारंपरिक मीडिया संगठनों से अलग करने के तरीके कम से कम वर्तमान सूचना जलवायु में खिलाड़ियों और ड्राइविंग बलों को समझने में मददगार होंगे।
जैसा कि यह खड़ा है, वास्तविक समाचार संगठनों के रूप और टेम्पलेट बहुत आसानी से नकल किए जा सकते हैं, और एआई स्केलेबल प्रकाशन को एक वर्तमान और सस्ती वास्तविकता बनाता है, जिसमें कई ऐसे ही तरीके हैं पुराने मीडिया प्रकाशकों और प्रसारकों द्वारा अपनाए जा रहे हैं।
सिग्नल और शोर
एक नए अध्ययन से यह मुद्दा संबोधित किया जाता है, जो पिंक स्लाइम वेबसाइटों को कम जेनेरिक और आसानी से पहचानने योग्य बनाने के लिए बड़े भाषा मॉडल के बढ़ते उपयोग की जांच करता है, और एक सीखने के ढांचे का निर्माण करता है जो पिंक स्लाइम (पीएस) आउटपुट में विकसित होने वाले परिवर्तनों के साथ तालमेल बिठाने के लिए डिज़ाइन किया गया है।
शीर्षक पिंक स्लाइम पत्रकारिता का पर्दाफाश: भाषाई हस्ताक्षर और एलएलएम-जेनरेटेड खतरों के खिलाफ मजबूत पता लगाना, नया काम टेक्सास विश्वविद्यालय के पांच शोधकर्ताओं से है।
नई कार्य में जांच की जाती है कि बड़े पैमाने पर उत्पादित पीएस स्थानीय समाचार लेख वैध रिपोर्टिंग से कैसे भिन्न होते हैं, जिसमें उनकी अल्प, पुनरावृत्ति संरचनाओं और टेम्पलेटेड फ्रेज़िंग पर निर्भरता पर ध्यान केंद्रित किया जाता है जिसमें न्यूनतम परिवर्तनशीलता होती है; और लेखकों का उल्लेख है कि पीएस लेख आमतौर पर भावना को अपील करने के साथ ही जनमत को हेरफेर करने के लिए डिज़ाइन किए गए टेम्पलेट्स का पुन: उपयोग करते हैं:

नई पेपर से – कई आउटलेट केवल स्थान विवरण बदलकर लगभग समान लेख प्रकाशित करते हैं, जो सामग्री की नकल करने के लिए उपयोग की जाने वाली रणनीति को उजागर करता है। स्रोत
पारंपरिक पता लगाने वाले मॉडल जो इन विशेषताओं पर प्रशिक्षित होते हैं वे ऐसी सामग्री के खिलाफ अच्छा प्रदर्शन करते हैं, लेकिन वे असफल हो जाते हैं जब लेखों को एआई चैटबॉट्स द्वारा अधिक प्राकृतिक या परिष्कृत दिखने के लिए फिर से लिखा जाता है।
लेखकों के अपने परीक्षण संकेत देते हैं कि बड़े भाषा मॉडल द्वारा पेश किए गए भी छोटे शैलीगत परिवर्तन पता लगाने की सटीकता को 40% तक कम कर सकते हैं। इसे कम करने के लिए, वे एक निरंतर सीखने के ढांचे का प्रस्ताव करते हैं जो मूल और एआई-पुनर्लिखित दोनों लेखों पर पता लगाने वाले मॉडल को पुनः प्रशिक्षित करता है, ताकि भाषाई पैटर्न में बदलाव के अनुसार अनुकूलन किया जा सके।
विधि
परियोजना के लिए डेटा स्थापित करने के लिए, लेखकों ने पिंक स्लाइम डेटासेट का उपयोग किया, जिसमें 7.9 मिलियन लेख शामिल हैं जो 1,093 आउटलेट्स को 2021-2023 के दौरान कवर करते हैं, जिससे उन्हें फिल्टरिंग के बाद 9,472 पिंक स्लाइम लेख मिले। उन्होंने लायर डेटासेट का भी उपयोग किया, जिसमें एनोटेटेड फेक न्यूज़ शामिल है, साथ ही नेला-जीटी-2021 संग्रह, जिसमें केवल यूएस लेख * शामिल हैं।
अपने प्रशिक्षण और परीक्षण सेट तैयार करने के लिए, लेखकों ने पहले लेख टी-वितरित स्टोकेस्टिक नेबर एम्बेडिंग (टी-एसएनई) एल्गोरिदम का उपयोग करके एम्बेडिंग को दो आयामों में कम किया। उन्होंने फिर डेटा क्लस्टरिंग एल्गोरिदम डेंसिटी-बेस्ड-स्पेशियल-क्लस्टरिंग-ऑफ-एप्लिकेशन्स-विद-नॉइज़ (डीबीएससीएन) को पिंक-स्लाइम लेखों के समान क्लस्टर को अलग करने के लिए लागू किया।
प्रत्येक क्लस्टर को संबंधित कहानियों के एक समूह के रूप में माना जाता था, जिनमें से कई अभी भी एक ही टेम्पलेट का पालन करते थे, हालांकि डुप्लिकेट को संबोधित करने के लिए एक संयुक्त प्रयास के बावजूद।
प्रशिक्षण और परीक्षण सेट दोनों में समान लेख दिखाई देने से रोकने के लिए, पूरे क्लस्टर को यादृच्छिक रूप से चुना गया था, जिसमें 80% प्रशिक्षण के लिए और 20% परीक्षण के लिए उपयोग किया जाता था। चूंकि वैध समाचार लेख स्पष्ट क्लस्टर नहीं बनाते थे, इसलिए इसके बजाय यादृच्छिक विभाजन लागू किया गया था।
इस प्रक्रिया को तीन बार दोहराया गया, ताकि निरंतरता सुनिश्चित की जा सके और नमूना पूर्वाग्रह को कम किया जा सके।
पिंक स्लाइम की विशेषताएं
पीएस और नियमित समाचार की विशिष्ट विशेषताओं पर टिप्पणी करते हुए, शोधकर्ता दावा करते हैं कि पीएस-शैली के स्थानीय समाचार लेख वैध रिपोर्टिंग की तुलना में काफी छोटे और सरल होते हैं, जिनमें प्रति लेख औसतन नौ वाक्य से कम होते हैं।
एक उच्च अनुपात में सरल वाक्य और विशेषणों पर भारी निर्भरता पिंक स्लाइम की अन्य विशेषताएं हैं, जो कहते हैं कि यह एक पुनरावृत्ति, भावनात्मक रूप से चार्ज की गई भाषा के लिए एक प्रवृत्ति को इंगित करता है।
लेक्सिकल समृद्धि को रूट-टाइप-टोकन अनुपात (आरटीटीआर) का उपयोग करके मापा गया था, और पीएस लेखों में काफी कम पाया गया, जो कम अनोखे संज्ञा वाक्यांशों को भी प्रदर्शित करते थे।
इन पैटर्न का संकेत एक सीमित शब्दावली और सूत्रीय शैली की ओर इशारा करता है, जो जटिल क्रिया पैटर्न के विपरीत है जो वैध स्थानीय समाचार में सहायक verbs, सर्वनाम और संयोजनों के आसपास निर्मित होते हैं। इसके बजाय, नकली लेख मूल नाम-पूर्वसर्ग संरचनाओं को पसंद करते हैं, जिसमें अक्सर विराम चिह्न-आधारित ट्रिग्राम का उपयोग किया जाता है, जो एक कम औपचारिक, अधिक टुकड़े-टुकड़े लेखन शैली का सुझाव देता है।
परीक्षण
विभिन्न प्रकार के समाचार लेखों के बीच संबंधों की जांच करने के लिए, भाषाई और संरचनात्मक विशेषताओं के आधार पर, एम्बेडिंग को 435-मिलियन पैरामीटर स्टेला_एन_400एम_वी5 मॉडल का उपयोग करके उत्पन्न किया गया था, और पीसीए और टी-एसएनई के साथ कम किया गया था दृश्यीकरण के लिए।
जब दो आयामों में प्रोजेक्ट किया गया, तो नकली स्थानीय समाचार लेख छोटे, घने क्लस्टर बनाते थे, प्रत्येक संकीर्ण रूप से केंद्रित विषयों जैसे अपराध सांख्यिकी, स्टॉक अपडेट या दान के लिए।

एक टी-एसएनई प्रोजेक्शन से क्लस्टरिंग पैटर्न नकली स्थानीय समाचार लेखों के घने और पुनरावृत्ति समूहों को प्रकट करते हैं, जबकि वैध समाचार विषय और शैली विविधता के साथ अधिक व्यापक और विविध वितरण प्रदर्शित करता है।
जैसा कि हम उपरोक्त दृश्य में कुछ हद तक देख सकते हैं, यह पैटर्न एक कठोर, टेम्पलेट-चालित प्रारूप का सुझाव देता है, जिसमें लेखों के बीच न्यूनतम परिवर्तनशीलता होती है।
दिलचस्प बात यह है कि ‘नकली समाचार’ लेबल वाले लेख वास्तविक समाचार के साथ वितरण में विचलन दिखाते हैं, जो सुझाव देते हैं कि बड़े पैमाने पर उत्पादित स्थानीय फेक मात्रा में कम सच्चे नहीं हो सकते हैं, लेकिन यांत्रिक रूप से भी रूप और संरचना में अलग हो सकते हैं।
वैध स्थानीय समाचार कम और अधिक व्यापक रूप से अलग क्लस्टर बनाता है, जो अधिक विविध भाषा और विषय वस्तु के साथ संगत है, जबकि राष्ट्रीय समाचार लेखों में अधिक वितरण दिखाई देता है, जो व्यापक विषय श्रृंखला और ढीले शैलीगत संगति को प्रतिबिंबित करता है।

वैध स्थानीय समाचार और पिंक स्लाइम सामग्री के बीच विशेषता तुलना, जो दर्शाती है कि पीएस लेख छोटे हैं, सरल वाक्य संरचना का उपयोग करते हैं, अधिक विशेषणों को शामिल करते हैं, कम लेक्सिकल समृद्धि प्रदर्शित करते हैं, मूल भाग-भाषा ट्रिग्राम को पसंद करते हैं, और कम अनोखे संज्ञा वाक्यांशों को शामिल करते हैं।
पता लगाना
शोधकर्ताओं ने पिंक स्लाइम सामग्री का पता लगाने के लिए दो मुख्य दृष्टिकोणों का मूल्यांकन किया: वर्गीकरण, हाथ से तैयार किए गए भाषाई विशेषताओं पर आधारित; और ट्रांसफॉर्मर-आधारित फाइन-ट्यूनिंग।
हाथ से तैयार किए गए दृष्टिकोण के लिए, संरचनात्मक विशेषताओं पर जोर दिया गया था, जिसमें वाक्य गणना, लेक्सिकल समृद्धि, वाक्य संरचनात्मक गहराई, भाग-भाषा सह-सहबंदी संभावनाएं, निर्भरता टैग सह-सहबंदी संभावनाएं, पठनीयता; और भाग-भाषा गणनाओं का उपयोग किया गया था।
तीन मॉडल इस विशेषता सेट पर परीक्षण किए गए थे: एक्सजीबूस्ट; रैंडम फॉरेस्ट; और सपोर्ट वेक्टर मशीन (एसवीएम) – रैंडम फॉरेस्ट ने समग्र रूप से थोड़ा मजबूत परिणाम दिखाया।
एक्सजीबूस्ट और रैंडम फॉरेस्ट दोनों ने वाक्य गणना और अनोखे संज्ञा वाक्यांशों की संख्या जैसी विशेषताओं को उच्च भविष्यसूचक महत्व दिया। पठनीयता और लेक्सिकल समृद्धि उपायों ने भी वर्गीकरण को मजबूती से प्रभावित किया, हालांकि मॉडलों ने इन्हें अलग तरह से भारित किया, एक्सजीबूस्ट फ्लेश और आरटीटीआर को पसंद करता है, जबकि रैंडम फॉरेस्ट सीटीटीआर पर जोर देता है:

प्रत्येक इनपुट विशेषता के प्रभाव को मॉडल के आउटपुट पर प्रदर्शित करने वाले फीचर महत्व स्कोर एसएचएपी (एसएचएपली एडिटिव एक्सप्लेनेशन) में शाप मूल्यों को प्रकट करता है। इस मामले में, शाप मूल्य बताते हैं कि एक्सजीबूस्ट और रैंडम फॉरेस्ट दोनों ने पिंक स्लाइम को वास्तविक समाचार से अलग करने के लिए वाक्य गणना और अनोखे संज्ञा वाक्यांशों पर सबसे भारी निर्भरता रखी, जबकि लेक्सिकल समृद्धि और पठनीयता उपायों को अलग-अलग भार दिया।
जैसा कि पहले की विशेषता तुलना (उपरोक्त) में देखा जा सकता है, पिंक स्लाइम लेख विस्तार से विपरीत, संवेदनशीलता पर जोर देने के साथ सरल होते हैं, और कम लेक्सिकल समृद्धि के साथ, और कम अनोखे संज्ञा वाक्यांश – यह निष्कर्ष की पुष्टि करते हुए कि इस तरह की सामग्री अत्यधिक टेम्पलेटेड और पुनरावृत्ति है।
भाग-भाषा ट्रिग्राम पैटर्न यह पुष्टि करते हैं कि वैध स्थानीय समाचार जटिल संरचनात्मक रूपों का उपयोग करने के लिए प्रवृत्त होता है, जिसमें सहायक verbs, सर्वनाम और संयोजन शामिल होते हैं, जबकि पिंक स्लाइम मूल या न्यूनतम वाक्य विन्यास को पसंद करता है। ये पैटर्न सिंथेटिक स्थानीय सामग्री को वास्तविक पत्रकारिता से अलग करने के लिए एक विश्वसनीय आधार का सुझाव देते हैं।
बूस्टिंग पिंक स्लाइम को एलएलएम के साथ
पिंक स्लाइम लेखों को पता लगाने में कठिन बनाने के लिए, शोधकर्ताओं ने बड़े भाषा मॉडल का उपयोग करके उन्हें फिर से लिखने का परीक्षण किया। प्रॉम्प्ट को लेखन शैली में सुधार करने के लिए डिज़ाइन किया गया था, जिसमें सामग्री का विस्तार करना, वाक्य जटिलता जोड़ना, विशेषणों के अत्यधिक उपयोग को कम करना, तटस्थ स्वर बनाए रखना, अधिक विविध शब्दावली का उपयोग करना और अनोखे संज्ञा वाक्यांशों की संख्या बढ़ाना शामिल था, जिसका उद्देश्य उन्हें सतही विशेषताओं को छिपाना था जिन पर अधिकांश पता लगाने वाले प्रणाली निर्भर करते हैं।
परीक्षण किए गए मॉडल में गेमा-2बी; मिस्ट्रल-7बी; लामा-1बी; लामा-3बी; लामा-8बी; क्वेन-7बी; जीपीटी-4ओ मिनी; और क्लॉड-3.5-हाइकु शामिल थे।

विभिन्न एलएलएम द्वारा पुनर्लिखित पिंक स्लाइम लेखों पर एक फाइन-ट्यून किए गए बीईआरटी वर्गीकरणकर्ता का पता लगाने का प्रदर्शन (एफ1)। कम स्कोर अधिक सफल छिपाने को इंगित करता है।
इन परिणामों पर, लेखकों का टिप्पणी है:
‘[ओपन-सोर्स मॉडलों के बीच], क्वेन सबसे प्रभावी साबित हुआ पता लगाने से बचने के लिए: एक पूर्व-फाइन-ट्यून किए गए बीईआरटी वर्गीकरणकर्ता (बेसलाइन एफ1-स्कोर: 89%) के खिलाफ परीक्षण किया गया, जिससे पता लगाने के प्रदर्शन में 28.34% की गिरावट आई। ‘
‘बंद-सोर्स मॉडल काफी अधिक शक्तिशाली थे, जिसमें जीपीटी-4ओ मिनी और क्लॉड-3.5-हाइकु दोनों ने एफ1-स्कोर को औसतन 40% तक कम कर दिया, जो एलएलएम-जेनरेटेड छिपाने की चुनौती को रेखांकित करता है।’
इन परिणामों का दावा लेखकों द्वारा किया जाता है कि एलएलएम कितनी आसानी से पिंक स्लाइम सामग्री को छिपा सकते हैं, जिससे यह वर्तमान उपकरणों के लिए पता लगाना बहुत मुश्किल हो जाता है।
निष्कर्ष
राय इस शोध रेखा में कुछ दिलचस्प विरोधाभास हैं, जिनमें से कम से कम यह नहीं है कि इतने सारे लोग (कम से कम एक सर्वेक्षण के अनुसार, जो पहले उल्लेख किया गया था) समर्थन पीएस सामग्री का, यह जानते हुए कि यह क्या है, यह आलोचनात्मक संदर्भ को सवाल में लाता है। यह ऐसा लगता है कि लोग जानते हैं कि ‘सोयलेंट ग्रीन लोग हैं’, लेकिन वे कंधे झुकाते हैं और खाना जारी रखते हैं; या ऐसा लगता है, एक उदार दृष्टिकोण से।
यह सार्वजनिक उदासीनता एल्गोरिदमिक समाचार के प्रति गहरा हो सकता है – लेकिन इस समय, यह ऐसा लगता है कि यह गहरा हो रहा है।
एक और बात जो मुझे पढ़ते समय अखबार में लगी, वह यह थी कि पिंक स्लाइम आउटपुट की सरल भाषा और कमी को एक तकनीकी समस्या के रूप में माना जाता है, जिसका एक संभावित समाधान है, जब वास्तव में न्यूनतमवाद, भावनात्मकता और सीमित शब्दावली सभी जानबूझकर हो सकते हैं।
यदि पिंक स्लाइम के पीछे विभिन्न हित समूह एक अधिक बौद्धिक या उदार दर्शकों तक अपनी पहुंच बढ़ाना चाहते हैं (हालांकि यह शायद उनकी ताकत के अनुसार नहीं होगा), तो यह लगता है कि वे अपने लक्ष्य दर्शकों के करीब एक शिविर स्थापित करेंगे, न कि अपनी भाषा शैली और स्वर को बदलेंगे जो पहले से ही उनके मौजूदा प्लेटफार्मों पर उनके लक्ष्यों को प्राप्त करने में मदद कर रहे हैं।
* अफसोस की बात है कि अखबार में कुछ दुर्भाग्यपूर्ण प्रारूपण के कारण, स्थानीय समाचार लेखों के अतिरिक्त स्रोत का स्पष्ट अट्रिब्यूशन नहीं है। कृपया स्रोत पत्र और अनुमान लगाएं कि कौन सा ‘होर्न’ संदर्भ लागू होता है।
** यहाँ हम पाठक को स्रोत पत्र के लिए संदर्भित करते हैं जो परिणाम अनुभाग के अंत में दूसरे पूरक प्रयोगों के विवरण के लिए।
शुक्रवार, 12 दिसंबर, 2025 को पहली बार प्रकाशित










