Anderson का एंगल

एआई ‘पिंक स्लाइम’ समाचार की पहचान में मदद कर सकता है

Published December 12, 2025

Updated April 25, 2026

Martin Anderson

AI-generated illustration featuring two 'perfect' and typical US-style newsreaders in a news anchor room – an older male and younger blonde female both Caucasian, with robots and technicians in the background. Z-Image, Firefly 3, et al.

जनमत को प्रभावित करने के लिए डिज़ाइन किए गए एजेंडा-चालित राय मिलों, जो सार्वजनिक सेवा की तुलना में जनमत को प्रभावित करने के लिए अधिक डिज़ाइन किए गए हैं, यदि एआई का उपयोग उन्हें अधिक मूल और तर्कसंगत बनाने के लिए किया जाता है, तो उन्हें पहचानना मुश्किल हो सकता है। इसलिए, ‘पिंक स्लाइम डिटेक्शन’ गेम में आगे रहने की दौड़ है।

पिछले बीस वर्षों में, पारंपरिक स्थानीय मीडिया आउटलेट्स को वित्तपोषित करने की कमी, जो मीडिया रुझानों के विकसित होने और – हाल ही में – अमेरिकी सरकार की नीति के कारण है, ने क्षेत्रीय रिपोर्टिंग में एक शून्य छोड़ दिया है जिसे स्वार्थी संगठनों द्वारा उत्सुकता से अपनाया गया है स्वार्थी संगठन एआई का उपयोग करके अपने एजेंडे को चलाने के लिए।

‘स्वार्थी’ शब्द को संदर्भ में रखने के लिए (चूंकि कोई भी समाचार संगठन किसी न किसी तरह की राजनीतिक प्रवृत्ति से मुक्त नहीं है), हम उन तेल कंपनियों की बात कर रहे हैं जो दूरस्थ स्थानों से क्षेत्रीय समाचार साइटों का संचालन कर रही हैं, जिनमें वास्तविक स्थानीय संसाधन नहीं हैं, लेकिन जिनके पास कंपनी की सार्वजनिक प्रतिष्ठा की रक्षा का आदेश है; राजनीतिक रूप से प्रेरित समाचार साइटें किसी भी राजस्व धारा से वंचित चुनाव से पहले तैयार हो रही हैं; और पूरे प्रो-रिपब्लिकन समाचार साइटों के नेटवर्क की तरह चुनाव के समय के करीब से कहीं भी दिखाई दे रहे हैं।

2024 में, इसका अनुमान लगाया गया था कि एआई-संचालित पिंक स्लाइम समाचार ने वास्तविक समाचार आउटलेट्स को अंततः पार कर लिया था; उस समय, एक ऑस्ट्रेलियाई सर्वेक्षण में पाया गया कि 41% उपभोक्ता वास्तविक स्रोतों की तुलना में पिंक स्लाइम स्रोतों को पसंद करते हैं।

इस तरह के गुप्त चुनाव प्रचार को यह तर्क दिया जा सकता है कि यह एक मात्र अंधकारमय कला से विकसित हुआ है लोकतंत्र के लिए एक अस्तित्वगत खतरा (राजनीतिक रूप से प्रेरित आउटलेट्स के संबंध में) और सूचना के यथार्थवादी मानकों में सार्वजनिक विश्वास के लिए।

इसलिए, पिंक स्लाइम प्रकाशकों और प्रसारकों के विशिष्ट आउटपुट को पारंपरिक मीडिया संगठनों से अलग करने के तरीके कम से कम वर्तमान सूचना जलवायु में खिलाड़ियों और ड्राइविंग बलों को समझने में मददगार होंगे।

जैसा कि यह खड़ा है, वास्तविक समाचार संगठनों के रूप और टेम्पलेट बहुत आसानी से नकल किए जा सकते हैं, और एआई स्केलेबल प्रकाशन को एक वर्तमान और सस्ती वास्तविकता बनाता है, जिसमें कई ऐसे ही तरीके हैं पुराने मीडिया प्रकाशकों और प्रसारकों द्वारा अपनाए जा रहे हैं।

सिग्नल और शोर

एक नए अध्ययन से यह मुद्दा संबोधित किया जाता है, जो पिंक स्लाइम वेबसाइटों को कम जेनेरिक और आसानी से पहचानने योग्य बनाने के लिए बड़े भाषा मॉडल के बढ़ते उपयोग की जांच करता है, और एक सीखने के ढांचे का निर्माण करता है जो पिंक स्लाइम (पीएस) आउटपुट में विकसित होने वाले परिवर्तनों के साथ तालमेल बिठाने के लिए डिज़ाइन किया गया है।

शीर्षक पिंक स्लाइम पत्रकारिता का पर्दाफाश: भाषाई हस्ताक्षर और एलएलएम-जेनरेटेड खतरों के खिलाफ मजबूत पता लगाना, नया काम टेक्सास विश्वविद्यालय के पांच शोधकर्ताओं से है।

नई कार्य में जांच की जाती है कि बड़े पैमाने पर उत्पादित पीएस स्थानीय समाचार लेख वैध रिपोर्टिंग से कैसे भिन्न होते हैं, जिसमें उनकी अल्प, पुनरावृत्ति संरचनाओं और टेम्पलेटेड फ्रेज़िंग पर निर्भरता पर ध्यान केंद्रित किया जाता है जिसमें न्यूनतम परिवर्तनशीलता होती है; और लेखकों का उल्लेख है कि पीएस लेख आमतौर पर भावना को अपील करने के साथ ही जनमत को हेरफेर करने के लिए डिज़ाइन किए गए टेम्पलेट्स का पुन: उपयोग करते हैं:

नई पेपर से – कई आउटलेट केवल स्थान विवरण बदलकर लगभग समान लेख प्रकाशित करते हैं, जो सामग्री की नकल करने के लिए उपयोग की जाने वाली रणनीति को उजागर करता है। स्रोत

पारंपरिक पता लगाने वाले मॉडल जो इन विशेषताओं पर प्रशिक्षित होते हैं वे ऐसी सामग्री के खिलाफ अच्छा प्रदर्शन करते हैं, लेकिन वे असफल हो जाते हैं जब लेखों को एआई चैटबॉट्स द्वारा अधिक प्राकृतिक या परिष्कृत दिखने के लिए फिर से लिखा जाता है।

लेखकों के अपने परीक्षण संकेत देते हैं कि बड़े भाषा मॉडल द्वारा पेश किए गए भी छोटे शैलीगत परिवर्तन पता लगाने की सटीकता को 40% तक कम कर सकते हैं। इसे कम करने के लिए, वे एक निरंतर सीखने के ढांचे का प्रस्ताव करते हैं जो मूल और एआई-पुनर्लिखित दोनों लेखों पर पता लगाने वाले मॉडल को पुनः प्रशिक्षित करता है, ताकि भाषाई पैटर्न में बदलाव के अनुसार अनुकूलन किया जा सके।

विधि

परियोजना के लिए डेटा स्थापित करने के लिए, लेखकों ने पिंक स्लाइम डेटासेट का उपयोग किया, जिसमें 7.9 मिलियन लेख शामिल हैं जो 1,093 आउटलेट्स को 2021-2023 के दौरान कवर करते हैं, जिससे उन्हें फिल्टरिंग के बाद 9,472 पिंक स्लाइम लेख मिले। उन्होंने लायर डेटासेट का भी उपयोग किया, जिसमें एनोटेटेड फेक न्यूज़ शामिल है, साथ ही नेला-जीटी-2021 संग्रह, जिसमें केवल यूएस लेख * शामिल हैं।

अपने प्रशिक्षण और परीक्षण सेट तैयार करने के लिए, लेखकों ने पहले लेख टी-वितरित स्टोकेस्टिक नेबर एम्बेडिंग (टी-एसएनई) एल्गोरिदम का उपयोग करके एम्बेडिंग को दो आयामों में कम किया। उन्होंने फिर डेटा क्लस्टरिंग एल्गोरिदम डेंसिटी-बेस्ड-स्पेशियल-क्लस्टरिंग-ऑफ-एप्लिकेशन्स-विद-नॉइज़ (डीबीएससीएन) को पिंक-स्लाइम लेखों के समान क्लस्टर को अलग करने के लिए लागू किया।

प्रत्येक क्लस्टर को संबंधित कहानियों के एक समूह के रूप में माना जाता था, जिनमें से कई अभी भी एक ही टेम्पलेट का पालन करते थे, हालांकि डुप्लिकेट को संबोधित करने के लिए एक संयुक्त प्रयास के बावजूद।

प्रशिक्षण और परीक्षण सेट दोनों में समान लेख दिखाई देने से रोकने के लिए, पूरे क्लस्टर को यादृच्छिक रूप से चुना गया था, जिसमें 80% प्रशिक्षण के लिए और 20% परीक्षण के लिए उपयोग किया जाता था। चूंकि वैध समाचार लेख स्पष्ट क्लस्टर नहीं बनाते थे, इसलिए इसके बजाय यादृच्छिक विभाजन लागू किया गया था।

इस प्रक्रिया को तीन बार दोहराया गया, ताकि निरंतरता सुनिश्चित की जा सके और नमूना पूर्वाग्रह को कम किया जा सके।

पिंक स्लाइम की विशेषताएं

पीएस और नियमित समाचार की विशिष्ट विशेषताओं पर टिप्पणी करते हुए, शोधकर्ता दावा करते हैं कि पीएस-शैली के स्थानीय समाचार लेख वैध रिपोर्टिंग की तुलना में काफी छोटे और सरल होते हैं, जिनमें प्रति लेख औसतन नौ वाक्य से कम होते हैं।

एक उच्च अनुपात में सरल वाक्य और विशेषणों पर भारी निर्भरता पिंक स्लाइम की अन्य विशेषताएं हैं, जो कहते हैं कि यह एक पुनरावृत्ति, भावनात्मक रूप से चार्ज की गई भाषा के लिए एक प्रवृत्ति को इंगित करता है।

लेक्सिकल समृद्धि को रूट-टाइप-टोकन अनुपात (आरटीटीआर) का उपयोग करके मापा गया था, और पीएस लेखों में काफी कम पाया गया, जो कम अनोखे संज्ञा वाक्यांशों को भी प्रदर्शित करते थे।

इन पैटर्न का संकेत एक सीमित शब्दावली और सूत्रीय शैली की ओर इशारा करता है, जो जटिल क्रिया पैटर्न के विपरीत है जो वैध स्थानीय समाचार में सहायक verbs, सर्वनाम और संयोजनों के आसपास निर्मित होते हैं। इसके बजाय, नकली लेख मूल नाम-पूर्वसर्ग संरचनाओं को पसंद करते हैं, जिसमें अक्सर विराम चिह्न-आधारित ट्रिग्राम का उपयोग किया जाता है, जो एक कम औपचारिक, अधिक टुकड़े-टुकड़े लेखन शैली का सुझाव देता है।

परीक्षण

विभिन्न प्रकार के समाचार लेखों के बीच संबंधों की जांच करने के लिए, भाषाई और संरचनात्मक विशेषताओं के आधार पर, एम्बेडिंग को 435-मिलियन पैरामीटर स्टेला_एन_400एम_वी5 मॉडल का उपयोग करके उत्पन्न किया गया था, और पीसीए और टी-एसएनई के साथ कम किया गया था दृश्यीकरण के लिए।

जब दो आयामों में प्रोजेक्ट किया गया, तो नकली स्थानीय समाचार लेख छोटे, घने क्लस्टर बनाते थे, प्रत्येक संकीर्ण रूप से केंद्रित विषयों जैसे अपराध सांख्यिकी, स्टॉक अपडेट या दान के लिए।

एक टी-एसएनई प्रोजेक्शन से क्लस्टरिंग पैटर्न नकली स्थानीय समाचार लेखों के घने और पुनरावृत्ति समूहों को प्रकट करते हैं, जबकि वैध समाचार विषय और शैली विविधता के साथ अधिक व्यापक और विविध वितरण प्रदर्शित करता है।

जैसा कि हम उपरोक्त दृश्य में कुछ हद तक देख सकते हैं, यह पैटर्न एक कठोर, टेम्पलेट-चालित प्रारूप का सुझाव देता है, जिसमें लेखों के बीच न्यूनतम परिवर्तनशीलता होती है।

दिलचस्प बात यह है कि ‘नकली समाचार’ लेबल वाले लेख वास्तविक समाचार के साथ वितरण में विचलन दिखाते हैं, जो सुझाव देते हैं कि बड़े पैमाने पर उत्पादित स्थानीय फेक मात्रा में कम सच्चे नहीं हो सकते हैं, लेकिन यांत्रिक रूप से भी रूप और संरचना में अलग हो सकते हैं।

वैध स्थानीय समाचार कम और अधिक व्यापक रूप से अलग क्लस्टर बनाता है, जो अधिक विविध भाषा और विषय वस्तु के साथ संगत है, जबकि राष्ट्रीय समाचार लेखों में अधिक वितरण दिखाई देता है, जो व्यापक विषय श्रृंखला और ढीले शैलीगत संगति को प्रतिबिंबित करता है।

वैध स्थानीय समाचार और पिंक स्लाइम सामग्री के बीच विशेषता तुलना, जो दर्शाती है कि पीएस लेख छोटे हैं, सरल वाक्य संरचना का उपयोग करते हैं, अधिक विशेषणों को शामिल करते हैं, कम लेक्सिकल समृद्धि प्रदर्शित करते हैं, मूल भाग-भाषा ट्रिग्राम को पसंद करते हैं, और कम अनोखे संज्ञा वाक्यांशों को शामिल करते हैं।

पता लगाना

शोधकर्ताओं ने पिंक स्लाइम सामग्री का पता लगाने के लिए दो मुख्य दृष्टिकोणों का मूल्यांकन किया: वर्गीकरण, हाथ से तैयार किए गए भाषाई विशेषताओं पर आधारित; और ट्रांसफॉर्मर-आधारित फाइन-ट्यूनिंग।

हाथ से तैयार किए गए दृष्टिकोण के लिए, संरचनात्मक विशेषताओं पर जोर दिया गया था, जिसमें वाक्य गणना, लेक्सिकल समृद्धि, वाक्य संरचनात्मक गहराई, भाग-भाषा सह-सहबंदी संभावनाएं, निर्भरता टैग सह-सहबंदी संभावनाएं, पठनीयता; और भाग-भाषा गणनाओं का उपयोग किया गया था।

तीन मॉडल इस विशेषता सेट पर परीक्षण किए गए थे: एक्सजीबूस्ट; रैंडम फॉरेस्ट; और सपोर्ट वेक्टर मशीन (एसवीएम) – रैंडम फॉरेस्ट ने समग्र रूप से थोड़ा मजबूत परिणाम दिखाया।

एक्सजीबूस्ट और रैंडम फॉरेस्ट दोनों ने वाक्य गणना और अनोखे संज्ञा वाक्यांशों की संख्या जैसी विशेषताओं को उच्च भविष्यसूचक महत्व दिया। पठनीयता और लेक्सिकल समृद्धि उपायों ने भी वर्गीकरण को मजबूती से प्रभावित किया, हालांकि मॉडलों ने इन्हें अलग तरह से भारित किया, एक्सजीबूस्ट फ्लेश और आरटीटीआर को पसंद करता है, जबकि रैंडम फॉरेस्ट सीटीटीआर पर जोर देता है:

प्रत्येक इनपुट विशेषता के प्रभाव को मॉडल के आउटपुट पर प्रदर्शित करने वाले फीचर महत्व स्कोर एसएचएपी (एसएचएपली एडिटिव एक्सप्लेनेशन) में शाप मूल्यों को प्रकट करता है। इस मामले में, शाप मूल्य बताते हैं कि एक्सजीबूस्ट और रैंडम फॉरेस्ट दोनों ने पिंक स्लाइम को वास्तविक समाचार से अलग करने के लिए वाक्य गणना और अनोखे संज्ञा वाक्यांशों पर सबसे भारी निर्भरता रखी, जबकि लेक्सिकल समृद्धि और पठनीयता उपायों को अलग-अलग भार दिया।

जैसा कि पहले की विशेषता तुलना (उपरोक्त) में देखा जा सकता है, पिंक स्लाइम लेख विस्तार से विपरीत, संवेदनशीलता पर जोर देने के साथ सरल होते हैं, और कम लेक्सिकल समृद्धि के साथ, और कम अनोखे संज्ञा वाक्यांश – यह निष्कर्ष की पुष्टि करते हुए कि इस तरह की सामग्री अत्यधिक टेम्पलेटेड और पुनरावृत्ति है।

भाग-भाषा ट्रिग्राम पैटर्न यह पुष्टि करते हैं कि वैध स्थानीय समाचार जटिल संरचनात्मक रूपों का उपयोग करने के लिए प्रवृत्त होता है, जिसमें सहायक verbs, सर्वनाम और संयोजन शामिल होते हैं, जबकि पिंक स्लाइम मूल या न्यूनतम वाक्य विन्यास को पसंद करता है। ये पैटर्न सिंथेटिक स्थानीय सामग्री को वास्तविक पत्रकारिता से अलग करने के लिए एक विश्वसनीय आधार का सुझाव देते हैं।

बूस्टिंग पिंक स्लाइम को एलएलएम के साथ

पिंक स्लाइम लेखों को पता लगाने में कठिन बनाने के लिए, शोधकर्ताओं ने बड़े भाषा मॉडल का उपयोग करके उन्हें फिर से लिखने का परीक्षण किया। प्रॉम्प्ट को लेखन शैली में सुधार करने के लिए डिज़ाइन किया गया था, जिसमें सामग्री का विस्तार करना, वाक्य जटिलता जोड़ना, विशेषणों के अत्यधिक उपयोग को कम करना, तटस्थ स्वर बनाए रखना, अधिक विविध शब्दावली का उपयोग करना और अनोखे संज्ञा वाक्यांशों की संख्या बढ़ाना शामिल था, जिसका उद्देश्य उन्हें सतही विशेषताओं को छिपाना था जिन पर अधिकांश पता लगाने वाले प्रणाली निर्भर करते हैं।

परीक्षण किए गए मॉडल में गेमा-2बी; मिस्ट्रल-7बी; लामा-1बी; लामा-3बी; लामा-8बी; क्वेन-7बी; जीपीटी-4ओ मिनी; और क्लॉड-3.5-हाइकु शामिल थे।

विभिन्न एलएलएम द्वारा पुनर्लिखित पिंक स्लाइम लेखों पर एक फाइन-ट्यून किए गए बीईआरटी वर्गीकरणकर्ता का पता लगाने का प्रदर्शन (एफ1)। कम स्कोर अधिक सफल छिपाने को इंगित करता है।

इन परिणामों पर, लेखकों का टिप्पणी है:

‘[ओपन-सोर्स मॉडलों के बीच], क्वेन सबसे प्रभावी साबित हुआ पता लगाने से बचने के लिए: एक पूर्व-फाइन-ट्यून किए गए बीईआरटी वर्गीकरणकर्ता (बेसलाइन एफ1-स्कोर: 89%) के खिलाफ परीक्षण किया गया, जिससे पता लगाने के प्रदर्शन में 28.34% की गिरावट आई। ‘

‘बंद-सोर्स मॉडल काफी अधिक शक्तिशाली थे, जिसमें जीपीटी-4ओ मिनी और क्लॉड-3.5-हाइकु दोनों ने एफ1-स्कोर को औसतन 40% तक कम कर दिया, जो एलएलएम-जेनरेटेड छिपाने की चुनौती को रेखांकित करता है।’

इन परिणामों का दावा लेखकों द्वारा किया जाता है कि एलएलएम कितनी आसानी से पिंक स्लाइम सामग्री को छिपा सकते हैं, जिससे यह वर्तमान उपकरणों के लिए पता लगाना बहुत मुश्किल हो जाता है।

निष्कर्ष

राय इस शोध रेखा में कुछ दिलचस्प विरोधाभास हैं, जिनमें से कम से कम यह नहीं है कि इतने सारे लोग (कम से कम एक सर्वेक्षण के अनुसार, जो पहले उल्लेख किया गया था) समर्थन पीएस सामग्री का, यह जानते हुए कि यह क्या है, यह आलोचनात्मक संदर्भ को सवाल में लाता है। यह ऐसा लगता है कि लोग जानते हैं कि ‘सोयलेंट ग्रीन लोग हैं’, लेकिन वे कंधे झुकाते हैं और खाना जारी रखते हैं; या ऐसा लगता है, एक उदार दृष्टिकोण से।

यह सार्वजनिक उदासीनता एल्गोरिदमिक समाचार के प्रति गहरा हो सकता है – लेकिन इस समय, यह ऐसा लगता है कि यह गहरा हो रहा है।

एक और बात जो मुझे पढ़ते समय अखबार में लगी, वह यह थी कि पिंक स्लाइम आउटपुट की सरल भाषा और कमी को एक तकनीकी समस्या के रूप में माना जाता है, जिसका एक संभावित समाधान है, जब वास्तव में न्यूनतमवाद, भावनात्मकता और सीमित शब्दावली सभी जानबूझकर हो सकते हैं।

यदि पिंक स्लाइम के पीछे विभिन्न हित समूह एक अधिक बौद्धिक या उदार दर्शकों तक अपनी पहुंच बढ़ाना चाहते हैं (हालांकि यह शायद उनकी ताकत के अनुसार नहीं होगा), तो यह लगता है कि वे अपने लक्ष्य दर्शकों के करीब एक शिविर स्थापित करेंगे, न कि अपनी भाषा शैली और स्वर को बदलेंगे जो पहले से ही उनके मौजूदा प्लेटफार्मों पर उनके लक्ष्यों को प्राप्त करने में मदद कर रहे हैं।

* अफसोस की बात है कि अखबार में कुछ दुर्भाग्यपूर्ण प्रारूपण के कारण, स्थानीय समाचार लेखों के अतिरिक्त स्रोत का स्पष्ट अट्रिब्यूशन नहीं है। कृपया स्रोत पत्र और अनुमान लगाएं कि कौन सा ‘होर्न’ संदर्भ लागू होता है।

** यहाँ हम पाठक को स्रोत पत्र के लिए संदर्भित करते हैं जो परिणाम अनुभाग के अंत में दूसरे पूरक प्रयोगों के विवरण के लिए।

शुक्रवार, 12 दिसंबर, 2025 को पहली बार प्रकाशित

Related Topics:Advanced LLMs AI in media fake news

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai