कृत्रिम बुद्धिमत्ता

एनएलपी दृष्टिकोण से विज्ञान पत्रकारिता में अतिशयोक्ति का पता लगाना

Published September 15, 2021

Updated April 28, 2026

Martin Anderson

डेनमार्क के शोधकर्ताओं ने एक ‘अतिशयोक्ति का पता लगाने’ प्रणाली विकसित की है, जो नए वैज्ञानिक शोध पत्रों के प्रभावों को बढ़ा-चढ़ाकर पेश करने वाले पत्रकारों के प्रभावों को कम करने के लिए डिज़ाइन की गई है। यह काम नए प्रकाशित शोध के विकृत रूप से प्रभावित होने के कारण किया गया है, हालांकि लेखकों ने स्वीकार किया है कि यह सामान्य विज्ञान रिपोर्टिंग क्षेत्र में भी लागू होता है।

पेपर को कोपेनहेगन विश्वविद्यालय से प्राप्त किया गया है, और यह ध्यान दिलाया गया है कि समस्या को बढ़ावा देने के लिए प्रकाशनों की प्रवृत्ति है जो मूल शोध के लिए स्रोत लिंक शामिल नहीं करते हैं – एक बढ़ती हुई पत्रकारिता प्रथा जो मूल पेपर को प्रतिस्थापित करने और पुनः रिपोर्ट की गई सारांश को ‘स्रोत ज्ञान’ के रूप में प्रस्तुत करने का प्रयास करती है – यहां तक कि जब पेपर सार्वजनिक रूप से उपलब्ध होता है।

पेपर से, वैज्ञानिक पत्रों की अतिशयोक्ति का एक विशिष्ट प्रदर्शन। स्रोत: https://arxiv.org/pdf/2108.13493.pdf

समस्या नए पत्रों के बाहरी पत्रकारिता प्रतिक्रिया तक सीमित नहीं है, लेकिन अन्य प्रकार के सारांश में भी विस्तारित हो सकती है, जिनमें विश्वविद्यालयों और शोध संस्थानों के आंतरिक पीआर प्रयास शामिल हैं; समाचार आउटलेट्स का ध्यान आकर्षित करने के लिए प्रचार सामग्री; और उपयोगी रेफरल लिंक (और संभावित गोला-बारूद के लिए धन उगाहने वाले दौर) जब पत्रकार ‘काट’ लेते हैं।

काम प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का उपयोग एक नए डेटासेट के खिलाफ करता है जिसमें जोड़े गए प्रेस विज्ञप्ति और सारांश होते हैं, जिसमें शोधकर्ताओं ने दावा किया है कि उन्होंने ‘[एक] नई, अधिक वास्तविक कार्य सूत्र’ विकसित की है वैज्ञानिक अतिशयोक्ति का पता लगाने के लिए। लेखकों ने वादा किया है कि वे जल्द ही गिटहब पर कोड और डेटा प्रकाशित करेंगे।

संवेदनशीलता को संबोधित करना

वैज्ञानिक संवेदनशीलता की समस्या को संबोधित करने वाले कई अध्ययन हुए हैं, और उन्होंने इस बात पर ध्यान दिलाया है कि यह गलत सूचना का कारण बन सकता है। दिवंगत अमेरिकी वैज्ञानिक समाजशास्त्री डोरोथी नेलकिन ने 1987 में पुस्तक में इस मुद्दे को संबोधित किया था विज्ञान को बेचना: प्रेस कैसे विज्ञान और प्रौद्योगिकी को कवर करता है; 2006 एम्बो रिपोर्ट बुरा विज्ञान सुर्खियों में ने अधिक वैज्ञानिक रूप से प्रशिक्षित पत्रकारों की आवश्यकता पर जोर दिया, जैसा कि इंटरनेट ने पारंपरिक मीडिया पर महत्वपूर्ण बजटीय दबाव डाला था।

इसके अलावा, 2014 में ब्रिटिश मेडिकल जर्नल ने रिपोर्ट में इस समस्या को ध्यान में लाया; और 2019 के एक अध्ययन से पता चला है कि वैज्ञानिक पत्रों की अतिशयोक्ति कोई लाभ नहीं देती (पहुंच या ट्रैफिक के संदर्भ में) समाचार आउटलेट्स और अन्य रिपोर्टिंग प्रणालियों के लिए जो इस प्रथा को बढ़ावा देते हैं।

हालांकि, महामारी के आगमन ने इस अतिशयोक्ति के नकारात्मक प्रभावों को महत्वपूर्ण रूप से ध्यान में लाया है, जिसमें जानकारी प्लेटफ़ॉर्म, जिनमें गूगल सर्च इंजन परिणाम पृष्ठ और कॉर्नेल विश्वविद्यालय का अर्क्सिव वैज्ञानिक पत्रों का सूचकांक शामिल है, अब स्वचालित रूप से किसी भी सामग्री में अस्वीकरण जोड़ते हैं जो कोविड के साथ संबंधित प्रतीत होती है।

कोविड से संबंधित खोजों और सामग्री के लिए संशोधित इंटरफेस, गूगल सर्च परिणाम पृष्ठ से और कॉर्नेल विश्वविद्यालय के प्रभावशाली अर्क्सिव वैज्ञानिक पत्र भंडार से।

पिछली परियोजनाओं ने वैज्ञानिक पत्रों के लिए अतिशयोक्ति का पता लगाने वाली प्रणाली बनाने का प्रयास किया है, जिसमें 2019 में हांगकांग और चीन के शोधकर्ताओं के बीच सहयोग और 2017 में डेनमार्क के एक पेपर शामिल हैं।

नई पेपर के शोधकर्ता ध्यान दिलाते हैं कि इन पहले के प्रयासों ने पबमेड और यूरेकअलर्ट से सारांश और अमूर्तता के दावों के डेटासेट विकसित किए, जिन्हें ‘ताकत’ के लिए लेबल किया गया था, और उन्हें मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए उपयोग किया गया था ताकि अनदेखे डेटा में दावा ताकत की भविष्यवाणी की जा सके।

एमटी-पीईटी

नई शोध इसके बजाय एक प्रेस विज्ञप्ति और अमूर्तता को एक संयुक्त डेटा इकाई के रूप में जोड़ती है, और परिणामी डेटासेट का शोषण एमटी-पीईटी में करती है, जो पैटर्न एक्सप्लोइटिंग ट्रेनिंग रिसर्च का एक मल्टी-टास्क-कैपेबल संस्करण है, जो पहली बार 2020 में प्रस्तुत किया गया था एक्सप्लोइटिंग क्लोज़ क्वेश्चन फॉर फ्यू शॉट टेक्स्ट क्लासिफिकेशन एंड नेचरल लैंग्वेज इन्फरेंस, दो जर्मन शोध संस्थानों के संयुक्त शोध प्रयास के रूप में।

कोई मौजूदा डेटासेट इस कार्य के लिए उपयुक्त नहीं पाया गया, और इसलिए टीम ने विशेषज्ञों द्वारा अपनी अतिशयोक्ति की प्रवृत्ति के संदर्भ में मूल्यांकन किए गए अमूर्तता और संबंधित प्रेस विज्ञप्ति के जोड़े वाले वाक्यों का एक नया डेटासेट क्यूरेट किया।

शोधकर्ताओं ने फ्यू-शॉट टेक्स्ट क्लासिफिकेशन फ्रेमवर्क पेटल का उपयोग एक पाइपलाइन के हिस्से के रूप में किया ताकि स्वचालित रूप से पैटर्न-वर्बलाइज़र जोड़े उत्पन्न किए जा सकें, जिसके बाद डेटा के माध्यम से पुनरावृत्ति की जाती है जब तक कि दो गुणों के लिए लगभग समान टुपलेट नहीं मिल जाते: अतिशयोक्ति का पता लगाना और दावा ताकत।

‘गोल्ड’ डेटा को परीक्षण के लिए पुनः उपयोग किया गया था, जो पहले शोध परियोजनाओं से प्राप्त किया गया था, जिसमें 823 जोड़े अमूर्तता और प्रेस विज्ञप्ति शामिल थे। शोधकर्ताओं ने 2014 बीएमजे डेटा का संभावित उपयोग अस्वीकार कर दिया, क्योंकि यह परिभाषित किया गया है।

इस प्रक्रिया ने 663 अमूर्तता / रिलीज़ जोड़े का एक डेटासेट प्राप्त किया, जो अतिशयोक्ति और दावा ताकत के लिए लेबल किया गया था। शोधकर्ताओं ने 100 को यादृच्छिक रूप से नमूने के रूप में चुना फ्यू-शॉट लर्निंग प्रशिक्षण डेटा के रूप में, 553 उदाहरणों को परीक्षण के लिए अलग रखा गया। इसके अलावा, एक छोटा प्रशिक्षण सेट बनाया गया था जिसमें 1,138 वाक्य शामिल थे, जो यह निर्धारित करने के लिए वर्गीकृत किए गए थे कि क्या वे सारांश या प्रेस विज्ञप्ति के मुख्य निष्कर्ष का प्रतिनिधित्व करते हैं। इन्हें अनलेबल्ड जोड़े में ‘निष्कर्ष वाक्य’ की पहचान करने के लिए उपयोग किया गया था।

परीक्षण

शोधकर्ताओं ने दृष्टिकोण का परीक्षण तीन कॉन्फ़िगरेशन में किया: एक पूरी तरह से पर्यवेक्षित सेटिंग में केवल लेबल वाले डेटा के साथ; एक एकल-टास्क पीईटी दृश्य; और नए एमटी-पीईटी पर, जो एक सहायक कार्य के रूप में एक द्वितीयक सूत्र धागा जोड़ता है (चूंकि परियोजना का उद्देश्य जोड़े गए डेटा निर्माण के साथ एक डेटासेट से दो अलग-अलग गुणों की जांच करना है)।

शोधकर्ताओं ने पाया कि एमटी-पीईटी ने परीक्षण वातावरण में बेस पीईटी परिणामों में सुधार किया, और पाया कि दावा ताकत की पहचान करने से अतिशयोक्ति का पता लगाने के लिए सॉफ्ट-लेबल वाले प्रशिक्षण डेटा का उत्पादन हुआ। हालांकि, पेपर यह ध्यान दिलाता है कि कुछ कॉन्फ़िगरेशन में, विशेष रूप से दावा ताकत से संबंधित, पेशेवर रूप से लेबल वाले डेटा की उपस्थिति बेहतर परिणामों (पिछले शोध परियोजनाओं की तुलना में जो इस समस्या को संबोधित करती हैं) में एक कारक हो सकती है। यह डेटा पर जोर देने के कार्य के आधार पर पाइपलाइन को स्वचालित करने की सीमा के लिए परिणाम हो सकता है।

फिर भी, शोधकर्ता निष्कर्ष निकालते हैं कि एमटी-पीईटी ‘सीधे कारण दावों को कमजोर दावों से पहचानने और अलग करने में अधिक कठिन मामलों में मदद करता है, और सबसे प्रदर्शनकारी दृष्टिकोण में स्रोत और लक्ष्य दस्तावेजों के बयानों की व्यक्तिगत दावा ताकत की तुलना और वर्गीकरण शामिल है’।

निष्कर्ष में, कार्य यह अनुमान लगाता है कि एमटी-पीईटी न केवल स्वास्थ्य क्षेत्र के बाहर व्यापक श्रृंखला के वैज्ञानिक पत्रों पर लागू किया जा सकता है, बल्कि वैज्ञानिक पत्रों के बेहतर अवलोकन उत्पन्न करने में पत्रकारों की मदद करने के लिए नए उपकरणों का आधार भी बन सकता है (हालांकि यह शायद निर्दोषता से पत्रकार अतिशयोक्ति का दावा कर रहे हैं), साथ ही साथ शोध समुदाय को जटिल विचारों को स्पष्ट भाषा में समझाने में मदद करने के लिए। इसके अलावा, पेपर यह ध्यान दिलाता है:

‘[यह] ध्यान दिलाया जाना चाहिए कि इस पेपर में रिपोर्ट किए गए भविष्यवाणी प्रदर्शन परिणाम विज्ञान पत्रकारों द्वारा लिखे गए प्रेस विज्ञप्ति के लिए हैं – एक को वैज्ञानिक लेखों को और अधिक सरल बनाने वाली प्रेस विज्ञप्ति के लिए खराब परिणामों की उम्मीद कर सकता है।’

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एनएलपी दृष्टिकोण से विज्ञान पत्रकारिता में अतिशयोक्ति का पता लगाना

संवेदनशीलता को संबोधित करना

एमटी-पीईटी

परीक्षण

You may like