рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдирдПрд▓рдкреА рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╕реЗ рд╡рд┐рдЬреНрдЮрд╛рди рдкрддреНрд░рдХрд╛рд░рд┐рддрд╛ рдореЗрдВ рдЕрддрд┐рд╢рдпреЛрдХреНрддрд┐ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛

डेनमार्क के शोधकर्ताओं ने एक ‘अतिशयोक्ति का पता लगाने’ प्रणाली विकसित की है, जो नए वैज्ञानिक शोध पत्रों के प्रभावों को बढ़ा-चढ़ाकर पेश करने वाले पत्रकारों के प्रभावों को कम करने के लिए डिज़ाइन की गई है। यह काम नए प्रकाशित शोध के विकृत रूप से प्रभावित होने के कारण किया गया है, हालांकि लेखकों ने स्वीकार किया है कि यह सामान्य विज्ञान रिपोर्टिंग क्षेत्र में भी लागू होता है।
पेपर को कोपेनहेगन विश्वविद्यालय से प्राप्त किया गया है, और यह ध्यान दिलाया गया है कि समस्या को बढ़ावा देने के लिए प्रकाशनों की प्रवृत्ति है जो मूल शोध के लिए स्रोत लिंक शामिल नहीं करते हैं – एक बढ़ती हुई पत्रकारिता प्रथा जो मूल पेपर को प्रतिस्थापित करने और पुनः रिपोर्ट की गई सारांश को ‘स्रोत ज्ञान’ के रूप में प्रस्तुत करने का प्रयास करती है – यहां तक कि जब पेपर सार्वजनिक रूप से उपलब्ध होता है।

पेपर से, वैज्ञानिक पत्रों की अतिशयोक्ति का एक विशिष्ट प्रदर्शन। स्रोत: https://arxiv.org/pdf/2108.13493.pdf
समस्या नए पत्रों के बाहरी पत्रकारिता प्रतिक्रिया तक सीमित नहीं है, लेकिन अन्य प्रकार के सारांश में भी विस्तारित हो सकती है, जिनमें विश्वविद्यालयों और शोध संस्थानों के आंतरिक पीआर प्रयास शामिल हैं; समाचार आउटलेट्स का ध्यान आकर्षित करने के लिए प्रचार सामग्री; और उपयोगी रेफरल लिंक (और संभावित गोला-बारूद के लिए धन उगाहने वाले दौर) जब पत्रकार ‘काट’ लेते हैं।
काम प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का उपयोग एक नए डेटासेट के खिलाफ करता है जिसमें जोड़े गए प्रेस विज्ञप्ति और सारांश होते हैं, जिसमें शोधकर्ताओं ने दावा किया है कि उन्होंने ‘[एक] नई, अधिक वास्तविक कार्य सूत्र’ विकसित की है वैज्ञानिक अतिशयोक्ति का पता लगाने के लिए। लेखकों ने वादा किया है कि वे जल्द ही गिटहब पर कोड और डेटा प्रकाशित करेंगे।
संवेदनशीलता को संबोधित करना
वैज्ञानिक संवेदनशीलता की समस्या को संबोधित करने वाले कई अध्ययन हुए हैं, और उन्होंने इस बात पर ध्यान दिलाया है कि यह गलत सूचना का कारण बन सकता है। दिवंगत अमेरिकी वैज्ञानिक समाजशास्त्री डोरोथी नेलकिन ने 1987 में पुस्तक में इस मुद्दे को संबोधित किया था विज्ञान को बेचना: प्रेस कैसे विज्ञान और प्रौद्योगिकी को कवर करता है; 2006 एम्बो रिपोर्ट बुरा विज्ञान सुर्खियों में ने अधिक वैज्ञानिक रूप से प्रशिक्षित पत्रकारों की आवश्यकता पर जोर दिया, जैसा कि इंटरनेट ने पारंपरिक मीडिया पर महत्वपूर्ण बजटीय दबाव डाला था।
इसके अलावा, 2014 में ब्रिटिश मेडिकल जर्नल ने रिपोर्ट में इस समस्या को ध्यान में लाया; और 2019 के एक अध्ययन से पता चला है कि वैज्ञानिक पत्रों की अतिशयोक्ति कोई लाभ नहीं देती (पहुंच या ट्रैफिक के संदर्भ में) समाचार आउटलेट्स और अन्य रिपोर्टिंग प्रणालियों के लिए जो इस प्रथा को बढ़ावा देते हैं।
हालांकि, महामारी के आगमन ने इस अतिशयोक्ति के नकारात्मक प्रभावों को महत्वपूर्ण रूप से ध्यान में लाया है, जिसमें जानकारी प्लेटफ़ॉर्म, जिनमें गूगल सर्च इंजन परिणाम पृष्ठ और कॉर्नेल विश्वविद्यालय का अर्क्सिव वैज्ञानिक पत्रों का सूचकांक शामिल है, अब स्वचालित रूप से किसी भी सामग्री में अस्वीकरण जोड़ते हैं जो कोविड के साथ संबंधित प्रतीत होती है।

कोविड से संबंधित खोजों और सामग्री के लिए संशोधित इंटरफेस, गूगल सर्च परिणाम पृष्ठ से और कॉर्नेल विश्वविद्यालय के प्रभावशाली अर्क्सिव वैज्ञानिक पत्र भंडार से।
पिछली परियोजनाओं ने वैज्ञानिक पत्रों के लिए अतिशयोक्ति का पता लगाने वाली प्रणाली बनाने का प्रयास किया है, जिसमें 2019 में हांगकांग और चीन के शोधकर्ताओं के बीच सहयोग और 2017 में डेनमार्क के एक पेपर शामिल हैं।
नई पेपर के शोधकर्ता ध्यान दिलाते हैं कि इन पहले के प्रयासों ने पबमेड और यूरेकअलर्ट से सारांश और अमूर्तता के दावों के डेटासेट विकसित किए, जिन्हें ‘ताकत’ के लिए लेबल किया गया था, और उन्हें मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए उपयोग किया गया था ताकि अनदेखे डेटा में दावा ताकत की भविष्यवाणी की जा सके।
एमटी-पीईटी
नई शोध इसके बजाय एक प्रेस विज्ञप्ति और अमूर्तता को एक संयुक्त डेटा इकाई के रूप में जोड़ती है, और परिणामी डेटासेट का शोषण एमटी-पीईटी में करती है, जो पैटर्न एक्सप्लोइटिंग ट्रेनिंग रिसर्च का एक मल्टी-टास्क-कैपेबल संस्करण है, जो पहली बार 2020 में प्रस्तुत किया गया था एक्सप्लोइटिंग क्लोज़ क्वेश्चन फॉर फ्यू शॉट टेक्स्ट क्लासिफिकेशन एंड नेचरल लैंग्वेज इन्फरेंस, दो जर्मन शोध संस्थानों के संयुक्त शोध प्रयास के रूप में।
कोई मौजूदा डेटासेट इस कार्य के लिए उपयुक्त नहीं पाया गया, और इसलिए टीम ने विशेषज्ञों द्वारा अपनी अतिशयोक्ति की प्रवृत्ति के संदर्भ में मूल्यांकन किए गए अमूर्तता और संबंधित प्रेस विज्ञप्ति के जोड़े वाले वाक्यों का एक नया डेटासेट क्यूरेट किया।
शोधकर्ताओं ने फ्यू-शॉट टेक्स्ट क्लासिफिकेशन फ्रेमवर्क पेटल का उपयोग एक पाइपलाइन के हिस्से के रूप में किया ताकि स्वचालित रूप से पैटर्न-वर्बलाइज़र जोड़े उत्पन्न किए जा सकें, जिसके बाद डेटा के माध्यम से पुनरावृत्ति की जाती है जब तक कि दो गुणों के लिए लगभग समान टुपलेट नहीं मिल जाते: अतिशयोक्ति का पता लगाना और दावा ताकत।
‘गोल्ड’ डेटा को परीक्षण के लिए पुनः उपयोग किया गया था, जो पहले शोध परियोजनाओं से प्राप्त किया गया था, जिसमें 823 जोड़े अमूर्तता और प्रेस विज्ञप्ति शामिल थे। शोधकर्ताओं ने 2014 बीएमजे डेटा का संभावित उपयोग अस्वीकार कर दिया, क्योंकि यह परिभाषित किया गया है।
इस प्रक्रिया ने 663 अमूर्तता / रिलीज़ जोड़े का एक डेटासेट प्राप्त किया, जो अतिशयोक्ति और दावा ताकत के लिए लेबल किया गया था। शोधकर्ताओं ने 100 को यादृच्छिक रूप से नमूने के रूप में चुना फ्यू-शॉट लर्निंग प्रशिक्षण डेटा के रूप में, 553 उदाहरणों को परीक्षण के लिए अलग रखा गया। इसके अलावा, एक छोटा प्रशिक्षण सेट बनाया गया था जिसमें 1,138 वाक्य शामिल थे, जो यह निर्धारित करने के लिए वर्गीकृत किए गए थे कि क्या वे सारांश या प्रेस विज्ञप्ति के मुख्य निष्कर्ष का प्रतिनिधित्व करते हैं। इन्हें अनलेबल्ड जोड़े में ‘निष्कर्ष वाक्य’ की पहचान करने के लिए उपयोग किया गया था।
परीक्षण
शोधकर्ताओं ने दृष्टिकोण का परीक्षण तीन कॉन्फ़िगरेशन में किया: एक पूरी तरह से पर्यवेक्षित सेटिंग में केवल लेबल वाले डेटा के साथ; एक एकल-टास्क पीईटी दृश्य; और नए एमटी-पीईटी पर, जो एक सहायक कार्य के रूप में एक द्वितीयक सूत्र धागा जोड़ता है (चूंकि परियोजना का उद्देश्य जोड़े गए डेटा निर्माण के साथ एक डेटासेट से दो अलग-अलग गुणों की जांच करना है)।
शोधकर्ताओं ने पाया कि एमटी-पीईटी ने परीक्षण वातावरण में बेस पीईटी परिणामों में सुधार किया, और पाया कि दावा ताकत की पहचान करने से अतिशयोक्ति का पता लगाने के लिए सॉफ्ट-लेबल वाले प्रशिक्षण डेटा का उत्पादन हुआ। हालांकि, पेपर यह ध्यान दिलाता है कि कुछ कॉन्फ़िगरेशन में, विशेष रूप से दावा ताकत से संबंधित, पेशेवर रूप से लेबल वाले डेटा की उपस्थिति बेहतर परिणामों (पिछले शोध परियोजनाओं की तुलना में जो इस समस्या को संबोधित करती हैं) में एक कारक हो सकती है। यह डेटा पर जोर देने के कार्य के आधार पर पाइपलाइन को स्वचालित करने की सीमा के लिए परिणाम हो सकता है।
फिर भी, शोधकर्ता निष्कर्ष निकालते हैं कि एमटी-पीईटी ‘सीधे कारण दावों को कमजोर दावों से पहचानने और अलग करने में अधिक कठिन मामलों में मदद करता है, और सबसे प्रदर्शनकारी दृष्टिकोण में स्रोत और लक्ष्य दस्तावेजों के बयानों की व्यक्तिगत दावा ताकत की तुलना और वर्गीकरण शामिल है’।
निष्कर्ष में, कार्य यह अनुमान लगाता है कि एमटी-पीईटी न केवल स्वास्थ्य क्षेत्र के बाहर व्यापक श्रृंखला के वैज्ञानिक पत्रों पर लागू किया जा सकता है, बल्कि वैज्ञानिक पत्रों के बेहतर अवलोकन उत्पन्न करने में पत्रकारों की मदद करने के लिए नए उपकरणों का आधार भी बन सकता है (हालांकि यह शायद निर्दोषता से पत्रकार अतिशयोक्ति का दावा कर रहे हैं), साथ ही साथ शोध समुदाय को जटिल विचारों को स्पष्ट भाषा में समझाने में मदद करने के लिए। इसके अलावा, पेपर यह ध्यान दिलाता है:
‘[यह] ध्यान दिलाया जाना चाहिए कि इस पेपर में रिपोर्ट किए गए भविष्यवाणी प्रदर्शन परिणाम विज्ञान पत्रकारों द्वारा लिखे गए प्रेस विज्ञप्ति के लिए हैं – एक को वैज्ञानिक लेखों को और अधिक सरल बनाने वाली प्रेस विज्ञप्ति के लिए खराब परिणामों की उम्मीद कर सकता है।’












