рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдирд┐рддрд┐рди рдорджрдирд╛рдиреА, рдИрдЯреАрдПрд╕ рдореЗрдВ рд╡рд░рд┐рд╖реНрда рдЕрдиреБрд╕рдВрдзрд╛рди рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

नितिन मदनानी शैक्षिक परीक्षण सेवा (ईटीएस) में प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अनुसंधान समूह में एक वरिष्ठ अनुसंधान वैज्ञानिक हैं। ईटीएस की स्थापना 1947 में हुई थी, और यह दुनिया का सबसे बड़ा निजी गैर-लाभकारी शैक्षिक परीक्षण और मूल्यांकन संगठन है।
क्या आप ईटीएस के मिशन के बारे में बताना शुरू कर सकते हैं?
ईटीएस का मिशन दुनिया भर के सभी शिक्षार्थियों के लिए शिक्षा में गुणवत्ता और समानता को बढ़ावा देना है। यह मिशन हमारे उत्पादों, सेवाओं, अनुसंधान और विकास प्रयासों को आगे बढ़ाने के लिए है, जिसका उद्देश्य सीखने को बढ़ावा देना, शिक्षा का समर्थन करना, पेशेवर विकास का समर्थन करना और सभी के लिए ज्ञान और कौशल को मापना है।
हम मानते हैं कि कोई भी, कहीं भी अपने जीवन में सीखने के माध्यम से अंतर ला सकता है और ईटीएस का अनुसंधान, मूल्यांकन, माप और नीति पर काम सीखने को संभव बनाने में महत्वपूर्ण भूमिका निभा सकता है।
एनएलपी के बारे में क्या है जो आपको इतना उत्साहित करता है?
सभी मानव भाषाएं इतनी सुंदर और जटिल होती हैं। वे हमें अपनी बातचीत और लेखन में भावनाओं की एक श्रृंखला व्यक्त करने की अनुमति देती हैं और वे समय के साथ विकसित होती हैं। दूसरी ओर, एक कंप्यूटर अपने इनपुट को संसाधित करने में इतना निर्धारित और नैदानिक होता है। प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एक ऐसा क्षेत्र है जो कंप्यूटर विज्ञान, भाषाविज्ञान और सांख्यिकी से तकनीकों को जोड़कर इस सुप्रीम रूप से गैर-मानव उपकरण को मानव भाषा की सुंदर जटिलताओं को समझने का प्रयास करता है। यह कैसे आकर्षक नहीं होगा?
ईटीएस एनएलपी और भाषण वैज्ञानिकों ने हाल ही में आरएसएमटूल विकसित किया है। क्या आप हमें बता सकते हैं कि आरएसएमटूल क्या करता है?
जैसा कि हमने पिछले कुछ वर्षों में देखा है, सभी मशीन लर्निंग मॉडल संभावित रूप से पूर्वाग्रहपूर्ण व्यवहार प्रदर्शित कर सकते हैं, चाहे वे जिस क्षेत्र में लागू किए जाते हैं, शिक्षा को छोड़कर। स्वचालित ग्रेडिंग प्रणाली जो परीक्षणों में या कक्षाओं में छात्रों के भाषण या निबंधों को स्कोर या ग्रेड असाइन करती है, अक्सर मशीन लर्निंग मॉडल का उपयोग करती हैं। इसलिए, यह संभव है कि ऐसी प्रणालियां पूर्वाग्रहपूर्ण तरीके से व्यवहार करें। ऐसा पूर्वाग्रह विशेष रूप से तब गंभीर परिणाम हो सकता है जब ऐसी प्रणालियों से स्कोर का उपयोग उच्च-जोखिम वाले निर्णय लेने के लिए किया जाता है।
आरएसएमटूल एक मुक्त स्रोत उपकरण है जिसे मेरे सहयोगी अनास्तासिया लुकिना (पूर्व में फीचर्ड पर Unite.AI) और मैंने ईटीएस में विकसित किया है ताकि यह सुनिश्चित किया जा सके कि स्वचालित ग्रेडिंग प्रणालियों में कोई भी व्यवस्थित, हानिकारक पूर्वाग्रह जल्द से जल्द पहचाना जाए, उम्मीद है कि इससे पहले कि प्रणालियां वास्तविक दुनिया में तैनात की जाएं। आरएसएमटूल को एआई स्कोरिंग इंजनों का एक व्यापक मूल्यांकन प्रदान करने के लिए डिज़ाइन किया गया है, जिसमें न केवल भविष्यसूचक सटीकता के मानक मेट्रिक्स शामिल हैं, बल्कि मॉडल न्याय और परीक्षण सिद्धांत पर आधारित मेट्रिक्स भी शामिल हैं, जो डेवलपर्स को अपनी प्रणालियों में संभावित पूर्वाग्रह या अन्य समस्याओं की पहचान करने में मदद करते हैं।
आरएसएमटूल नाम कहां से आया?
शैक्षिक मूल्यांकन क्षेत्र में, जो कोई भी एक निबंध को स्कोर (या “रेट”) करता है उसे अक्सर एक “रेटर” के रूप में जाना जाता है। मानव रेटर और स्वचालित रेटर होते हैं। आरएसएमटूल – रेटर स्कोरिंग मॉडलिंग टूल के लिए छोटा – स्वचालित रेटर द्वारा उपयोग किए जाने वाले स्कोरिंग मॉडल को बनाने और मूल्यांकन करने में मदद करने के लिए डिज़ाइन किया गया है।
यह उपकरण डेवलपर्स को अपने एआई स्कोरिंग इंजन में संभावित पूर्वाग्रह या अन्य समस्याओं की पहचान करने में कैसे मदद कर सकता है?
पिछले पांच दशकों में, शैक्षिक माप वैज्ञानिकों – जिनमें हमारे कई सहयोगी ईटीएस में शामिल हैं – ने स्वचालित स्कोरिंग के लिए न्याय के बारे में मूल्यवान अनुसंधान किया है। इस अनुसंधान के हिस्से के रूप में, उन्होंने व्यवस्थित पूर्वाग्रह के संकेतक की गणना के लिए कई सांख्यिकीय और मनोवैज्ञानिक विश्लेषण विकसित किए हैं। हालांकि, चूंकि मनोवैज्ञानिक और एनएलपी समुदाय शायद ही कभी बातचीत करते हैं, इसलिए विचारों के लिए बहुत कम अवसर है। नतीजतन, एनएलपी शोधकर्ता और डेवलपर जो वास्तविक स्वचालित स्कोरिंग प्रणाली बना रहे हैं – विशेष रूप से व्यक्तिगत शोधकर्ता और छोटी कंपनियों में – अपनी प्रणालियों को पूर्वाग्रह के लिए जांच करने के लिए उपयोग करने के लिए मनोवैज्ञानिक विश्लेषण तक आसानी से पहुंच नहीं है। आरएसएमटूल इस समस्या का समाधान करने का प्रयास करता है bằng एकल, आसानी से उपयोग होने वाले पाइथन पैकेज में एक बड़े, विविध सेट के मनोवैज्ञानिक विश्लेषण प्रदान करके जिसे कोई भी एनएलपी शोधकर्ता अपने शोध या संचालन पाइपलाइन में शामिल कर सकता है।
एक टिपिकल उपयोग मामले में, एक शोधकर्ता संख्यात्मक प्रणाली स्कोर, गोल्ड-स्टैंडर्ड (मानव) स्कोर और मेटाडेटा के साथ एक फ़ाइल या डेटा फ्रेम को इनपुट के रूप में प्रदान करेगा, यदि लागू होता है। आरएसएमटूल इस डेटा को संसाधित करता है और एक व्यापक मूल्यांकन सहित एक एचटीएमएल रिपोर्ट उत्पन्न करता है जिसमें विवरण सांख्यिकी, साथ ही साथ कई उपाय शामिल हैं सिस्टम के प्रदर्शन और न्याय के बीच। आरएसएमटूल रिपोर्ट का एक नमूना https://bit.ly/fair-tool पर पाया जा सकता है। आरएसएमटूल पारंपरिक फीचर-ड्रिवन मशीन लर्निंग मॉडल (जैसे स्किट-लर्न लाइब्रेरी से) और गहरे शिक्षण मॉडल के साथ काम कर सकता है। हालांकि आरएसएमटूल का प्राथमिक आउटपुट वह एचटीएमएल रिपोर्ट है जो आसान साझा करने के लिए बनाता है, यह मध्यवर्ती आउटपुट के रूप में सीएसवी, टीएसवी या एक्सएलएसएक्स प्रारूपों में टेबुलर डेटा फ़ाइलें भी उत्पन्न करता है। अंत में, इसे बेहद अनुकूलन योग्य रखने के लिए, आरएसएमटूल अपनी रिपोर्ट के प्रत्येक अनुभाग को एक जुपिटर नोटबुक के रूप में लागू करता है ताकि उपयोगकर्ता न केवल यह चुन सकें कि उनके विशिष्ट स्कोरिंग मॉडल के लिए कौन से अनुभाग प्रासंगिक हैं, वे आसानी से कस्टम विश्लेषण लागू कर सकते हैं और उन्हें रिपोर्ट में बहुत कम काम के साथ शामिल कर सकते हैं।
हाल के कई अध्ययन हैं जिन्होंने स्वचालित स्कोरिंग पर अपने प्रस्तावित स्कोरिंग मॉडल का मूल्यांकन करने के लिए आरएसएमटूल का उपयोग किया है।
स्वचालित स्कोरिंग प्रणालियों को प्रभावित करने वाले पूर्वाग्रह के सामान्य प्रकार क्या हैं?
स्वचालित स्कोरिंग प्रणाली को प्रभावित करने वाला सबसे सामान्य प्रकार का पूर्वाग्रह विभिन्न उप-समूहों के लिए अलग-अलग प्रदर्शन है। उदाहरण के लिए, एक पूर्वाग्रहपूर्ण स्कोरिंग प्रणाली काली महिलाओं द्वारा लिखे गए निबंधों के लिए व्हाइट पुरुषों की तुलना में लगातार कम स्कोर उत्पन्न कर सकती है, भले ही मानव के लिए उनके निबंधों में वास्तविक लेखन कौशल में कोई व्यवस्थित अंतर नहीं हो।
ईटीएस के पास स्वचालित स्कोरिंग इंजन के लिए न्याय पर अनुसंधान करने का एक समृद्ध इतिहास है। उदाहरण के लिए, हमने देखा है कि क्या हमारा एआई स्वचालित स्कोरिंग इंजन – ई-रेटर – जाति, लिंग और देश द्वारा परिभाषित उप-समूहों के लिए कोई अंतर्निहित प्रदर्शन प्रदर्शित करता है (उन्होंने कुछ मामूली अंतर पाए जो बाद की नीति परिवर्तनों द्वारा संबोधित किए गए थे)। अध्ययनों ने यह भी देखा है कि क्या ई-रेटर उन प्रतिक्रियाओं का इलाज जीआरई परीक्षार्थियों द्वारा लिखा जाता है जिन्हें सीखने की अक्षमता और/या एडीएचडी है औसतन अन्य की तुलना में व्यवस्थित रूप से अलग (यह नहीं है)। हाल ही में, एक समय पर अध्ययन यह देखता है कि क्या एक स्वचालित प्रणाली जो बोलने की प्रवीणता को स्कोर करती है चेहरे के मास्क पहनने वाले परीक्षार्थियों की तुलना में उन लोगों के लिए कोई व्यवस्थित पूर्वाग्रह प्रदर्शित करती है जो मास्क नहीं पहनते हैं (यह नहीं है)। आरएसएमटूल में कई मनोवैज्ञानिक विश्लेषण हैं जो उपयोगकर्ता द्वारा परिभाषित किए जा सकने वाले उप-समूहों पर विभिन्न उप-समूह प्रदर्शन को मापने का प्रयास करते हैं।
ईटीएस ने आरएसएमटूल को मुक्त स्रोत बनाने का निर्णय क्यों लिया?
हाँ, आरएसएमटूल गिटहब पर एक अपाचे 2.0 लाइसेंस के साथ उपलब्ध है। हम मानते हैं कि ऐसे एक उपकरण के लिए मुक्त स्रोत और गैर-व्यावसायिक होना महत्वपूर्ण है ताकि समुदाय (ए) पहले से उपलब्ध विश्लेषणों के स्रोत कोड की न्याय मानकों के अनुरूप होने की जांच कर सके और (बी) न्याय मानकों के विकसित होने और बदलने के रूप में नए विश्लेषणों का योगदान कर सके। हम एनएलपी शोधकर्ताओं और डेवलपर्स को अपने काम में आरएसएमटूल का उपयोग करने और हमें इसे बेहतर बनाने में मदद करने के लिए भी यह आसान बनाना चाहते हैं। आरएसएमटूल को मुक्त स्रोत बनाना ईटीएस की शिक्षा में एआई के जिम्मेदार उपयोग के प्रति अपनी प्रतिबद्धता का एक स्पष्ट उदाहरण है।
आपको आरएसएमटूल विकसित और बनाए रखने से क्या सबक मिले हैं?
पिछले पांच वर्षों में, जब से अनास्तासिया और मैंने आरएसएमटूल विकसित और बनाए रखा है – कई ईटीएस सहयोगियों और गैर-ईटीएस गिटहब योगदानकर्ताओं की मदद से – हमने दो व्यापक सबक सीखे हैं। पहला यह है कि विभिन्न उपयोगकर्ताओं की अलग-अलग जरूरतें होती हैं और एक-आकार-फिट-सभी दृष्टिकोण काम नहीं करेगा आरएसएमटूल जैसे अंतर-विषयक सॉफ्टवेयर के लिए। दूसरा सबक जो हमने सीखा है कि खुला स्रोत सॉफ्टवेयर को अपनाने के लिए इसे यथासंभव मजबूत बनाने के लिए वास्तव में अतिरिक्त प्रयास करना आवश्यक है।
आरएसएमटूल के रूप में हमारे कार्यकाल के दौरान, हमने कई प्रकार के उपयोगकर्ताओं की पहचान की है। उनमें से कुछ “पावर उपयोगकर्ता” (जैसे एनएलपी शोधकर्ता और डेवलपर) हैं जो अपने स्वयं के मशीन लर्निंग पाइपलाइन में विशिष्ट आरएसएमटूल कार्यक्षमता चुनना और चुनना चाहते हैं, साथ ही साथ अन्य पाइथन पैकेजों का भी उपयोग करना चाहते हैं। ऐसे उपयोगकर्ताओं को संतुष्ट करने के लिए, हमने विभिन्न पूर्व- और पोस्ट-प्रोसेसिंग फ़ंक्शन और आरएसएमटूल में कस्टम मेट्रिक्स को उजागर करने के लिए एक बहुत व्यापक एपीआई बनाया है। उपयोगकर्ताओं का एक अन्य समूह है जिसे हम “न्यूनतम” कहते हैं: डेटा विश्लेषक और इंजीनियर जो सांख्यिकीय या प्रोग्रामिंग पृष्ठभूमि की कमी के कारण एपीआई के साथ बातचीत करने में असमर्थ हो सकते हैं और इसके बजाय एक आउट-ऑफ-द-बॉक्स पाइपलाइन पसंद करते हैं। ऐसे उपयोगकर्ताओं को संतुष्ट करने के लिए, हमने रैपर शेल स्क्रिप्ट में आसानी से कॉल किए जा सकने वाले कमांड-लाइन टूल बनाए हैं। हमने यह भी पाया है कि न्यूनतम उपयोगकर्ता अक्सर आरएसएमटूल के बड़े (अदितीय) कॉन्फ़िगरेशन विकल्पों की सूची पढ़ने में अनिच्छुक होते हैं। इसलिए, हमने एक इंटरएक्टिव कॉन्फ़िगरेशन जनरेटर बनाया है जो स्व-पूर्ण है जो ऐसे उपयोगकर्ताओं को अपनी विशिष्ट आवश्यकताओं के आधार पर कॉन्फ़िगरेशन फ़ाइलें बनाने में मदद कर सकता है।
सभी उपयोगकर्ता समूहों की जरूरतों को पूरा करने के लिए, हमें मजबूत सॉफ्टवेयर बनाने के लिए प्रथाओं को अपनाना पड़ा जो हम मानते हैं। हम क्या मतलब है सॉफ्टवेयर द्वारा मजबूत? किसी भी सॉफ्टवेयर को मजबूत होने के लिए, यह मानदंडों को पूरा करना चाहिए: किसी भी कोड परिवर्तन का इसकी सटीकता और प्रदर्शन पर प्रभाव मापा जा सकता है (सुव्यवस्थित परीक्षण), इसका दस्तावेज़ हमेशा अद्यतित है (सुव्यवस्थित दस्तावेज़), और सॉफ्टवेयर (साथ ही इसकी निर्भरताएं) उपयोगकर्ताओं द्वारा आसानी से स्थापित किया जा सकता है। आरएसएमटूल के लिए, हमने इसे मजबूत बनाने के लिए खुला स्रोत उपकरण और सेवाओं का लाभ उठाया है। हमारे पास एक व्यापक परीक्षण सूट है (90% से अधिक कोड कवरेज) जिसे हम कोड में किए जाने वाले सभी परिवर्तनों के लिए स्वचालित रूप से निरंतर एकीकरण के माध्यम से चलाते हैं। हम व्यापक दस्तावेज़ (विभिन्न वास्तविक दुनिया के ट्यूटोरियल सहित) बनाए रखते हैं और आरएसएमटूल में प्रस्तावित किसी भी नई कार्यक्षमता में एक दस्तावेज़ घटक शामिल होना चाहिए जो कोड समीक्षा के हिस्से के रूप में समीक्षा की जाती है। अंत में, हम आरएसएमटूल को पैकेज के रूप में रिलीज़ करते हैं जो पाइप या कोंडा के माध्यम से आसानी से स्थापित किया जा सकता है और सभी आवश्यक निर्भरताएं स्वचालित रूप से स्थापित की जाती हैं।
ईटीएस आरएसएमटूल जारी करके क्या हासिल करना चाहता है?
शिक्षा क्षेत्र में पिछले कुछ वर्षों में एआई का एक महत्वपूर्ण विस्तार देखा गया है, जिसमें पाठ और भाषण की स्वचालित स्कोरिंग एनएलपी का एक बढ़ता हुआ अनुप्रयोग बन गया है। ईटीएस लंबे समय से स्वचालित स्कोरिंग के क्षेत्र में एक नेता रहा है और, अपनी स्थापना के बाद से, न्यायसंगत उत्पादों और मूल्यांकन का निर्माण करने के लिए प्रतिबद्ध रहा है जो दुनिया भर के शिक्षार्थियों की सेवा करने के लिए डिज़ाइन किए गए हैं। आरएसएमटूल जारी करके, जिसे एनएलपी वैज्ञानिकों और मनोवैज्ञानिकों के बीच घनिष्ठ सहयोग में विकसित किया गया है, ईटीएस शिक्षा में एआई के जिम्मेदार उपयोग के लिए अपनी वकालत जारी रखना चाहता है; विशेष रूप से, हम यह स्पष्ट करना चाहते हैं कि जब एआई शोधकर्ता स्वचालित स्कोरिंग प्रणाली के “प्रदर्शन” के बारे में सोचते हैं, तो उन्हें न केवल भविष्यसूचक सटीकता के मानक मेट्रिक्स (जैसे पियरसन का संबंध) पर विचार करना चाहिए, बल्कि मॉडल न्याय के मेट्रिक्स पर भी विचार करना चाहिए। अधिक व्यापक रूप से, हम यह भी चाहेंगे कि आरएसएमटूल एनएलपी शोधकर्ताओं और मनोवैज्ञानिकों के बीच सहयोग के तरीकों का एक उदाहरण के रूप में कार्य करे।
क्या आरएसएमटूल के बारे में और कुछ है जो आप साझा करना चाहेंगे?
हम पाठकों को आरएसएमटूल में सुधार करने में मदद करने के लिए प्रोत्साहित करते हैं! उन्हें मनोवैज्ञानिक या एनएलपी विशेषज्ञ होने की आवश्यकता नहीं है। हमारे पास दस्तावेज़ीकरण और पाइथन प्रोग्रामिंग से संबंधित कई खुले मुद्दे हैं जो किसी भी शुरुआती से मध्यवर्ती पाइथन प्रोग्रामर के लिए उपयुक्त होंगे। हम एसकेएलएल (स्किट-लर्न लेबोरेटरी) में योगदान का भी स्वागत करते हैं – एक और ईटीएस मुक्त स्रोत पैकेज जो उपयोगकर्ता-कॉन्फ़िगर करने योग्य, बैच्ड मशीन लर्निंग प्रयोगों को कुशलतापूर्वक चलाने के लिए है – जो आरएसएमटूल द्वारा अंतर्निहित रूप से उपयोग किया जाता है।












