कृत्रिम बुद्धिमत्ता

अनास्तासिया लुकिना, वरिष्ठ अनुसंधान वैज्ञानिक (एनएलपी/स्पीच) ईटीएस – साक्षात्कार श्रृंखला

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

अनास्तासिया लुकिना शैक्षिक परीक्षण सेवाएं (ईटीएस) में एक अनुसंधान वैज्ञानिक हैं, जहां वह भाषण के स्वचालित स्कोरिंग पर काम करती हैं।

उनकी अनुसंधान रुचियां विभिन्न विषयों को कवर करती हैं। उन्होंने आधुनिक ग्रीक बोलियों, भाषण लय और स्वचालित प्रोसोडी विश्लेषण पर भी काम किया है।

उनका वर्तमान काम भाषण प्रौद्योगिकी और मशीन लर्निंग से उपकरणों और तरीकों को भाषण धारणा/उत्पादन के अध्ययन से अंतर्दृष्टि के साथ जोड़ने पर केंद्रित है ताकि गैर-मूल भाषण के मूल्यांकन के लिए स्वचालित स्कोरिंग मॉडल बनाए जा सकें।

आपको भाषाओं से प्यार है, आपको यह जुनून किसने दिलाया?

मैं सेंट पीटर्सबर्ग, रूस में रूसी भाषा बोलते हुए बड़ी हुई और मुझे याद है कि जब मैं पहली बार अंग्रेजी भाषा से परिचित हुई तो मुझे आकर्षित किया गया: कुछ शब्दों के लिए एक पैटर्न था जिससे रूसी शब्द को अंग्रेजी शब्द में “परिवर्तित” किया जा सकता था। और फिर मैं एक शब्द पर आती थी जहां “मेरा” पैटर्न विफल हो जाता था और एक बेहतर, अधिक सामान्य नियम बनाने की कोशिश करती थी। उस समय, मुझे ज़ाहिर है, मुझे लिंग्विस्टिक टाइपोलॉजी या कॉग्नेट्स और उधार ली गई शब्दों के बीच के अंतर के बारे में कुछ नहीं पता था, लेकिन इसने मेरी जिज्ञासा और अधिक भाषाएं सीखने की इच्छा को बढ़ावा दिया। यह पैटर्न की पहचान करने और उन्हें डेटा पर परीक्षण करने के लिए जुनून मुझे फोनेटिक्स, मशीन लर्निंग और मैं जो काम कर रही हूं, उसमें ले आया है।

आपके वर्तमान कार्य से पहले प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में आप अंग्रेजी-रूसी और आधुनिक ग्रीक-रूसी के बीच अनुवादक थीं। क्या आप मानती हैं कि आपका अनुवादक के रूप में काम करने से आपको एनएलपी से जुड़ी कुछ बारीकियों और समस्याओं के बारे में अतिरिक्त अंतर्दृष्टि मिली है?

मेरी प्राथमिक पहचान हमेशा एक शोधकर्ता की रही है। यह सच है कि मैंने अपना अकादमिक करियर आधुनिक ग्रीक के विद्वान के रूप में शुरू किया, या अधिक विशेष रूप से, आधुनिक ग्रीक फोनेटिक्स। अपने डॉक्टरेट कार्य के लिए, मैंने कई आधुनिक ग्रीक बोलियों के बीच फोनेटिक अंतरों का अन्वेषण किया और यह कैसे क्षेत्र के इतिहास से जुड़ा हो सकता है। मैंने तर्क दिया कि बोलियों के बीच कुछ अंतर क्षेत्र में बोली जाने वाली अन्य भाषाओं के साथ भाषा संपर्क के परिणामस्वरूप उत्पन्न हो सकते हैं। हालांकि मैं अब आधुनिक ग्रीक पर काम नहीं करती, दो भाषाओं के संपर्क में आने पर होने वाले परिवर्तन मेरे काम का केंद्र बिंदु बने हुए हैं: केवल इस समय मैं इस बात पर ध्यान केंद्रित करती हूं कि जब कोई व्यक्ति एक नई भाषा सीखता है तो क्या होता है और प्रौद्योगिकी इसे सबसे कुशलता से कैसे करने में मदद कर सकती है।

अंग्रेजी भाषा के लिए, कई बोलियां हैं। आप एक ऐसा एनएलपी कैसे डिज़ाइन करते हैं जो विभिन्न बोलियों को समझने में सक्षम हो? क्या यह एक गहरे शिक्षण एल्गोरिदम को प्रत्येक प्रकार की बोली से बड़ा डेटा खिलाने का एक सरल मामला है?

इसे संबोधित करने के लिए अतीत में कई दृष्टिकोणों का उपयोग किया गया है। एक बड़े मॉडल को बनाने के अलावा जो सभी बोलियों को कवर करता है, आप पहले बोली की पहचान कर सकते हैं और फिर इस बोली के लिए एक कस्टम मॉडल का उपयोग कर सकते हैं, या आप एक साथ कई मॉडल आजमा सकते हैं और जो सबसे अच्छा काम करता है उसे चुन सकते हैं। अंततः, विभिन्न बोलियों पर अच्छा प्रदर्शन प्राप्त करने के लिए आपको प्रशिक्षण और मूल्यांकन डेटा की आवश्यकता होती है जो उन कई बोलियों का प्रतिनिधित्व करता है जिनका सामना प्रणाली कर सकती है।

ईटीएस में, हम सुनिश्चित करने के लिए व्यापक मूल्यांकन करते हैं कि हमारी स्वचालित प्रणालियों द्वारा उत्पादित स्कोर वास्तव में उन कौशलों में अंतर को दर्शाते हैं जिन्हें हम मापना चाहते हैं और छात्र के लिंग, जाति, या मूल देश जैसे जनसांख्यिकीय लक्षणों से प्रभावित नहीं होते हैं।

बच्चे और/या भाषा सीखने वाले अक्सर उच्चारण में कठिनाई का सामना करते हैं। आप उच्चारण समस्या का सामना कैसे करते हैं?

सही उच्चारण जैसी कोई चीज नहीं है: जिस तरह से हम बोलते हैं वह हमारी पहचान से जुड़ा हुआ है और विकासकर्ताओं और शोधकर्ताओं के रूप में, हमारा लक्ष्य यह सुनिश्चित करना है कि हमारी प्रणालियां सभी उपयोगकर्ताओं के लिए न्यायसंगत हैं।

भाषा सीखने वालों और बच्चों के लिए विशेष चुनौतियां हैं। उदाहरण के लिए, बच्चों की आवाजें न केवल बहुत अलग ध्वनिक गुणवत्ता होती हैं, बल्कि वे वयस्कों से अलग तरह से बोलते हैं और बच्चों के बीच बहुत अधिक परिवर्तनशीलता होती है। इसके परिणामस्वरूप, बच्चों के लिए स्वचालित भाषण मान्यता विकसित करना आमतौर पर एक अलग कार्य है जिसके लिए बड़ी मात्रा में बाल भाषण डेटा की आवश्यकता होती है।

इसी तरह, भले ही एक ही पृष्ठभूमि के भाषा सीखने वालों के बीच कई समानताएं हों, सीखने वाले व्यापक रूप से फोनेटिक, व्याकरणिक और शब्दावली पैटर्न के उपयोग में भिन्न हो सकते हैं, जिससे भाषण मान्यता एक विशेष रूप से चुनौतीपूर्ण कार्य बन जाता है। अंग्रेजी भाषा प्रवीणता के लिए हमारे स्कोरिंग मॉडल बनाते समय, हम विभिन्न प्रवीणता स्तरों और मूल भाषाओं वाले भाषा सीखने वालों के डेटा का उपयोग करते हैं।

जनवरी 2018 में, आपने ‘स्वचालित भाषण स्कोरिंग प्रणालियों के प्रशिक्षण और मूल्यांकन के लिए उदाहरण प्रतिक्रियाओं का उपयोग‘ प्रकाशित किया। इस पत्र से समझने के लिए कुछ मुख्य ब्रेकथ्रू मूलभूत बातें क्या हैं?

इस पत्र में, हमने देखा कि प्रशिक्षण और परीक्षण डेटा की गुणवत्ता स्वचालित स्कोरिंग प्रणालियों के प्रदर्शन को कैसे प्रभावित करती है।

स्वचालित स्कोरिंग प्रणालियां, जैसे कई अन्य स्वचालित प्रणालियां, मानव द्वारा लेबल किए गए डेटा पर प्रशिक्षित होती हैं। इस मामले में, ये मानव रेटर्स द्वारा सौंपे गए स्कोर हैं। मानव रेटर्स हमेशा स्कोर पर सहमत नहीं होते हैं जो वे सौंपाते हैं। मूल्यांकन में यह सुनिश्चित करने के लिए कई रणनीतियों का उपयोग किया जाता है कि रिपोर्ट किए गए अंतिम स्कोर मानव समझौते में परिवर्तनशीलता के बावजूद बहुत विश्वसनीय रहता है। हालांकि, चूंकि स्वचालित स्कोरिंग इंजन आमतौर पर प्रतिक्रिया-स्तर के स्कोर का उपयोग करके प्रशिक्षित होते हैं, इसलिए मानव रेटर्स के बीच समझौते में किसी भी असंगतता के कारण स्कोर में असंगति स्वचालित प्रणाली के प्रदर्शन को नकारात्मक रूप से प्रभावित कर सकती है।

हमारे पास विभिन्न मानव रेटर्स के बीच समझौते के साथ बड़ी मात्रा में डेटा तक पहुंच थी और हमने विभिन्न स्थितियों में प्रणाली के प्रदर्शन की तुलना की। हमने जो पाया वह यह है कि पूर्ण डेटा पर प्रशिक्षित प्रणाली वास्तव में शोर वाले लेबल वाले डेटा पर प्रशिक्षित प्रणाली के प्रदर्शन में सुधार नहीं करती है। पूर्ण लेबल केवल तभी लाभ देते हैं जब आपका प्रशिक्षण सेट बहुत छोटा हो। दूसरी ओर, मानव लेबल की गुणवत्ता ने प्रणाली के मूल्यांकन पर एक बड़ा प्रभाव डाला: यदि आप स्वच्छ लेबल पर मूल्यांकन करते हैं तो आपके प्रदर्शन के अनुमान 30% तक अधिक हो सकते हैं।

संदेश यह है कि यदि आपके पास बहुत सारा डेटा है और अपने स्वर्ण मानक लेबल को साफ करने के लिए संसाधन हैं, तो यह स्मार्ट हो सकता है कि आप प्रशिक्षण सेट में लेबल को साफ करने के बजाय मूल्यांकन सेट में लेबल को साफ करें। और यह खोज न केवल स्वचालित स्कोरिंग के लिए बल्कि कई अन्य क्षेत्रों में भी लागू होती है।

क्या आप अपने कुछ काम के बारे में बता सकती हैं जो आप ईटीएस में करती हैं?

मैं एक भाषण स्कोरिंग इंजन प्रणाली पर काम करती हूं जो शैक्षिक संदर्भ में बोली गई भाषा को संसाधित करती है। ऐसी एक प्रणाली स्पीचरेटर® है, जो अंग्रेजी भाषा बोलने की प्रवीणता का आकलन करने और विस्तृत प्रतिक्रिया प्रदान करने के लिए उन्नत भाषण मान्यता और विश्लेषण प्रौद्योगिकी का उपयोग करती है। स्पीचरेटर एक बहुत परिपक्व अनुप्रयोग है जो 10 से अधिक वर्षों से आसपास है। मैं विभिन्न अनुप्रयोगों के लिए स्कोरिंग मॉडल बनाती हूं और ईटीएस में अन्य सहयोगियों के साथ काम करती हूं ताकि यह सुनिश्चित किया जा सके कि हमारे स्कोर सभी परीक्षार्थियों के लिए विश्वसनीय, न्यायसंगत और वैध हैं। हम ईटीएस में अन्य समूहों के साथ भी काम करते हैं ताकि हम सुनिश्चित कर सकें कि प्रणाली का प्रदर्शन निरंतर निगरानी में है।

इसके अलावा हमारी परिचालन प्रणालियों को बनाए रखने और सुधारने के अलावा, हम नए प्रणालियों के प्रोटोटाइप बनाते हैं। मुझे जिस परियोजना के बारे में बहुत उत्साह है वह रिलेरेडर™ है: एक अनुप्रयोग जो विकासशील पाठकों को धाराप्रवाहता और आत्मविश्वास हासिल करने में मदद करने के लिए डिज़ाइन किया गया है। रिलेरेडर के साथ पढ़ते समय, उपयोगकर्ता एक पुस्तक सुनने और बड़बोले हुए पढ़ने के बीच बारी-बारी से पढ़ता है। उनकी पढ़ाई को फीडबैक प्रदान करने के लिए हमारे सर्वर पर भेजा जाता है। भाषण प्रसंस्करण के संदर्भ में, इस अनुप्रयोग की मुख्य चुनौती यह है कि कैसे सीखने को मापा जाए और बिना पुस्तक के साथ उपयोगकर्ता की भागीदारी में हस्तक्षेप किए बिना विश्वसनीय और कार्रवाई योग्य प्रतिक्रिया प्रदान की जाए।

ईटीएस के साथ काम करने का आपका पसंदीदा हिस्सा क्या है?

मुझे जो पहली बार ईटीएस में आकर्षित किया था वह यह है कि यह एक गैर-लाभकारी संगठन है जिसका मिशन दुनिया भर में सभी लोगों के लिए शिक्षा की गुणवत्ता में सुधार करना है। जबकि निश्चित रूप से यह महान है जब अनुसंधान एक उत्पाद की ओर ले जाता है, मुझे उन परियोजनाओं पर काम करने का अवसर मिलना अच्छा लगता है जो स्वाभाविक रूप से अधिक मौलिक हैं लेकिन भविष्य में उत्पाद विकास में मदद करेंगी। मैं यह भी सराहती हूं कि ईटीएस डेटा गोपनीयता और न्यायसंगतता जैसे मुद्दों को बहुत गंभीरता से लेता है और हमारी सभी प्रणालियों का संचालन से पहले बहुत सख्त मूल्यांकन किया जाता है।

लेकिन जो वास्तव में ईटीएस को एक महान स्थान बनाता है वह है इसके लोग। हमारे पास विभिन्न पृष्ठभूमियों के वैज्ञानिकों, इंजीनियरों और विकासकर्ताओं का एक अद्भुत समुदाय है जो कई दिलचस्प सहयोग की अनुमति देता है।

क्या आप मानती हैं कि क्या एक एआई कभी ट्यूरिंग टेस्ट पास कर पाएगा?

1950 के दशक से ही, ट्यूरिंग टेस्ट को व्यावहारिक रूप से करने के कई अर्थ हैं। शायद यह एक सामान्य समझ है कि ट्यूरिंग टेस्ट दार्शनिक अर्थ में पारित नहीं किया गया है कि कोई एआई प्रणाली मानव की तरह सोचती नहीं है। हालांकि, यह एक बहुत ही निचे विषय बन गया है। अधिकांश लोग अपनी प्रणालियों को ट्यूरिंग टेस्ट पास करने के लिए नहीं बनाते हैं – हम उन्हें विशिष्ट लक्ष्यों को प्राप्त करना चाहते हैं।

कुछ कार्यों के लिए, जैसे कि भाषण मान्यता या प्राकृतिक भाषा समझ, मानव प्रदर्शन को सही मानक माना जा सकता है। लेकिन कई अन्य कार्य हैं जहां हम एक स्वचालित प्रणाली से मानवों से बेहतर प्रदर्शन करने की अपेक्षा करते हैं या जहां एक स्वचालित प्रणाली और मानव विशेषज्ञ को एक साथ काम करने की आवश्यकता होती है ताकि सबसे अच्छा परिणाम प्राप्त किया जा सके। उदाहरण के लिए, एक शैक्षिक संदर्भ में, हम एक एआई प्रणाली से एक शिक्षक को प्रतिस्थापित नहीं करना चाहते हैं: हम चाहते हैं कि यह शिक्षकों की मदद करे, चाहे वह छात्रों की सीखने की प्रवृत्तियों की पहचान करने में, ग्रेडिंग में मदद करने में या सर्वोत्तम शिक्षण सामग्री खोजने में मदद करने में हो।

क्या आपको ईटीएस या एनएलपी के बारे में और कुछ साझा करना है?

अधिकांश लोग ईटीएस को इसके मूल्यांकन और स्वचालित स्कोरिंग प्रणालियों के लिए जानते हैं। लेकिन हम बहुत कुछ करते हैं। हमारे पास वॉयस बायोमेट्रिक्स से लेकर स्पोकन डायलॉग एप्लिकेशन तक कई क्षमताएं हैं और हम हमेशा सीखने में प्रौद्योगिकी को एकीकृत करने के नए तरीकों की तलाश में रहते हैं। अब जब कई छात्र घर से सीख रहे हैं, तो हमने अपनी कई अनुसंधान क्षमताओं को सार्वजनिक के लिए खोल दिया है।

साक्षात्कार के लिए धन्यवाद और एनएलपी और भाषण मान्यता में नवीनतम प्रगति पर यह दृष्टिकोण प्रदान करने के लिए। जो कोई भी अधिक जानना चाहता है वह शैक्षिक परीक्षण सेवाएं पर जा सकता है।

Antoine Tardif, CEO & Founder of Unite.AI

एंटोनी एक दूरदर्शी नेता और Unite.AI के संस्थापक भागीदार हैं, जो कि एआई और रोबोटिक्स के भविष्य को आकार देने और बढ़ावा देने के लिए एक अटूट जुनून से प्रेरित हैं। एक श्रृंखला उद्यमी, वह मानता है कि एआई समाज के लिए उतना ही विघटनकारी होगा जितना कि बिजली, और अक्सर विघटनकारी प्रौद्योगिकियों और एजीआई की संभावना के बारे में उत्साहित होता है।

एक फ्यूचरिस्ट के रूप में, वह इन नवाचारों के माध्यम से हमारी दुनिया को आकार देने की खोज में समर्पित है। इसके अलावा, वह सिक्योरिटीज़.io के संस्थापक हैं, एक मंच जो भविष्य को फिर से परिभाषित करने और पूरे क्षेत्रों को फिर से आकार देने वाली अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित है।

Unite.AI

अनास्तासिया लुकिना, वरिष्ठ अनुसंधान वैज्ञानिक (एनएलपी/स्पीच) ईटीएस – साक्षात्कार श्रृंखला

You may like