рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рдбреЙ рдЬреВрдбрд┐рде рдмрд┐рд╢рдк, рдПрдкреЗрди рдореЗрдВ рдПрдЖрдИ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮреЛрдВ рдХреЗ рд╡рд░рд┐рд╖реНрда рдирд┐рджреЗрд╢рдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

डॉ जूडिथ बिशप एपेन में एपीएसी/यूएस क्षेत्र के लिए एआई विशेषज्ञों के वरिष्ठ निदेशक हैं। वह उच्चतम स्तर की योग्यता और अनुभव वाले भाषाविदों, गणितीय भाषाविदों, और मानव संचार के सभी तरीकों (भाषण, लेखन और इशारों) के विशेषज्ञों की एक टीम का नेतृत्व और विकास कर रही हैं, जो गुणवत्ता और गति के अद्वितीय संयोजन के साथ एआई प्रशिक्षण डेटा प्रदान करते हैं।
आपको भाषाविज्ञान में क्या आकर्षित किया?
मैंने पहली बार अपने एक पसंदीदा अंग्रेजी शिक्षक से उच्च विद्यालय में भाषाविज्ञान के बारे में सुना। मैं उन बच्चों में से एक था जो विदेशी भाषाओं और मानविकी की ओर आकर्षित थे, और गणित और विज्ञान विषयों की ओर भी। भाषाविज्ञान भाषा के कार्य करने का विज्ञान है, इसलिए यह मेरे लिए उन रुचियों को एक साथ लाया। जैसे कि कई लोगों के साथ, एक बार जब मैंने इसके बारे में सीखा, तो मैं पूरी तरह से आकर्षित हो गया। हम एक दूसरे के साथ अपने विचारों और भावनाओं को कैसे संवाद करते हैं, यह क्या अधिक आकर्षक हो सकता है? भाषाविज्ञान भाषा संरचनाओं का अन्वेषण करता है जो सभी ध्वनियों और लेखन प्रणालियों में भिन्नता के बावजूद अक्सर समान होते हैं, क्योंकि वे सभी अंततः हमारे सामान्य मानव अस्तित्व का उत्पाद हैं।
क्या आप बता सकते हैं कि आप एआई में कैसे काम करने लगे?
मैं 2004 से एपेन में काम कर रहा हूं और भाषा प्रौद्योगिकी उत्पादों और सेवाओं के विकास का समर्थन कर रहा हूं। इस समय के दौरान, एआई एक व्यापक ढांचे के रूप में उभरा है, जिसका मिशन और दृष्टि मानव संचार, तर्क और धारणा की क्षमताओं की नकल और विस्तार करना है। 2019 में, मेरी टीम ने खुद को एआई विशेषज्ञ के रूप में पुनः ब्रांडेड किया, यह पहचान कि हमारा भाषाई और भाषा ज्ञान एआई उद्यम के लिए महत्वपूर्ण है। हमारे अन्नोटेटेड डेटा एआई उत्पादों और सेवाओं के साथ मानव इंटरैक्शन की सफलता के लिए आवश्यक समर्थन प्रदान करता है।
आप 16 वर्षों से अधिक समय से एआई में काम कर रहे हैं, आपने कुछ सबसे बड़े परिवर्तन क्या देखे हैं?
मुख्य परिवर्तन ध्यान का विकेंद्रीकरण है – कोर तकनीकी विकास से लेकर उपयोग के मामलों और अनुप्रयोगों की लंबी पूंछ तक। मेरे अधिकांश करियर में, भाषा-आधारित एआई का ध्यान मानव भाषण धारणा और उत्पादन की नकल करने वाले एक मूल सेट के मॉडल विकसित करने और परिष्कृत करने पर केंद्रित था – अर्थात्, भाषण मान्यता, भाषण संश्लेषण, और प्राकृतिक भाषा प्रसंस्करण। डेटासेट आमतौर पर सामान्य लेबलिंग और डेटा नमूनाकरण मानकों और परंपराओं का पालन करते थे, जैसे कि स्पीकॉन संघ (स्पीच-ड्रिवन इंटरफेस फॉर कंस्यूमर डिवाइसेज) द्वारा विकसित किए गए। इन मानकों ने कोर तकनीक विकासकर्ताओं को सामान्य डेटा संरचनाओं पर अपने प्रदर्शन को बेंचमार्क करने और एआई के तेजी से विकास का समर्थन करने की अनुमति दी।
हालांकि, एआई के उपयोग के मामलों का हाल के वर्षों में व्यापक विस्तार, यह पहचान लाया है कि कोर, जेनेरिक एआई मॉडल जो इस डेटा के साथ बनाए गए हैं, विशेष डेटा प्रकारों पर पर्याप्त रूप से काम नहीं करते हैं जब तक उन्हें आगे ट्यून नहीं किया जाता है। इसके अलावा, चूंकि वे डेटा पर विकसित किए गए हैं जो जानबूझकर साफ और ‘मानक’ है, इन मॉडलों को सभी मानव इनपुट को समझने और प्रतिक्रिया देने के लिए प्रशिक्षित या अपडेट किया जाना चाहिए: सभी बोलियों, सभी उच्चारणों, सभी जातियों, सभी लिंगों और मानव भेदभाव के अन्य सभी आयामों में।
क्या आप मशीन लर्निंग में निष्पक्ष डेटा के महत्व पर चर्चा कर सकते हैं?
मशीन लर्निंग मॉडल, चाहे वह पर्यवेक्षित, अनपर्यवेक्षित या प्रबल प्रशिक्षण मॉडल हों, वे डेटा में मौजूद पूर्वाग्रहों को प्रतिबिंबित करेंगे। अलिसा सिम्पसन रोशवर्गर और विल्सन पांग अपनी हाल की पुस्तक, रियल वर्ल्ड एआई में, इस मुद्दे के कई उत्कृष्ट उदाहरण प्रदान करते हैं। यदि किसी आबादी के खंड के लिए पर्याप्त प्रशिक्षण डेटा नहीं है, तो एआई मॉडल उस खंड के लिए कम सटीक होगा।
एक अन्य सामान्य मामले में, आबादी का प्रतिनिधित्व पर्याप्त हो सकता है, लेकिन यदि प्रशिक्षण डेटा में डेटा बिंदुओं के बीच संबंध हैं जो वास्तविक, लेकिन अवांछनीय, दुनिया की स्थितियों (जैसे कि महिलाओं के लिए पूर्ण रोजगार की कम दर, या अफ्रीकी अमेरिकियों के लिए उच्च दर से कारावास) को प्रतिबिंबित करते हैं, तो परिणामी एआई अनुप्रयोग उन स्थितियों को मजबूत और बनाए रख सकते हैं।
भाषा में मौजूद संबंध एनएलपी अनुप्रयोगों में पूर्वाग्रह पैदा कर सकते हैं, जो सांख्यिकीय संबंधों पर निर्भर करते हैं जिन्हें शब्द एम्बेडिंग के रूप में जाना जाता है। यदि ‘वह’ और ‘नर्स’ प्रशिक्षण डेटा में ‘वे’ या ‘वह’ और ‘नर्स’ की तुलना में अधिक बार जुड़े हुए हैं, तो परिणामी अनुप्रयोग एक नर्स को संदर्भित करने के लिए एक एकवचन सर्वनाम चुनने पर ‘वह’ का उपयोग करेगा। इस विशिष्ट मुद्दे को संबोधित करने के लिए, शोधकर्ताओं ने हाल ही में एक शब्द एम्बेडिंग अल्गोरिदम के एक लिंग-तटस्थ संस्करण, जीएन-ग्लोव का विकास किया है।
संवेदनशील अनुप्रयोगों में, पूर्वाग्रह जैसे मुद्दे उपयोगकर्ताओं पर विनाशकारी प्रभाव डाल सकते हैं और व्यावसायिक निवेश को समाप्त कर सकते हैं। अच्छी खबर यह है कि नए, अधिक पारदर्शी और समावेशी डेटासेट के विकास के अलावा, डेटा विज्ञान के कई अनुप्रयोग विकसित किए जा रहे हैं जो मौजूदा प्रशिक्षण डेटासेट और एआई अनुप्रयोगों में पूर्वाग्रह की उपस्थिति की जांच करने के लिए हैं।
एपेन ने हाल ही में प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पहल के लिए विविध प्रशिक्षण डेटासेट लॉन्च किए हैं। क्या आप बता सकते हैं कि ये डेटासेट कैसे उपयोगकर्ताओं को भाषा विविधता, बोली, एथनोलेक्ट, उच्चारण, जाति, या लिंग की परवाह किए बिना समान अनुभव प्राप्त करने में सक्षम बनाएंगे?
उपरोक्त कारणों से, मौजूदा एआई उत्पादन प्रणालियों में पूर्वाग्रह को ठीक करने के लिए डेटासेट की आवश्यकता है, साथ ही भविष्य की प्रणालियों के लिए अधिक समावेशी डेटासेट की भी आवश्यकता है। एपेन द्वारा उल्लिखित डेटासेट अफ्रीकी अमेरिकी वर्नाक्युलर इंग्लिश जैसे एथनोलेक्ट्स से संबंधित पूर्वाग्रहों को ठीक करने में सहायता करेंगे। वे एआई भाषा मॉडल में इस आबादी के प्रतिनिधित्व को बढ़ाने के लिए पूरक प्रशिक्षण डेटा प्रदान करेंगे।
जातीयता एआई डेटा में एक महत्वपूर्ण जनसांख्यिकीय आयाम के रूप में उभर रही है जिसके लिए स्पष्ट लेबलिंग की आवश्यकता है। भाषाविदों ने विशिष्ट जातियों से जुड़ी भाषा विविधताओं को ‘एथनोलेक्ट’ के रूप में संदर्भित किया है। एआई डेटा प्रदाता जैसे एपेन अब पहचान करते हैं कि यदि प्रमुख और अल्पसंख्यक आबादी को एआई प्रशिक्षण डेटासेट में स्पष्ट रूप से प्रतिनिधित्व नहीं किया जाता है, तो हम यह सुनिश्चित नहीं कर सकते कि परिणामी प्रणालियां इन आबादी के लिए समान रूप से अच्छा प्रदर्शन करेंगी।
समान प्रदर्शन का अर्थ है कि प्रणाली उपयोगकर्ता के शब्दों और इरादों (उनके अर्थों या उन्हें हासिल करने की क्रियाओं) को समान सटीकता से पहचानती है और कुछ मामलों में, भावना; और यह उपयोगकर्ता की जरूरतों को समान रूप से संतुष्ट करती है और किसी विशिष्ट उपयोगकर्ता आबादी पर व्यावहारिक या मनोवैज्ञानिक रूप से अधिक नकारात्मक प्रभाव नहीं डालती है।
एक लंबे समय से डेटा संग्रह का दृष्टिकोण भौगोलिक और बोली विशिष्ट नमूनाकरण पर केंद्रित रहा है – यह मानकर कि यह तकनीक को पूरी आबादी के लिए सामान्य बनाने में मदद करेगा। हालांकि, हाल के वर्षों में अफ्रीकी अमेरिकी वर्नाक्युलर इंग्लिश बोलने वालों के लिए भाषा प्रौद्योगिकियों के कम प्रदर्शन ने दिखाया है कि ऐसा नहीं है। जाति, लिंग, उच्चारण और अन्य आयामों में विविध आबादी को प्रशिक्षण डेटासेट में सक्रिय रूप से शामिल किया जाना चाहिए ताकि यह सुनिश्चित किया जा सके कि उनकी आवाजें एआई उत्पादों और सेवाओं द्वारा सुनी और समझी जाएं। एपेन के विविध एआई प्रशिक्षण डेटासेट इस आवश्यकता को पूरा करते हैं।
आप एक कवि भी हैं जिनकी कई कविताएं विभिन्न उद्योग पुरस्कार जीत चुकी हैं। आपके विचार क्या हैं कि भविष्य में एआई इस प्रकार की रचनात्मकता प्रदर्शित करेगा, जिसमें कविता लेखन शामिल है?
यह एक दिलचस्प प्रश्न है। कविता और मानवता की अन्य रचनात्मक अभिव्यक्तियां हमारी स्मृति, धारणा, संवेदना और भावना के सभी मानव संसाधनों पर निर्भर करती हैं, साथ ही भाषा और छवि की संरचनाओं और नुांसों पर भी, जो समकालीन चिंताओं के साथ प्रतिध्वनित करने वाले अंतर्दृष्टि प्रदान करती हैं। एमिली डिकिंसन ने लिखा, “यदि मैं एक पुस्तक पढ़ता हूं और यह मेरे पूरे शरीर को इतना ठंडा कर देता है कि कोई आग इसे गर्म नहीं कर सकती, तो मुझे पता है कि यह कविता है। यदि मैं शारीरिक रूप से ऐसा महसूस करता हूं कि मेरे सिर का ऊपरी हिस्सा ले लिया गया है, तो मुझे पता है कि यह कविता है।” इसमें एक धारणात्मक, संवेदी या भावनात्मक मान्यता होनी चाहिए, लेकिन वास्तविक आश्चर्य भी होना चाहिए।
उन्नत एआई मॉडल जैसे जीपीटी-3 विभिन्न शैलियों में शब्दों के एक साथ दिखाई देने की संभावना को सांख्यिकीय रूप से मॉडल करते हैं, जिसमें कविता भी शामिल है। इसका अर्थ है कि वे कुछ ऐसा उत्पन्न कर सकते हैं जिसे हम “कवितात्मक” भाषा के रूप में पहचानते हैं, जैसे कि उच्च दiction, लय, और अप्रत्याशित या असंगत शब्दों के संयोजन। लेकिन इन जनरेटिव भाषा मॉडल में अधिकांश संसाधनों की कमी होती है जो एक कला की रचना के लिए आवश्यक होते हैं जो मानवता के अर्थ को प्रकाशित करती है।
मुझे रचनात्मक संदर्भ में एआई की क्षमता आकर्षक लगती है – पूरी तरह से नए अंतर्दृष्टि उत्पन्न करने की क्षमता, जो मानव मन की पहुंच से परे हैं। एक बार एआई को विभिन्न मानव डोमेन (दृश्य, स्पर्श, श्रवण, शारीरिक, भावनात्मक) में विश्लेषण के लिए संवेदी और धारणात्मक डेटा तक निरंतर पहुंच मिल जाए, तो यह अनुमान लगाना मुश्किल है कि हम खुद और दुनिया के बारे में क्या सीखेंगे। एआई की विश्लेषणात्मक क्षमताएं मानव अन्वेषण के लिए नए और उर्वर भूमि प्रदान कर सकती हैं।
आपके करियर में अब तक क्या सबसे बड़ा बदलाव आया है, और आपको लगता है कि और महिलाएं स्टेम और विशेष रूप से एआई में क्यों नहीं जुड़ रही हैं?
रोल मॉडल की कमी एक शक्तिशाली कारक हो सकती है (और एक दुष्चक्र)। क्षेत्रों में प्रवेश करने में वास्तविक कठिनाई है जहां महिलाएं और विविध लिंग के लोग अभी तक गहराई से मौजूद नहीं हैं, और जहां उनके योगदान के लिए सम्मान अक्सर कम होता है। मेरे नेतृत्व का अनुभव मुझे बार-बार दिखाता है कि विविध अनुभवों और दृष्टिकोणों से युक्त टीमें कितनी लचीली, रचनात्मक और सफल हो सकती हैं। नेताओं को नियुक्ति में साहसिक और अपने विचारों के प्रति आत्मविश्वासी होने की आवश्यकता है, जानते हुए कि वे विविध दृष्टिकोण लाने वाली चुनौतियों का सामना कर सकते हैं, और यह जानते हुए कि यह साहस वित्तीय और निगमित सफलता से मजबूती से जुड़ा हुआ है।
क्या आप एपेन या एआई के बारे में और कुछ साझा करना चाहेंगे?
डेटा प्रदाता जैसे एपेन एआई परिणामों को बेहतर बनाने में शक्तिशाली क्षमता रखते हैं bằng समावेशी प्रशिक्षण डेटा प्रदान करके।
हालांकि, समावेशी एआई के लक्ष्य तक पहुंचने के लिए सभी को भाग लेने की आवश्यकता है। डेटा खरीदारों को भी यह पहचानने की आवश्यकता है कि उन्हें समावेशी डेटा के लिए स्पष्ट रूप से पूछना चाहिए और भुगतान करना चाहिए जो उनकी प्रणालियों के लिए सभी उपयोगकर्ताओं के लिए अनुकूल प्रदर्शन सुनिश्चित करेगा। और जो लोग एआई विकास के लिए अपना डेटा प्रदान करते हैं, उन्हें यह विश्वास करने में सक्षम होना चाहिए कि इसका उपयोग कैसे किया जाएगा। इस विश्वास का निर्माण करने के लिए, डेटा के साथ काम करने वालों को पारदर्शी और नैतिक प्रथाओं का पालन करने की आवश्यकता है।
धन्यवाद इस शानदार साक्षात्कार के लिए, मुझे आपके एआई और भाषाविज्ञान पर विचार जानने में आनंद आया। पाठक जो अधिक जानना चाहते हैं उन्हें एपेन पर जाना चाहिए।












