рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░

рдбреЙ рдЬреВрдбрд┐рде рдмрд┐рд╢рдк, рдПрдкреЗрди рдореЗрдВ рдПрдЖрдИ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮреЛрдВ рдХреЗ рд╡рд░рд┐рд╖реНрда рдирд┐рджреЗрд╢рдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

डॉ जूडिथ बिशप एपेन में एपीएसी/यूएस क्षेत्र के लिए एआई विशेषज्ञों के वरिष्ठ निदेशक हैं। वह उच्चतम स्तर की योग्यता और अनुभव वाले भाषाविदों, गणितीय भाषाविदों, और मानव संचार के सभी तरीकों (भाषण, लेखन और इशारों) के विशेषज्ञों की एक टीम का नेतृत्व और विकास कर रही हैं, जो गुणवत्ता और गति के अद्वितीय संयोजन के साथ एआई प्रशिक्षण डेटा प्रदान करते हैं।

आपको भाषाविज्ञान में क्या आकर्षित किया?

मैंने पहली बार अपने एक पसंदीदा अंग्रेजी शिक्षक से उच्च विद्यालय में भाषाविज्ञान के बारे में सुना। मैं उन बच्चों में से एक था जो विदेशी भाषाओं और मानविकी की ओर आकर्षित थे, और गणित और विज्ञान विषयों की ओर भी। भाषाविज्ञान भाषा के कार्य करने का विज्ञान है, इसलिए यह मेरे लिए उन रुचियों को एक साथ लाया। जैसे कि कई लोगों के साथ, एक बार जब मैंने इसके बारे में सीखा, तो मैं पूरी तरह से आकर्षित हो गया। हम एक दूसरे के साथ अपने विचारों और भावनाओं को कैसे संवाद करते हैं, यह क्या अधिक आकर्षक हो सकता है? भाषाविज्ञान भाषा संरचनाओं का अन्वेषण करता है जो सभी ध्वनियों और लेखन प्रणालियों में भिन्नता के बावजूद अक्सर समान होते हैं, क्योंकि वे सभी अंततः हमारे सामान्य मानव अस्तित्व का उत्पाद हैं।

क्या आप बता सकते हैं कि आप एआई में कैसे काम करने लगे?

मैं 2004 से एपेन में काम कर रहा हूं और भाषा प्रौद्योगिकी उत्पादों और सेवाओं के विकास का समर्थन कर रहा हूं। इस समय के दौरान, एआई एक व्यापक ढांचे के रूप में उभरा है, जिसका मिशन और दृष्टि मानव संचार, तर्क और धारणा की क्षमताओं की नकल और विस्तार करना है। 2019 में, मेरी टीम ने खुद को एआई विशेषज्ञ के रूप में पुनः ब्रांडेड किया, यह पहचान कि हमारा भाषाई और भाषा ज्ञान एआई उद्यम के लिए महत्वपूर्ण है। हमारे अन्नोटेटेड डेटा एआई उत्पादों और सेवाओं के साथ मानव इंटरैक्शन की सफलता के लिए आवश्यक समर्थन प्रदान करता है।

आप 16 वर्षों से अधिक समय से एआई में काम कर रहे हैं, आपने कुछ सबसे बड़े परिवर्तन क्या देखे हैं?

मुख्य परिवर्तन ध्यान का विकेंद्रीकरण है – कोर तकनीकी विकास से लेकर उपयोग के मामलों और अनुप्रयोगों की लंबी पूंछ तक। मेरे अधिकांश करियर में, भाषा-आधारित एआई का ध्यान मानव भाषण धारणा और उत्पादन की नकल करने वाले एक मूल सेट के मॉडल विकसित करने और परिष्कृत करने पर केंद्रित था – अर्थात्, भाषण मान्यता, भाषण संश्लेषण, और प्राकृतिक भाषा प्रसंस्करण। डेटासेट आमतौर पर सामान्य लेबलिंग और डेटा नमूनाकरण मानकों और परंपराओं का पालन करते थे, जैसे कि स्पीकॉन संघ (स्पीच-ड्रिवन इंटरफेस फॉर कंस्यूमर डिवाइसेज) द्वारा विकसित किए गए। इन मानकों ने कोर तकनीक विकासकर्ताओं को सामान्य डेटा संरचनाओं पर अपने प्रदर्शन को बेंचमार्क करने और एआई के तेजी से विकास का समर्थन करने की अनुमति दी।

हालांकि, एआई के उपयोग के मामलों का हाल के वर्षों में व्यापक विस्तार, यह पहचान लाया है कि कोर, जेनेरिक एआई मॉडल जो इस डेटा के साथ बनाए गए हैं, विशेष डेटा प्रकारों पर पर्याप्त रूप से काम नहीं करते हैं जब तक उन्हें आगे ट्यून नहीं किया जाता है। इसके अलावा, चूंकि वे डेटा पर विकसित किए गए हैं जो जानबूझकर साफ और ‘मानक’ है, इन मॉडलों को सभी मानव इनपुट को समझने और प्रतिक्रिया देने के लिए प्रशिक्षित या अपडेट किया जाना चाहिए: सभी बोलियों, सभी उच्चारणों, सभी जातियों, सभी लिंगों और मानव भेदभाव के अन्य सभी आयामों में।

क्या आप मशीन लर्निंग में निष्पक्ष डेटा के महत्व पर चर्चा कर सकते हैं?

मशीन लर्निंग मॉडल, चाहे वह पर्यवेक्षित, अनपर्यवेक्षित या प्रबल प्रशिक्षण मॉडल हों, वे डेटा में मौजूद पूर्वाग्रहों को प्रतिबिंबित करेंगे। अलिसा सिम्पसन रोशवर्गर और विल्सन पांग अपनी हाल की पुस्तक, रियल वर्ल्ड एआई में, इस मुद्दे के कई उत्कृष्ट उदाहरण प्रदान करते हैं। यदि किसी आबादी के खंड के लिए पर्याप्त प्रशिक्षण डेटा नहीं है, तो एआई मॉडल उस खंड के लिए कम सटीक होगा।

एक अन्य सामान्य मामले में, आबादी का प्रतिनिधित्व पर्याप्त हो सकता है, लेकिन यदि प्रशिक्षण डेटा में डेटा बिंदुओं के बीच संबंध हैं जो वास्तविक, लेकिन अवांछनीय, दुनिया की स्थितियों (जैसे कि महिलाओं के लिए पूर्ण रोजगार की कम दर, या अफ्रीकी अमेरिकियों के लिए उच्च दर से कारावास) को प्रतिबिंबित करते हैं, तो परिणामी एआई अनुप्रयोग उन स्थितियों को मजबूत और बनाए रख सकते हैं।

भाषा में मौजूद संबंध एनएलपी अनुप्रयोगों में पूर्वाग्रह पैदा कर सकते हैं, जो सांख्यिकीय संबंधों पर निर्भर करते हैं जिन्हें शब्द एम्बेडिंग के रूप में जाना जाता है। यदि ‘वह’ और ‘नर्स’ प्रशिक्षण डेटा में ‘वे’ या ‘वह’ और ‘नर्स’ की तुलना में अधिक बार जुड़े हुए हैं, तो परिणामी अनुप्रयोग एक नर्स को संदर्भित करने के लिए एक एकवचन सर्वनाम चुनने पर ‘वह’ का उपयोग करेगा। इस विशिष्ट मुद्दे को संबोधित करने के लिए, शोधकर्ताओं ने हाल ही में एक शब्द एम्बेडिंग अल्गोरिदम के एक लिंग-तटस्थ संस्करण, जीएन-ग्लोव का विकास किया है।

संवेदनशील अनुप्रयोगों में, पूर्वाग्रह जैसे मुद्दे उपयोगकर्ताओं पर विनाशकारी प्रभाव डाल सकते हैं और व्यावसायिक निवेश को समाप्त कर सकते हैं। अच्छी खबर यह है कि नए, अधिक पारदर्शी और समावेशी डेटासेट के विकास के अलावा, डेटा विज्ञान के कई अनुप्रयोग विकसित किए जा रहे हैं जो मौजूदा प्रशिक्षण डेटासेट और एआई अनुप्रयोगों में पूर्वाग्रह की उपस्थिति की जांच करने के लिए हैं।

एपेन ने हाल ही में प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पहल के लिए विविध प्रशिक्षण डेटासेट लॉन्च किए हैं। क्या आप बता सकते हैं कि ये डेटासेट कैसे उपयोगकर्ताओं को भाषा विविधता, बोली, एथनोलेक्ट, उच्चारण, जाति, या लिंग की परवाह किए बिना समान अनुभव प्राप्त करने में सक्षम बनाएंगे?

उपरोक्त कारणों से, मौजूदा एआई उत्पादन प्रणालियों में पूर्वाग्रह को ठीक करने के लिए डेटासेट की आवश्यकता है, साथ ही भविष्य की प्रणालियों के लिए अधिक समावेशी डेटासेट की भी आवश्यकता है। एपेन द्वारा उल्लिखित डेटासेट अफ्रीकी अमेरिकी वर्नाक्युलर इंग्लिश जैसे एथनोलेक्ट्स से संबंधित पूर्वाग्रहों को ठीक करने में सहायता करेंगे। वे एआई भाषा मॉडल में इस आबादी के प्रतिनिधित्व को बढ़ाने के लिए पूरक प्रशिक्षण डेटा प्रदान करेंगे।

जातीयता एआई डेटा में एक महत्वपूर्ण जनसांख्यिकीय आयाम के रूप में उभर रही है जिसके लिए स्पष्ट लेबलिंग की आवश्यकता है। भाषाविदों ने विशिष्ट जातियों से जुड़ी भाषा विविधताओं को ‘एथनोलेक्ट’ के रूप में संदर्भित किया है। एआई डेटा प्रदाता जैसे एपेन अब पहचान करते हैं कि यदि प्रमुख और अल्पसंख्यक आबादी को एआई प्रशिक्षण डेटासेट में स्पष्ट रूप से प्रतिनिधित्व नहीं किया जाता है, तो हम यह सुनिश्चित नहीं कर सकते कि परिणामी प्रणालियां इन आबादी के लिए समान रूप से अच्छा प्रदर्शन करेंगी।

समान प्रदर्शन का अर्थ है कि प्रणाली उपयोगकर्ता के शब्दों और इरादों (उनके अर्थों या उन्हें हासिल करने की क्रियाओं) को समान सटीकता से पहचानती है और कुछ मामलों में, भावना; और यह उपयोगकर्ता की जरूरतों को समान रूप से संतुष्ट करती है और किसी विशिष्ट उपयोगकर्ता आबादी पर व्यावहारिक या मनोवैज्ञानिक रूप से अधिक नकारात्मक प्रभाव नहीं डालती है।

एक लंबे समय से डेटा संग्रह का दृष्टिकोण भौगोलिक और बोली विशिष्ट नमूनाकरण पर केंद्रित रहा है – यह मानकर कि यह तकनीक को पूरी आबादी के लिए सामान्य बनाने में मदद करेगा। हालांकि, हाल के वर्षों में अफ्रीकी अमेरिकी वर्नाक्युलर इंग्लिश बोलने वालों के लिए भाषा प्रौद्योगिकियों के कम प्रदर्शन ने दिखाया है कि ऐसा नहीं है। जाति, लिंग, उच्चारण और अन्य आयामों में विविध आबादी को प्रशिक्षण डेटासेट में सक्रिय रूप से शामिल किया जाना चाहिए ताकि यह सुनिश्चित किया जा सके कि उनकी आवाजें एआई उत्पादों और सेवाओं द्वारा सुनी और समझी जाएं। एपेन के विविध एआई प्रशिक्षण डेटासेट इस आवश्यकता को पूरा करते हैं।

आप एक कवि भी हैं जिनकी कई कविताएं विभिन्न उद्योग पुरस्कार जीत चुकी हैं। आपके विचार क्या हैं कि भविष्य में एआई इस प्रकार की रचनात्मकता प्रदर्शित करेगा, जिसमें कविता लेखन शामिल है?

यह एक दिलचस्प प्रश्न है। कविता और मानवता की अन्य रचनात्मक अभिव्यक्तियां हमारी स्मृति, धारणा, संवेदना और भावना के सभी मानव संसाधनों पर निर्भर करती हैं, साथ ही भाषा और छवि की संरचनाओं और नुांसों पर भी, जो समकालीन चिंताओं के साथ प्रतिध्वनित करने वाले अंतर्दृष्टि प्रदान करती हैं। एमिली डिकिंसन ने लिखा, “यदि मैं एक पुस्तक पढ़ता हूं और यह मेरे पूरे शरीर को इतना ठंडा कर देता है कि कोई आग इसे गर्म नहीं कर सकती, तो मुझे पता है कि यह कविता है। यदि मैं शारीरिक रूप से ऐसा महसूस करता हूं कि मेरे सिर का ऊपरी हिस्सा ले लिया गया है, तो मुझे पता है कि यह कविता है।” इसमें एक धारणात्मक, संवेदी या भावनात्मक मान्यता होनी चाहिए, लेकिन वास्तविक आश्चर्य भी होना चाहिए।

उन्नत एआई मॉडल जैसे जीपीटी-3 विभिन्न शैलियों में शब्दों के एक साथ दिखाई देने की संभावना को सांख्यिकीय रूप से मॉडल करते हैं, जिसमें कविता भी शामिल है। इसका अर्थ है कि वे कुछ ऐसा उत्पन्न कर सकते हैं जिसे हम “कवितात्मक” भाषा के रूप में पहचानते हैं, जैसे कि उच्च दiction, लय, और अप्रत्याशित या असंगत शब्दों के संयोजन। लेकिन इन जनरेटिव भाषा मॉडल में अधिकांश संसाधनों की कमी होती है जो एक कला की रचना के लिए आवश्यक होते हैं जो मानवता के अर्थ को प्रकाशित करती है।

मुझे रचनात्मक संदर्भ में एआई की क्षमता आकर्षक लगती है – पूरी तरह से नए अंतर्दृष्टि उत्पन्न करने की क्षमता, जो मानव मन की पहुंच से परे हैं। एक बार एआई को विभिन्न मानव डोमेन (दृश्य, स्पर्श, श्रवण, शारीरिक, भावनात्मक) में विश्लेषण के लिए संवेदी और धारणात्मक डेटा तक निरंतर पहुंच मिल जाए, तो यह अनुमान लगाना मुश्किल है कि हम खुद और दुनिया के बारे में क्या सीखेंगे। एआई की विश्लेषणात्मक क्षमताएं मानव अन्वेषण के लिए नए और उर्वर भूमि प्रदान कर सकती हैं।

आपके करियर में अब तक क्या सबसे बड़ा बदलाव आया है, और आपको लगता है कि और महिलाएं स्टेम और विशेष रूप से एआई में क्यों नहीं जुड़ रही हैं?

रोल मॉडल की कमी एक शक्तिशाली कारक हो सकती है (और एक दुष्चक्र)। क्षेत्रों में प्रवेश करने में वास्तविक कठिनाई है जहां महिलाएं और विविध लिंग के लोग अभी तक गहराई से मौजूद नहीं हैं, और जहां उनके योगदान के लिए सम्मान अक्सर कम होता है। मेरे नेतृत्व का अनुभव मुझे बार-बार दिखाता है कि विविध अनुभवों और दृष्टिकोणों से युक्त टीमें कितनी लचीली, रचनात्मक और सफल हो सकती हैं। नेताओं को नियुक्ति में साहसिक और अपने विचारों के प्रति आत्मविश्वासी होने की आवश्यकता है, जानते हुए कि वे विविध दृष्टिकोण लाने वाली चुनौतियों का सामना कर सकते हैं, और यह जानते हुए कि यह साहस वित्तीय और निगमित सफलता से मजबूती से जुड़ा हुआ है।

क्या आप एपेन या एआई के बारे में और कुछ साझा करना चाहेंगे?

डेटा प्रदाता जैसे एपेन एआई परिणामों को बेहतर बनाने में शक्तिशाली क्षमता रखते हैं bằng समावेशी प्रशिक्षण डेटा प्रदान करके।

हालांकि, समावेशी एआई के लक्ष्य तक पहुंचने के लिए सभी को भाग लेने की आवश्यकता है। डेटा खरीदारों को भी यह पहचानने की आवश्यकता है कि उन्हें समावेशी डेटा के लिए स्पष्ट रूप से पूछना चाहिए और भुगतान करना चाहिए जो उनकी प्रणालियों के लिए सभी उपयोगकर्ताओं के लिए अनुकूल प्रदर्शन सुनिश्चित करेगा। और जो लोग एआई विकास के लिए अपना डेटा प्रदान करते हैं, उन्हें यह विश्वास करने में सक्षम होना चाहिए कि इसका उपयोग कैसे किया जाएगा। इस विश्वास का निर्माण करने के लिए, डेटा के साथ काम करने वालों को पारदर्शी और नैतिक प्रथाओं का पालन करने की आवश्यकता है।

धन्यवाद इस शानदार साक्षात्कार के लिए, मुझे आपके एआई और भाषाविज्ञान पर विचार जानने में आनंद आया। पाठक जो अधिक जानना चाहते हैं उन्हें एपेन पर जाना चाहिए।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред