साक्षात्कार

विल्सन पैंग, रियल वर्ल्ड एआई - साक्षात्कार श्रृंखला के सह-लेखक

Updated on अप्रैल १, २०२४

विल्सन पैंग शामिल हुए Appen नवंबर 2018 में सीटीओ के रूप में और कंपनी के उत्पादों और प्रौद्योगिकी के लिए जिम्मेदार हैं। विल्सन के पास सॉफ्टवेयर इंजीनियरिंग और डेटा विज्ञान में उन्नीस वर्षों से अधिक का अनुभव है। ऐपेन में शामिल होने से पहले, विल्सन चीन में सीट्रिप के मुख्य डेटा अधिकारी थे, जो दुनिया की दूसरी सबसे बड़ी ऑनलाइन ट्रैवल एजेंसी कंपनी है, जहां उन्होंने उपयोगकर्ता अनुभव को बेहतर बनाने और परिचालन दक्षता बढ़ाने के लिए डेटा इंजीनियरों, विश्लेषकों, डेटा उत्पाद प्रबंधकों और वैज्ञानिकों का नेतृत्व किया। कारोबार बढ़ाया. इससे पहले, वह कैलिफोर्निया में ईबे में इंजीनियरिंग के वरिष्ठ निदेशक थे और डेटा सेवा और समाधान, खोज विज्ञान, विपणन प्रौद्योगिकी और बिलिंग सिस्टम सहित विभिन्न डोमेन में नेतृत्व प्रदान करते थे। उन्होंने ईबे से पहले आईबीएम में एक वास्तुकार के रूप में काम किया, विभिन्न ग्राहकों के लिए प्रौद्योगिकी समाधान तैयार किए। विल्सन ने चीन के झेजियांग विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में मास्टर और स्नातक की डिग्री प्राप्त की।

हम उनकी नई किताब पर चर्चा करते हैं: एआई की वास्तविक दुनिया: जिम्मेदार मशीन लर्निंग के लिए एक व्यावहारिक मार्गदर्शिका

आप वर्णन करते हैं कि जब आपने ईबे की खोज विज्ञान टीमों का नेतृत्व किया था, तो मशीन लर्निंग के साथ आपका पहला पाठ यह जानने के महत्व को समझना था कि कौन से मेट्रिक्स को मापना है। उदाहरण दिया गया कि कैसे मीट्रिक "प्रति सत्र खरीदारी" किसी वस्तु के मौद्रिक मूल्य को ध्यान में रखने में विफल रही। समान समस्याओं से बचने के लिए कंपनियां सबसे अच्छी तरह कैसे समझ सकती हैं कि किन मेट्रिक्स को मापने की आवश्यकता है?

उन लक्ष्यों से शुरुआत करें जो आपकी टीम एआई मॉडल को बताती है - हमारे मामले में, हम मशीन लर्निंग के साथ अधिक राजस्व प्राप्त करना चाहते थे। जब आप मेट्रिक्स को लक्ष्यों से जोड़ते हैं, तो इस बारे में सोचें कि एक बार जब आप मॉडल जारी कर देंगे और लोग इसके साथ बातचीत करना शुरू कर देंगे तो वे मेट्रिक्स क्या यांत्रिकी उत्पन्न करेंगे, लेकिन अपनी धारणाओं पर भी ध्यान दें। हमारे मामले में, हमने मान लिया था कि मॉडल राजस्व के लिए अनुकूलित होगा, लेकिन प्रति सत्र खरीद की संख्या उस पर आधारित नहीं थी, क्योंकि मॉडल कम-टिकट मूल्य की बिक्री की उच्च संख्या के लिए अनुकूलन कर रहा था, और दिन के अंत में हम थे अधिक पैसा मत कमाओ. एक बार जब हमें इसका एहसास हुआ, तो हम मेट्रिक्स को बदलने और मॉडल को सही दिशा में इंगित करने में सक्षम थे। इसलिए किसी प्रोजेक्ट की सफलता के लिए ग्रैन्युलर मेट्रिक्स का निर्धारण करना, साथ ही धारणाओं को नोट करना महत्वपूर्ण है।

इस पुस्तक पर शोध करने और लिखने से आपने व्यक्तिगत रूप से क्या सीखा?

हमारे पास कई अलग-अलग समस्याएं हैं जिन्हें विभिन्न कंपनियों और विभिन्न उद्योगों के एआई द्वारा हल किया जा सकता है। उपयोग के मामले बहुत अलग हो सकते हैं, एआई समाधान अलग हो सकता है, उस एआई समाधान को प्रशिक्षित करने के लिए डेटा अलग हो सकता है। हालाँकि, उन सभी अंतरों के बावजूद, लोगों ने अपनी एआई यात्रा के दौरान जो गलतियाँ कीं, वे काफी समान हैं। वे गलतियाँ सभी प्रकार के उद्योगों की सभी प्रकार की कंपनियों में बार-बार हुईं।

हमने अधिक लोगों और कंपनियों को उन गलतियों से बचने और उन्हें जिम्मेदार एआई तैनात करने के लिए आत्मविश्वास हासिल करने में मदद करने की उम्मीद के साथ एआई परियोजनाओं को लागू करते समय कुछ सामान्य सर्वोत्तम प्रथाओं को साझा किया।

कुछ सबसे महत्वपूर्ण सबक क्या हैं जो आप आशा करते हैं कि लोग इसे पढ़कर सीखेंगे?

हमारा दृढ़ विश्वास है कि मशीन लर्निंग तकनीक का विचारशील, जिम्मेदार और नैतिक उपयोग दुनिया को अधिक न्यायपूर्ण, निष्पक्ष और समावेशी स्थान बना सकता है। मशीन लर्निंग तकनीक पूरे व्यापारिक जगत में हर चीज को नया आकार देने का वादा करती है, लेकिन यह कठिन नहीं है। ऐसी आज़माई हुई और परखी हुई विधियाँ और प्रक्रियाएँ हैं जिनका टीमें अनुसरण कर सकती हैं और उत्पादन में तैनात होने का आत्मविश्वास प्राप्त कर सकती हैं।

एक और महत्वपूर्ण सबक यह है कि लाइन-ऑफ-बिजनेस मालिकों (जैसे उत्पाद प्रबंधकों) और अधिक तकनीकी पक्ष पर टीम के सदस्यों (जैसे इंजीनियरों और डेटा वैज्ञानिकों) को एक आम भाषा बोलने की जरूरत है। एआई को सफलतापूर्वक तैनात करने के लिए, नेताओं को तकनीकी कार्यान्वयनकर्ताओं के साथ कुशलतापूर्वक बातचीत करने के लिए व्यावसायिक विशेषज्ञों और सी-स्तर पर पर्याप्त संदर्भ प्रदान करके टीमों के बीच अंतर को पाटना होगा।

बहुत से लोग जब एआई के बारे में सोचते हैं तो सबसे पहले कोड के बारे में सोचते हैं। पुस्तक का एक प्रमुख सबक यह है कि एआई मॉडल की सफलता के लिए डेटा महत्वपूर्ण है। डेटा एकत्र करने से लेकर लेबलिंग और भंडारण तक बहुत कुछ होता है और हर कदम मॉडल की सफलता को प्रभावित करेगा। सबसे सफल एआई परिनियोजन वे हैं जो डेटा पर अधिक जोर देते हैं और अपने एमएल मॉडल के इस पहलू को लगातार बेहतर बनाने का प्रयास करते हैं।

वास्तविक दुनिया के एआई के लिए केवल एक क्रॉस-फंक्शनल टीम और एक नवोन्वेषी भावना की आवश्यकता होती है।

चर्चा यह निर्धारित करने के लिए की गई है कि एआई मॉडल की सटीकता एआई का उपयोग करने के लिए पर्याप्त है या नहीं। जिस प्रकार की सटीकता की आवश्यकता है उसका आकलन करने का सबसे आसान तरीका क्या है?

यह आपके उपयोग के मामलों और जोखिम सहनशीलता पर निर्भर करता है। एआई विकसित करने वाली टीमों के पास हमेशा एक परीक्षण चरण होना चाहिए जहां वे अपने संगठनों और हितधारकों के लिए सटीकता स्तर और स्वीकार्य सीमा निर्धारित करें। जीवन या मृत्यु के उपयोग के मामलों के लिए - जहां एआई गलत होने पर संभावित नुकसान हो सकता है, जैसे कि सजा देने वाले सॉफ़्टवेयर, सेल्फ-ड्राइविंग कारों, चिकित्सा उपयोग के मामलों में, बार बहुत, बहुत ऊंचा है - और टीमों को काम करना होगा मॉडल गलत होने की स्थिति में आकस्मिकताएं रखें। अधिक दोष-सहिष्णु उपयोग के मामलों के लिए, जहां खेल में बहुत अधिक व्यक्तिपरकता होती है - जैसे सामग्री, खोज या विज्ञापन प्रासंगिकता, टीमें उत्पादन के दौरान भी अपने मॉडल को समायोजित करना जारी रखने के लिए उपयोगकर्ता की प्रतिक्रिया पर भरोसा कर सकती हैं। बेशक, यहां कुछ उच्च जोखिम वाले उपयोग के मामले भी हैं, जहां उपयोगकर्ताओं को अवैध या अनैतिक सामग्री दिखाई जा सकती है, इसलिए सुरक्षा उपाय और फीडबैक तंत्र यहां भी मौजूद होने चाहिए।

क्या आप किसी प्रोजेक्ट की सफलता को पहले से परिभाषित करने के महत्व को परिभाषित कर सकते हैं?

किसी व्यावसायिक समस्या से शुरुआत करना उतना ही महत्वपूर्ण है जितना कि सफलता को सामने से परिभाषित करना क्योंकि ये दोनों साथ-साथ चलते हैं। छवियों को लेबल करने के लिए एआई का उपयोग करने वाले ऑटोमोटिव डीलर के बारे में पुस्तक में उदाहरण के बाद, उन्होंने यह निर्धारित नहीं किया कि सफलता कैसी दिखेगी क्योंकि उन्होंने हल करने के लिए किसी व्यावसायिक समस्या को परिभाषित नहीं किया था। उनके लिए सफलता कई अलग-अलग चीजें हो सकती हैं जो किसी समस्या को हल करना मुश्किल बनाती हैं, यहां तक कि लोगों की टीमों के लिए भी, एक निश्चित दायरे वाले मशीन लर्निंग मॉडल की तो बात ही छोड़ दें। यदि उन्होंने मरम्मत की आवश्यकता वाले वाहनों की एक सूची बनाने के लिए सभी वाहनों को डेंट के साथ लेबल करने के लिए निर्धारित किया था और प्रयुक्त कार सूची में सभी वाहन डेंट के 80% को सटीक रूप से लेबल करने के रूप में सफलता को परिभाषित किया था, तो जब उन्होंने 85% को सटीक रूप से लेबल किया होगा, तो टीम इसे सफलता कहेंगे. लेकिन अगर वह सफलता व्यावसायिक समस्या से जुड़ी नहीं है, और व्यावसायिक प्रभाव को निर्देशित करने के लिए नहीं है, तो इस उदाहरण में लेबलिंग सटीकता की केंद्रित परिभाषा के बाहर परियोजना का मूल्यांकन करना कठिन है। यहां, व्यावसायिक समस्या अधिक जटिल थी, और डेंट लेबल करना इसका एक घटक मात्र है। उनके मामले में, वे दावा प्रक्रिया पर समय/धन की बचत या मरम्मत प्रक्रिया को एक्स% तक अनुकूलित करने और फिर लेबलिंग प्रभाव को वास्तविक व्यावसायिक परिणामों में बदलने के रूप में सफलता को परिभाषित करके बेहतर हो सकते थे।

यह सुनिश्चित करना कितना महत्वपूर्ण है कि प्रशिक्षण डेटा उदाहरण उन सभी उपयोग मामलों को कवर करते हैं जो उत्पादन परिनियोजन में होंगे?

यह अत्यंत महत्वपूर्ण है कि पूर्वाग्रह से बचने के लिए मॉडल को सभी उपयोग मामलों पर प्रशिक्षित किया जाए। लेकिन यह भी ध्यान रखना महत्वपूर्ण है कि, हालांकि उत्पादन में सभी उपयोग के मामलों को कवर करना असंभव है, एआई का निर्माण करने वाली टीमों को अपने उत्पादन डेटा, साथ ही साथ अपने प्रशिक्षण डेटा को समझने की आवश्यकता है ताकि वे एआई को प्रशिक्षित कर सकें कि उत्पादन में इसका क्या सामना होगा। . विभिन्न उपयोग के मामलों वाले बड़े विविध समूहों से आने वाले प्रशिक्षण डेटा तक पहुंच मॉडल की सफलता के लिए महत्वपूर्ण होगी। उदाहरण के लिए, एक मॉडल जिसे अपलोड की गई छवि में लोगों के पालतू जानवरों को पहचानने के लिए प्रशिक्षित किया गया है, उसे सभी प्रकार के पालतू जानवरों पर प्रशिक्षित करने की आवश्यकता है; कुत्ते, बिल्लियाँ, पक्षी, छोटे स्तनधारी, छिपकलियाँ, आदि। यदि मॉडल केवल कुत्तों, बिल्लियों और पक्षियों पर प्रशिक्षित है, तो जब कोई अपने गिनी पिग के साथ एक छवि अपलोड करेगा, तो मॉडल उसे पहचानने में सक्षम नहीं होगा। हालांकि यह एक बहुत ही सरल उदाहरण है, यह दर्शाता है कि किसी मॉडल की सफलता के लिए यथासंभव अधिक से अधिक संभावित उपयोग के मामलों पर प्रशिक्षण कितना महत्वपूर्ण है।

पुस्तक में ऊपर से नीचे तक अच्छी डेटा स्वच्छता आदतों को विकसित करने की आवश्यकता पर चर्चा की गई है, इस आदत को बढ़ावा देने के लिए कुछ सामान्य पहले कदम क्या हैं?

अच्छी डेटा स्वच्छता आदतें आंतरिक डेटा की उपयोगिता को बढ़ाएंगी और इसे एमएल उपयोग के मामलों के लिए प्रमुख बनाएंगी। पूरी कंपनी को अपने डेटासेट को व्यवस्थित करने और उन पर नज़र रखने में अच्छा बनना होगा। इसे प्राप्त करने का एक निश्चित तरीका इसे एक व्यावसायिक आवश्यकता बनाना और कार्यान्वयन पर नज़र रखना है ताकि ऐसी बहुत कम रिपोर्टें हों जो अंततः कस्टम जॉब बन जाएं, और टीमें एक स्पष्ट ऑन्टोलॉजी के साथ एक केंद्रीय भंडार में डेटा पाइपलाइनों के साथ अधिक से अधिक काम करें। एक और अच्छा अभ्यास यह रिकॉर्ड रखना है कि डेटा कब और कहाँ एकत्र किया गया था और डेटाबेस में रखे जाने से पहले उसका क्या हुआ, साथ ही समय-समय पर अप्रयुक्त या बासी डेटा को साफ करने के लिए प्रक्रियाएं स्थापित करना।

शानदार साक्षात्कार के लिए धन्यवाद, जो पाठक अधिक जानने में रुचि रखते हैं, मैं उन्हें पुस्तक पढ़ने की सलाह देता हूं एआई की वास्तविक दुनिया: जिम्मेदार मशीन लर्निंग के लिए एक व्यावहारिक मार्गदर्शिका.