рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░

рдПрд▓реЗрдХреНрд╕ рд░реИрдЯрдирд░, рд╕реНрдиреЙрд░реНрдХрд▓ рдПрдЖрдИ рдХреЗ рд╕реАрдИрдУ рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

एलेक्स रैटनर स्नॉर्कल एआई के सीईओ और सह-संस्थापक हैं, जो स्टैनफोर्ड एआई लैब से निकली एक कंपनी है। स्नॉर्कल एआई मैनुअल एआई विकास प्रक्रियाओं को प्रोग्रामेटिक समाधानों में बदलकर एआई विकास को तेज और व्यावहारिक बनाता है। स्नॉर्कल एआई बड़े पैमाने पर उद्यमों को अपने अनोखे कार्यभार के लिए काम करने वाले एआई को उनके प्रोप्राइटरी डेटा और ज्ञान का उपयोग करके 10-100 गुना तेजी से विकसित करने में सक्षम बनाता है।

आपको कंप्यूटर विज्ञान में शुरुआत में क्या आकर्षित किया?

कंप्यूटर विज्ञान में दो बहुत ही रोमांचक पहलू हैं जब आप युवा होते हैं। एक, आप जितनी तेजी से सीखना चाहते हैं उतनी तेजी से सीख सकते हैं और बना सकते हैं, तेजी से प्रतिक्रिया मिलती है, शिक्षक की प्रतीक्षा किए बिना। दो, आप किसी की अनुमति के बिना बहुत कुछ बना सकते हैं!

मैंने ये कारणों से एक युवा लड़के के रूप में प्रोग्रामिंग में प्रवेश किया। मुझे सटीकता की आवश्यकता भी पसंद थी। मैं जटिल प्रक्रियाओं और दिनचर्या को स abstract करके और फिर उन्हें मॉड्यूलर तरीके से एनकोड करने की प्रक्रिया का आनंद लेता था।

बाद में, एक वयस्क के रूप में, मैंने स्टैनफोर्ड में स्नातक स्तर पर एनएलपी पर ध्यान केंद्रित करते हुए, पेटेंट कॉर्पस के कुछ बुनियादी विश्लेषण के लिए स्क्रिप्ट लिखने के लिए एक परामर्श में नौकरी के माध्यम से कंप्यूटर विज्ञान में अपना करियर शुरू किया।

आपने स्टैनफोर्ड में स्नॉर्कल ओपन-सोर्स परियोजना की शुरुआत की और उसे आगे बढ़ाया, तो आप हमें उन शुरुआती दिनों के बारे में बता सकते हैं?

उस समय हम, उद्योग में कई लोगों की तरह, नए एल्गोरिदम विकसित करने पर ध्यान केंद्रित कर रहे थे – अर्थात् सभी “फैंसी” मशीन लर्निंग स्टफ जो समुदाय में लोग अनुसंधान करते थे और पेपर प्रकाशित करते थे।

हालांकि, हम वास्तविक दुनिया की समस्याओं में इसे आधारित करने के लिए बहुत प्रतिबद्ध थे – मुख्य रूप से स्टैनफोर्ड में डॉक्टरों और वैज्ञानिकों के साथ। लेकिन जब भी हम एक नया मॉडल या एल्गोरिदम प्रस्तुत करते थे, तो प्रतिक्रिया यह होती थी कि “_हम इसे आजमाएंगे, लेकिन हमें सभी लेबल वाले प्रशिक्षण डेटा की आवश्यकता होगी जिसे हम बनाने के लिए समय नहीं निकाल सकते!_”

हम देख रहे थे कि बड़ी अनकही समस्या लेबलिंग और प्रशिक्षण डेटा को सावधानी से तैयार करने की प्रक्रिया के आसपास थी – इसलिए हमने अपना整个 ध्यान इस पर केंद्रित किया, जिसने स्नॉर्कल परियोजना और “डेटा-केंद्रित एआई” की अवधारणा को जन्म दिया।

स्नॉर्कल में डेटा-केंद्रित एआई दृष्टिकोण है, तो आप इसकी परिभाषा क्या है और यह मॉडल-केंद्रित एआई विकास से कैसे अलग है?

डेटा-केंद्रित एआई का अर्थ है बेहतर डेटा बनाने पर ध्यान केंद्रित करना ताकि बेहतर मॉडल बनाया जा सके।

यह मॉडल-केंद्रित एआई के विपरीत है, जहां डेटा वैज्ञानिक या शोधकर्ता मानते हैं कि डेटा स्थिर है और अपनी ऊर्जा मॉडल आर्किटेक्चर और पैरामीटर को समायोजित करने में लगाते हैं ताकि बेहतर परिणाम प्राप्त किए जा सकें।

शोधकर्ता मॉडल-केंद्रित एआई में अभी भी महान काम करते हैं, लेकिन ऑफ-द-शेल्फ मॉडल और ऑटो एमएल तकनीकें इतनी बेहतर हो गई हैं कि मॉडल चयन उत्पादन समय में कमोडिटाइज्ड हो गया है। जब ऐसा होता है, तो इन मॉडलों में सुधार करने का सबसे अच्छा तरीका उन्हें अधिक और बेहतर डेटा प्रदान करना है।

डेटा-केंद्रित एआई दृष्टिकोण के मूल सिद्धांत क्या हैं?

डेटा-केंद्रित एआई का मूल सिद्धांत सरल है: _बेहतर डेटा बेहतर मॉडल बनाता है।_

हमारे शोध पत्र में, हमने इसे “डेटा प्रोग्रामिंग” कहा है। यह विचार है कि यदि आप एक मजबूत मॉडल को पर्याप्त उदाहरणों के साथ इनपुट और अपेक्षित आउटपुट प्रदान करते हैं, तो मॉडल उन पैटर्न को दोहराने का तरीका सीखता है।

यह एक बड़ी चुनौती प्रस्तुत करता है जितना आप उम्मीद कर सकते हैं। अधिकांश डेटा में कोई लेबल नहीं होते – या कम से कम आपके अनुप्रयोग के लिए कोई उपयोगी लेबल नहीं होते हैं। मैनुअल रूप से डेटा लेबल करने में तedium, समय और मानव प्रयास लगता है।

एक लेबल वाले डेटा सेट का होना भी गुणवत्ता की गारंटी नहीं देता है। मानव त्रुटि हर जगह घुसपैठ करती है। आपके ग्राउंड ट्रुथ में प्रत्येक गलत उदाहरण अंतिम मॉडल के प्रदर्शन को खराब कर देगा। पैरामीटर ट्यूनिंग की कोई मात्रा इस वास्तविकता को नहीं छिपा सकती है। शोधकर्ताओं ने यहां तक कि खुले स्रोत डेटा सेट में गलत लेबल वाले रिकॉर्ड भी पाए हैं।

आप डेटा-केंद्रित एआई के लिए प्रोग्रामेटिक होने का क्या अर्थ समझाते हैं?

मैनुअल रूप से डेटा लेबल करने में गंभीर चुनौतियाँ हैं। ऐसा करने में बहुत सारे मानव घंटे लगते हैं, और कभी-कभी वे मानव घंटे महंगे हो सकते हैं। चिकित्सा दस्तावेज़, उदाहरण के लिए, केवल डॉक्टरों द्वारा लेबल किए जा सकते हैं।

इसके अलावा, मैनुअल लेबलिंग स्प्रिंट अक्सर एकल-उपयोग परियोजनाओं में समाप्त होती हैं। लेबलर डेटा को एक कठोर योजना के अनुसार लेबल करते हैं। यदि व्यवसाय की जरूरतें बदलती हैं और अलग लेबल के सेट के लिए कहती हैं, तो लेबलर को शुरू से शुरू करना होगा।

प्रोग्रामेटिक दृष्टिकोण डेटा-केंद्रित एआई के लिए इन दोनों समस्याओं को कम करते हैं। स्नॉर्कल एआई की प्रोग्रामेटिक लेबलिंग प्रणाली विभिन्न संकेतों – विरासत मॉडल से लेकर मौजूदा लेबल तक और बाहरी ज्ञान आधारों तक – को एकत्रित करती है ताकि बड़े पैमाने पर संभावित लेबल विकसित किए जा सकें। हमारा प्राथमिक संकेत स्रोत विषय विशेषज्ञ हैं जो डेटा वैज्ञानिकों के साथ मिलकर लेबलिंग फंक्शन बनाने के लिए सहयोग करते हैं। वे अपने विशेषज्ञ निर्णय को स्केलेबल नियमों में एनकोड करते हैं, जिससे एक निर्णय में निवेश की गई प्रयास दर्जनों या सैकड़ों डेटा बिंदुओं पर प्रभाव डालती है।

यह फ्रेमवर्क लचीला भी है। व्यवसाय की जरूरतें बदलने पर शुरू से शुरू करने के बजाय, उपयोगकर्ता लेबलिंग फंक्शन जोड़ सकते हैं, हटा सकते हैं और समायोजित कर सकते हैं ताकि नए लेबल को घंटों के भीतर लागू किया जा सके, न कि दिनों में।

यह डेटा-केंद्रित दृष्टिकोण कैसे अनलेबल्ड डेटा के तेजी से स्केलिंग को सक्षम बनाता है?

हमारा प्रोग्रामेटिक दृष्टिकोण डेटा-केंद्रित एआई अनलेबल्ड डेटा के तेजी से स्केलिंग को सक्षम बनाता है प्रत्येक चुनाव के प्रभाव को बढ़ाकर। एक बार विषय विशेषज्ञ एक छोटे से ग्राउंड ट्रुथ सेट की स्थापना करते हैं, तो वे तेजी से पुनरावृत्ति के लिए डेटा वैज्ञानिकों के साथ सहयोग करते हैं। वे कुछ लेबलिंग फंक्शन परिभाषित करते हैं, एक त्वरित मॉडल प्रशिक्षित करते हैं, लेबलिंग फंक्शन के प्रभाव का विश्लेषण करते हैं, और फिर लेबलिंग फंक्शन को जोड़ सकते हैं, हटा सकते हैं या समायोजित कर सकते हैं जैसा कि आवश्यक है।

प्रत्येक चक्र मॉडल प्रदर्शन में सुधार करता है जब तक कि यह परियोजना के लक्ष्यों को पूरा या उससे अधिक नहीं करता। यह डेटा लेबलिंग के महीनों के काम को केवल घंटों में कम कर सकता है। स्नॉर्कल शोध परियोजना में, हमारे शोधकर्ताओं ने एक दिन में 20,000 दस्तावेज़ लेबल किए – एक मात्रा जो मैन

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред