рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рдПрд▓реЗрдХреНрд╕ рд░реИрдЯрдирд░, рд╕реНрдиреЙрд░реНрдХрд▓ рдПрдЖрдИ рдХреЗ рд╕реАрдИрдУ рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

एलेक्स रैटनर स्नॉर्कल एआई के सीईओ और सह-संस्थापक हैं, जो स्टैनफोर्ड एआई लैब से निकली एक कंपनी है। स्नॉर्कल एआई मैनुअल एआई विकास प्रक्रियाओं को प्रोग्रामेटिक समाधानों में बदलकर एआई विकास को तेज और व्यावहारिक बनाता है। स्नॉर्कल एआई बड़े पैमाने पर उद्यमों को अपने अनोखे कार्यभार के लिए काम करने वाले एआई को उनके प्रोप्राइटरी डेटा और ज्ञान का उपयोग करके 10-100 गुना तेजी से विकसित करने में सक्षम बनाता है।
आपको कंप्यूटर विज्ञान में शुरुआत में क्या आकर्षित किया?
कंप्यूटर विज्ञान में दो बहुत ही रोमांचक पहलू हैं जब आप युवा होते हैं। एक, आप जितनी तेजी से सीखना चाहते हैं उतनी तेजी से सीख सकते हैं और बना सकते हैं, तेजी से प्रतिक्रिया मिलती है, शिक्षक की प्रतीक्षा किए बिना। दो, आप किसी की अनुमति के बिना बहुत कुछ बना सकते हैं!
मैंने ये कारणों से एक युवा लड़के के रूप में प्रोग्रामिंग में प्रवेश किया। मुझे सटीकता की आवश्यकता भी पसंद थी। मैं जटिल प्रक्रियाओं और दिनचर्या को स abstract करके और फिर उन्हें मॉड्यूलर तरीके से एनकोड करने की प्रक्रिया का आनंद लेता था।
बाद में, एक वयस्क के रूप में, मैंने स्टैनफोर्ड में स्नातक स्तर पर एनएलपी पर ध्यान केंद्रित करते हुए, पेटेंट कॉर्पस के कुछ बुनियादी विश्लेषण के लिए स्क्रिप्ट लिखने के लिए एक परामर्श में नौकरी के माध्यम से कंप्यूटर विज्ञान में अपना करियर शुरू किया।
आपने स्टैनफोर्ड में स्नॉर्कल ओपन-सोर्स परियोजना की शुरुआत की और उसे आगे बढ़ाया, तो आप हमें उन शुरुआती दिनों के बारे में बता सकते हैं?
उस समय हम, उद्योग में कई लोगों की तरह, नए एल्गोरिदम विकसित करने पर ध्यान केंद्रित कर रहे थे – अर्थात् सभी “फैंसी” मशीन लर्निंग स्टफ जो समुदाय में लोग अनुसंधान करते थे और पेपर प्रकाशित करते थे।
हालांकि, हम वास्तविक दुनिया की समस्याओं में इसे आधारित करने के लिए बहुत प्रतिबद्ध थे – मुख्य रूप से स्टैनफोर्ड में डॉक्टरों और वैज्ञानिकों के साथ। लेकिन जब भी हम एक नया मॉडल या एल्गोरिदम प्रस्तुत करते थे, तो प्रतिक्रिया यह होती थी कि “_हम इसे आजमाएंगे, लेकिन हमें सभी लेबल वाले प्रशिक्षण डेटा की आवश्यकता होगी जिसे हम बनाने के लिए समय नहीं निकाल सकते!_”
हम देख रहे थे कि बड़ी अनकही समस्या लेबलिंग और प्रशिक्षण डेटा को सावधानी से तैयार करने की प्रक्रिया के आसपास थी – इसलिए हमने अपना整个 ध्यान इस पर केंद्रित किया, जिसने स्नॉर्कल परियोजना और “डेटा-केंद्रित एआई” की अवधारणा को जन्म दिया।
स्नॉर्कल में डेटा-केंद्रित एआई दृष्टिकोण है, तो आप इसकी परिभाषा क्या है और यह मॉडल-केंद्रित एआई विकास से कैसे अलग है?
डेटा-केंद्रित एआई का अर्थ है बेहतर डेटा बनाने पर ध्यान केंद्रित करना ताकि बेहतर मॉडल बनाया जा सके।
यह मॉडल-केंद्रित एआई के विपरीत है, जहां डेटा वैज्ञानिक या शोधकर्ता मानते हैं कि डेटा स्थिर है और अपनी ऊर्जा मॉडल आर्किटेक्चर और पैरामीटर को समायोजित करने में लगाते हैं ताकि बेहतर परिणाम प्राप्त किए जा सकें।
शोधकर्ता मॉडल-केंद्रित एआई में अभी भी महान काम करते हैं, लेकिन ऑफ-द-शेल्फ मॉडल और ऑटो एमएल तकनीकें इतनी बेहतर हो गई हैं कि मॉडल चयन उत्पादन समय में कमोडिटाइज्ड हो गया है। जब ऐसा होता है, तो इन मॉडलों में सुधार करने का सबसे अच्छा तरीका उन्हें अधिक और बेहतर डेटा प्रदान करना है।
डेटा-केंद्रित एआई दृष्टिकोण के मूल सिद्धांत क्या हैं?
डेटा-केंद्रित एआई का मूल सिद्धांत सरल है: _बेहतर डेटा बेहतर मॉडल बनाता है।_
हमारे शोध पत्र में, हमने इसे “डेटा प्रोग्रामिंग” कहा है। यह विचार है कि यदि आप एक मजबूत मॉडल को पर्याप्त उदाहरणों के साथ इनपुट और अपेक्षित आउटपुट प्रदान करते हैं, तो मॉडल उन पैटर्न को दोहराने का तरीका सीखता है।
यह एक बड़ी चुनौती प्रस्तुत करता है जितना आप उम्मीद कर सकते हैं। अधिकांश डेटा में कोई लेबल नहीं होते – या कम से कम आपके अनुप्रयोग के लिए कोई उपयोगी लेबल नहीं होते हैं। मैनुअल रूप से डेटा लेबल करने में तedium, समय और मानव प्रयास लगता है।
एक लेबल वाले डेटा सेट का होना भी गुणवत्ता की गारंटी नहीं देता है। मानव त्रुटि हर जगह घुसपैठ करती है। आपके ग्राउंड ट्रुथ में प्रत्येक गलत उदाहरण अंतिम मॉडल के प्रदर्शन को खराब कर देगा। पैरामीटर ट्यूनिंग की कोई मात्रा इस वास्तविकता को नहीं छिपा सकती है। शोधकर्ताओं ने यहां तक कि खुले स्रोत डेटा सेट में गलत लेबल वाले रिकॉर्ड भी पाए हैं।
आप डेटा-केंद्रित एआई के लिए प्रोग्रामेटिक होने का क्या अर्थ समझाते हैं?
मैनुअल रूप से डेटा लेबल करने में गंभीर चुनौतियाँ हैं। ऐसा करने में बहुत सारे मानव घंटे लगते हैं, और कभी-कभी वे मानव घंटे महंगे हो सकते हैं। चिकित्सा दस्तावेज़, उदाहरण के लिए, केवल डॉक्टरों द्वारा लेबल किए जा सकते हैं।
इसके अलावा, मैनुअल लेबलिंग स्प्रिंट अक्सर एकल-उपयोग परियोजनाओं में समाप्त होती हैं। लेबलर डेटा को एक कठोर योजना के अनुसार लेबल करते हैं। यदि व्यवसाय की जरूरतें बदलती हैं और अलग लेबल के सेट के लिए कहती हैं, तो लेबलर को शुरू से शुरू करना होगा।
प्रोग्रामेटिक दृष्टिकोण डेटा-केंद्रित एआई के लिए इन दोनों समस्याओं को कम करते हैं। स्नॉर्कल एआई की प्रोग्रामेटिक लेबलिंग प्रणाली विभिन्न संकेतों – विरासत मॉडल से लेकर मौजूदा लेबल तक और बाहरी ज्ञान आधारों तक – को एकत्रित करती है ताकि बड़े पैमाने पर संभावित लेबल विकसित किए जा सकें। हमारा प्राथमिक संकेत स्रोत विषय विशेषज्ञ हैं जो डेटा वैज्ञानिकों के साथ मिलकर लेबलिंग फंक्शन बनाने के लिए सहयोग करते हैं। वे अपने विशेषज्ञ निर्णय को स्केलेबल नियमों में एनकोड करते हैं, जिससे एक निर्णय में निवेश की गई प्रयास दर्जनों या सैकड़ों डेटा बिंदुओं पर प्रभाव डालती है।
यह फ्रेमवर्क लचीला भी है। व्यवसाय की जरूरतें बदलने पर शुरू से शुरू करने के बजाय, उपयोगकर्ता लेबलिंग फंक्शन जोड़ सकते हैं, हटा सकते हैं और समायोजित कर सकते हैं ताकि नए लेबल को घंटों के भीतर लागू किया जा सके, न कि दिनों में।
यह डेटा-केंद्रित दृष्टिकोण कैसे अनलेबल्ड डेटा के तेजी से स्केलिंग को सक्षम बनाता है?
हमारा प्रोग्रामेटिक दृष्टिकोण डेटा-केंद्रित एआई अनलेबल्ड डेटा के तेजी से स्केलिंग को सक्षम बनाता है प्रत्येक चुनाव के प्रभाव को बढ़ाकर। एक बार विषय विशेषज्ञ एक छोटे से ग्राउंड ट्रुथ सेट की स्थापना करते हैं, तो वे तेजी से पुनरावृत्ति के लिए डेटा वैज्ञानिकों के साथ सहयोग करते हैं। वे कुछ लेबलिंग फंक्शन परिभाषित करते हैं, एक त्वरित मॉडल प्रशिक्षित करते हैं, लेबलिंग फंक्शन के प्रभाव का विश्लेषण करते हैं, और फिर लेबलिंग फंक्शन को जोड़ सकते हैं, हटा सकते हैं या समायोजित कर सकते हैं जैसा कि आवश्यक है।
प्रत्येक चक्र मॉडल प्रदर्शन में सुधार करता है जब तक कि यह परियोजना के लक्ष्यों को पूरा या उससे अधिक नहीं करता। यह डेटा लेबलिंग के महीनों के काम को केवल घंटों में कम कर सकता है। स्नॉर्कल शोध परियोजना में, हमारे शोधकर्ताओं ने एक दिन में 20,000 दस्तावेज़ लेबल किए – एक मात्रा जो मैन












