Connect with us

рдореЙрдбрд▓ рд╡рд┐рдХрд╛рд╕ рдХреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рдорд╛рд░реНрдЧ

рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛

рдореЙрдбрд▓ рд╡рд┐рдХрд╛рд╕ рдХреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рдорд╛рд░реНрдЧ

mm mm
A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

एआई अनुसंधान के लिए अगला महत्वपूर्ण मील का पत्थर मॉडल विकास को स्वचालित करना है। तर्क, भाषा और धारणा में हर प्रगति कुछ हद तक उस लक्ष्य की ओर एक कदम है। हालांकि, मॉडल स्वचालन के मार्ग पर आवश्यक है कि कुछ मूलभूत चुनौतियों का समाधान पहले ही किया जाना चाहिए।

उस लक्ष्य तक पहुंचने के लिए पुल सीधे मशीन लर्निंग (एमएल) इंजीनियरिंग के माध्यम से जाता है। एक सामान्य गलत धारणा यह है कि एमएल आधुनिक एआई की पूर्ववर्ती प्रौद्योगिकी है और संस्थापन मॉडल ने इसे बदल दिया है। यह संबंध को गलत समझता है। एक अकादमिक अनुशासन के रूप में, एमएल मॉडल प्रशिक्षण के सभी पहलुओं को शामिल करता है, जिसमें वर्तमान एआई पल के केंद्र में संस्थापन मॉडल का प्रशिक्षण भी शामिल है। हालांकि, पैमाने और डेटा जटिलता में एक अर्थपूर्ण अंतर है।

पारंपरिक एमएल मॉडल आमतौर पर सावधानी से क्यूरेटेड, डोमेन-विशिष्ट डेटासेट पर प्रशिक्षित होते हैं जिनमें हजारों या लाखों उदाहरण होते हैं। संस्थापन मॉडल, इसके विपरीत, एक ही समय में हजारों डेटासेट पर प्रशिक्षित होते हैं, जो विभिन्न स्रोतों से लिए जाते हैं जिनमें असंगत प्रारूप, प्रोवेनेंस और गुणवत्ता होती है। डेटा के पैमाने और विविधता में यह अंतर मॉडल विकास को स्वचालित करने में एक मूलभूत कारण है कि डेटा प्रबंधन क्यों अधिक कठिन और महत्वपूर्ण हो जाता है।

यह डेटा समझ को मॉडल विकास को स्वचालित करने में एक केंद्रीय बोतलनेक बनाता है। एक एआई प्रणाली जो विविध डेटा की व्याख्या कर सकती है और इसके चारों ओर निर्मित पाइपलाइनों में सुधार कर सकती है, सिद्धांत रूप में, अपनी प्रशिक्षण प्रक्रिया में सुधार कर सकती है और बेहतर मॉडल बनाने में मदद कर सकती है। एक बार एआई अपनी प्रशिक्षण प्रक्रिया में सुधार कर सकता है, सुधार हर उस डोमेन में कैस्केड होता है जहां एआई लागू किया जाता है।

तीन बाधाएं जो रास्ते में खड़ी हैं

पहली बाधा संदर्भ खंडितकरण है। लगभग हर संगठन में, किसी भी दिए गए मॉडलिंग समस्या से संबंधित संकेत, प्रयोग, सुविधा परिभाषाएं और संस्थागत ज्ञान डेटा वेयरहाउस, नोटबुक और पाइपलाइनों में बिखरे हुए हैं जो कभी भी एक दूसरे के साथ संवाद करने के लिए डिज़ाइन नहीं किए गए थे। एक स्वास्थ्य प्रणाली को सेप्सिस का पता लगाने वाला मॉडल बनाने पर विचार करें। उस समस्या से संबंधित नैदानिक मानदंड, जैसे कि महत्वपूर्ण सीमाएं, प्रयोगशाला मूल्य और दस्तावेजीकरण मानक, पूरी तरह से अलग-अलग मॉड्यूल में रह सकते हैं। एक इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड प्रणाली में।

दूसरी बाधा सेमेंटिक अस्पष्टता है। अर्थ डेटा में निहित नहीं है, बल्कि यह संदर्भ और संगठनात्मक है। दो अलग-अलग डेटाबेस में एक ही फील्ड नाम अलग-अलग चीजों को संदर्भित कर सकता है। राजस्व, सक्रिय उपयोगकर्ता और चूर्ण जैसी अवधारणाएं एक ही कंपनी के भीतर कई वैध परिभाषाएं हो सकती हैं। यहां तक कि “राजस्व” जैसी अवधारणा भी समस्या पैदा कर सकती है। एक बिक्री टीम राजस्व को इस तिमाही में हस्ताक्षरित अनुबंधों के कुल मूल्य के रूप में परिभाषित कर सकती है, जबकि वित्त टीम इसे वास्तव में प्राप्त की गई नकदी के रूप में परिभाषित करती है। उत्पाद टीम की एक और समझ है, क्योंकि यह शब्द को मान्यता प्राप्त राजस्व के रूप में परिभाषित करती है जो सदस्यता अवधि में फैली हुई है। तीनों अपने-अपने सिस्टम में वास्तव में “राजस्व” नाम के फील्ड से खींच रहे हैं, लेकिन एक क्रॉस-टीम रिपोर्ट जो उन्हें मिलाती है वह तीन असंगत संख्याओं को चुपचाप मिलाती है।

तीसरी और सबसे प्रणालीगत बाधा यह है कि संस्थागत स्मृति का अभाव है। इतने सारे स्रोतों में प्रोवेनेंस को ट्रैक करना, असंगतताओं को हल करना और गुणवत्ता संकेतों को बनाए रखना मानव टीमों के लिए भी एक हल नहीं है। बिना संस्थागत स्मृति के कि क्या कोशिश की गई और कैसे अच्छी तरह से उन दृष्टिकोणों ने काम किया, कोई भी मॉडल स्वचालन तंत्र एक ही मृत अंत को बार-बार खोजता रहेगा, समय और संसाधनों को बर्बाद करेगा।

एक खुदरा कंपनी में एक डेटा विज्ञान टीम पर विचार करें जो मांग पूर्वानुमान मॉडल बना रही है। तीन वर्षों में, एक दर्जन विश्लेषकों ने स्वतंत्र रूप से यह खोजा है कि कच्चा मौसम डेटा छुट्टी के सप्ताह के दौरान मॉडल के प्रदर्शन को खराब करता है, एक विशिष्ट आपूर्तिकर्ता की इन्वेंट्री फीड में एक प्रणालीगत देरी होती है, और प्रचार आयोजनों को संभालने के लिए मानक दृष्टिकोण लक्ष्य रिसाव का कारण बनता है। जब मूल विश्लेषक अन्य टीमों में चले गए या कंपनी छोड़ दी, तो ज्ञान उनके साथ चला गया। संस्थागत रिकॉर्ड के बिना कि क्या कोशिश की गई, क्या विफल हुआ और क्यों एक मॉडल स्वचालन तंत्र जमा अनुभव पर नहीं बना सकता है। यह बस शून्य से शुरू होता है, बार-बार, अनावश्यक रूप से समय बर्बाद करता है।

एक वास्तविक समाधान के लिए क्या आवश्यक है

एमएल स्वचालन का इतिहास आंशिक समाधानों का इतिहास है। ऑटोमेल ने हाइपरपैरामीटर ट्यूनिंग की संकीर्ण समस्या को संबोधित किया लेकिन संगठनात्मक इरादे के बारे में तर्क या असंगतताओं को संबोधित नहीं किया। एमएलओपीएस ने उत्पादन पाइपलाइनों को अधिक मजबूत और आसानी से निगरानी करने योग्य बनाया, लेकिन एमएलओपीएस टूल एक रणनीति को निष्पादित करते हैं न कि इसे परिभाषित करते हैं। हाल के कोडिंग एजेंट वास्तविक प्रगति का प्रतिनिधित्व करते हैं, लेकिन उन्होंने उसी अंधे धब्बे को विरासत में मिला है। वे संगठनात्मक संदर्भ या संस्थागत स्मृति के बिना अच्छी तरह से कोड उत्पन्न करते हैं।

वास्तविक स्वायत्त एमएल इंजीनियरिंग के लिए सक्षम एक प्रणाली को मौजूदा किसी भी उपकरण द्वारा प्रदान किए गए संयोजन में क्षमताओं की आवश्यकता होगी। यह व्यवसायिक लक्ष्यों को मॉडल उद्देश्यों में मैप करने की आवश्यकता होगी, जो कि डेटा से अकेले अनुमानित नहीं किया जा सकता है। यह टूटे हुए प्रणालियों में प्रासंगिक डेटा की खोज करने की आवश्यकता होगी, जिसमें असंगत स्कीमा हैं, स्वचालित रूप से अनुपालन, शासन और सुरक्षा प्रतिबंधों का पालन करते हुए, न कि मानवों को उन्हें एक अलग प्रक्रिया के रूप में प्रबंधित करने की आवश्यकता है। यह संस्थागत स्मृति की आवश्यकता होगी कि मौजूदा काम को सतह पर लाया जा सके, समझा जा सके कि पिछले प्रयोग क्यों छोड़ दिए गए और सहयोगियों द्वारा पहले से ज्ञात पर निर्माण किया जा सके।

डेटा संस्करणों, सुविधा परिभाषाओं और कोड कमिट्स के पारित डेटा के प्रोवेनेंस को ट्रैक करने वाले कठोर ऑडिट ट्रेल्स की आवश्यकता होगी जो प्रणाली को वास्तव में क्या हुआ है में आधारित करने के लिए एक मूल तंत्र के रूप में होनी चाहिए। और ऐसी प्रणाली के लिए मानव-इन-द-लूप डिज़ाइन की आवश्यकता होगी। पूर्ण स्वचालन और पूर्ण मैनुअल नियंत्रण के बीच एक द्विआधारी विकल्प नहीं, बल्कि कार्य, हिस्सेदारी और प्रणाली के प्रत्येक निर्णय बिंदु पर आत्मविश्वास के स्तर के आधार पर बातचीत के विभिन्न स्तरों के लिए समर्थन। महत्वपूर्ण क्षणों पर मानव निर्णय को बायपास करने वाला स्वचालन एक अच्छी तरह से डिज़ाइन किए गए एआई की एक विशेषता नहीं है; बल्कि, यह एक विफलता मोड है।

क्या कोई प्रयोगशाला अभी तक हल नहीं कर पाई है कि संगठनात्मक डेटा की सेमेंटिक समझ कैसे बनाई जाए जो एक विशिष्ट संस्थागत संदर्भ में डेटा का क्या अर्थ है। एमसीपी कनेक्टिविटी समस्या का समाधान करता है। यह अभी तक अर्थ समस्या का समाधान नहीं करता है। यह खुला अनुसंधान मोर्चा बना हुआ है।

क्या संभव हो जाता है

इन समस्याओं को हल करने के आर्थिक परिणाम महत्वपूर्ण हैं। आजकल कस्टम एमएल विकास विशेषज्ञ पрак्टिशनर्स और अच्छी तरह से परिभाषित समस्याओं के लिए भी हफ्तों के प्रयास की आवश्यकता होती है। एक प्रणाली जो समस्या परिभाषा से लेकर डेटा खोज, मॉडल विकास और मॉडल मूल्यांकन तक पूरे कार्य प्रवाह को स्वचालित रूप से नेविगेट कर सकती है, वह समीकरण को नाटकीय रूप से संकुचित कर देगी, समयसीमा को संकुचित कर देगी और वर्तमान में जो उपयोग के मामले बहुत संसाधन-गहन हैं उन्हें खोल देगी। जो परियोजनाएं पहले एमएल विशेषज्ञों के गहरे ज्ञान वाली टीमों द्वारा हफ्तों तक काम करने की आवश्यकता थी, अब उन्हें एमएल विशेषज्ञों के समय का उपयोग किए बिना दिनों में पूरा किया जा सकता है।

संदर्भ खंडितकरण, सेमेंटिक अस्पष्टता और संस्थागत स्मृति की अनुपस्थिति की चुनौतियां उद्यम एमएल के लिए विशिष्ट नहीं हैं। वे संस्थापन मॉडल प्रशिक्षण पाइपलाइनों के निर्माण में, जहां हजारों विविध डेटासेट को एकत्रित, फ़िल्टर और पुनरावृत्ति से परिष्कृत किया जाना चाहिए, विभिन्न प्रतिबंधों के तहत प्रकट होते हैं। दोनों सेटिंग्स संरचना और उद्देश्य में भिन्न होती हैं, लेकिन दोनों एक ही अंतर्निहित बोतलनेक से सीमित होती हैं: संदर्भ को पुनः प्राप्त करने, प्रोवेनेंस को ट्रैक करने और पुनरावृत्ति में पूर्व कार्य पर निर्माण करने में सक्षम प्रणालियों की अनुपस्थिति। इसलिए, उद्यम में मॉडल विकास को स्वचालित करना स्व-सुधार एआई प्रणालियों के मार्ग पर एक महत्वपूर्ण कदम है।

рдбреЛрд░рд┐рд╕ рдЬрд┐рди рдбрд┐рд╕рд░реЗ рдХреЗ рд╕реАрдИрдУ рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВред рдПрдХ рдпреВрд╕реА рдмрд░реНрдХрд▓реЗ рд░рд╛рдЗрдЬрд╝рд▓реИрдм рдкреАрдПрдЪрдбреА рдФрд░ рдПрдирдПрд╕рдПрдл рдЧреНрд░реЗрдЬреБрдПрдЯ рд░рд┐рд╕рд░реНрдЪ рдлреЗрд▓реЛ рдХреЗ рд░реВрдк рдореЗрдВ, рдбреЛрд░рд┐рд╕ рдиреЗ рдЕрдкрдиреА рдПрдордПрд▓ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдХреЛ рддреЗрдЬ рдХрд┐рдпрд╛ рдФрд░ рд▓рд┐рдВрдХреНрдбрдЗрди рдореЗрдВ рдПрдХ рд╢реБрд░реБрдЖрддреА рдПрдордПрд▓ рдЗрдВрдЬреАрдирд┐рдпрд░ рдХреЗ рд░реВрдк рдореЗрдВред

рдореБрд╕реНрддрдлрд╛ рдЕрдмреНрджреЗрд▓рдмрд╛рдХреА рдбрд┐рд╕рд░реЗ рдХреЗ рд╕реАрдЯреАрдУ рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВред рд╡рд╣ рддреАрди рдмрд╛рд░ рдЖрдИрдмреАрдПрдо рдкреАрдПрдЪрдбреА рдлреЗрд▓реЛ рд╣реИрдВ, рдЬрд┐рдирдХреЗ рдкрд╛рд╕ рд╡рд┐рддрд░рд┐рдд рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ, рдПрдЬ рдПрдордПрд▓ рдФрд░ рдирд╛рд╕рд╛ рдХреЗ рд╕реНрд╡рд╛рдпрддреНрдд рд╡рд┐рдорд╛рдирди рдФрд░ рдЕрдВрддрд░рд┐рдХреНрд╖ рдорд┐рд╢рдиреЛрдВ рдХреЗ рд▓рд┐рдП рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдПрдЖрдИ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реНрд╡рд╛рдпрддреНрдд рдСрд░реНрдХреЗрд╕реНрдЯреНрд░реЗрд╢рди рдкрд░ рд▓рдЧрднрдЧ рджреЛ рджрд╢рдХреЛрдВ рдХрд╛ рд╢реЛрдз рд╣реИред