विचार नेता

मॉडल विकास को स्वचालित करने के लिए महत्वपूर्ण मार्ग

Published April 14, 2026

Doris Xin, CEO & Co-Founder, Disarray and Moustafa AbdelBaky, CTO & Co-Founder, Disarray

A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

एआई अनुसंधान के लिए अगला महत्वपूर्ण मील का पत्थर मॉडल विकास को स्वचालित करना है। तर्क, भाषा और धारणा में हर प्रगति कुछ हद तक उस लक्ष्य की ओर एक कदम है। हालांकि, मॉडल स्वचालन के मार्ग पर आवश्यक है कि कुछ मूलभूत चुनौतियों का समाधान पहले ही किया जाना चाहिए।

उस लक्ष्य तक पहुंचने के लिए पुल सीधे मशीन लर्निंग (एमएल) इंजीनियरिंग के माध्यम से जाता है। एक सामान्य गलत धारणा यह है कि एमएल आधुनिक एआई की पूर्ववर्ती प्रौद्योगिकी है और संस्थापन मॉडल ने इसे बदल दिया है। यह संबंध को गलत समझता है। एक अकादमिक अनुशासन के रूप में, एमएल मॉडल प्रशिक्षण के सभी पहलुओं को शामिल करता है, जिसमें वर्तमान एआई पल के केंद्र में संस्थापन मॉडल का प्रशिक्षण भी शामिल है। हालांकि, पैमाने और डेटा जटिलता में एक अर्थपूर्ण अंतर है।

पारंपरिक एमएल मॉडल आमतौर पर सावधानी से क्यूरेटेड, डोमेन-विशिष्ट डेटासेट पर प्रशिक्षित होते हैं जिनमें हजारों या लाखों उदाहरण होते हैं। संस्थापन मॉडल, इसके विपरीत, एक ही समय में हजारों डेटासेट पर प्रशिक्षित होते हैं, जो विभिन्न स्रोतों से लिए जाते हैं जिनमें असंगत प्रारूप, प्रोवेनेंस और गुणवत्ता होती है। डेटा के पैमाने और विविधता में यह अंतर मॉडल विकास को स्वचालित करने में एक मूलभूत कारण है कि डेटा प्रबंधन क्यों अधिक कठिन और महत्वपूर्ण हो जाता है।

यह डेटा समझ को मॉडल विकास को स्वचालित करने में एक केंद्रीय बोतलनेक बनाता है। एक एआई प्रणाली जो विविध डेटा की व्याख्या कर सकती है और इसके चारों ओर निर्मित पाइपलाइनों में सुधार कर सकती है, सिद्धांत रूप में, अपनी प्रशिक्षण प्रक्रिया में सुधार कर सकती है और बेहतर मॉडल बनाने में मदद कर सकती है। एक बार एआई अपनी प्रशिक्षण प्रक्रिया में सुधार कर सकता है, सुधार हर उस डोमेन में कैस्केड होता है जहां एआई लागू किया जाता है।

तीन बाधाएं जो रास्ते में खड़ी हैं

पहली बाधा संदर्भ खंडितकरण है। लगभग हर संगठन में, किसी भी दिए गए मॉडलिंग समस्या से संबंधित संकेत, प्रयोग, सुविधा परिभाषाएं और संस्थागत ज्ञान डेटा वेयरहाउस, नोटबुक और पाइपलाइनों में बिखरे हुए हैं जो कभी भी एक दूसरे के साथ संवाद करने के लिए डिज़ाइन नहीं किए गए थे। एक स्वास्थ्य प्रणाली को सेप्सिस का पता लगाने वाला मॉडल बनाने पर विचार करें। उस समस्या से संबंधित नैदानिक मानदंड, जैसे कि महत्वपूर्ण सीमाएं, प्रयोगशाला मूल्य और दस्तावेजीकरण मानक, पूरी तरह से अलग-अलग मॉड्यूल में रह सकते हैं। एक इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड प्रणाली में।

दूसरी बाधा सेमेंटिक अस्पष्टता है। अर्थ डेटा में निहित नहीं है, बल्कि यह संदर्भ और संगठनात्मक है। दो अलग-अलग डेटाबेस में एक ही फील्ड नाम अलग-अलग चीजों को संदर्भित कर सकता है। राजस्व, सक्रिय उपयोगकर्ता और चूर्ण जैसी अवधारणाएं एक ही कंपनी के भीतर कई वैध परिभाषाएं हो सकती हैं। यहां तक कि “राजस्व” जैसी अवधारणा भी समस्या पैदा कर सकती है। एक बिक्री टीम राजस्व को इस तिमाही में हस्ताक्षरित अनुबंधों के कुल मूल्य के रूप में परिभाषित कर सकती है, जबकि वित्त टीम इसे वास्तव में प्राप्त की गई नकदी के रूप में परिभाषित करती है। उत्पाद टीम की एक और समझ है, क्योंकि यह शब्द को मान्यता प्राप्त राजस्व के रूप में परिभाषित करती है जो सदस्यता अवधि में फैली हुई है। तीनों अपने-अपने सिस्टम में वास्तव में “राजस्व” नाम के फील्ड से खींच रहे हैं, लेकिन एक क्रॉस-टीम रिपोर्ट जो उन्हें मिलाती है वह तीन असंगत संख्याओं को चुपचाप मिलाती है।

तीसरी और सबसे प्रणालीगत बाधा यह है कि संस्थागत स्मृति का अभाव है। इतने सारे स्रोतों में प्रोवेनेंस को ट्रैक करना, असंगतताओं को हल करना और गुणवत्ता संकेतों को बनाए रखना मानव टीमों के लिए भी एक हल नहीं है। बिना संस्थागत स्मृति के कि क्या कोशिश की गई और कैसे अच्छी तरह से उन दृष्टिकोणों ने काम किया, कोई भी मॉडल स्वचालन तंत्र एक ही मृत अंत को बार-बार खोजता रहेगा, समय और संसाधनों को बर्बाद करेगा।

एक खुदरा कंपनी में एक डेटा विज्ञान टीम पर विचार करें जो मांग पूर्वानुमान मॉडल बना रही है। तीन वर्षों में, एक दर्जन विश्लेषकों ने स्वतंत्र रूप से यह खोजा है कि कच्चा मौसम डेटा छुट्टी के सप्ताह के दौरान मॉडल के प्रदर्शन को खराब करता है, एक विशिष्ट आपूर्तिकर्ता की इन्वेंट्री फीड में एक प्रणालीगत देरी होती है, और प्रचार आयोजनों को संभालने के लिए मानक दृष्टिकोण लक्ष्य रिसाव का कारण बनता है। जब मूल विश्लेषक अन्य टीमों में चले गए या कंपनी छोड़ दी, तो ज्ञान उनके साथ चला गया। संस्थागत रिकॉर्ड के बिना कि क्या कोशिश की गई, क्या विफल हुआ और क्यों एक मॉडल स्वचालन तंत्र जमा अनुभव पर नहीं बना सकता है। यह बस शून्य से शुरू होता है, बार-बार, अनावश्यक रूप से समय बर्बाद करता है।

एक वास्तविक समाधान के लिए क्या आवश्यक है

एमएल स्वचालन का इतिहास आंशिक समाधानों का इतिहास है। ऑटोमेल ने हाइपरपैरामीटर ट्यूनिंग की संकीर्ण समस्या को संबोधित किया लेकिन संगठनात्मक इरादे के बारे में तर्क या असंगतताओं को संबोधित नहीं किया। एमएलओपीएस ने उत्पादन पाइपलाइनों को अधिक मजबूत और आसानी से निगरानी करने योग्य बनाया, लेकिन एमएलओपीएस टूल एक रणनीति को निष्पादित करते हैं न कि इसे परिभाषित करते हैं। हाल के कोडिंग एजेंट वास्तविक प्रगति का प्रतिनिधित्व करते हैं, लेकिन उन्होंने उसी अंधे धब्बे को विरासत में मिला है। वे संगठनात्मक संदर्भ या संस्थागत स्मृति के बिना अच्छी तरह से कोड उत्पन्न करते हैं।

वास्तविक स्वायत्त एमएल इंजीनियरिंग के लिए सक्षम एक प्रणाली को मौजूदा किसी भी उपकरण द्वारा प्रदान किए गए संयोजन में क्षमताओं की आवश्यकता होगी। यह व्यवसायिक लक्ष्यों को मॉडल उद्देश्यों में मैप करने की आवश्यकता होगी, जो कि डेटा से अकेले अनुमानित नहीं किया जा सकता है। यह टूटे हुए प्रणालियों में प्रासंगिक डेटा की खोज करने की आवश्यकता होगी, जिसमें असंगत स्कीमा हैं, स्वचालित रूप से अनुपालन, शासन और सुरक्षा प्रतिबंधों का पालन करते हुए, न कि मानवों को उन्हें एक अलग प्रक्रिया के रूप में प्रबंधित करने की आवश्यकता है। यह संस्थागत स्मृति की आवश्यकता होगी कि मौजूदा काम को सतह पर लाया जा सके, समझा जा सके कि पिछले प्रयोग क्यों छोड़ दिए गए और सहयोगियों द्वारा पहले से ज्ञात पर निर्माण किया जा सके।

डेटा संस्करणों, सुविधा परिभाषाओं और कोड कमिट्स के पारित डेटा के प्रोवेनेंस को ट्रैक करने वाले कठोर ऑडिट ट्रेल्स की आवश्यकता होगी जो प्रणाली को वास्तव में क्या हुआ है में आधारित करने के लिए एक मूल तंत्र के रूप में होनी चाहिए। और ऐसी प्रणाली के लिए मानव-इन-द-लूप डिज़ाइन की आवश्यकता होगी। पूर्ण स्वचालन और पूर्ण मैनुअल नियंत्रण के बीच एक द्विआधारी विकल्प नहीं, बल्कि कार्य, हिस्सेदारी और प्रणाली के प्रत्येक निर्णय बिंदु पर आत्मविश्वास के स्तर के आधार पर बातचीत के विभिन्न स्तरों के लिए समर्थन। महत्वपूर्ण क्षणों पर मानव निर्णय को बायपास करने वाला स्वचालन एक अच्छी तरह से डिज़ाइन किए गए एआई की एक विशेषता नहीं है; बल्कि, यह एक विफलता मोड है।

क्या कोई प्रयोगशाला अभी तक हल नहीं कर पाई है कि संगठनात्मक डेटा की सेमेंटिक समझ कैसे बनाई जाए जो एक विशिष्ट संस्थागत संदर्भ में डेटा का क्या अर्थ है। एमसीपी कनेक्टिविटी समस्या का समाधान करता है। यह अभी तक अर्थ समस्या का समाधान नहीं करता है। यह खुला अनुसंधान मोर्चा बना हुआ है।

क्या संभव हो जाता है

इन समस्याओं को हल करने के आर्थिक परिणाम महत्वपूर्ण हैं। आजकल कस्टम एमएल विकास विशेषज्ञ पрак्टिशनर्स और अच्छी तरह से परिभाषित समस्याओं के लिए भी हफ्तों के प्रयास की आवश्यकता होती है। एक प्रणाली जो समस्या परिभाषा से लेकर डेटा खोज, मॉडल विकास और मॉडल मूल्यांकन तक पूरे कार्य प्रवाह को स्वचालित रूप से नेविगेट कर सकती है, वह समीकरण को नाटकीय रूप से संकुचित कर देगी, समयसीमा को संकुचित कर देगी और वर्तमान में जो उपयोग के मामले बहुत संसाधन-गहन हैं उन्हें खोल देगी। जो परियोजनाएं पहले एमएल विशेषज्ञों के गहरे ज्ञान वाली टीमों द्वारा हफ्तों तक काम करने की आवश्यकता थी, अब उन्हें एमएल विशेषज्ञों के समय का उपयोग किए बिना दिनों में पूरा किया जा सकता है।

संदर्भ खंडितकरण, सेमेंटिक अस्पष्टता और संस्थागत स्मृति की अनुपस्थिति की चुनौतियां उद्यम एमएल के लिए विशिष्ट नहीं हैं। वे संस्थापन मॉडल प्रशिक्षण पाइपलाइनों के निर्माण में, जहां हजारों विविध डेटासेट को एकत्रित, फ़िल्टर और पुनरावृत्ति से परिष्कृत किया जाना चाहिए, विभिन्न प्रतिबंधों के तहत प्रकट होते हैं। दोनों सेटिंग्स संरचना और उद्देश्य में भिन्न होती हैं, लेकिन दोनों एक ही अंतर्निहित बोतलनेक से सीमित होती हैं: संदर्भ को पुनः प्राप्त करने, प्रोवेनेंस को ट्रैक करने और पुनरावृत्ति में पूर्व कार्य पर निर्माण करने में सक्षम प्रणालियों की अनुपस्थिति। इसलिए, उद्यम में मॉडल विकास को स्वचालित करना स्व-सुधार एआई प्रणालियों के मार्ग पर एक महत्वपूर्ण कदम है।

Doris Xin, CEO & Co-Founder, Disarray

डोरिस जिन डिसरे के सीईओ और सह-संस्थापक हैं। एक यूसी बर्कले राइज़लैब पीएचडी और एनएसएफ ग्रेजुएट रिसर्च फेलो के रूप में, डोरिस ने अपनी एमएल विशेषज्ञता को तेज किया और लिंक्डइन में एक शुरुआती एमएल इंजीनियर के रूप में।

Moustafa AbdelBaky, CTO & Co-Founder, Disarray

मुस्तफा अब्देलबाकी डिसरे के सीटीओ और सह-संस्थापक हैं। वह तीन बार आईबीएम पीएचडी फेलो हैं, जिनके पास वितरित प्रणालियों, एज एमएल और नासा के स्वायत्त विमानन और अंतरिक्ष मिशनों के लिए वास्तविक समय एआई के माध्यम से स्वायत्त ऑर्केस्ट्रेशन पर लगभग दो दशकों का शोध है।