ठूंठ फ़ेडरेटेड लर्निंग क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

फ़ेडरेटेड लर्निंग क्या है?

mm
Updated on

फ़ेडरेटेड लर्निंग क्या है?

एआई मॉडल को प्रशिक्षित करने की पारंपरिक पद्धति में सर्वर स्थापित करना शामिल है जहां मॉडल को डेटा पर प्रशिक्षित किया जाता है, अक्सर क्लाउड-आधारित कंप्यूटिंग प्लेटफॉर्म के उपयोग के माध्यम से। हालाँकि, पिछले कुछ वर्षों में मॉडल निर्माण का एक वैकल्पिक रूप सामने आया है, जिसे फ़ेडरेटेड लर्निंग कहा जाता है। फ़ेडरेटेड लर्निंग डेटा को मॉडल में लाने के बजाय मशीन लर्निंग मॉडल को डेटा स्रोत में लाता है। फ़ेडरेटेड लर्निंग एक विकेन्द्रीकृत प्रणाली में कई कम्प्यूटेशनल उपकरणों को एक साथ जोड़ता है जो मॉडल को प्रशिक्षित करने में सहायता करने के लिए डेटा एकत्र करने वाले व्यक्तिगत उपकरणों को अनुमति देता है।

फ़ेडरेटेड लर्निंग सिस्टम में, विभिन्न डिवाइस जो लर्निंग नेटवर्क का हिस्सा हैं, उनमें से प्रत्येक के डिवाइस पर मॉडल की एक प्रति होती है। विभिन्न डिवाइस/क्लाइंट मॉडल की अपनी प्रति को प्रशिक्षित करें क्लाइंट के स्थानीय डेटा का उपयोग करके, और फिर व्यक्तिगत मॉडल से पैरामीटर/वेट को एक मास्टर डिवाइस या सर्वर पर भेजा जाता है, जो पैरामीटर को एकत्रित करता है और वैश्विक मॉडल को अपडेट करता है। सटीकता का वांछित स्तर प्राप्त होने तक इस प्रशिक्षण प्रक्रिया को दोहराया जा सकता है। संक्षेप में, फ़ेडरेटेड लर्निंग के पीछे का विचार यह है कि कोई भी प्रशिक्षण डेटा कभी भी उपकरणों के बीच या पार्टियों के बीच प्रसारित नहीं होता है, केवल मॉडल से संबंधित अपडेट होते हैं।

संघीय शिक्षा को तीन अलग-अलग चरणों या चरणों में विभाजित किया जा सकता है। फ़ेडरेटेड लर्निंग आम तौर पर एक सामान्य मॉडल से शुरू होती है जो आधार रेखा के रूप में कार्य करती है और एक केंद्रीय सर्वर पर प्रशिक्षित होती है। पहले चरण में, यह सामान्य मॉडल एप्लिकेशन के ग्राहकों को भेजा जाता है। फिर इन स्थानीय प्रतियों को क्लाइंट सिस्टम द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जाता है, सीखा जाता है और उनके प्रदर्शन में सुधार किया जाता है।

दूसरे चरण में, सभी ग्राहक अपने सीखे हुए मॉडल पैरामीटर केंद्रीय सर्वर को भेजते हैं। यह समय-समय पर, एक निर्धारित समय पर होता है।

तीसरे चरण में, सर्वर सीखे गए मापदंडों को प्राप्त होने पर उन्हें एकत्रित करता है। पैरामीटर एकत्रित होने के बाद, केंद्रीय मॉडल को अद्यतन किया जाता है और ग्राहकों के साथ एक बार फिर साझा किया जाता है। फिर पूरी प्रक्रिया दोहराई जाती है।

RSI प्रति होने का लाभ विभिन्न उपकरणों पर मॉडल का उद्देश्य यह है कि नेटवर्क विलंबता कम या समाप्त हो जाती है। सर्वर के साथ डेटा साझा करने से जुड़ी लागत भी समाप्त हो जाती है। फ़ेडरेट शिक्षण विधियों के अन्य लाभों में यह तथ्य शामिल है कि फ़ेडरेट शिक्षण मॉडल गोपनीयता संरक्षित हैं, और मॉडल प्रतिक्रियाएँ डिवाइस के उपयोगकर्ता के लिए वैयक्तिकृत हैं।

फ़ेडरेटेड लर्निंग मॉडल के उदाहरणों में अनुशंसा इंजन, धोखाधड़ी का पता लगाने वाले मॉडल और मेडिकल मॉडल शामिल हैं। नेटफ्लिक्स या अमेज़ॅन द्वारा उपयोग किए जाने वाले प्रकार के मीडिया अनुशंसा इंजन को हजारों उपयोगकर्ताओं से एकत्र किए गए डेटा पर प्रशिक्षित किया जा सकता है। क्लाइंट डिवाइस अपने अलग मॉडल को प्रशिक्षित करेंगे और केंद्रीय मॉडल बेहतर पूर्वानुमान लगाना सीखेंगे, भले ही अलग-अलग डेटा बिंदु अलग-अलग उपयोगकर्ताओं के लिए अद्वितीय होंगे। इसी तरह, बैंकों द्वारा उपयोग किए जाने वाले धोखाधड़ी का पता लगाने वाले मॉडल को कई अलग-अलग उपकरणों से गतिविधि के पैटर्न पर प्रशिक्षित किया जा सकता है, और कुछ अलग-अलग बैंक एक सामान्य मॉडल को प्रशिक्षित करने के लिए सहयोग कर सकते हैं। मेडिकल फ़ेडरेटेड लर्निंग मॉडल के संदर्भ में, कई अस्पताल एक सामान्य मॉडल को प्रशिक्षित करने के लिए टीम बना सकते हैं जो मेडिकल स्कैन के माध्यम से संभावित ट्यूमर को पहचान सकता है।

फ़ेडरेटेड लर्निंग के प्रकार

फ़ेडरेटेड शिक्षण स्कीमा आम तौर पर दो अलग-अलग वर्गों में से एक में आते हैं: बहुदलीय प्रणालियाँ और एकल-दलीय प्रणालियाँ। सिंगल-पार्टी फ़ेडरेटेड लर्निंग सिस्टम को "सिंगल-पार्टी" कहा जाता है क्योंकि लर्निंग नेटवर्क में सभी क्लाइंट डिवाइसों में डेटा के कैप्चर और प्रवाह की देखरेख के लिए केवल एक ही इकाई जिम्मेदार होती है। क्लाइंट डिवाइस पर मौजूद मॉडल को समान संरचना वाले डेटा पर प्रशिक्षित किया जाता है, हालांकि डेटा बिंदु आमतौर पर विभिन्न उपयोगकर्ताओं और डिवाइस के लिए अद्वितीय होते हैं।

एकल-पक्षीय प्रणालियों के विपरीत, बहु-पक्षीय प्रणालियाँ दो या दो से अधिक संस्थाओं द्वारा प्रबंधित की जाती हैं। ये संस्थाएं उन विभिन्न उपकरणों और डेटासेट का उपयोग करके एक साझा मॉडल को प्रशिक्षित करने में सहयोग करती हैं जिन तक उनकी पहुंच है। पैरामीटर और डेटा संरचनाएं आम तौर पर कई इकाइयों से संबंधित उपकरणों में समान होती हैं, लेकिन उनका बिल्कुल एक जैसा होना जरूरी नहीं है। इसके बजाय, मॉडल के इनपुट को मानकीकृत करने के लिए प्री-प्रोसेसिंग की जाती है। विभिन्न संस्थाओं के लिए अद्वितीय उपकरणों द्वारा स्थापित वजन को एकत्रित करने के लिए एक तटस्थ इकाई को नियोजित किया जा सकता है।

फ़ेडरेटेड लर्निंग के लिए रूपरेखा

फ़ेडरेटेड लर्निंग के लिए उपयोग की जाने वाली लोकप्रिय रूपरेखाओं में शामिल हैं टेन्सरफ़्लो फ़ेडरेटेड, फ़ेडरेटेड AI टेक्नोलॉजी इनेबलर (FATE), तथा पायसिफ्ट. PySyft एक ओपन-सोर्स फ़ेडरेटेड लर्निंग लाइब्रेरी है जो डीप लर्निंग लाइब्रेरी PyTorch पर आधारित है। PySyft का उद्देश्य एन्क्रिप्टेड गणना का उपयोग करके सर्वर और एजेंटों के बीच निजी, सुरक्षित गहन शिक्षण सुनिश्चित करना है। इस बीच, Tensorflow Federated Google के Tensorflow प्लेटफ़ॉर्म पर निर्मित एक और ओपन-सोर्स फ़्रेमवर्क है। उपयोगकर्ताओं को अपने स्वयं के एल्गोरिदम बनाने में सक्षम बनाने के अलावा, टेन्सरफ़्लो फ़ेडरेटेड उपयोगकर्ताओं को अपने स्वयं के मॉडल और डेटा पर कई शामिल फ़ेडरेटेड लर्निंग एल्गोरिदम का अनुकरण करने की अनुमति देता है। अंत में, FATE भी वेबैंक AI द्वारा डिज़ाइन किया गया ओपन-सोर्स फ्रेमवर्क है, और इसका उद्देश्य फेडरेटेड AI इकोसिस्टम को एक सुरक्षित कंप्यूटिंग फ्रेमवर्क प्रदान करना है।

फ़ेडरेटेड लर्निंग चुनौतियाँ

चूंकि संघीय शिक्षा अभी भी काफी प्रारंभिक अवस्था में है, अनेक चुनौतियाँ इसकी पूर्ण क्षमता हासिल करने के लिए अभी भी बातचीत की जानी है। एज उपकरणों की प्रशिक्षण क्षमताएं, डेटा लेबलिंग और मानकीकरण, और मॉडल अभिसरण फ़ेडरेटेड शिक्षण दृष्टिकोण के लिए संभावित बाधाएं हैं।

जब स्थानीय प्रशिक्षण की बात आती है, तो फ़ेडरेटेड शिक्षण दृष्टिकोणों को डिज़ाइन करते समय किनारे के उपकरणों की कम्प्यूटेशनल क्षमताओं पर विचार करने की आवश्यकता होती है। जबकि अधिकांश स्मार्टफोन, टैबलेट और अन्य IoT संगत डिवाइस मशीन लर्निंग मॉडल को प्रशिक्षित करने में सक्षम हैं, यह आमतौर पर डिवाइस के प्रदर्शन में बाधा डालता है। मॉडल सटीकता और डिवाइस प्रदर्शन के बीच समझौता करना होगा।

डेटा को लेबल करना और मानकीकृत करना एक और चुनौती है जिसे फ़ेडरेटेड शिक्षण प्रणालियों को दूर करना होगा। पर्यवेक्षित शिक्षण मॉडल के लिए प्रशिक्षण डेटा की आवश्यकता होती है जो स्पष्ट रूप से और लगातार लेबल किया गया हो, जो कि सिस्टम का हिस्सा कई क्लाइंट डिवाइसों पर करना मुश्किल हो सकता है। इस कारण से, मॉडल डेटा पाइपलाइन विकसित करना महत्वपूर्ण है जो घटनाओं और उपयोगकर्ता क्रियाओं के आधार पर स्वचालित रूप से मानकीकृत तरीके से लेबल लागू करता है।

मॉडल अभिसरण समय फ़ेडरेटेड शिक्षण के लिए एक और चुनौती है, क्योंकि फ़ेडरेटेड शिक्षण मॉडल आमतौर पर स्थानीय रूप से प्रशिक्षित मॉडल की तुलना में अभिसरण करने में अधिक समय लेते हैं। प्रशिक्षण में शामिल उपकरणों की संख्या मॉडल प्रशिक्षण में अप्रत्याशितता का एक तत्व जोड़ती है, क्योंकि कनेक्शन समस्याएं, अनियमित अपडेट और यहां तक ​​कि अलग-अलग एप्लिकेशन उपयोग समय अभिसरण समय में वृद्धि और विश्वसनीयता में कमी में योगदान कर सकते हैं। इस कारण से, फ़ेडरेटेड शिक्षण समाधान आमतौर पर सबसे उपयोगी होते हैं जब वे किसी मॉडल को केंद्रीय रूप से प्रशिक्षित करने पर सार्थक लाभ प्रदान करते हैं, जैसे कि ऐसे उदाहरण जहां डेटासेट बहुत बड़े और वितरित होते हैं।

फोटो: विकिमीडिया कॉमन्स के माध्यम से जेरोमेट्रोनोम, सीसी बाय एसए 4.0 (https://en.wikipedia.org/wiki/File:Federated_learning_process_central_case.png)

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।