ठूंठ Google रिसर्च ने AI - Unite.AI के हाइपरस्केल दृष्टिकोण में एक बाधा की पहचान की है
हमसे जुडे

Artificial Intelligence

Google अनुसंधान ने AI के हाइपरस्केल दृष्टिकोण में एक बाधा की पहचान की है

mm
Updated on

Google रिसर्च के एक नए पेपर से संकेत मिलता है कि बहुत अधिक मात्रा वाले डेटासेट की क्यूरेशन की मौजूदा प्रवृत्ति प्रभावी कृत्रिम बुद्धिमत्ता प्रणालियों को विकसित करने के लिए प्रतिकूल हो सकती है। वास्तव में, शोध से संकेत मिलता है कि प्रशिक्षित होने से बेहतर मशीन लर्निंग उत्पाद सामने आ सकते हैं कम सटीक (यानी तकनीकी रूप से 'बदतर') डेटासेट।

यदि शोधकर्ताओं द्वारा प्राप्त सिद्धांत वैध हैं, तो इसका मतलब है कि 'हाइपरस्केल' डेटासेट जैसे हाल ही में जारी किया गया- LAION-400M (जिसमें 400 मिलियन टेक्स्ट/छवि जोड़े शामिल हैं), और GPT-3 न्यूरल भाषा इंजन (175 बिलियन पैरामीटर युक्त) के पीछे का डेटा, संभावित रूप से पारंपरिक और लोकप्रिय मशीन लर्निंग आर्किटेक्चर में एक प्रकार की 'थर्मल सीमा' के अधीन है। और कार्यप्रणाली, जिससे डेटा की विशाल मात्रा डाउनस्ट्रीम अनुप्रयोगों को 'संतृप्त' कर देती है और उन्हें उपयोगी तरीके से सामान्यीकृत करने से रोकती है।

असंतुलन को दूर करने के लिए शोधकर्ता हाइपरस्केल डेटासेट आर्किटेक्चर पर पुनर्विचार करने के लिए वैकल्पिक तरीकों का भी प्रस्ताव करते हैं।

पेपर बताता है:

'इन घटनाओं को जन्म देने वाले कारणों को गहराई से समझने पर, हम दिखाते हैं कि जिस संतृप्ति व्यवहार का हम निरीक्षण करते हैं वह मॉडल की परतों के माध्यम से प्रतिनिधित्व विकसित होने के तरीके से निकटता से संबंधित है। हम और भी अधिक चरम परिदृश्य का प्रदर्शन करते हैं जहां अपस्ट्रीम और डाउनस्ट्रीम पर प्रदर्शन एक-दूसरे के विपरीत हैं। यानी, बेहतर डाउनस्ट्रीम प्रदर्शन के लिए, हमें अपस्ट्रीम सटीकता को चोट पहुंचाने की जरूरत है।'

RSI अध्ययन शीर्षक है बड़े पैमाने पर पूर्व-प्रशिक्षण की सीमाओं की खोज, और Google रिसर्च के चार लेखकों से आता है।

'संतृप्ति' की जांच

लेखक हाइपरस्केल डेटा युग में मशीन लर्निंग> डेटा संबंधों की प्रचलित धारणाओं को चुनौती देते हैं: स्केलिंग मॉडल और डेटा आकार उल्लेखनीय रूप से प्रदर्शन में सुधार करते हैं (एक धारणा जो इसके लॉन्च के बाद से जीपीटी -3 पर प्रचार में पुख्ता हुई है); और यह बेहतर प्रदर्शन एक रैखिक (यानी वांछनीय) तरीके से डाउनस्ट्रीम कार्यों से 'गुजरता है', ताकि ऑन-डिवाइस एल्गोरिदम जो अंततः बाजार में लॉन्च किए जाते हैं, अन्यथा अनियंत्रित रूप से विशाल डेटासेट और अप्रशिक्षित प्रशिक्षित मॉडल से प्राप्त होते हैं, पूरी तरह से लाभान्वित होते हैं पूर्ण आकार, अपस्ट्रीम आर्किटेक्चर की अंतर्दृष्टि।

'ये विचार,' शोधकर्ताओं ने नोट किया 'सुझाव है कि एक विशाल कोष पर प्रदर्शन को बेहतर बनाने के लिए गणना और अनुसंधान प्रयास खर्च करने से लाभ होगा क्योंकि इससे हम कई डाउनस्ट्रीम कार्यों को लगभग मुफ्त में हल करने में सक्षम होंगे।'

लेकिन पेपर का तर्क है कि कंप्यूटिंग संसाधनों की कमी और मॉडल मूल्यांकन के बाद के 'किफायती' तरीके डेटा वॉल्यूम और उपयोगी एआई सिस्टम के बीच संबंध गतिशीलता की गलत धारणा में योगदान दे रहे हैं। लेखक इस आदत को 'एक बड़ी कमी' के रूप में पहचानते हैं, क्योंकि शोध समुदाय आमतौर पर मानता है कि स्थानीय (सकारात्मक) परिणाम बाद में उपयोगी कार्यान्वयन में तब्दील होंगे:

'[कारण] सीमाओं की गणना करने के लिए, हाइपर-पैरामीटर मानों के विभिन्न विकल्पों के लिए प्रदर्शन की रिपोर्ट नहीं की जाती है। स्केलिंग प्लॉट अधिक अनुकूल प्रतीत होते हैं यदि प्रत्येक स्केल के लिए चुना गया हाइपर-पैरामीटर एक साधारण स्केलिंग फ़ंक्शन द्वारा तय या निर्धारित किया जाता है।'

शोधकर्ता आगे कहते हैं कि कई स्केलिंग अध्ययनों को पूर्ण पैमाने के विरुद्ध नहीं, बल्कि अत्याधुनिक (एसओटीए) के विरुद्ध वृद्धिशील सुधारों के रूप में मापा जाता है, यह देखते हुए कि 'स्केलिंग को बाहर रखने का कोई कारण, प्राथमिकता नहीं है अध्ययन की गई सीमा'।

पूर्व प्रशिक्षण

पेपर 'प्री-ट्रेनिंग' के अभ्यास को संबोधित करता है, जो कि गणना संसाधनों को बचाने और शून्य से बड़े पैमाने के डेटा पर एक मॉडल को प्रशिक्षित करने के लिए आवश्यक अक्सर भयावह समय-सीमा में कटौती करने के लिए डिज़ाइन किया गया एक उपाय है। प्री-ट्रेनिंग स्नैपशॉट 'एबीसी' को संभालते हैं जिससे प्रशिक्षण के दौरान एक डोमेन के भीतर डेटा सामान्यीकृत हो जाएगा, और आमतौर पर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) से लेकर डीपफेक तक विभिन्न प्रकार के मशीन लर्निंग क्षेत्रों और विशिष्टताओं में उपयोग किया जाता है।

पिछला अकादमिक शोध है पाया पूर्व-प्रशिक्षण से मॉडल की मजबूती और सटीकता में उल्लेखनीय सुधार हो सकता है, लेकिन नए पेपर से पता चलता है कि सुविधाओं की जटिलता, यहां तक ​​​​कि अपेक्षाकृत कम-प्रशिक्षित पूर्व-प्रशिक्षण टेम्पलेट्स में भी, यदि पाइपलाइन में बाद की प्रक्रियाओं के लिए लाइन से नीचे ले जाया जाए तो अधिक लाभ हो सकता है। .

हालाँकि, ऐसा नहीं हो सकता है यदि शोधकर्ता पूर्व-प्रशिक्षित मॉडलों पर निर्भर रहना जारी रखते हैं जो सीखने की दरों के अनुप्रयोग में वर्तमान सर्वोत्तम अभ्यास का उपयोग करते हैं, जो अनुसंधान का निष्कर्ष है, काम के अंतिम अनुप्रयोगों की अंतिम सटीकता को उल्लेखनीय रूप से प्रभावित कर सकता है। इस संबंध में, लेखक ध्यान देते हैं कि 'कोई भी एक पूर्व-प्रशिक्षित चेकपॉइंट ढूंढने की उम्मीद नहीं कर सकता है जो सभी संभावित डाउनस्ट्रीम कार्यों पर अच्छा प्रदर्शन करता है।'

अध्ययन

संतृप्ति प्रभाव को स्थापित करने के लिए, लेखकों ने विज़न ट्रांसफॉर्मर, रेसनेट और एमएलपी-मिक्सर पर 4800 प्रयोग किए, जिनमें से प्रत्येक में 10 मिलियन से 10 बिलियन तक अलग-अलग पैरामीटर थे, सभी को संबंधित क्षेत्रों में उपलब्ध उच्चतम-मात्रा वाले डेटासेट पर प्रशिक्षित किया गया था। शामिल इमेजनेट21के और Google का अपना जेएफटी-300एम.

पेपर का दावा है कि परिणाम यह दर्शाते हैं डेटा विविधता डेटा, मॉडल पैरामीटर और गणना समय को 'स्केल अप' करने का प्रयास करते समय इसे एक अतिरिक्त धुरी के रूप में माना जाना चाहिए। जैसा कि यह खड़ा है, एआई पाइपलाइन के अपस्ट्रीम खंड पर प्रशिक्षण संसाधनों (और शोधकर्ता का ध्यान) की भारी एकाग्रता 'संतृप्ति' के एक बिंदु तक मापदंडों के हिमस्खलन के साथ डाउनस्ट्रीम अनुप्रयोगों को प्रभावी ढंग से नष्ट कर रही है, जिससे नेविगेट करने के लिए तैनात एल्गोरिदम की क्षमता कम हो जाती है। सुविधाओं के माध्यम से और अनुमान या प्रभाव परिवर्तन करते हैं।

पेपर का निष्कर्ष है:

'एक व्यापक अध्ययन के माध्यम से, हमने यह स्थापित किया है कि जैसे-जैसे हम स्केल अप या हाइपर-पैरामीटर और वास्तुशिल्प विकल्पों द्वारा अपस्ट्रीम कार्य के प्रदर्शन में सुधार करते हैं, डाउनस्ट्रीम कार्यों का प्रदर्शन एक संतृप्त व्यवहार दिखाता है। इसके अलावा, हम मजबूत अनुभवजन्य साक्ष्य प्रदान करते हैं कि, आम कथा के विपरीत, स्केलिंग से एक-मॉडल-सभी के लिए उपयुक्त समाधान नहीं मिल पाता है।'