Connect with us

рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдПрдХ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЛ рдиреБрдХрд╕рд╛рди рдЖрд╕рд╛рдиреА рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╢реЛрдз рдореЗрдВ рдкрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдПрдХ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЛ рдиреБрдХрд╕рд╛рди рдЖрд╕рд╛рдиреА рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╢реЛрдз рдореЗрдВ рдкрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ

mm
AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

अमेरिका से नए शोध से पता चलता है कि फाइन-ट्यूनिंग एक एआई फाउंडेशन मॉडल को अपने डेटा पर करने से मूल मॉडल की कार्यक्षमता में कमी या नुकसान नहीं होना चाहिए – और एक tương đối सरल समाधान न केवल मूल मॉडल की क्षमताओं को बहाल कर सकता है, बल्कि वास्तव में सुधार आउटपुट की गुणवत्ता को बेहतर बना सकता है जो आप (पहले से प्रशिक्षित) मॉडल से प्राप्त करने का प्रयास कर रहे हैं।

рд╡рд┐рд╡рд┐рдз рдореЙрдбрд▓реЛрдВ рдкрд░ рд▓реЗрдЦрдХреЛрдВ рдХреЗ рдирдП рдкреЛрд╕реНрдЯ-рдЯреНрд░реЗрдирд┐рдВрдЧ рдХреИрд▓рд┐рдмреНрд░реЗрд╢рди рдкрд░ рдкреНрд░рджрд░реНрд╢рди рд▓рд╛рднред рдЖрдЧреЗ рд╡рд┐рд╡рд░рдг рд▓реЗрдЦ рдореЗрдВ рдмрд╛рдж рдореЗрдВред рд╕реНрд░реЛрдд: http://export.arxiv.org/pdf/2409.16223

विविध मॉडलों पर लेखकों के नए पोस्ट-ट्रेनिंग कैलिब्रेशन पर प्रदर्शन लाभ। आगे विवरण लेख में बाद में। स्रोत: http://export.arxiv.org/pdf/2409.16223

इसके परिणाम महत्वपूर्ण हैं, न केवल तकनीकी दिग्गजों के लिए जिनका ध्यान जनरेटिव सिस्टम ‘एज़-ए-सर्विस’ के वित्तीय लाभों पर केंद्रित है, बल्कि बढ़ती संख्या में ‘कॉर्ड-कटर’ शौकीनों के लिए भी जो ओपन सोर्स मॉडल डाउनलोड और अनुकूलित करते हैं, ताकि वे सस्ते में और कम प्रतिबंधों के साथ व्यक्तिगत एआई लेखन और छवि/वीडियो जनरेशन सिस्टम तक पहुंच सकें।

लेखक पेपर के लिए अपने उत्साह को दिखाने से नहीं हिचकिचाते हैं, जो 2023 प्रस्तुति होलिस्टिक ट्रांसफर: नॉन-डिसरप्टिव फाइन-ट्यूनिंग के साथ पार्टियल टार्गेट डेटा (जिसमें नए पेपर के कई योगदानकर्ता शामिल हैं) पर महत्वपूर्ण प्रगति करता है।

वे कहते हैं:

‘परिणाम उत्साहजनक हैं और गहरे अर्थों में परिणाम हैं! वे यह बताते हैं कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन संभावित रूप से फाइन-ट्यून्ड मॉडल की कमजोर सटीकता को अनुपस्थित वर्गों पर संबोधित कर सकता है, मूल प्रशिक्षित मॉडल की क्षमता को बहाल करते हुए और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार लाता है।’

हम जल्द ही नए काम पर एक नज़र डालेंगे। पहले, आइए देखें कि यह किस समस्या का समाधान करने का प्रयास कर रहा है।

क्यों यह मायने रखता है

फाइन-ट्यूनिंग की पहली लहर व्यापक रूप से स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन टेक्स्ट-टू-इमेज मॉडल के अगस्त 2002 में रिलीज़ होने के बाद हुई। शुरुआती मॉडल, जो हाइपरस्केल लायोन डेटासेट के एक उपसेट पर प्रशिक्षित किए गए थे, को किसी के लिए भी डाउनलोड करने के लिए उपलब्ध कराया गया था।

हालांकि, जो उपयोगकर्ता स्टेबल डिफ्यूजन की असाधारण जनरेटिव गुणवत्ता में विशिष्ट सामग्री (जैसे कि उनकी अपनी पहचान, कला शैली, या मशहूर हस्तियों का प्रतिनिधित्व) डालना चाहते थे, उन्हें ड्रीमबूथ जैसी तकनीकों का उपयोग करने की आवश्यकता थी – जो एक गूगल रिसर्च अनुकूलन विधि का विस्तार था, जिसने उपयोगकर्ता को मुफ्त में उपलब्ध मॉडल में नए डेटा को प्रशिक्षित करने की अनुमति दी, फाइन-ट्यूनिंग के माध्यम से।

2022 рд╕реЗ рдЧреВрдЧрд▓ рдХреЗ рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рдбреНрд░реАрдордмреВрде рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЗ рдЙрджрд╛рд╣рд░рдгред рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЫрд╡рд┐рдпреЛрдВ рдХрд╛ рдПрдХ рдЫреЛрдЯрд╛ рд╕рд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ рдФрд░ рдлрд╛рдЗрди-рдЯреНрдпреВрдиреНрдб рдореЙрдбрд▓ рд╕реЗ рдЯреЗрдХреНрд╕реНрдЯ-рдкреНрд░реЛрдореНрдкреНрдЯреНрд╕ рдореЗрдВ рдПрдХ рдЕрджреНрд╡рд┐рддреАрдп рдирд╛рдо (рдЬреЛ рд╕реНрдЯреЗрдмрд▓ рдбрд┐рдлреНрдпреВрдЬрди рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдореЗрдВ рдирд╣реАрдВ рд╣реИ) рдЪреБрдирддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://dreambooth.github.io/

2022 से गूगल के आधिकारिक ड्रीमबूथ कार्यान्वयन के लिए उपयोगकर्ता प्रक्रिया के उदाहरण। उपयोगकर्ता छवियों का एक छोटा सा चयन करता है और फाइन-ट्यून्ड मॉडल से टेक्स्ट-प्रोम्प्ट्स में एक अद्वितीय नाम (जो स्टेबल डिफ्यूजन के प्रशिक्षण डेटा में नहीं है) चुनता है। स्रोत: https://dreambooth.github.io/

इस तरह, यह संभव था कि एक मॉडल की प्रतिलिपि प्राप्त की जाए जो एक विशिष्ट व्यक्ति या एक कस्टम कला शैली को बनाने में बहुत अच्छा था, लेकिन जो अब ‘सामान्य उपयोग’ के लिए समझौता था।

इसका मतलब था कि यदि आप स्टेबल डिफ्यूजन को तीन अलग-अलग लोगों को सटीक रूप से चित्रित करने के लिए फाइन-ट्यून करना चाहते थे, तो आपको तीन अलग-अलग मॉडल बनाने होंगे, प्रत्येक 2-4GB, या अधिक।

इन मॉडलों को दूसरी बार फाइन-ट्यून करने का कोई भी प्रयास न केवल मॉडल के सामान्य प्रदर्शन को और अधिक खराब कर देगा, बल्कि पिछले फाइन-ट्यूनिंग सत्र से आउटपुट को भी प्रतिकूल रूप से प्रभावित करेगा।

किसी भी मामले में, सेलिब्रिटी ड्रीमबूथ मॉडल जल्द ही इंटरनेट पर फैल गए, मुख्य रूप से सिविट.एआई डोमेन में। अंततः, लो-रैंक एडैप्टेशन जैसे कम कठिन विधियां फाइन-ट्यूनिंग की लोकप्रियता में आगे निकल गईं (हालांकि यह सवाल बना हुआ है कि क्या लोरा आउटपुट एक पूर्ण फाइन-ट्यून के रूप में प्रभावी है, और एनवीडीआईए नेsince ओपन-सोर्स एक और दृष्टिकोण को कहा जाता है DoRA).

एक लो-रैंक एडैप्टेशन पैरामीटर-эффектив फाइन-ट्यूनिंग (PEFT) की श्रेणी में आता है, जो मॉडल के प्रशिक्षित पैरामीटरों के एक उपसेट को प्रभावित करता है।

कुछ उपयोगकर्ता ओपन-सोर्स स्टेबल डिफ्यूजन चेकपॉइंट की मूल प्रकृति को बदलना चाहते थे, उन्हें कई हजारों छवियों पर फाइन-ट्यून करते हुए।

इसके परिणामस्वरूप, एक वैकल्पिक फाउंडेशन मॉडल उत्पन्न हुआ, जो उपयोगकर्ता द्वारा प्रशिक्षित किए जा रहे डोमेन (जैसे कि एक विशिष्ट कला शैली) के लिए समर्पित था।

इस उद्देश्य के लिए, ‘लाइटवेट’ विधियां जैसे कि लोरा कम प्रभावी होने की संभावना थी, क्योंकि मॉडल के वजन को नए प्रशिक्षण डेटा की ओर गंभीर पूर्वाग्रह की आवश्यकता थी।

स्थानीय चैट

लार्ज लैंग्वेज मॉडल (LLM) में हाल के उत्साह के साथ, उपयोगकर्ता जो API-चालित सेवाओं जैसे कि ChatGPT के बढ़ते आउटलेट (और संबंधित लागत) से बचना चाहते हैं, ने बढ़ती संख्या में ओपन-सोर्स मॉडल डाउनलोड और फाइन-ट्यून शुरू किए हैं, जैसे कि Llama 3, अन्य कई लोगों के बीच।

यहां भी, लोरा का उपयोग पूर्ण चेकपॉइंट के बजाय किया जा सकता है। हमने पहले तर्क दिया है कि फाइन-ट्यूनिंग एलएलएम के लिए एक बेहतर विधि है जो विशिष्ट उपयोगकर्ता की आवश्यकताओं के अनुसार अनुकूलित है।

फाइन-ट्यूनिंग की समस्या यह है कि यह एक विनाशकारी प्रक्रिया है जिसे बाद में अतिरिक्त डेटा पर प्रशिक्षित नहीं किया जा सकता है, जैसा कि हमने ऊपर उल्लेख किया है।

मॉडल में इंजेक्ट किए जा रहे सुविधाओं और पूर्वाग्रहों को स्पष्ट रूप से मूल डेटासेट में वजनों के मूल संतुलन को परेशान करता है, जिसका अर्थ है कि मॉडल या तो उपयोगकर्ता-योगदान डेटा को अत्यधिक प्रतिबिंबित करने की संभावना है, या नए डेटा से संबंधित कार्यों के लिए कम प्रदर्शन करेगा जो मूल फाउंडेशन मॉडल (नए डेटा से संबंधित कार्यों पर) से बेहतर है।

एक可以 इसे एक हद तक कुछ भागों को फ्रीज करके ठीक कर सकता है; लेकिन इससे सामान्य कार्यक्षमता में कमी आ सकती है, क्योंकि फ्रीज़ की गई आर्किटेक्चर का हिस्सा मॉडल के लेटेंट स्पेस में नए फाइन-ट्यून्ड डेटा के लिए अच्छी तरह से सामान्य नहीं हो सकता है।

तो यह वास्तव में अच्छा होगा अगर फाइन-ट्यून्ड मॉडल की मूल क्षमताओं को संरक्षित करने का एक आसान तरीका हो, जबकि मॉडल की फाइन-ट्यूनिंग डेटा पर आउटपुट उत्पन्न करने की क्षमता को बनाए रखना है।

पोस्ट-प्रोसेसिंग कैलिब्रेशन

यह हमें नए पेपर पर वापस लाता है, जिसे फाइन-ट्यूनिंग इज़ फाइन, इफ कैलिब्रेटेड कहा जाता है, और ओहियो स्टेट यूनिवर्सिटी, विस्कॉन्सिन मैडिसन यूनिवर्सिटी, और रेंसेलर पॉलिटेक्निक इंस्टीट्यूट के 11 शोधकर्ताओं द्वारा आता है।

शोधकर्ता यह पता लगाने की कोशिश कर रहे थे कि फाइन-ट्यूनिंग में एक फाउंडेशन मॉडल में क्या नुकसान होता है। उन्होंने निष्कर्ष निकाला कि ‘पहले और बाद’ मॉडल के बीच एकमात्र बड़ा अंतर यह है कि फाइन-ट्यूनिंग वर्गों और मॉडल में मूल वर्गों के लॉगिट स्केल में एक बड़ा विचलन है।

लॉगिट लिंक एक लॉजिकल रिग्रेशन प्रक्रिया में सफलता की संभावना की भविष्यवाणी करते हैं, जो अनुमानित मूल्यों (जो बहुत सटीक हो सकते हैं) को शून्य या एक में परिवर्तित करते हैं।

लेखकों ने न केवल यह पाया कि यह घाटा एक कैलिब्रेशन तकनीक द्वारा लगभग आसानी से उलट हो जाता है, बल्कि यह पोस्ट फैक्टो समाधान वास्तव में फाइन-ट्यूनिंग डेटा के लिए आउटपुट की गुणवत्ता में सुधार करता है। इसलिए, इस तकनीक के साथ, आपको न केवल फाउंडेशन मॉडल की मूल क्षमताएं मिलती हैं, बल्कि आपको अपने फाइन-ट्यून्ड डेटा का बेहतर एकीकरण भी मिलता है।

(हालांकि पेपर इस संभावना की जांच नहीं करता है, यह तकनीक यह बताती है कि एक मॉडल को कई बार फाइन-ट्यून किया जा सकता है और अभी भी प्रभावी रह सकता है)

फाइन-ट्यूनिंग के बाद मॉडल की क्षति की जांच में अपने निष्कर्षों पर चर्चा करते हुए, लेखक कहते हैं:

‘हमें आश्चर्य है कि फाइन-ट्यून्ड मॉडल अन्य वर्गों के बीच संबंध को नहीं भूलता है और इन वर्गों को पहचानने के लिए सुविधाओं को खराब नहीं करता है।

‘इसके बजाय, फाइन-ट्यून्ड मॉडल अक्सर इन अन्य वर्गों के लिए अधिक विभेदक सुविधाएं उत्पन्न करता है, भले ही वे फाइन-ट्यूनिंग के दौरान अनुपस्थित थीं!

‘[जो] वास्तव में सटीकता को नुकसान पहुंचाता है वह फाइन-ट्यूनिंग वर्गों और अन्य [वर्गों] के बीच विचलन लॉगिट स्केल है, जो यह बताता है कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन मूल प्रशिक्षित मॉडल की क्षमता को बहाल कर सकता है और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार ला सकता है।’

लेखकों ने अपने सिद्धांत के परीक्षण के परिणामों को एक गिटहब रिपॉजिटरी में पुनरुत्पादित किया है।

उन्होंने पाया कि जांच में, फाउंडेशन मॉडल की वास्तुकला का एकमात्र हिस्सा जो फाइन-ट्यूनिंग में क्षतिग्रस्त हो जाता है वह बाइनरी क्लासिफायर है, जो मूल मॉडल में अनुपस्थित वर्गों को गलत वर्गीकृत करता है जो फाइन-ट्यूनिंग वर्गों के रूप में हैं।

मामूली मरम्मत

फाइन-ट्यूनिंग के परिणामस्वरूप उत्पन्न लॉगिट विचलन की मरम्मत करने के लिए, लेखकों ने एक तकनीक का उपयोग किया शून्य-शॉट लर्निंग से, सभी अनुपस्थित वर्गों के लॉगिट में एक निरंतर कारक जोड़कर। इसका परिणाम एक नई वर्गीकरण नियम है।

लेखकों का उल्लेख है कि यह प्रक्रिया ‘प्रोत्साहित’ करती है उपेक्षित अनुपस्थित वर्गों को फाइन-ट्यून्ड वर्गों की समान भविष्यवाणी गुणवत्ता तक बढ़ाती है, मूल प्रदर्शन को बहाल करती है और अनुमान समय पर ‘जोड़े गए’ डेटा के प्रदर्शन में सुधार करती है।

рдкрд░реАрдХреНрд╖рдгреЛрдВ рдореЗрдВ, рдкреЛрд╕реНрдЯ-рдХреИрд▓рд┐рдмреНрд░реЗрд╢рди рддрдХрдиреАрдХ рдиреЗ рд╡рд┐рд╡рд┐рдз рдлрд╛рдЗрди-рдЯреНрдпреВрдиреНрдб рдореЙрдбрд▓ рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдмрд╣рд╛рд▓ рдХрд┐рдпрд╛ред рддрд╛рд▓рд┐рдХрд╛ рдореЗрдВ рджрд┐рдЦрд╛рдП рдЧрдП 'рдУрд░реЗрдХрд▓' рдПрдХ рдлрд╛рдЗрди-рдЯреНрдпреВрдиреНрдб рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдХреЛ рд╕рдВрджрд░реНрднрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬреЛ рдЕрдиреБрдкрд╕реНрдерд┐рдд рд╡рд░реНрдЧ рдбреЗрдЯрд╛ рдХреЛ рднреА рдзреНрдпрд╛рди рдореЗрдВ рд░рдЦрддрд╛ рд╣реИред

परीक्षणों में, पोस्ट-कैलिब्रेशन तकनीक ने विविध फाइन-ट्यून्ड मॉडल के प्रदर्शन को बहाल किया। तालिका में दिखाए गए ‘ओरेकल’ एक फाइन-ट्यून्ड क्लासिफायर को संदर्भित करता है जो अनुपस्थित वर्ग डेटा को भी ध्यान में रखता है।

वे आगे观察 करते हैं कि पोस्ट-प्रोसेसिंग कैलिब्रेशन ‘संभावित रूप से किसी भी मॉडल पर लागू’ हो सकता है, और यह कि वे तरीके जो फाउंडेशन मॉडल की अखंडता को बनाए रखने का प्रयास करते हैं (जैसे कि क्लासिफायर और बैकबोन को फ्रीज करना) अपने प्रस्तावित दृष्टिकोण की तुलना में खराब स्कोर करते हैं।

निष्कर्ष

इस सहयोग से प्राप्त निष्कर्ष महत्वपूर्ण प्रतीत होते हैं। एक एआई मॉडल को हाइपरस्केल डेटासेट पर प्रशिक्षित करना एक बड़ा प्रयास है, जो एक यात्री विमान के उड़ान भरने के समान है। हालांकि प्रशिक्षण बीच में रोका जा सकता है, और किसी भी नुकसान को कम किया जा सकता है bằng बचत वर्तमान वजन को आवधिक रूप से (काफी भंडारण लागत पर), ताकि प्रशिक्षण में व्यवधान हो सके, लेकिन प्रशिक्षण के बाद परिणाम को बदलने के लिए बहुत कम किया जा सकता है।

क्या आश्चर्यजनक है कि शोधकर्ताओं ने सामान्य एआई मॉडल प्रशिक्षण में एक मूलभूत सिद्धांत की खोज की है, और उनका समाधान आश्चर्यजनक रूप से सुंदर है।

फाइन-ट्यूनिंग के बाद फाउंडेशन मॉडल की सटीकता को बनाए रखने में सक्षम होने के आर्थिक परिणाम भी महत्वपूर्ण हैं। अब तक, मल्टी-मिलियन डॉलर मॉडल की कमियों को संबोधित करने का सबसे आम तरीका आउटपुट को अनुमान समय पर फिल्टर करना या अनुमान को नियंत्रित करना था, ताकि मॉडल में किसी भी कमजोरी से बचा जा सके।

इसके अलावा, ऐसी तकनीक से उपभोक्ता स्तर पर फाइन-ट्यून्ड जनरेटिव मॉडल की क्षमताओं में महत्वपूर्ण सुधार हो सकता है, आउटपुट की गुणवत्ता में वृद्धि के साथ।

 

* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना।

मंगलवार, 1 अक्टूबर, 2024 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai