рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдПрдХ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЛ рдиреБрдХрд╕рд╛рди рдЖрд╕рд╛рдиреА рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╢реЛрдз рдореЗрдВ рдкрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ

अमेरिका से नए शोध से पता चलता है कि फाइन-ट्यूनिंग एक एआई फाउंडेशन मॉडल को अपने डेटा पर करने से मूल मॉडल की कार्यक्षमता में कमी या नुकसान नहीं होना चाहिए – और एक tương đối सरल समाधान न केवल मूल मॉडल की क्षमताओं को बहाल कर सकता है, बल्कि वास्तव में सुधार आउटपुट की गुणवत्ता को बेहतर बना सकता है जो आप (पहले से प्रशिक्षित) मॉडल से प्राप्त करने का प्रयास कर रहे हैं।

विविध मॉडलों पर लेखकों के नए पोस्ट-ट्रेनिंग कैलिब्रेशन पर प्रदर्शन लाभ। आगे विवरण लेख में बाद में। स्रोत: http://export.arxiv.org/pdf/2409.16223
इसके परिणाम महत्वपूर्ण हैं, न केवल तकनीकी दिग्गजों के लिए जिनका ध्यान जनरेटिव सिस्टम ‘एज़-ए-सर्विस’ के वित्तीय लाभों पर केंद्रित है, बल्कि बढ़ती संख्या में ‘कॉर्ड-कटर’ शौकीनों के लिए भी जो ओपन सोर्स मॉडल डाउनलोड और अनुकूलित करते हैं, ताकि वे सस्ते में और कम प्रतिबंधों के साथ व्यक्तिगत एआई लेखन और छवि/वीडियो जनरेशन सिस्टम तक पहुंच सकें।
लेखक पेपर के लिए अपने उत्साह को दिखाने से नहीं हिचकिचाते हैं, जो 2023 प्रस्तुति होलिस्टिक ट्रांसफर: नॉन-डिसरप्टिव फाइन-ट्यूनिंग के साथ पार्टियल टार्गेट डेटा (जिसमें नए पेपर के कई योगदानकर्ता शामिल हैं) पर महत्वपूर्ण प्रगति करता है।
वे कहते हैं:
‘परिणाम उत्साहजनक हैं और गहरे अर्थों में परिणाम हैं! वे यह बताते हैं कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन संभावित रूप से फाइन-ट्यून्ड मॉडल की कमजोर सटीकता को अनुपस्थित वर्गों पर संबोधित कर सकता है, मूल प्रशिक्षित मॉडल की क्षमता को बहाल करते हुए और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार लाता है।’
हम जल्द ही नए काम पर एक नज़र डालेंगे। पहले, आइए देखें कि यह किस समस्या का समाधान करने का प्रयास कर रहा है।
क्यों यह मायने रखता है
फाइन-ट्यूनिंग की पहली लहर व्यापक रूप से स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन टेक्स्ट-टू-इमेज मॉडल के अगस्त 2002 में रिलीज़ होने के बाद हुई। शुरुआती मॉडल, जो हाइपरस्केल लायोन डेटासेट के एक उपसेट पर प्रशिक्षित किए गए थे, को किसी के लिए भी डाउनलोड करने के लिए उपलब्ध कराया गया था।
हालांकि, जो उपयोगकर्ता स्टेबल डिफ्यूजन की असाधारण जनरेटिव गुणवत्ता में विशिष्ट सामग्री (जैसे कि उनकी अपनी पहचान, कला शैली, या मशहूर हस्तियों का प्रतिनिधित्व) डालना चाहते थे, उन्हें ड्रीमबूथ जैसी तकनीकों का उपयोग करने की आवश्यकता थी – जो एक गूगल रिसर्च अनुकूलन विधि का विस्तार था, जिसने उपयोगकर्ता को मुफ्त में उपलब्ध मॉडल में नए डेटा को प्रशिक्षित करने की अनुमति दी, फाइन-ट्यूनिंग के माध्यम से।

2022 से गूगल के आधिकारिक ड्रीमबूथ कार्यान्वयन के लिए उपयोगकर्ता प्रक्रिया के उदाहरण। उपयोगकर्ता छवियों का एक छोटा सा चयन करता है और फाइन-ट्यून्ड मॉडल से टेक्स्ट-प्रोम्प्ट्स में एक अद्वितीय नाम (जो स्टेबल डिफ्यूजन के प्रशिक्षण डेटा में नहीं है) चुनता है। स्रोत: https://dreambooth.github.io/
इस तरह, यह संभव था कि एक मॉडल की प्रतिलिपि प्राप्त की जाए जो एक विशिष्ट व्यक्ति या एक कस्टम कला शैली को बनाने में बहुत अच्छा था, लेकिन जो अब ‘सामान्य उपयोग’ के लिए समझौता था।
इसका मतलब था कि यदि आप स्टेबल डिफ्यूजन को तीन अलग-अलग लोगों को सटीक रूप से चित्रित करने के लिए फाइन-ट्यून करना चाहते थे, तो आपको तीन अलग-अलग मॉडल बनाने होंगे, प्रत्येक 2-4GB, या अधिक।
इन मॉडलों को दूसरी बार फाइन-ट्यून करने का कोई भी प्रयास न केवल मॉडल के सामान्य प्रदर्शन को और अधिक खराब कर देगा, बल्कि पिछले फाइन-ट्यूनिंग सत्र से आउटपुट को भी प्रतिकूल रूप से प्रभावित करेगा।
किसी भी मामले में, सेलिब्रिटी ड्रीमबूथ मॉडल जल्द ही इंटरनेट पर फैल गए, मुख्य रूप से सिविट.एआई डोमेन में। अंततः, लो-रैंक एडैप्टेशन जैसे कम कठिन विधियां फाइन-ट्यूनिंग की लोकप्रियता में आगे निकल गईं (हालांकि यह सवाल बना हुआ है कि क्या लोरा आउटपुट एक पूर्ण फाइन-ट्यून के रूप में प्रभावी है, और एनवीडीआईए नेsince ओपन-सोर्स एक और दृष्टिकोण को कहा जाता है DoRA).
एक लो-रैंक एडैप्टेशन पैरामीटर-эффектив फाइन-ट्यूनिंग (PEFT) की श्रेणी में आता है, जो मॉडल के प्रशिक्षित पैरामीटरों के एक उपसेट को प्रभावित करता है।
कुछ उपयोगकर्ता ओपन-सोर्स स्टेबल डिफ्यूजन चेकपॉइंट की मूल प्रकृति को बदलना चाहते थे, उन्हें कई हजारों छवियों पर फाइन-ट्यून करते हुए।
इसके परिणामस्वरूप, एक वैकल्पिक फाउंडेशन मॉडल उत्पन्न हुआ, जो उपयोगकर्ता द्वारा प्रशिक्षित किए जा रहे डोमेन (जैसे कि एक विशिष्ट कला शैली) के लिए समर्पित था।
इस उद्देश्य के लिए, ‘लाइटवेट’ विधियां जैसे कि लोरा कम प्रभावी होने की संभावना थी, क्योंकि मॉडल के वजन को नए प्रशिक्षण डेटा की ओर गंभीर पूर्वाग्रह की आवश्यकता थी।
स्थानीय चैट
लार्ज लैंग्वेज मॉडल (LLM) में हाल के उत्साह के साथ, उपयोगकर्ता जो API-चालित सेवाओं जैसे कि ChatGPT के बढ़ते आउटलेट (और संबंधित लागत) से बचना चाहते हैं, ने बढ़ती संख्या में ओपन-सोर्स मॉडल डाउनलोड और फाइन-ट्यून शुरू किए हैं, जैसे कि Llama 3, अन्य कई लोगों के बीच।
यहां भी, लोरा का उपयोग पूर्ण चेकपॉइंट के बजाय किया जा सकता है। हमने पहले तर्क दिया है कि फाइन-ट्यूनिंग एलएलएम के लिए एक बेहतर विधि है जो विशिष्ट उपयोगकर्ता की आवश्यकताओं के अनुसार अनुकूलित है।
फाइन-ट्यूनिंग की समस्या यह है कि यह एक विनाशकारी प्रक्रिया है जिसे बाद में अतिरिक्त डेटा पर प्रशिक्षित नहीं किया जा सकता है, जैसा कि हमने ऊपर उल्लेख किया है।
मॉडल में इंजेक्ट किए जा रहे सुविधाओं और पूर्वाग्रहों को स्पष्ट रूप से मूल डेटासेट में वजनों के मूल संतुलन को परेशान करता है, जिसका अर्थ है कि मॉडल या तो उपयोगकर्ता-योगदान डेटा को अत्यधिक प्रतिबिंबित करने की संभावना है, या नए डेटा से संबंधित कार्यों के लिए कम प्रदर्शन करेगा जो मूल फाउंडेशन मॉडल (नए डेटा से संबंधित कार्यों पर) से बेहतर है।
एक可以 इसे एक हद तक कुछ भागों को फ्रीज करके ठीक कर सकता है; लेकिन इससे सामान्य कार्यक्षमता में कमी आ सकती है, क्योंकि फ्रीज़ की गई आर्किटेक्चर का हिस्सा मॉडल के लेटेंट स्पेस में नए फाइन-ट्यून्ड डेटा के लिए अच्छी तरह से सामान्य नहीं हो सकता है।
तो यह वास्तव में अच्छा होगा अगर फाइन-ट्यून्ड मॉडल की मूल क्षमताओं को संरक्षित करने का एक आसान तरीका हो, जबकि मॉडल की फाइन-ट्यूनिंग डेटा पर आउटपुट उत्पन्न करने की क्षमता को बनाए रखना है।
पोस्ट-प्रोसेसिंग कैलिब्रेशन
यह हमें नए पेपर पर वापस लाता है, जिसे फाइन-ट्यूनिंग इज़ फाइन, इफ कैलिब्रेटेड कहा जाता है, और ओहियो स्टेट यूनिवर्सिटी, विस्कॉन्सिन मैडिसन यूनिवर्सिटी, और रेंसेलर पॉलिटेक्निक इंस्टीट्यूट के 11 शोधकर्ताओं द्वारा आता है।
शोधकर्ता यह पता लगाने की कोशिश कर रहे थे कि फाइन-ट्यूनिंग में एक फाउंडेशन मॉडल में क्या नुकसान होता है। उन्होंने निष्कर्ष निकाला कि ‘पहले और बाद’ मॉडल के बीच एकमात्र बड़ा अंतर यह है कि फाइन-ट्यूनिंग वर्गों और मॉडल में मूल वर्गों के लॉगिट स्केल में एक बड़ा विचलन है।
लॉगिट लिंक एक लॉजिकल रिग्रेशन प्रक्रिया में सफलता की संभावना की भविष्यवाणी करते हैं, जो अनुमानित मूल्यों (जो बहुत सटीक हो सकते हैं) को शून्य या एक में परिवर्तित करते हैं।
लेखकों ने न केवल यह पाया कि यह घाटा एक कैलिब्रेशन तकनीक द्वारा लगभग आसानी से उलट हो जाता है, बल्कि यह पोस्ट फैक्टो समाधान वास्तव में फाइन-ट्यूनिंग डेटा के लिए आउटपुट की गुणवत्ता में सुधार करता है। इसलिए, इस तकनीक के साथ, आपको न केवल फाउंडेशन मॉडल की मूल क्षमताएं मिलती हैं, बल्कि आपको अपने फाइन-ट्यून्ड डेटा का बेहतर एकीकरण भी मिलता है।
(हालांकि पेपर इस संभावना की जांच नहीं करता है, यह तकनीक यह बताती है कि एक मॉडल को कई बार फाइन-ट्यून किया जा सकता है और अभी भी प्रभावी रह सकता है)
फाइन-ट्यूनिंग के बाद मॉडल की क्षति की जांच में अपने निष्कर्षों पर चर्चा करते हुए, लेखक कहते हैं:
‘हमें आश्चर्य है कि फाइन-ट्यून्ड मॉडल अन्य वर्गों के बीच संबंध को नहीं भूलता है और इन वर्गों को पहचानने के लिए सुविधाओं को खराब नहीं करता है।
‘इसके बजाय, फाइन-ट्यून्ड मॉडल अक्सर इन अन्य वर्गों के लिए अधिक विभेदक सुविधाएं उत्पन्न करता है, भले ही वे फाइन-ट्यूनिंग के दौरान अनुपस्थित थीं!
‘[जो] वास्तव में सटीकता को नुकसान पहुंचाता है वह फाइन-ट्यूनिंग वर्गों और अन्य [वर्गों] के बीच विचलन लॉगिट स्केल है, जो यह बताता है कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन मूल प्रशिक्षित मॉडल की क्षमता को बहाल कर सकता है और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार ला सकता है।’
लेखकों ने अपने सिद्धांत के परीक्षण के परिणामों को एक गिटहब रिपॉजिटरी में पुनरुत्पादित किया है।
उन्होंने पाया कि जांच में, फाउंडेशन मॉडल की वास्तुकला का एकमात्र हिस्सा जो फाइन-ट्यूनिंग में क्षतिग्रस्त हो जाता है वह बाइनरी क्लासिफायर है, जो मूल मॉडल में अनुपस्थित वर्गों को गलत वर्गीकृत करता है जो फाइन-ट्यूनिंग वर्गों के रूप में हैं।
मामूली मरम्मत
फाइन-ट्यूनिंग के परिणामस्वरूप उत्पन्न लॉगिट विचलन की मरम्मत करने के लिए, लेखकों ने एक तकनीक का उपयोग किया शून्य-शॉट लर्निंग से, सभी अनुपस्थित वर्गों के लॉगिट में एक निरंतर कारक जोड़कर। इसका परिणाम एक नई वर्गीकरण नियम है।
लेखकों का उल्लेख है कि यह प्रक्रिया ‘प्रोत्साहित’ करती है उपेक्षित अनुपस्थित वर्गों को फाइन-ट्यून्ड वर्गों की समान भविष्यवाणी गुणवत्ता तक बढ़ाती है, मूल प्रदर्शन को बहाल करती है और अनुमान समय पर ‘जोड़े गए’ डेटा के प्रदर्शन में सुधार करती है।

परीक्षणों में, पोस्ट-कैलिब्रेशन तकनीक ने विविध फाइन-ट्यून्ड मॉडल के प्रदर्शन को बहाल किया। तालिका में दिखाए गए ‘ओरेकल’ एक फाइन-ट्यून्ड क्लासिफायर को संदर्भित करता है जो अनुपस्थित वर्ग डेटा को भी ध्यान में रखता है।
वे आगे观察 करते हैं कि पोस्ट-प्रोसेसिंग कैलिब्रेशन ‘संभावित रूप से किसी भी मॉडल पर लागू’ हो सकता है, और यह कि वे तरीके जो फाउंडेशन मॉडल की अखंडता को बनाए रखने का प्रयास करते हैं (जैसे कि क्लासिफायर और बैकबोन को फ्रीज करना) अपने प्रस्तावित दृष्टिकोण की तुलना में खराब स्कोर करते हैं।
निष्कर्ष
इस सहयोग से प्राप्त निष्कर्ष महत्वपूर्ण प्रतीत होते हैं। एक एआई मॉडल को हाइपरस्केल डेटासेट पर प्रशिक्षित करना एक बड़ा प्रयास है, जो एक यात्री विमान के उड़ान भरने के समान है। हालांकि प्रशिक्षण बीच में रोका जा सकता है, और किसी भी नुकसान को कम किया जा सकता है bằng बचत वर्तमान वजन को आवधिक रूप से (काफी भंडारण लागत पर), ताकि प्रशिक्षण में व्यवधान हो सके, लेकिन प्रशिक्षण के बाद परिणाम को बदलने के लिए बहुत कम किया जा सकता है।
क्या आश्चर्यजनक है कि शोधकर्ताओं ने सामान्य एआई मॉडल प्रशिक्षण में एक मूलभूत सिद्धांत की खोज की है, और उनका समाधान आश्चर्यजनक रूप से सुंदर है।
फाइन-ट्यूनिंग के बाद फाउंडेशन मॉडल की सटीकता को बनाए रखने में सक्षम होने के आर्थिक परिणाम भी महत्वपूर्ण हैं। अब तक, मल्टी-मिलियन डॉलर मॉडल की कमियों को संबोधित करने का सबसे आम तरीका आउटपुट को अनुमान समय पर फिल्टर करना या अनुमान को नियंत्रित करना था, ताकि मॉडल में किसी भी कमजोरी से बचा जा सके।
इसके अलावा, ऐसी तकनीक से उपभोक्ता स्तर पर फाइन-ट्यून्ड जनरेटिव मॉडल की क्षमताओं में महत्वपूर्ण सुधार हो सकता है, आउटपुट की गुणवत्ता में वृद्धि के साथ।
* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना।
मंगलवार, 1 अक्टूबर, 2024 को पहली बार प्रकाशित












