कृत्रिम बुद्धिमत्ता

फाइन-ट्यूनिंग एक एआई मॉडल को नुकसान आसानी से पुनर्प्राप्त किया जा सकता है, शोध में पाया गया है

Published October 1, 2024

Updated April 27, 2026

Martin Anderson

AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

अमेरिका से नए शोध से पता चलता है कि फाइन-ट्यूनिंग एक एआई फाउंडेशन मॉडल को अपने डेटा पर करने से मूल मॉडल की कार्यक्षमता में कमी या नुकसान नहीं होना चाहिए – और एक tương đối सरल समाधान न केवल मूल मॉडल की क्षमताओं को बहाल कर सकता है, बल्कि वास्तव में सुधार आउटपुट की गुणवत्ता को बेहतर बना सकता है जो आप (पहले से प्रशिक्षित) मॉडल से प्राप्त करने का प्रयास कर रहे हैं।

विविध मॉडलों पर लेखकों के नए पोस्ट-ट्रेनिंग कैलिब्रेशन पर प्रदर्शन लाभ। आगे विवरण लेख में बाद में। स्रोत: http://export.arxiv.org/pdf/2409.16223

इसके परिणाम महत्वपूर्ण हैं, न केवल तकनीकी दिग्गजों के लिए जिनका ध्यान जनरेटिव सिस्टम ‘एज़-ए-सर्विस’ के वित्तीय लाभों पर केंद्रित है, बल्कि बढ़ती संख्या में ‘कॉर्ड-कटर’ शौकीनों के लिए भी जो ओपन सोर्स मॉडल डाउनलोड और अनुकूलित करते हैं, ताकि वे सस्ते में और कम प्रतिबंधों के साथ व्यक्तिगत एआई लेखन और छवि/वीडियो जनरेशन सिस्टम तक पहुंच सकें।

लेखक पेपर के लिए अपने उत्साह को दिखाने से नहीं हिचकिचाते हैं, जो 2023 प्रस्तुति होलिस्टिक ट्रांसफर: नॉन-डिसरप्टिव फाइन-ट्यूनिंग के साथ पार्टियल टार्गेट डेटा (जिसमें नए पेपर के कई योगदानकर्ता शामिल हैं) पर महत्वपूर्ण प्रगति करता है।

वे कहते हैं:

‘परिणाम उत्साहजनक हैं और गहरे अर्थों में परिणाम हैं! वे यह बताते हैं कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन संभावित रूप से फाइन-ट्यून्ड मॉडल की कमजोर सटीकता को अनुपस्थित वर्गों पर संबोधित कर सकता है, मूल प्रशिक्षित मॉडल की क्षमता को बहाल करते हुए और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार लाता है।’

हम जल्द ही नए काम पर एक नज़र डालेंगे। पहले, आइए देखें कि यह किस समस्या का समाधान करने का प्रयास कर रहा है।

क्यों यह मायने रखता है

फाइन-ट्यूनिंग की पहली लहर व्यापक रूप से स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन टेक्स्ट-टू-इमेज मॉडल के अगस्त 2002 में रिलीज़ होने के बाद हुई। शुरुआती मॉडल, जो हाइपरस्केल लायोन डेटासेट के एक उपसेट पर प्रशिक्षित किए गए थे, को किसी के लिए भी डाउनलोड करने के लिए उपलब्ध कराया गया था।

हालांकि, जो उपयोगकर्ता स्टेबल डिफ्यूजन की असाधारण जनरेटिव गुणवत्ता में विशिष्ट सामग्री (जैसे कि उनकी अपनी पहचान, कला शैली, या मशहूर हस्तियों का प्रतिनिधित्व) डालना चाहते थे, उन्हें ड्रीमबूथ जैसी तकनीकों का उपयोग करने की आवश्यकता थी – जो एक गूगल रिसर्च अनुकूलन विधि का विस्तार था, जिसने उपयोगकर्ता को मुफ्त में उपलब्ध मॉडल में नए डेटा को प्रशिक्षित करने की अनुमति दी, फाइन-ट्यूनिंग के माध्यम से।

2022 से गूगल के आधिकारिक ड्रीमबूथ कार्यान्वयन के लिए उपयोगकर्ता प्रक्रिया के उदाहरण। उपयोगकर्ता छवियों का एक छोटा सा चयन करता है और फाइन-ट्यून्ड मॉडल से टेक्स्ट-प्रोम्प्ट्स में एक अद्वितीय नाम (जो स्टेबल डिफ्यूजन के प्रशिक्षण डेटा में नहीं है) चुनता है। स्रोत: https://dreambooth.github.io/

इस तरह, यह संभव था कि एक मॉडल की प्रतिलिपि प्राप्त की जाए जो एक विशिष्ट व्यक्ति या एक कस्टम कला शैली को बनाने में बहुत अच्छा था, लेकिन जो अब ‘सामान्य उपयोग’ के लिए समझौता था।

इसका मतलब था कि यदि आप स्टेबल डिफ्यूजन को तीन अलग-अलग लोगों को सटीक रूप से चित्रित करने के लिए फाइन-ट्यून करना चाहते थे, तो आपको तीन अलग-अलग मॉडल बनाने होंगे, प्रत्येक 2-4GB, या अधिक।

इन मॉडलों को दूसरी बार फाइन-ट्यून करने का कोई भी प्रयास न केवल मॉडल के सामान्य प्रदर्शन को और अधिक खराब कर देगा, बल्कि पिछले फाइन-ट्यूनिंग सत्र से आउटपुट को भी प्रतिकूल रूप से प्रभावित करेगा।

किसी भी मामले में, सेलिब्रिटी ड्रीमबूथ मॉडल जल्द ही इंटरनेट पर फैल गए, मुख्य रूप से सिविट.एआई डोमेन में। अंततः, लो-रैंक एडैप्टेशन जैसे कम कठिन विधियां फाइन-ट्यूनिंग की लोकप्रियता में आगे निकल गईं (हालांकि यह सवाल बना हुआ है कि क्या लोरा आउटपुट एक पूर्ण फाइन-ट्यून के रूप में प्रभावी है, और एनवीडीआईए नेsince ओपन-सोर्स एक और दृष्टिकोण को कहा जाता है DoRA).

एक लो-रैंक एडैप्टेशन पैरामीटर-эффектив फाइन-ट्यूनिंग (PEFT) की श्रेणी में आता है, जो मॉडल के प्रशिक्षित पैरामीटरों के एक उपसेट को प्रभावित करता है।

कुछ उपयोगकर्ता ओपन-सोर्स स्टेबल डिफ्यूजन चेकपॉइंट की मूल प्रकृति को बदलना चाहते थे, उन्हें कई हजारों छवियों पर फाइन-ट्यून करते हुए।

इसके परिणामस्वरूप, एक वैकल्पिक फाउंडेशन मॉडल उत्पन्न हुआ, जो उपयोगकर्ता द्वारा प्रशिक्षित किए जा रहे डोमेन (जैसे कि एक विशिष्ट कला शैली) के लिए समर्पित था।

इस उद्देश्य के लिए, ‘लाइटवेट’ विधियां जैसे कि लोरा कम प्रभावी होने की संभावना थी, क्योंकि मॉडल के वजन को नए प्रशिक्षण डेटा की ओर गंभीर पूर्वाग्रह की आवश्यकता थी।

स्थानीय चैट

लार्ज लैंग्वेज मॉडल (LLM) में हाल के उत्साह के साथ, उपयोगकर्ता जो API-चालित सेवाओं जैसे कि ChatGPT के बढ़ते आउटलेट (और संबंधित लागत) से बचना चाहते हैं, ने बढ़ती संख्या में ओपन-सोर्स मॉडल डाउनलोड और फाइन-ट्यून शुरू किए हैं, जैसे कि Llama 3, अन्य कई लोगों के बीच।

यहां भी, लोरा का उपयोग पूर्ण चेकपॉइंट के बजाय किया जा सकता है। हमने पहले तर्क दिया है कि फाइन-ट्यूनिंग एलएलएम के लिए एक बेहतर विधि है जो विशिष्ट उपयोगकर्ता की आवश्यकताओं के अनुसार अनुकूलित है।

फाइन-ट्यूनिंग की समस्या यह है कि यह एक विनाशकारी प्रक्रिया है जिसे बाद में अतिरिक्त डेटा पर प्रशिक्षित नहीं किया जा सकता है, जैसा कि हमने ऊपर उल्लेख किया है।

मॉडल में इंजेक्ट किए जा रहे सुविधाओं और पूर्वाग्रहों को स्पष्ट रूप से मूल डेटासेट में वजनों के मूल संतुलन को परेशान करता है, जिसका अर्थ है कि मॉडल या तो उपयोगकर्ता-योगदान डेटा को अत्यधिक प्रतिबिंबित करने की संभावना है, या नए डेटा से संबंधित कार्यों के लिए कम प्रदर्शन करेगा जो मूल फाउंडेशन मॉडल (नए डेटा से संबंधित कार्यों पर) से बेहतर है।

एक可以 इसे एक हद तक कुछ भागों को फ्रीज करके ठीक कर सकता है; लेकिन इससे सामान्य कार्यक्षमता में कमी आ सकती है, क्योंकि फ्रीज़ की गई आर्किटेक्चर का हिस्सा मॉडल के लेटेंट स्पेस में नए फाइन-ट्यून्ड डेटा के लिए अच्छी तरह से सामान्य नहीं हो सकता है।

तो यह वास्तव में अच्छा होगा अगर फाइन-ट्यून्ड मॉडल की मूल क्षमताओं को संरक्षित करने का एक आसान तरीका हो, जबकि मॉडल की फाइन-ट्यूनिंग डेटा पर आउटपुट उत्पन्न करने की क्षमता को बनाए रखना है।

पोस्ट-प्रोसेसिंग कैलिब्रेशन

यह हमें नए पेपर पर वापस लाता है, जिसे फाइन-ट्यूनिंग इज़ फाइन, इफ कैलिब्रेटेड कहा जाता है, और ओहियो स्टेट यूनिवर्सिटी, विस्कॉन्सिन मैडिसन यूनिवर्सिटी, और रेंसेलर पॉलिटेक्निक इंस्टीट्यूट के 11 शोधकर्ताओं द्वारा आता है।

शोधकर्ता यह पता लगाने की कोशिश कर रहे थे कि फाइन-ट्यूनिंग में एक फाउंडेशन मॉडल में क्या नुकसान होता है। उन्होंने निष्कर्ष निकाला कि ‘पहले और बाद’ मॉडल के बीच एकमात्र बड़ा अंतर यह है कि फाइन-ट्यूनिंग वर्गों और मॉडल में मूल वर्गों के लॉगिट स्केल में एक बड़ा विचलन है।

लॉगिट लिंक एक लॉजिकल रिग्रेशन प्रक्रिया में सफलता की संभावना की भविष्यवाणी करते हैं, जो अनुमानित मूल्यों (जो बहुत सटीक हो सकते हैं) को शून्य या एक में परिवर्तित करते हैं।

लेखकों ने न केवल यह पाया कि यह घाटा एक कैलिब्रेशन तकनीक द्वारा लगभग आसानी से उलट हो जाता है, बल्कि यह पोस्ट फैक्टो समाधान वास्तव में फाइन-ट्यूनिंग डेटा के लिए आउटपुट की गुणवत्ता में सुधार करता है। इसलिए, इस तकनीक के साथ, आपको न केवल फाउंडेशन मॉडल की मूल क्षमताएं मिलती हैं, बल्कि आपको अपने फाइन-ट्यून्ड डेटा का बेहतर एकीकरण भी मिलता है।

(हालांकि पेपर इस संभावना की जांच नहीं करता है, यह तकनीक यह बताती है कि एक मॉडल को कई बार फाइन-ट्यून किया जा सकता है और अभी भी प्रभावी रह सकता है)

फाइन-ट्यूनिंग के बाद मॉडल की क्षति की जांच में अपने निष्कर्षों पर चर्चा करते हुए, लेखक कहते हैं:

‘हमें आश्चर्य है कि फाइन-ट्यून्ड मॉडल अन्य वर्गों के बीच संबंध को नहीं भूलता है और इन वर्गों को पहचानने के लिए सुविधाओं को खराब नहीं करता है।

‘इसके बजाय, फाइन-ट्यून्ड मॉडल अक्सर इन अन्य वर्गों के लिए अधिक विभेदक सुविधाएं उत्पन्न करता है, भले ही वे फाइन-ट्यूनिंग के दौरान अनुपस्थित थीं!

‘[जो] वास्तव में सटीकता को नुकसान पहुंचाता है वह फाइन-ट्यूनिंग वर्गों और अन्य [वर्गों] के बीच विचलन लॉगिट स्केल है, जो यह बताता है कि एक सरल पोस्ट-प्रोसेसिंग कैलिब्रेशन मूल प्रशिक्षित मॉडल की क्षमता को बहाल कर सकता है और साथ ही सभी वर्गों पर सुविधा की गुणवत्ता में सुधार ला सकता है।’

लेखकों ने अपने सिद्धांत के परीक्षण के परिणामों को एक गिटहब रिपॉजिटरी में पुनरुत्पादित किया है।

उन्होंने पाया कि जांच में, फाउंडेशन मॉडल की वास्तुकला का एकमात्र हिस्सा जो फाइन-ट्यूनिंग में क्षतिग्रस्त हो जाता है वह बाइनरी क्लासिफायर है, जो मूल मॉडल में अनुपस्थित वर्गों को गलत वर्गीकृत करता है जो फाइन-ट्यूनिंग वर्गों के रूप में हैं।

मामूली मरम्मत

फाइन-ट्यूनिंग के परिणामस्वरूप उत्पन्न लॉगिट विचलन की मरम्मत करने के लिए, लेखकों ने एक तकनीक का उपयोग किया शून्य-शॉट लर्निंग से, सभी अनुपस्थित वर्गों के लॉगिट में एक निरंतर कारक जोड़कर। इसका परिणाम एक नई वर्गीकरण नियम है।

लेखकों का उल्लेख है कि यह प्रक्रिया ‘प्रोत्साहित’ करती है उपेक्षित अनुपस्थित वर्गों को फाइन-ट्यून्ड वर्गों की समान भविष्यवाणी गुणवत्ता तक बढ़ाती है, मूल प्रदर्शन को बहाल करती है और अनुमान समय पर ‘जोड़े गए’ डेटा के प्रदर्शन में सुधार करती है।

परीक्षणों में, पोस्ट-कैलिब्रेशन तकनीक ने विविध फाइन-ट्यून्ड मॉडल के प्रदर्शन को बहाल किया। तालिका में दिखाए गए ‘ओरेकल’ एक फाइन-ट्यून्ड क्लासिफायर को संदर्भित करता है जो अनुपस्थित वर्ग डेटा को भी ध्यान में रखता है।

वे आगे观察 करते हैं कि पोस्ट-प्रोसेसिंग कैलिब्रेशन ‘संभावित रूप से किसी भी मॉडल पर लागू’ हो सकता है, और यह कि वे तरीके जो फाउंडेशन मॉडल की अखंडता को बनाए रखने का प्रयास करते हैं (जैसे कि क्लासिफायर और बैकबोन को फ्रीज करना) अपने प्रस्तावित दृष्टिकोण की तुलना में खराब स्कोर करते हैं।

निष्कर्ष

इस सहयोग से प्राप्त निष्कर्ष महत्वपूर्ण प्रतीत होते हैं। एक एआई मॉडल को हाइपरस्केल डेटासेट पर प्रशिक्षित करना एक बड़ा प्रयास है, जो एक यात्री विमान के उड़ान भरने के समान है। हालांकि प्रशिक्षण बीच में रोका जा सकता है, और किसी भी नुकसान को कम किया जा सकता है bằng बचत वर्तमान वजन को आवधिक रूप से (काफी भंडारण लागत पर), ताकि प्रशिक्षण में व्यवधान हो सके, लेकिन प्रशिक्षण के बाद परिणाम को बदलने के लिए बहुत कम किया जा सकता है।

क्या आश्चर्यजनक है कि शोधकर्ताओं ने सामान्य एआई मॉडल प्रशिक्षण में एक मूलभूत सिद्धांत की खोज की है, और उनका समाधान आश्चर्यजनक रूप से सुंदर है।

फाइन-ट्यूनिंग के बाद फाउंडेशन मॉडल की सटीकता को बनाए रखने में सक्षम होने के आर्थिक परिणाम भी महत्वपूर्ण हैं। अब तक, मल्टी-मिलियन डॉलर मॉडल की कमियों को संबोधित करने का सबसे आम तरीका आउटपुट को अनुमान समय पर फिल्टर करना या अनुमान को नियंत्रित करना था, ताकि मॉडल में किसी भी कमजोरी से बचा जा सके।

इसके अलावा, ऐसी तकनीक से उपभोक्ता स्तर पर फाइन-ट्यून्ड जनरेटिव मॉडल की क्षमताओं में महत्वपूर्ण सुधार हो सकता है, आउटपुट की गुणवत्ता में वृद्धि के साथ।

* मेरे द्वारा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना।

मंगलवार, 1 अक्टूबर, 2024 को पहली बार प्रकाशित