Connect with us

Google AI рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЛ 28% рддреЗрдЬреА рд╕реЗ рдмрдирд╛ рд░рд╣рд╛ рд╣реИ SLMs рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╢рд┐рдХреНрд╖рдХ рдХреЗ рд░реВрдк рдореЗрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

Google AI рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЛ 28% рддреЗрдЬреА рд╕реЗ рдмрдирд╛ рд░рд╣рд╛ рд╣реИ SLMs рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╢рд┐рдХреНрд╖рдХ рдХреЗ рд░реВрдк рдореЗрдВ

mm

बड़े भाषा मॉडल (LLMs) को प्रशिक्षित करना अधिकांश संगठनों के लिए पहुंच से बाहर हो गया है। लाखों में चलने वाली लागत और एक सुपरकंप्यूटर को भी पसीना आने वाली कंप्यूटिंग आवश्यकताओं के साथ, एआई विकास तकनीकी दिग्गजों के दरवाजों के पीछे बंद रहा है। लेकिन Google ने इस कहानी को अपने सिर पर पलट दिया है: एक ऐसा दृष्टिकोण जो इतना सरल है कि यह आपको आश्चर्यचकित करता है कि पहले किसी ने इसके बारे में क्यों नहीं सोचा – छोटे एआई मॉडल का उपयोग शिक्षक के रूप में करना।

SALT कैसे काम करता है: एआई मॉडल प्रशिक्षण के लिए एक नया दृष्टिकोण

एक हालिया शोध पत्र में जिसका शीर्षक है “एक छोटी सी मदद लंबा रास्ता तय करती है: छोटे एलएम का लाभ उठाकर कुशल एलएलएम प्रशिक्षण,” Google Research और DeepMind ने SALT (छोटे मॉडल सहायता प्राप्त बड़े मॉडल प्रशिक्षण) पेश किया। यह वह नए तरीका है जो हमारे पारंपरिक दृष्टिकोण को चुनौती दे रहा है एलएलएम को प्रशिक्षित करने के लिए।

यह शोध क्यों महत्वपूर्ण है? वर्तमान में, बड़े एआई मॉडल को प्रशिक्षित करना किसी विषय के बारे में किसी को सब कुछ एक बार में सिखाने की कोशिश करने जैसा है – यह असमान है, महंगा है, और अक्सर विशाल कंप्यूटिंग संसाधनों वाले संगठनों तक सीमित है। SALT एक अलग मार्ग अपनाता है, जिसमें एक दो-चरण प्रशिक्षण प्रक्रिया शुरू की जाती है जो नवाचारी और व्यावहारिक दोनों है।

SALT वास्तव में कैसे काम करता है इसका विवरण:

चरण 1: ज्ञान संक्षेपण

  • एक छोटा भाषा मॉडल (SLM) शिक्षक के रूप में कार्य करता है, बड़े मॉडल के साथ अपनी समझ साझा करता है
  • छोटा मॉडल “नरम लेबल” के माध्यम से अपने “सीखे हुए ज्ञान” को स्थानांतरित करने पर ध्यान केंद्रित करता है
  • इसे एक शिक्षण सहायक की तरह सोचें जो एक छात्र को उन्नत विषयों पर जाने से पहले मूलभूत अवधारणाओं को संभालता है
  • यह चरण विशेष रूप से “आसान” क्षेत्रों में प्रभावी है – उन क्षेत्रों में जहां छोटा मॉडल मजबूत भविष्यसूचक विश्वास रखता है

चरण 2: स्व-पर्यवेक्षित शिक्षण

  • बड़ा मॉडल स्वतंत्र शिक्षण में जाता है
  • यह जटिल पैटर्न और चुनौतीपूर्ण कार्यों को मास्टर करने पर ध्यान केंद्रित करता है
  • यह वह जगह है जहां मॉडल अपने छोटे “शिक्षक” द्वारा प्रदान की गई तुलना में परे क्षमताओं का विकास करता है
  • चरणों के बीच संक्रमण में सावधानी से डिज़ाइन की गई रणनीतियों का उपयोग किया जाता है, जिसमें रैखिक क्षय और रैखिक अनुपात क्षय शामिल हैं

गैर-तकनीकी शब्दों में, कल्पना कीजिए कि छोटा एआई मॉडल एक मददगार ट्यूटर की तरह है जो बड़े मॉडल को प्रशिक्षण के प्रारंभिक चरणों में मार्गदर्शन करता है। यह ट्यूटर अपने उत्तरों के साथ अतिरिक्त जानकारी प्रदान करता है, यह इंगित करता है कि वह प्रत्येक उत्तर के बारे में कितना आश्वस्त है। यह अतिरिक्त जानकारी, जिसे “नरम लेबल” के रूप में जाना जाता है, बड़े मॉडल को अधिक तेजी से और प्रभावी ढंग से सीखने में मदद करता है।

अब, जब बड़ा एआई मॉडल अधिक सक्षम हो जाता है, तो उसे शिक्षक पर निर्भर रहने से स्वतंत्र रूप से सीखने की ओर संक्रमण करने की आवश्यकता होती है। यह वह जगह है जहां “रैखिक क्षय” और “रैखिक अनुपात क्षय” खेल में आते हैं।
इन तकनीकों को शिक्षक के प्रभाव को धीरे-धीरे कम करने के रूप में सोचें:
  • रैखिक क्षय: यह शिक्षक की आवाज को धीरे-धीरे कम करने जैसा है। शिक्षक का मार्गदर्शन प्रत्येक चरण के साथ कम प्रमुख हो जाता है, जिससे बड़े मॉडल को स्वयं कच्चे डेटा से सीखने पर अधिक ध्यान केंद्रित करने की अनुमति मिलती है।
  • रैखिक अनुपात क्षय: यह शिक्षक की सलाह और वास्तविक कार्य के बीच संतुलन को समायोजित करने जैसा है। प्रशिक्षण के दौरान, कार्य पर जोर दिया जाता है, जबकि शिक्षक का इनपुट कम प्रमुख हो जाता है।
दोनों तकनीकों का लक्ष्य बड़े एआई मॉडल के लिए एक सMOOTH संक्रमण सुनिश्चित करना है, किसी भी अचानक परिवर्तन से बचने के लिए इसके शिक्षण व्यवहार में।

परिणाम प्रभावशाली हैं। जब Google शोधकर्ताओं ने SALT का परीक्षण एक 1.5 बिलियन पैरामीटर SLM का उपयोग करके एक 2.8 बिलियन पैरामीटर LLM को Pile डेटासेट पर प्रशिक्षित किया, तो उन्होंने देखा:

  • पारंपरिक तरीकों की तुलना में 28% की कमी प्रशिक्षण समय में
  • महत्वपूर्ण प्रदर्शन सुधार फाइन-ट्यूनिंग के बाद:
    • गणित समस्या सटीकता 34.87% तक पहुंच गई (31.84% बेसलाइन की तुलना में)
    • पढ़ने की समझ 67% सटीकता तक पहुंच गई (63.7% से ऊपर)

लेकिन जो SALT को वास्तव में अभिनव बनाता है वह इसका सैद्धांतिक ढांचा है। शोधकर्ताओं ने पाया कि एक “कमजोर” शिक्षक मॉडल भी एक “अनुकूल पूर्वाग्रह-विचरण व्यापार-बंद” हासिल करके छात्र के प्रदर्शन में सुधार कर सकता है। सरल शब्दों में, छोटा मॉडल बड़े को मूलभूत पैटर्न सीखने में अधिक कुशलता से मदद करता है, जिससे उन्नत शिक्षण के लिए एक मजबूत आधार बनता है।

SALT एआई विकास खेल को क्यों बदल सकता है

याद रखें जब क्लाउड कंप्यूटिंग ने यह तय किया कि कौन एक तकनीकी कंपनी शुरू कर सकता है? SALT एआई विकास के लिए भी ऐसा ही कर सकता है।

मैं एआई प्रशिक्षण नवाचारों का अनुसरण करता रहा हूं, और अधिकांश सफलताएं मुख्य रूप से तकनीकी दिग्गजों को लाभान्वित करती रही हैं। लेकिन SALT अलग है।

भविष्य के लिए इसका क्या अर्थ है:

सीमित संसाधनों वाले संगठनों के लिए:

  • आपको अब कुशल एआई मॉडल विकसित करने के लिए विशाल कंप्यूटिंग बुनियादी ढांचे की आवश्यकता नहीं हो सकती है
  • छोटे शोध प्रयोगशालाएं और कंपनियां कस्टम मॉडल विकास के साथ प्रयोग कर सकती हैं
  • 28% प्रशिक्षण समय में कमी सीधे कम कंप्यूटिंग लागत में अनुवाद करती है
  • अधिक महत्वपूर्ण बात, आप मामूली कंप्यूटिंग संसाधनों से शुरू कर सकते हैं और अभी भी पेशेवर परिणाम प्राप्त कर सकते हैं

एआई विकास परिदृश्य के लिए:

  • अधिक खिलाड़ी क्षेत्र में प्रवेश कर सकते हैं, जिससे अधिक विविध और विशेषज्ञता वाले एआई समाधान हो सकते हैं
  • विश्वविद्यालय और शोध संस्थान अपने मौजूदा संसाधनों के साथ अधिक प्रयोग चला सकते हैं
  • एआई अनुसंधान में प्रवेश की बाधा काफी कम हो जाती है
  • हम उन क्षेत्रों में नए अनुप्रयोग देख सकते हैं जो पहले एआई विकास को वहन नहीं कर सकते थे

भविष्य के लिए इसका क्या अर्थ है

छोटे मॉडल का उपयोग शिक्षक के रूप में करके, हम केवल एआई प्रशिक्षण को अधिक कुशल नहीं बना रहे हैं – हम एआई विकास में भाग लेने वालों को मौलिक रूप से बदल रहे हैं। इसके निहितार्थ केवल तकनीकी सुधारों से परे जाते हैं।

ध्यान में रखने के लिए मुख्य बातें:

  • 28% प्रशिक्षण समय में कमी एक एआई परियोजना शुरू करने या इसे पहुंच से बाहर मानने के बीच का अंतर है
  • प्रदर्शन में सुधार (34.87% गणित पर, 67% पढ़ने की समझ में) यह दिखाता है कि सुलभता का अर्थ हमेशा गुणवत्ता में समझौता नहीं होता है
  • SALT का दृष्टिकोण यह साबित करता है कि कभी-कभी सर्वोत्तम समाधान मूल बातों को पुनः सोचकर आते हैं, न कि केवल अधिक कंप्यूटिंग शक्ति जोड़कर

देखने के लिए क्या:

  1. छोटे संगठनों पर नजर रखें जो कस्टम एआई मॉडल विकसित करना शुरू कर रहे हैं
  2. पहले एआई विकास को वहन नहीं कर सकने वाले क्षेत्रों में नए अनुप्रयोगों की तलाश करें
  3. विशेषज्ञता वाले कार्यों के लिए छोटे मॉडल का उपयोग करने में नवाचारों की तलाश करें

याद रखें: SALT का वास्तविक मूल्य यह है कि यह एआई में नवाचार करने वालों को कैसे बदल सकता है। चाहे आप एक शोध प्रयोगशाला चला रहे हों, एक तकनीकी टीम का प्रबंधन कर रहे हों, या बस एआई विकास में रुचि रखते हों, यह वह प्रकार का सफलता है जो आपके अगले बड़े विचार को संभव बना सकता है।

हो सकता है कि आप उस एआई परियोजना के बारे में सोचें जिसे आप पहुंच से बाहर मानते थे। यह आपकी कल्पना से अधिक संभव हो सकता है।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред