рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
Google AI рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЛ 28% рддреЗрдЬреА рд╕реЗ рдмрдирд╛ рд░рд╣рд╛ рд╣реИ SLMs рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╢рд┐рдХреНрд╖рдХ рдХреЗ рд░реВрдк рдореЗрдВ

बड़े भाषा मॉडल (LLMs) को प्रशिक्षित करना अधिकांश संगठनों के लिए पहुंच से बाहर हो गया है। लाखों में चलने वाली लागत और एक सुपरकंप्यूटर को भी पसीना आने वाली कंप्यूटिंग आवश्यकताओं के साथ, एआई विकास तकनीकी दिग्गजों के दरवाजों के पीछे बंद रहा है। लेकिन Google ने इस कहानी को अपने सिर पर पलट दिया है: एक ऐसा दृष्टिकोण जो इतना सरल है कि यह आपको आश्चर्यचकित करता है कि पहले किसी ने इसके बारे में क्यों नहीं सोचा – छोटे एआई मॉडल का उपयोग शिक्षक के रूप में करना।
SALT कैसे काम करता है: एआई मॉडल प्रशिक्षण के लिए एक नया दृष्टिकोण
एक हालिया शोध पत्र में जिसका शीर्षक है “एक छोटी सी मदद लंबा रास्ता तय करती है: छोटे एलएम का लाभ उठाकर कुशल एलएलएम प्रशिक्षण,” Google Research और DeepMind ने SALT (छोटे मॉडल सहायता प्राप्त बड़े मॉडल प्रशिक्षण) पेश किया। यह वह नए तरीका है जो हमारे पारंपरिक दृष्टिकोण को चुनौती दे रहा है एलएलएम को प्रशिक्षित करने के लिए।
यह शोध क्यों महत्वपूर्ण है? वर्तमान में, बड़े एआई मॉडल को प्रशिक्षित करना किसी विषय के बारे में किसी को सब कुछ एक बार में सिखाने की कोशिश करने जैसा है – यह असमान है, महंगा है, और अक्सर विशाल कंप्यूटिंग संसाधनों वाले संगठनों तक सीमित है। SALT एक अलग मार्ग अपनाता है, जिसमें एक दो-चरण प्रशिक्षण प्रक्रिया शुरू की जाती है जो नवाचारी और व्यावहारिक दोनों है।
SALT वास्तव में कैसे काम करता है इसका विवरण:
चरण 1: ज्ञान संक्षेपण
- एक छोटा भाषा मॉडल (SLM) शिक्षक के रूप में कार्य करता है, बड़े मॉडल के साथ अपनी समझ साझा करता है
- छोटा मॉडल “नरम लेबल” के माध्यम से अपने “सीखे हुए ज्ञान” को स्थानांतरित करने पर ध्यान केंद्रित करता है
- इसे एक शिक्षण सहायक की तरह सोचें जो एक छात्र को उन्नत विषयों पर जाने से पहले मूलभूत अवधारणाओं को संभालता है
- यह चरण विशेष रूप से “आसान” क्षेत्रों में प्रभावी है – उन क्षेत्रों में जहां छोटा मॉडल मजबूत भविष्यसूचक विश्वास रखता है
चरण 2: स्व-पर्यवेक्षित शिक्षण
- बड़ा मॉडल स्वतंत्र शिक्षण में जाता है
- यह जटिल पैटर्न और चुनौतीपूर्ण कार्यों को मास्टर करने पर ध्यान केंद्रित करता है
- यह वह जगह है जहां मॉडल अपने छोटे “शिक्षक” द्वारा प्रदान की गई तुलना में परे क्षमताओं का विकास करता है
- चरणों के बीच संक्रमण में सावधानी से डिज़ाइन की गई रणनीतियों का उपयोग किया जाता है, जिसमें रैखिक क्षय और रैखिक अनुपात क्षय शामिल हैं
गैर-तकनीकी शब्दों में, कल्पना कीजिए कि छोटा एआई मॉडल एक मददगार ट्यूटर की तरह है जो बड़े मॉडल को प्रशिक्षण के प्रारंभिक चरणों में मार्गदर्शन करता है। यह ट्यूटर अपने उत्तरों के साथ अतिरिक्त जानकारी प्रदान करता है, यह इंगित करता है कि वह प्रत्येक उत्तर के बारे में कितना आश्वस्त है। यह अतिरिक्त जानकारी, जिसे “नरम लेबल” के रूप में जाना जाता है, बड़े मॉडल को अधिक तेजी से और प्रभावी ढंग से सीखने में मदद करता है।
- रैखिक क्षय: यह शिक्षक की आवाज को धीरे-धीरे कम करने जैसा है। शिक्षक का मार्गदर्शन प्रत्येक चरण के साथ कम प्रमुख हो जाता है, जिससे बड़े मॉडल को स्वयं कच्चे डेटा से सीखने पर अधिक ध्यान केंद्रित करने की अनुमति मिलती है।
- रैखिक अनुपात क्षय: यह शिक्षक की सलाह और वास्तविक कार्य के बीच संतुलन को समायोजित करने जैसा है। प्रशिक्षण के दौरान, कार्य पर जोर दिया जाता है, जबकि शिक्षक का इनपुट कम प्रमुख हो जाता है।
परिणाम प्रभावशाली हैं। जब Google शोधकर्ताओं ने SALT का परीक्षण एक 1.5 बिलियन पैरामीटर SLM का उपयोग करके एक 2.8 बिलियन पैरामीटर LLM को Pile डेटासेट पर प्रशिक्षित किया, तो उन्होंने देखा:
- पारंपरिक तरीकों की तुलना में 28% की कमी प्रशिक्षण समय में
- महत्वपूर्ण प्रदर्शन सुधार फाइन-ट्यूनिंग के बाद:
- गणित समस्या सटीकता 34.87% तक पहुंच गई (31.84% बेसलाइन की तुलना में)
- पढ़ने की समझ 67% सटीकता तक पहुंच गई (63.7% से ऊपर)
लेकिन जो SALT को वास्तव में अभिनव बनाता है वह इसका सैद्धांतिक ढांचा है। शोधकर्ताओं ने पाया कि एक “कमजोर” शिक्षक मॉडल भी एक “अनुकूल पूर्वाग्रह-विचरण व्यापार-बंद” हासिल करके छात्र के प्रदर्शन में सुधार कर सकता है। सरल शब्दों में, छोटा मॉडल बड़े को मूलभूत पैटर्न सीखने में अधिक कुशलता से मदद करता है, जिससे उन्नत शिक्षण के लिए एक मजबूत आधार बनता है।
SALT एआई विकास खेल को क्यों बदल सकता है
याद रखें जब क्लाउड कंप्यूटिंग ने यह तय किया कि कौन एक तकनीकी कंपनी शुरू कर सकता है? SALT एआई विकास के लिए भी ऐसा ही कर सकता है।
मैं एआई प्रशिक्षण नवाचारों का अनुसरण करता रहा हूं, और अधिकांश सफलताएं मुख्य रूप से तकनीकी दिग्गजों को लाभान्वित करती रही हैं। लेकिन SALT अलग है।
भविष्य के लिए इसका क्या अर्थ है:
सीमित संसाधनों वाले संगठनों के लिए:
- आपको अब कुशल एआई मॉडल विकसित करने के लिए विशाल कंप्यूटिंग बुनियादी ढांचे की आवश्यकता नहीं हो सकती है
- छोटे शोध प्रयोगशालाएं और कंपनियां कस्टम मॉडल विकास के साथ प्रयोग कर सकती हैं
- 28% प्रशिक्षण समय में कमी सीधे कम कंप्यूटिंग लागत में अनुवाद करती है
- अधिक महत्वपूर्ण बात, आप मामूली कंप्यूटिंग संसाधनों से शुरू कर सकते हैं और अभी भी पेशेवर परिणाम प्राप्त कर सकते हैं
एआई विकास परिदृश्य के लिए:
- अधिक खिलाड़ी क्षेत्र में प्रवेश कर सकते हैं, जिससे अधिक विविध और विशेषज्ञता वाले एआई समाधान हो सकते हैं
- विश्वविद्यालय और शोध संस्थान अपने मौजूदा संसाधनों के साथ अधिक प्रयोग चला सकते हैं
- एआई अनुसंधान में प्रवेश की बाधा काफी कम हो जाती है
- हम उन क्षेत्रों में नए अनुप्रयोग देख सकते हैं जो पहले एआई विकास को वहन नहीं कर सकते थे
भविष्य के लिए इसका क्या अर्थ है
छोटे मॉडल का उपयोग शिक्षक के रूप में करके, हम केवल एआई प्रशिक्षण को अधिक कुशल नहीं बना रहे हैं – हम एआई विकास में भाग लेने वालों को मौलिक रूप से बदल रहे हैं। इसके निहितार्थ केवल तकनीकी सुधारों से परे जाते हैं।
ध्यान में रखने के लिए मुख्य बातें:
- 28% प्रशिक्षण समय में कमी एक एआई परियोजना शुरू करने या इसे पहुंच से बाहर मानने के बीच का अंतर है
- प्रदर्शन में सुधार (34.87% गणित पर, 67% पढ़ने की समझ में) यह दिखाता है कि सुलभता का अर्थ हमेशा गुणवत्ता में समझौता नहीं होता है
- SALT का दृष्टिकोण यह साबित करता है कि कभी-कभी सर्वोत्तम समाधान मूल बातों को पुनः सोचकर आते हैं, न कि केवल अधिक कंप्यूटिंग शक्ति जोड़कर
देखने के लिए क्या:
- छोटे संगठनों पर नजर रखें जो कस्टम एआई मॉडल विकसित करना शुरू कर रहे हैं
- पहले एआई विकास को वहन नहीं कर सकने वाले क्षेत्रों में नए अनुप्रयोगों की तलाश करें
- विशेषज्ञता वाले कार्यों के लिए छोटे मॉडल का उपयोग करने में नवाचारों की तलाश करें
याद रखें: SALT का वास्तविक मूल्य यह है कि यह एआई में नवाचार करने वालों को कैसे बदल सकता है। चाहे आप एक शोध प्रयोगशाला चला रहे हों, एक तकनीकी टीम का प्रबंधन कर रहे हों, या बस एआई विकास में रुचि रखते हों, यह वह प्रकार का सफलता है जो आपके अगले बड़े विचार को संभव बना सकता है।
हो सकता है कि आप उस एआई परियोजना के बारे में सोचें जिसे आप पहुंच से बाहर मानते थे। यह आपकी कल्पना से अधिक संभव हो सकता है।












