рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╕реИрд▓реНрдорди: рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рд╕рд╛рдорд╛рдиреНрдп рд╢реНрд░рд╡рдг рдХреНрд╖рдорддрд╛рдУрдВ рдХреА рдУрд░

श्रवण, जिसमें सामान्य श्रवण जानकारी की धारणा और समझ शामिल है, वास्तविक दुनिया के वातावरण में एआई एजेंटों के लिए महत्वपूर्ण है। यह श्रवण जानकारी तीन प्राथमिक ध्वनि प्रकारों को शामिल करती है: संगीत, ऑडियो इवेंट, और भाषा। हाल ही में, पाठ-आधारित बड़े भाषा मॉडल (एलएलएम) फ्रेमवर्क ने कई प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों में मानव-स्तरीय प्रदर्शन हासिल करने में उल्लेखनीय क्षमता दिखाई है। इसके अलावा, निर्देश ट्यूनिंग, एक प्रशिक्षण विधि जो संदर्भ प्रतिक्रियाओं और उपयोगकर्ता प्रॉम्प्ट्स के जोड़े का उपयोग करती है, लोकप्रिय हो गई है। यह दृष्टिकोण बड़े भाषा मॉडलों को अधिक प्रभावी ढंग से खुले अंत वाले उपयोगकर्ता निर्देशों का पालन करने के लिए प्रशिक्षित करता है। हालांकि, वर्तमान अनुसंधान बड़े भाषा मॉडलों को बहुमोडल सामग्री की धारणा क्षमता से लैस करने पर बढ़ता जा रहा है।
इसी पर ध्यान केंद्रित करते हुए, इस लेख में, हम सैल्मन या स्पीच ऑडियो लैंग्वेज म्यूजिक ओपन न्यूरल नेटवर्क के बारे में बात करेंगे, जो एक राज्य-ऑफ-द-आर्ट ओपन स्पीच ऑडियो लैंग्वेज म्यूजिक न्यूरल नेटवर्क है जो पूर्व-प्रशिक्षित पाठ-आधारित बड़े भाषा मॉडल में भाषा और ऑडियो एनकोडरों को एकीकृत करके एक एकल ऑडियो-पाठ बहुमोडल मॉडल में बनाया गया है। सैल्मन मॉडल बड़े भाषा मॉडलों को सामान्य ऑडियो इनपुट को सीधे समझने और प्रसंस्करण करने में सक्षम बनाता है, और प्रशिक्षण में उपयोग किए जाने वाले विभिन्न ऑडियो और भाषा कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करता है। हम सैल्मन फ्रेमवर्क, इसके कार्य, वास्तुकला, और विभिन्न एनएलपी कार्यों पर इसके परिणामों का गहराई से विश्लेषण करेंगे। तो आइए शुरू करें।
सैल्मन: एकल ऑडियो-पाठ बहुमोडल बड़े भाषा मॉडलों की ओर
सैल्मन का अर्थ स्पीच ऑडियो लैंग्वेज म्यूजिक ओपन न्यूरल नेटवर्क है, और यह एक एकल ऑडियो-पाठ बहुमोडल बड़ा भाषा मॉडल फ्रेमवर्क है जो तीन मूलभूत ऑडियो या ध्वनि प्रकारों को समझने और धारणा करने में सक्षम है, जिनमें भाषा, ऑडियो इवेंट, और संगीत शामिल हैं। सैल्मन मॉडल बड़े भाषा मॉडलों को सामान्य ऑडियो इनपुट को सीधे समझने और प्रसंस्करण करने में सक्षम बनाता है, और विभिन्न ऑडियो और भाषा कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करता है।
अपने प्रदर्शन को भाषा और गैर-भाषा ऑडियो कार्यों दोनों पर बढ़ाने के लिए, सैल्मन फ्रेमवर्क एक दोहरी एनकोडर संरचना का उपयोग करता है, जिसमें एक बीट्स ऑडियो एनकोडर और व्हिस्पर भाषा मॉडल से एक भाषा एनकोडर शामिल है। इसके अलावा, सैल्मन फ्रेमवर्क एक विंडो-स्तर के क्यू-फॉर्मर या प्रश्न ट्रांसफॉर्मर का उपयोग एक कनेक्शन मॉड्यूल के रूप में करता है ताकि वैरिएबल-लंबाई वाले एनकोडर के आउटपुट अनुक्रम को प्रभावी ढंग से वैरिएबल संख्या में ऑगमेंटेड ऑडियो टोकन में परिवर्तित किया जा सके, और अंततः ऑडियो-पाठ संरेखण के लिए उच्च समय संकल्प प्राप्त किया जा सके। लोरा या लो-रैंक अनुकूलन दृष्टिकोण का उपयोग विकुना फ्रेमवर्क में एक क्रॉस-मॉडल अनुकूलक के रूप में किया जाता है ताकि इसके आउटपुट स्थान को इसके ऑगमेंटेड इनपुट स्थान के साथ संरेखित किया जा सके और इसके प्रदर्शन को और बढ़ाया जा सके। सैल्मन फ्रेमवर्क में, क्रॉस-मॉडल कार्यों को देखने की क्षमता प्रशिक्षण चरण के दौरान खो जाने वाली क्रॉस-मॉडल उत्पन्न क्षमताओं के रूप में माना जाता है, जो सैल्मन फ्रेमवर्क में एक अतिरिक्त कुछ-शॉट सक्रियण चरण को लागू करने का प्राथमिक कारण है।
इसके अलावा, फ्रेमवर्क ऑडियो इवेंट, संगीत बेंचमार्क, और भाषा बेंचमार्क की एक विस्तृत श्रृंखला का उपयोग अपनी संज्ञानात्मक श्रवण क्षमताओं का मूल्यांकन करने के लिए करता है, और बेंचमार्क को तीन स्तरों में विभाजित करता है। पहले बेंचमार्क स्तर पर, फ्रेमवर्क निर्देश प्रशिक्षण में आठ कार्यों को प्रशिक्षित करता है, जिनमें अनुवाद, ऑडियो कैप्शनिंग, और भाषा पहचान शामिल हैं। दूसरे और तीसरे बेंचमार्क स्तर वे कार्य हैं जिन्हें प्रशिक्षित नहीं किया गया है, जिनमें से दूसरा बेंचमार्क स्तर पांच भाषा-आधारित प्राकृतिक भाषा प्रसंस्करण कार्यों को शामिल करता है, जैसे कि स्लॉट भरना और अनप्रशिक्षित भाषाओं में अनुवाद, जो उच्च-गुणवत्ता वाले बहुभाषी संरेखण पर निर्भर करते हैं टेक्स्ट और भाषा टोकन के बीच। तीसरे स्तर के बेंचमार्क कार्य भाषा और गैर-भाषा श्रवण जानकारी को समझने का प्रयास करते हैं और भाषा-ऑडियो सह-तर्क और ऑडियो-आधारित कहानी सुनाने के लिए।
संक्षेप में, सैल्मन फ्रेमवर्क
- सामान्य ऑडियो इनपुट को समझने और धारणा करने में सक्षम पहला बहुमोडल बड़ा भाषा मॉडल, जिसमें ऑडियो इवेंट, भाषा, और संगीत शामिल हैं।
- लोरा स्केलिंग फैक्टर को लागू करने और प्रशिक्षण के दौरान एक अतिरिक्त बजट-अनुकूल सक्रियण चरण का उपयोग करके क्रॉस-मॉडल उत्पन्न क्षमताओं का विश्लेषण करने का प्रयास।
सैल्मन: वास्तुकला और विधि
इस अनुभाग में, हम सैल्मन फ्रेमवर्क की वास्तुकला, प्रशिक्षण विधि, और प्रयोगात्मक सेटअप पर गहराई से देखेंगे।
मॉडल वास्तुकला
सैल्मन फ्रेमवर्क की वास्तुकला के मूल में, यह दो श्रवण एनकोडरों से आउटपुट को सिंक्रोनाइज़ और मिलाता है, जिसके बाद यह एक फ्रेम-स्तरीय क्यू-फॉर्मर को एक कनेक्शन मॉड्यूल के रूप में लागू करता है। क्यू-फॉर्मर द्वारा उत्पन्न आउटपुट अनुक्रम को पाठ निर्देश प्रॉम्प्ट के साथ मिलाया जाता है और फिर लोरा अनुकूलन दृष्टिकोण के लिए आवश्यक प्रतिक्रिया उत्पन्न करने के लिए इनपुट के रूप में प्रदान किया जाता है।
श्रवण एनकोडर
सैल्मन फ्रेमवर्क दो श्रवण एनकोडरों का उपयोग करता है: एक गैर-भाषा बीट्स ऑडियो एनकोडर, और व्हिस्पर भाषा मॉडल से एक भाषा एनकोडर। बीट्स ऑडियो एनकोडर स्व-पर्यवेक्षित पुनरावृत्ति सीखने की दृष्टिकोण का उपयोग करके गैर-भाषा उच्च-स्तरीय ऑडियो सेमांटिक्स को निकालने के लिए प्रशिक्षित किया जाता है, जबकि भाषा एनकोडर भाषा पहचान और भाषा अनुवाद कार्यों के लिए बड़ी मात्रा में कमजोर पर्यवेक्षित डेटा पर प्रशिक्षित किया जाता है, जिसके परिणामस्वरूप एनकोडर की विशेषताएं पृष्ठभूमि शोर और भाषा जानकारी को शामिल करने के लिए उपयुक्त होती हैं। मॉडल पहले इनपुट ऑडियो को टोकनाइज़ करता है, और फिर इसे मास्क और प्रेडिक्ट करता है। इन दोनों एनकोडरों की श्रवण विशेषताएं एक दूसरे के पूरक होती हैं और दोनों भाषा और गैर-भाषा जानकारी के लिए उपयुक्त होती हैं।
विंडो स्तर क्यू-फॉर्मर
क्यू-फॉर्मर संरचना को लागू करना एलएलएम फ्रेमवर्क में एक सामान्य दृष्टिकोण है, जो छवि एनकोडर के आउटपुट को पाठ टोकन में परिवर्तित करता है, और ऑडियो टोकन की विभिन्न लंबाइयों के साथ सौदा करने के लिए कुछ संशोधन की आवश्यकता होती है। विशेष रूप से, फ्रेमवर्क इनपुट छवि के एनकोडर आउटपुट को एक संकेतित एनकोडर आउटपुट अनुक्रम के रूप में मानता है, और क्यू-फॉर्मर एक निश्चित संख्या में प्रशिक्षण योग्य प्रश्नों को तैनात करता है ताकि एनकोडर आउटपुट अनुक्रम को पाठ टोकन में परिवर्तित किया जा सके, स्टैक्ड क्यू-फॉर्मर ब्लॉक का उपयोग करके। एक स्टैक्ड क्यू-फॉर्मर ब्लॉक एक ट्रांसफॉर्मर डिकोडर ब्लॉक के समान होता है, लेकिन स्व-ध्यान层 में कैस्केड मास्क को हटाने और प्रारंभिक ब्लॉक में एक निश्चित संख्या में प्रशिक्षण योग्य स्थिर प्रश्नों का उपयोग करने का अपवाद है।
लोरा और एलएलएम
सैल्मन फ्रेमवर्क में विकुना एलएलएम भी तैनात किया गया है, जो एक एलएलएमए बड़ा भाषा मॉडल फ्रेमवर्क है जिसे निर्देशों का पालन करने के लिए अधिक सटीक रूप से ट्यून किया गया है। लोरा फ्रेमवर्क एक सामान्य विधि है जिसका उपयोग पैरामीटर-कुशल फाइन-ट्यूनिंग के लिए किया जाता है, और इसका समावेश सैल्मन फ्रेमवर्क में स्व-ध्यान परतों में वजन मैट्रिक्स को मान्य करने और प्रश्न को अनुकूलित करने के लिए किया जाता है।

प्रशिक्षण विधि
सैल्मन फ्रेमवर्क एक तीन-चरण बहुमोडल प्रशिक्षण दृष्टिकोण का उपयोग करता है। प्रशिक्षण चरण में एक पूर्व-प्रशिक्षण चरण और एक निर्देश ट्यूनिंग चरण शामिल होता है, जो अधिकांश दृश्य एलएलएम फ्रेमवर्क में शामिल होते हैं, और एक अतिरिक्त सक्रियण ट्यूनिंग चरण ऑडियो कैप्शनिंग और भाषा पहचान कार्यों पर ओवरफिटिंग समस्याओं को हल करने के लिए लागू किया जाता है।
पूर्व-प्रशिक्षण चरण
पूर्व-प्रशिक्षित पैरामीटर, जिनमें एनकोडर और एलएलएम शामिल हैं, और यादृच्छिक रूप से प्रारंभीकृत पैरामीटर, जिनमें अनुकूलक और कनेक्शन मॉड्यूल शामिल हैं, के बीच अंतर को सीमित करने के लिए, सैल्मन फ्रेमवर्क एक बड़ी मात्रा में ऑडियो कैप्शनिंग और भाषा पहचान डेटा का उपयोग लोरा और क्यू-फॉर्मर घटकों को पूर्व-प्रशिक्षित करने के लिए करता है। ये कार्य ऑडियो इवेंट, दोनों भाषा और गैर-भाषा, के मुख्य सामग्री के बारे में महत्वपूर्ण श्रवण जानकारी शामिल करते हैं, और न ही उन्हें जटिल समझ या तर्कसंगतता की आवश्यकता होती है ताकि पाठ और श्रवण जानकारी के बीच संरेखण सीखा जा सके।
निर्देश ट्यूनिंग चरण
निर्देश ट्यूनिंग चरण सैल्मन फ्रेमवर्क में एनएलपी और दृश्य एलएलएम फ्रेमवर्क में लागू किए गए चरण के समान है। इस चरण में ऑडियो इवेंट, संगीत कार्य, और भाषा इवेंट की एक सूची का उपयोग करके ऑडियो-पाठ निर्देशों को ट्यून करना शामिल है। कार्यों को विभिन्न परीक्षणों में उनके महत्व के आधार पर प्राथमिकता दी जाती है, जिनमें फोन पहचान, ओवरलैपिंग भाषा पहचान, और संगीत कैप्शन शामिल हैं। इसके अलावा, ऑडियो डेटा के साथ जोड़े गए पाठ जानकारी निर्देश प्रॉम्प्ट उत्पन्न करने के लिए आधार बनती है।
कार्य ओवरफिटिंग
यहां तक कि केवल पहले दो प्रशिक्षण चरणों को लागू करने पर, सैल्मन फ्रेमवर्क निर्देश ट्यूनिंग कार्यों पर प्रतिस्पर्धी परिणाम प्रदान करता है, हालांकि क्रॉस-मॉडल कार्यों पर प्रदर्शन, विशेष रूप से उन कार्यों पर जो क्रॉस-मॉडल सह-तर्क क्षमताओं की आवश्यकता होती है, उत्कृष्ट नहीं है। विशेष रूप से, मॉडल कभी-कभी निर्देश प्रॉम्प्ट का उल्लंघन करता है जिसके परिणामस्वरूप असंबंधित या गलत प्रतिक्रियाएं उत्पन्न होती हैं, और इस घटना को सैल्मन फ्रेमवर्क में कार्य ओवरफिटिंग के रूप में जाना जाता है, और सक्रियण चरण को इन ओवरफिटिंग समस्याओं को हल करने के लिए लागू किया जाता है।
सक्रियण चरण
ओवरफिटिंग समस्याओं को हल करने के लिए एक प्रभावी दृष्टिकोण आंतरिक सशर्त भाषा मॉडलों को नियमित करना है जो लंबी और अधिक विविध प्रतिक्रियाओं का उपयोग करते हैं, जैसे कि पाठ-आधारित प्रश्न-उत्तर जोड़े या ऑडियो-आधारित लंबी लिखित कहानियां। फ्रेमवर्क तब इन कार्यों के लिए प्रशिक्षण डेटा जोड़े को उत्पन्न करता है जो पाठ के साथ जोड़े गए ऑडियो या भाषा कैप्शन हैं।
कार्य विशिष्टता
सैल्मन की शून्य-शॉट क्रॉस-मॉडल उत्पन्न क्षमताओं का मूल्यांकन करने के लिए, विकासकर्ताओं ने 15 भाषा, ऑडियो और संगीत कार्यों को तीन स्तरों में विभाजित किया है।
स्तर 1
पहले स्तर में, कार्य निर्देश ट्यूनिंग के लिए उपयोग किए जाते हैं, और इसलिए, वे सैल्मन फ्रेमवर्क द्वारा प्रदर्शन किए जाने वाले सबसे आसान सेट कार्य हैं।
स्तर 2
दूसरे स्तर में अप्रशिक्षित कार्य शामिल हैं, और जटिलता स्तर स्तर 1 कार्यों की तुलना में अधिक है। स्तर 2 में, कार्य प्राकृतिक भाषा प्रसंस्करण आधारित कार्य हैं, जिनमें भाषा कीवर्ड निष्कर्षण शामिल है जो फ्रेमवर्क की सटीकता का मूल्यांकन करने के लिए कुछ कीवर्ड को निकालने के लिए भाषा का उपयोग करता है। अन्य कार्यों में एसक्यूए (स्पोकन क्वेरी-आधारित प्रश्न-उत्तर) शामिल है जो फ्रेमवर्क द्वारा निकाले गए सामान्य ज्ञान का मूल्यांकन करने के लिए भाषा प्रश्नों का उपयोग करता है, एसएफ (स्पीच-आधारित स्लॉट भरना) कार्य स्लॉट मानों की सटीकता का मूल्यांकन करने के लिए, और अंत में, दो एएसटी कार्य अंग्रेजी से जर्मन और अंग्रेजी से जापानी रूपांतरण के लिए हैं।
स्तर 3
स्तर 3 में कार्यों की जटिलता अधिकतम है, और इसमें एसएसी (स्पीच ऑडियो को-रीजनिंग) और ऑडियो-आधारित कहानी सुनाने के कार्य शामिल हैं। एसएसी कार्य फ्रेमवर्क को एक ऑडियो क्लिप में शामिल प्रश्न को समझने, ऑडियो इवेंट या संगीत का उपयोग करके साक्ष्य खोजने, और प्रश्न का उत्तर देने के लिए एक उपयुक्त कारण उत्पन्न करने की आवश्यकता है। ऑडियो-आधारित कहानी सुनाने के कार्य फ्रेमवर्क को सामान्य ऑडियो इनपुट से निकाले गए श्रवण जानकारी के आधार पर एक अर्थपूर्ण कहानी उत्पन्न करने की आवश्यकता है।

परिणाम
स्तर 1 कार्य
निम्नलिखित तालिका स्तर 1 कार्यों पर परिणामों को दर्शाती है, और जैसा कि देखा जा सकता है, सैल्मन फ्रेमवर्क सक्रियण-ट्यूनिंग के साथ या उसके बिना स्तर 1 कार्यों पर प्रतिस्पर्धी परिणाम प्रदान करता है।

स्तर 2 और 3 कार्य
हालांकि सैल्मन फ्रेमवर्क स्तर 1 कार्यों पर प्रतिस्पर्धी परिणाम प्रदान करता है, भले ही सक्रियण-ट्यूनिंग नहीं हो, स्तर 2 और 3 कार्यों पर ऐसा नहीं है। सैल्मन फ्रेमवर्क बिना सक्रियण के स्तर 2 और 3 कार्यों पर ओवरफिटिंग से बहुत अधिक पीड़ित है। विशेष रूप से, एसक्यूए, एसएसी और कहानी सुनाने के कार्यों पर, जो बहुमोडल इंटरैक्शन पर जोर देते हैं, सैल्मन फ्रेमवर्क निर्देशों का पालन करने में संघर्ष करता है जब तक कि सक्रियण-ट्यूनिंग नहीं किया जाता है। हालांकि, सक्रियण-ट्यूनिंग के साथ, परिणाम काफी हद तक सुधर जाते हैं, और परिणाम निम्नलिखित छवि में शामिल हैं।

लोरा स्केलिंग फैक्टर को कम करना
लोरा स्केलिंग फैक्टर को कम करना लोरा स्केलिंग फैक्टर को कम करने के प्रभाव का मूल्यांकन करता है ताकि कार्यों पर ओवरफिटिंग समस्याओं को कम किया जा सके। जैसा कि निम्नलिखित आंकड़े में देखा जा सकता है, लोरा स्केलिंग फैक्टर को 2.0 तक कम करने से सैल्मन फ्रेमवर्क की क्रॉस-मॉडल तर्क क्षमता एएसआर और पीआर कार्यों पर बढ़ जाती है, एसक्यूए कार्यों पर, कहानी सुनाने के कार्यों पर, और एसएसी कार्यों पर।

कार्य ओवरफिटिंग का मूल्यांकन
सक्रियण-ट्यूनिंग पर जोर देने के लिए, सैल्मन फ्रेमवर्क तीन प्रशिक्षण चरणों के दौरान विचलन में परिवर्तन का विश्लेषण करता है, और जैसा कि निम्नलिखित छवि में देखा जा सकता है, एएसी और एएसआर कार्यों के लिए विचलन में परिवर्तन पहले प्रशिक्षण चरण के बाद छोटे अंतिम मानों को दर्शाते हैं, जो मॉडल के क्रॉस-मॉडल संरेखण सीखने की क्षमता को दर्शाता है।

इसके अलावा, पीआर कार्य का विचलन भी निर्देश ट्यूनिंग के बाद गिर जाता है, जो लोरा घटक का उपयोग करके आउटपुट टोकन सीखने पर निर्भर करता है। यह भी देखा जाता है कि निर्देश ट्यूनिंग कहानी सुनाने और एसएसी कार्यों पर विचलन को कम करने में मदद करती है, लेकिन अंतर अभी भी इतना बड़ा है कि कार्यों को सफलतापूर्वक प्रदर्शन करने के लिए एक अतिरिक्त सक्रियण चरण जोड़ना या लोरा घटक को हटाना आवश्यक है।
सक्रियण-ट्यूनिंग
सैल्मन फ्रेमवर्क विभिन्न सक्रियण विधियों में गहराई से जाता है, जिनमें लंबी पाठ-आधारित प्रश्न-उत्तर जोड़े पर मॉडल को प्रशिक्षित करना या ऑडियो-आधारित लंबी लिखित कहानियों का उपयोग करना शामिल है। क्यू-फॉर्मर और लोरा दोनों घटकों को इन तीन विधियों का उपयोग करके फाइन-ट्यून किया जाता है। इसके अलावा, फ्रेमवर्क ऑडियो और क्यू-फॉर्मर इनपुट को अनदेखा करता है और लोरा और विकुना घटकों को एक अनुकूलन योग्य पाठ-आधारित बड़े भाषा मॉडल के रूप में फाइन-ट्यून करता है, और परिणाम निम्नलिखित छवि में दिखाए गए हैं, और जैसा कि देखा जा सकता है, मॉडल को एएसआर (एएसआर को लंबी लेबल के साथ प्रशिक्षित करने) द्वारा सक्रिय नहीं किया जा सकता है, न ही कहानी सुनाने या पाठ-आधारित द्वारा लोरा घटक को प्रशिक्षित करने से सक्रिय किया जा सकता है।

अंतिम विचार
इस लेख में, हमने सैल्मन या स्पीच ऑडियो लैंग्वेज म्यूजिक ओपन न्यूरल नेटवर्क के बारे में बात की, जो एक एकल ऑडियो-पाठ बहुमोडल बड़ा भाषा मॉडल फ्रेमवर्क है जो तीन मूलभूत ऑडियो या ध्वनि प्रकारों को समझने और धारणा करने में सक्षम है, जिनमें भाषा, ऑडियो इवेंट, और संगीत शामिल हैं। सैल्मन मॉडल बड़े भाषा मॉडलों को सामान्य ऑडियो इनपुट को सीधे समझने और प्रसंस्करण करने में सक्षम बनाता है, और प्रशिक्षण में उपयोग किए जाने वाले विभिन्न ऑडियो और भाषा कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करता है।
सैल्मन फ्रेमवर्क विभिन्न प्रशिक्षित कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करता है, जिनमें ऑडियो कैप्शनिंग, भाषा अनुवाद और पहचान, और अधिक शामिल हैं, और अनप्रशिक्षित समझ कार्यों की एक श्रृंखला में सामान्यीकरण करता है, जिनमें कीवर्ड निकालने और अनप्रशिक्षित भाषाओं के लिए भाषा अनुवाद शामिल है। अपनी क्षमताओं के कारण, सैल्मन फ्रेमवर्क को बड़े भाषा मॉडलों की सामान्य श्रवण क्षमताओं को बढ़ाने के लिए अगले चरण के रूप में माना जा सकता है।












