مصنوعی ذہانت
سالمن: بڑی زبان کے ماڈلز کے لیے عام سننے کی صلاحیتوں کی طرف

سماعت، جس میں عام سمعی معلومات کا ادراک اور سمجھ شامل ہے، حقیقی دنیا کے ماحول میں AI ایجنٹوں کے لیے بہت اہم ہے۔ اس سمعی معلومات میں تین بنیادی آواز کی اقسام شامل ہیں: موسیقی، آڈیو واقعات، اور تقریر۔ حال ہی میں، متن پر مبنی لارج لینگویج ماڈل (LLM) فریم ورک نے قدرتی زبان کی پروسیسنگ (NLP) کاموں کی ایک وسیع رینج میں انسانی سطح کی کارکردگی کو حاصل کرتے ہوئے قابل ذکر صلاحیتیں دکھائی ہیں۔ مزید برآں، انسٹرکشن ٹیوننگ، حوالہ جات کے جوابات اور صارف کے اشارے کے جوڑے کا استعمال کرتے ہوئے ایک تربیتی طریقہ، مقبول ہو گیا ہے۔ یہ نقطہ نظر بڑے زبان کے ماڈلز کو زیادہ مؤثر طریقے سے کھلے عام صارف کی ہدایات پر عمل کرنے کی تربیت دیتا ہے۔ تاہم، موجودہ تحقیق کثیر موڈل مواد کو سمجھنے کی صلاحیت کے ساتھ بڑے زبان کے ماڈلز کو بڑھانے پر تیزی سے توجہ مرکوز کر رہی ہے۔
اسی پر توجہ مرکوز کرتے ہوئے، اس مضمون میں، ہم بات کریں گے سالمون یا اسپیچ آڈیو لینگویج میوزک اوپن نیورل نیٹ ورک، ایک جدید ترین اوپن اسپیچ آڈیو لینگویج میوزک نیورل نیٹ ورک جو پہلے سے تربیت یافتہ ٹیکسٹ پر مبنی بڑی زبان کے ماڈل کے ساتھ اسپیچ اور آڈیو انکوڈرز کو ایک واحد آڈیو ٹیکسٹ ملٹی موڈل ماڈل میں شامل کرکے بنایا گیا ہے۔ SALMONN ماڈل قابل بناتا ہے۔ بڑے زبان کے ماڈل عام آڈیو ان پٹس کو براہ راست سمجھنا اور اس پر کارروائی کرنا، اور تربیت میں استعمال ہونے والے آڈیو اور اسپیچ ٹاسکس کی ایک وسیع صف پر مسابقتی کارکردگی پیش کرنا بشمول سمعی معلومات پر مبنی سوالوں کے جوابات، تقریر کی شناخت اور ترجمہ، اسپیکر کی تصدیق، جذبات کی شناخت، آڈیو اور موسیقی کیپشننگ، اور بہت زیادہ. ہم SALMONN فریم ورک میں گہرا غوطہ لگائیں گے، اور NLP کاموں کی ایک وسیع صف میں اس کے کام، فن تعمیر، اور نتائج کو تلاش کریں گے۔ تو آئیے شروع کرتے ہیں۔
سالمون : سنگل آڈیو ٹیکسٹ ملٹی موڈل بڑی زبان کے ماڈلز کا تعارف
SALMONN کا مطلب اسپیچ آڈیو لینگویج میوزک اوپن نیورل نیٹ ورک ہے، اور یہ ایک واحد آڈیو ٹیکسٹ ملٹی موڈل بڑے لینگویج ماڈل کا فریم ورک ہے جو تقریر، آڈیو ایونٹس اور موسیقی سمیت تین بنیادی آڈیو یا صوتی اقسام کو سمجھنے اور سمجھنے کے قابل ہے۔ SALMONN ماڈل بڑی زبان کے ماڈلز کو عام آڈیو ان پٹس کو براہ راست سمجھنے اور اس پر کارروائی کرنے کے قابل بناتا ہے، اور آڈیو اور اسپیچ کے کاموں کی ایک وسیع صف پر مسابقتی کارکردگی پیش کرتا ہے۔
تقریر اور غیر تقریری آڈیو کاموں دونوں پر اپنی کارکردگی کو بڑھانے کے لیے، SALMONN فریم ورک ایک دوہری انکوڈر ڈھانچہ استعمال کرتا ہے جس میں ایک BEATs آڈیو انکوڈر ہوتا ہے، اور ایک اسپیچ انکوڈر جو Whisper اسپیچ ماڈل سے حاصل ہوتا ہے۔ مزید برآں، SALMONN فریم ورک ونڈو لیول Q-Former یا query Transformer کو کنکشن ماڈیول کے طور پر استعمال کرتا ہے تاکہ متغیر-لمبائی کے انکوڈر کے آؤٹ پٹ سیکوئنس کو ایک متغیر نمبر کے بڑھے ہوئے آڈیو ٹوکنز میں مؤثر طریقے سے تبدیل کیا جا سکے، اور بالآخر آڈیو کے لیے اعلیٰ عارضی حل حاصل کیا جا سکے۔ متن کی سیدھ دی LoRA یا کم درجہ کی موافقت نقطہ نظر کو Vicuna فریم ورک کے کراس موڈل اڈاپٹر کے طور پر استعمال کیا جاتا ہے تاکہ اس کی کارکردگی کو مزید بڑھانے کی کوشش میں اس کی آؤٹ پٹ اسپیس کو اس کے بڑھے ہوئے ان پٹ اسپیس کے ساتھ سیدھ میں کیا جاسکے۔ SALMONN فریم ورک میں، کراس موڈل کام کرنے کی صلاحیت تربیتی مرحلے کے دوران غائب کراس موڈل ابھرتی ہوئی صلاحیتوں کے طور پر تربیت کے دوران کھو جاتی ہے جس کی بنیادی وجہ یہ ہے کہ SALMONN فریم ورک LLM کو دوبارہ حاصل کرنے کے لیے اضافی چند شاٹ ایکٹیویشن مرحلے کو لاگو کرتا ہے۔ فریم ورک کی عمومی ابھرتی ہوئی صلاحیتیں۔
مزید برآں، فریم ورک اپنی علمی سماعت کی صلاحیتوں کا جائزہ لینے کے لیے آڈیو ایونٹس، میوزک بینچ مارکس، اور اسپیچ بینچ مارکس کی ایک وسیع صف کا استعمال کرتا ہے، اور بینچ مارکس کو تین سطحوں میں تقسیم کرتا ہے۔ پہلی بینچ مارک کی سطح پر، فریم ورک انسٹرکشن ٹریننگ میں آٹھ کاموں کو تربیت دیتا ہے جن میں ترجمہ، آڈیو کیپشننگ، اور تقریر کی شناخت شامل ہے۔ دیگر دو بینچ مارک لیولز غیر تربیت یافتہ کام ہیں دوسرے درجے کے بینچ مارک کے ساتھ 5 اسپیچ پر مبنی نیچرل لینگویج پروسیسنگ ٹاسکس جیسے سلاٹ فلنگ اور غیر تربیت یافتہ زبانوں میں ترجمہ جو ٹیکسٹ اور اسپیچ ٹوکنز کے درمیان اعلیٰ معیار کی کثیر لسانی صف بندی پر انحصار کرتے ہیں۔ آخری سطح کے بینچ مارک ٹاسک اسپیچ-آڈیو کو-ریزننگ اور آڈیو پر مبنی کہانی سنانے کے لیے تقریر اور غیر تقریری سمعی معلومات کو سمجھنے کی کوشش کرتے ہیں۔
اس کا خلاصہ یہ ہے کہ سالمون فریم ورک ہے۔
- پہلا ملٹی موڈل بڑا لینگویج ماڈل جو عام آڈیو ان پٹس کو سمجھنے اور سمجھنے کی صلاحیت رکھتا ہے جس میں آڈیو ایونٹس، اسپیچ، اور میوزک شامل ہیں اپنی صلاحیت کے مطابق۔
- LoRA اسکیلنگ فیکٹر کو لاگو کرکے پیش کردہ کراس موڈل ایمرجنٹ صلاحیتوں کا تجزیہ کرنے کی کوشش، اور فریم ورک کی کراس موڈل ایمرجنٹ صلاحیتوں کو چالو کرنے کے لیے ٹریننگ کے دوران ایک اضافی بجٹ کے موافق ایکٹیویشن اسٹیج کا استعمال کرتے ہوئے۔
سالمون: فن تعمیر اور طریقہ کار
اس سیکشن میں، ہم سالمون فریم ورک کے لیے فن تعمیر، تربیت کے طریقہ کار، اور تجرباتی سیٹ اپ پر ایک نظر ڈالیں گے۔
ماڈل آرکیٹیکچر
اپنے فن تعمیر کے بنیادی حصے میں، SALMONN فریم ورک دو سمعی انکوڈرز کے آؤٹ پٹس کو ہم آہنگ اور یکجا کرتا ہے جس کے بعد فریم ورک کنکشن ماڈیول کے طور پر فریم کی سطح پر Q-Former کو لاگو کرتا ہے۔ Q-Former کے ذریعہ تیار کردہ آؤٹ پٹ سیکونس کو ٹیکسٹ انسٹرکشن پرامپٹس کے ساتھ ملایا جاتا ہے اور پھر اسے LoRA موافقت کے نقطہ نظر میں ایک ان پٹ کے طور پر فراہم کیا جاتا ہے تاکہ مطلوبہ ردعمل پیدا کیا جا سکے۔
سمعی انکوڈرز
سالمون فریم ورک دو سمعی انکوڈرز کا استعمال کرتا ہے: ایک نان اسپیچ بیٹس آڈیو انکوڈر، اور ایک اسپیچ انکوڈر جو OpenAI کے Whisper فریم ورک سے حاصل کیا گیا ہے۔ BEATs آڈیو انکوڈر کو غیر اسپیچ ہائی لیول آڈیو سیمنٹکس نکالنے کی کوشش میں خود زیر نگرانی تکراری سیکھنے کا طریقہ استعمال کرنے کی تربیت دی جاتی ہے جبکہ اسپیچ انکوڈر کو اسپیچ ریکگنیشن اور اسپیچ ٹرانسلیشن کے کاموں کے لیے کمزور نگرانی والے ڈیٹا کی ایک بڑی مقدار پر تربیت دی جاتی ہے۔ پس منظر کے شور اور تقریر کی معلومات کو شامل کرنے کے لیے موزوں انکوڈر کی آؤٹ پٹ خصوصیات۔ ماڈل سب سے پہلے ان پٹ آڈیو کو ٹوکنائز کرتا ہے، اور تربیت کے دوران ماسک لگا کر اور پیشین گوئی کر کے اس کی پیروی کرتا ہے۔ ان دونوں انکوڈرز کے نتیجے میں سمعی خصوصیات ایک دوسرے کی تکمیل کرتی ہیں، اور تقریر اور غیر تقریری معلومات دونوں کے لیے موزوں ہیں۔
ونڈو لیول Q-سابق
Q-Former ڈھانچے کو نافذ کرنا ایک عام طریقہ ہے جو LLM فریم ورک میں استعمال کیا جاتا ہے تاکہ تصویری انکوڈر کے آؤٹ پٹ کو ٹیکسٹول ان پٹ ٹوکنز میں تبدیل کیا جا سکے، اور مختلف طوالت کے آڈیو ٹوکنز سے نمٹنے کے دوران کچھ ترمیم کی ضرورت ہوتی ہے۔ مزید مخصوص ہونے کے لیے، فریم ورک ان پٹ امیج کے انکوڈر آؤٹ پٹ کو ایک مربوط انکوڈر آؤٹ پٹ تسلسل کے طور پر دیکھتا ہے، اور Q-Former Q-Former کے اسٹیک شدہ بلاکس کا استعمال کرتے ہوئے انکوڈر آؤٹ پٹ کی ترتیب کو متنی ٹوکن میں تبدیل کرنے کے لیے تربیت کے قابل سوالات کی ایک مقررہ تعداد کو تعینات کرتا ہے۔ . ایک اسٹیک شدہ Q-Former بلاک ٹرانسفارمر ڈیکوڈر بلاک سے مشابہت رکھتا ہے جس میں مستثنیات خود توجہ کی تہوں میں آرام دہ ماسک کو ہٹانا، اور ابتدائی بلاکس میں قابل تربیت جامد سوالات کی ایک مقررہ تعداد کا استعمال۔
LoRA اور LLM
SALMONN فریم ورک ایک Vicuna LLM بھی تعینات کرتا ہے جو کہ LLaMA بڑے لینگویج ماڈل کا فریم ورک ہے جو ہدایات کو زیادہ درست اور مؤثر طریقے سے پیروی کرنے کے لیے موزوں ہے۔ LoRA فریم ورک ایک عام طریقہ ہے جو پیرامیٹر سے موثر فائن ٹیوننگ کے لیے استعمال کیا جاتا ہے، اور SALMONN فریم ورک میں اس کی شمولیت وزن میٹرکس کی قدر کرنے اور استفسار کو خود توجہ کی تہوں میں ڈھالنے کے لیے۔
تربیت کا طریقہ
سالمون فریم ورک تین مراحل پر مشتمل کراس موڈل ٹریننگ اپروچ کا استعمال کرتا ہے۔ تربیت کے مرحلے میں تربیت سے پہلے کا مرحلہ، اور انسٹرکشن ٹیوننگ کا مرحلہ ہوتا ہے جو زیادہ تر میں شامل ہوتا ہے۔ بصری ایل ایل ایم فریم ورک، اور آڈیو کیپشننگ اور اسپیچ ریکگنیشن کے کاموں کے دوران پیش آنے والے اوور فٹنگ مسائل کو حل کرنے کے لیے ایک اضافی ایکٹیویشن ٹیوننگ اسٹیج لاگو کیا جاتا ہے۔
پری ٹریننگ کا مرحلہ
پہلے سے تربیت یافتہ پیرامیٹرز بشمول انکوڈرز اور ایل ایل ایم، اور اڈاپٹر اور کنکشن ماڈیولز سمیت تصادفی طور پر شروع کیے گئے پیرامیٹرز کے درمیان پائے جانے والے خلا کو محدود کرنے کے لیے، SALMONN فریم ورک LoRA اور Q-Former اجزاء کو پہلے سے تربیت دینے کے لیے آڈیو کیپشن اور اسپیچ ریکگنیشن ڈیٹا کی ایک بڑی مقدار کا استعمال کرتا ہے۔ . ان کاموں میں آڈیو ایونٹس کے کلیدی مواد کے بارے میں اہم سمعی معلومات ہوتی ہیں تقریر اور غیر تقریر دونوں، اور ان میں سے کسی کو بھی متنی اور سمعی معلومات کے درمیان صف بندی سیکھنے کے لیے پیچیدہ تفہیم یا استدلال کی ضرورت ہوتی ہے۔
انسٹرکشن فائن ٹیوننگ اسٹیج
SALMONN فریم ورک میں لاگو کیا گیا انسٹرکشن فائن ٹیوننگ اسٹیج NLP اور بصری LLM فریم ورک میں لاگو کردہ آڈیو ایونٹس، میوزک ٹاسکس اور اسپیچ ایونٹس کی فہرست کا استعمال کرکے آڈی ٹیکسٹ ہدایات کو ٹھیک کرنے کے لیے مشابہ ہے۔ کاموں کو مختلف ٹیسٹوں میں ان کی اہمیت کی بنیاد پر ترجیح دی جاتی ہے جن میں فون کی شناخت، اوور لیپنگ اسپیچ ریکگنیشن، اور میوزک کیپشن شامل ہیں۔ مزید برآں، آڈیو ڈیٹا کے ساتھ جوڑ کر متنی معلومات ہدایات کے اشارے پیدا کرنے کی بنیاد بناتی ہیں۔
ٹاسک اوور فٹنگ
یہاں تک کہ جب صرف پہلے دو تربیتی مراحل کو لاگو کرتے ہیں، SALMONN فریم ورک انسٹرکشن ٹیوننگ ٹاسکس پر مسابقتی نتائج فراہم کرتا ہے، حالانکہ کراس موڈل کاموں کو انجام دیتے وقت کارکردگی درست نہیں ہوتی، خاص طور پر ان کاموں پر جن کے لیے کراس موڈل کو-ریزننگ صلاحیتوں کی ضرورت ہوتی ہے۔ خاص طور پر، ماڈل کبھی کبھار ہدایات کی خلاف ورزی کرتا ہے جس کے نتیجے میں غیر متعلقہ یا غلط جوابات پیدا ہوتے ہیں، اور اس رجحان کو SALMONN فریم ورک میں ٹاسک اوور فٹنگ کہا جاتا ہے، اور ان اوور فٹنگ مسائل کو حل کرنے کے لیے ایکٹیویشن ٹیوننگ کا مرحلہ نافذ کیا جاتا ہے۔
ایکٹیویشن ٹیوننگ اسٹیج
اوور فٹنگ کے مسائل کو حل کرنے کے لیے ایک مؤثر طریقہ یہ ہے کہ طویل اور متنوع جوابات جیسے کہانی سنانے یا سمعی معلومات پر مبنی سوالوں کے جوابات کا استعمال کرتے ہوئے اندرونی مشروط زبان کے ماڈلز کو باقاعدہ بنایا جائے۔ اس کے بعد فریم ورک آڈیو یا اسپیچ یا میوزک کیپشن کے ساتھ جوڑا ٹیکسٹ کا استعمال کرتے ہوئے ایسے کاموں کے لیے جوڑے کی تربیت کا ڈیٹا تیار کرتا ہے۔
ٹاسک کی تفصیلات
SALMONNN کی صفر شاٹ کراس موڈل ابھرتی ہوئی صلاحیتوں کا جائزہ لینے کے لیے، ڈویلپرز نے 15 تقریر، آڈیو اور موسیقی کے کاموں کو تین سطحوں میں تقسیم کیا ہے۔
سطح 1
پہلی سطح میں، ٹاسکس کو انسٹرکشن ٹیوننگ کے لیے استعمال کیا جاتا ہے، اور اس وجہ سے، یہ کاموں کا سب سے آسان سیٹ ہیں جو SALMONN فریم ورک کو انجام دینا ہوتا ہے۔
سطح 2
دوسری سطح غیر تربیت یافتہ کاموں پر مشتمل ہے، اور سطح 1 کے کاموں کے مقابلے میں پیچیدگی کی سطح زیادہ ہے۔ لیول 2 میں، ٹاسکس نیچرل لینگویج پروسیسنگ پر مبنی ٹاسک ہیں جن میں اسپیچ کلیدی لفظ نکالنا شامل ہے جو کہ اسپیچ کا استعمال کرتے ہوئے مخصوص کلیدی الفاظ نکالتے وقت فریم ورک کی درستگی کا اندازہ کرنے کے لیے استعمال کیا جاتا ہے۔ دوسرے کاموں میں SQQA یا اسپوکن کوئری پر مبنی سوال کا جواب دینا شامل ہے جو اسپیچ کے سوالات کا استعمال کرتے ہوئے فریم ورک کے اخذ کردہ عام فہم علم کا اندازہ کرتا ہے، سلاٹ ویلیوز کی درستگی کا اندازہ کرنے کے لیے SF یا اسپیچ پر مبنی سلاٹ فلنگ ٹاسک، اور آخر میں، AST کے دو کام ہیں۔ انگریزی سے جرمن، اور انگریزی سے جاپانی تبادلے۔
سطح 3
لیول 3 میں کاموں کی پیچیدگی دیگر دو سطحوں کے مقابلے میں زیادہ سے زیادہ ہے، اور اس میں SAC یا اسپیچ آڈیو کو-ریزننگ، اور آڈیو پر مبنی کہانی سنانے کے کام شامل ہیں۔ SAC ٹاسک کے لیے SALMONN فریم ورک کی ضرورت ہوتی ہے کہ وہ ماڈل کو دیے گئے آڈیو کلپ میں شامل ایک سوال کو سمجھے، پس منظر میں آڈیو واقعات یا موسیقی کا استعمال کرتے ہوئے معاون ثبوت تلاش کرے، اور آخر میں سوال کا جواب دینے کے لیے ایک مناسب وجہ پیدا کرے۔ آڈیو پر مبنی کہانی سنانے کے کاموں کے لیے ماڈل کو عام آڈیو ان پٹس سے حاصل کردہ سمعی معلومات کی بنیاد پر ایک بامعنی کہانی تخلیق کرنے کی ضرورت ہوتی ہے۔
نتائج کی نمائش
لیول 1 ٹاسکس
درج ذیل جدول سطح 1 کے کاموں کے نتائج کو ظاہر کرتا ہے، اور جیسا کہ یہ دیکھا جا سکتا ہے، SALMONN فریم ورک سطح 1 کے کاموں پر ایکٹیویشن ٹیوننگ کے ساتھ یا اس کے بغیر مسابقتی نتائج دیتا ہے۔
لیول 2 اور 3 ٹاسکس
اگرچہ SALMONN فریم ورک لیول 1 کے کاموں پر فائن ٹیوننگ کے بغیر بھی مسابقتی نتائج دیتا ہے، لیول 2 اور لیول 3 کے کاموں کے لیے بھی ایسا نہیں کہا جا سکتا کیونکہ ایکٹیویشن کے بغیر، SALMONN فریم ورک کو کاموں پر زیادہ فٹنگ کا سامنا کرنا پڑتا ہے۔ SQQA، SAC، اور کہانی سنانے کے کاموں پر زور دینے کے ساتھ کارکردگی مزید کم ہو جاتی ہے۔ ملٹی موڈل تعاملات، اور SALMONN فریم ورک ایکٹیویشن ٹیوننگ کے بغیر ہدایات پر عمل کرنے کی جدوجہد کرتا ہے۔ تاہم، ایکٹیویشن ٹیوننگ کے ساتھ، نتائج میں کافی بہتری آتی ہے، اور نتائج درج ذیل تصویر میں شامل ہیں۔
LoRA اسکیلنگ فیکٹر کی چھوٹ
LoRA سکیلنگ فیکٹر کی رعایت کاموں پر اوور فٹنگ کے مسائل کو کم کرنے کے لیے LoRA سکیلنگ فیکٹر کے ٹائم ٹیسٹ ڈسکاؤنٹنگ کے استعمال کے اثر و رسوخ کا جائزہ لیتی ہے۔ جیسا کہ مندرجہ ذیل اعداد و شمار میں دیکھا جا سکتا ہے، LoRA اسکیلنگ فیکٹر میں 2.0 تک کمی بالترتیب ASR اور PR کاموں، SQQA کاموں، کہانی سنانے کے کاموں، اور SAC کے کاموں پر SALMONN فریم ورک کی کراس موڈل استدلال کی صلاحیت کو بلند کرتی ہے۔
ٹاسک اوور فٹنگ کا جائزہ لینا
ایکٹیویشن ٹیوننگ پر زور دینے کے لیے، SALMONN فریم ورک تین تربیتی مراحل کے دوران الجھن میں ہونے والی تبدیلیوں کا تجزیہ کرتا ہے، اور جیسا کہ اسے مندرجہ ذیل تصویر میں دیکھا جا سکتا ہے، AAC اور ASR کاموں کے لیے الجھن میں ہونے والی تبدیلیاں پہلے تربیتی مرحلے کے بعد چھوٹی حتمی قدروں کی نشاندہی کرتی ہیں۔ کراس موڈل الائنمنٹس کا ماڈل سیکھنا۔
مزید برآں، آؤٹ پٹ ٹوکن سیکھنے کے لیے LoRA جزو پر انحصار کرنے کی وجہ سے PR ٹاسک کی الجھن پوسٹ انسٹرکشن ٹیوننگ کو بھی گرا دیتی ہے۔ یہ بھی مشاہدہ کیا گیا ہے کہ اگرچہ انسٹرکشن ٹیوننگ اسٹوری ٹیلنگ اور ایس اے سی کے کاموں کی الجھن کو کم کرنے میں مدد کرتی ہے، لیکن یہ خلا اب بھی کاموں کو کامیابی کے ساتھ انجام دینے کے لیے کافی بڑا ہے جب تک کہ ایک اضافی ایکٹیویشن اسٹیج کو شامل نہ کیا جائے یا LoRA جزو کو ہٹا دیا جائے۔
ایکٹیویشن ٹیوننگ
SALMONN فریم ورک ایکٹیویشن کے مختلف طریقوں میں ڈوبتا ہے جس میں ماڈل کو لمبے جوابات کے ساتھ ٹیکسٹ پر مبنی QA ٹاسک جوڑوں پر تربیت دینا، یا آڈیو پر مبنی لمبی تحریری کہانیوں کا استعمال کرنا، جبکہ ASR کاموں کے لیے طویل تقریری نقلوں کا استعمال کرنا۔ Q-Former اور LoRA دونوں اجزاء ان تین طریقوں کا استعمال کرتے ہوئے ٹھیک بنائے گئے ہیں۔ مزید برآں، فریم ورک آڈیو اور Q-Former ان پٹس کو نظر انداز کرتا ہے تاکہ LoRA اور Vicuna اجزاء کو ایک انکولی ٹیکسٹ پر مبنی بڑے لینگویج ماڈل کے طور پر ٹھیک بنایا جائے، اور نتائج کو مندرجہ ذیل تصویر میں دکھایا گیا ہے، اور جیسا کہ یہ دیکھا جا سکتا ہے۔ ، ماڈل کو ASR (لمبے لیبلز کے ساتھ ASR کی تربیت)، اور نہ ہی کہانی یا متن پر مبنی LoRA جزو کو ٹیکسٹ پرامپٹ ان پٹس کا استعمال کرتے ہوئے ایکٹیویٹ نہیں کیا جا سکتا۔
فائنل خیالات
اس آرٹیکل میں، ہم نے SALMONN یا اسپیچ آڈیو لینگویج میوزک اوپن نیورل نیٹ ورک کے بارے میں بات کی ہے، ایک واحد آڈیو ٹیکسٹ ملٹی موڈل بڑے لینگویج ماڈل کا فریم ورک جو تقریر، آڈیو ایونٹس اور موسیقی سمیت تین بنیادی آڈیو یا صوتی اقسام کو سمجھنے اور سمجھنے کے قابل ہے۔ SALMONN ماڈل بڑی زبان کے ماڈلز کو عام آڈیو ان پٹس کو براہ راست سمجھنے اور اس پر کارروائی کرنے کے قابل بناتا ہے، اور آڈیو اور اسپیچ کے کاموں کی ایک وسیع صف پر مسابقتی کارکردگی پیش کرتا ہے۔
SALMONN فریم ورک تربیت یافتہ کاموں کی ایک وسیع صف پر مسابقتی کارکردگی پیش کرتا ہے جس میں آڈیو کیپشننگ، اسپیچ ٹرانسلیشن اور ریکگنیشن، اور بہت کچھ شامل ہے جبکہ کلیدی الفاظ کو نکالنے اور غیر تربیت یافتہ زبانوں کے لیے اسپیچ ٹرانسلیشن سمیت غیر تربیت یافتہ سمجھنے والے کاموں کو عام کرنا۔ اس کی صلاحیتوں کی وجہ سے، SALMONN فریم ورک کو بڑے زبان کے ماڈلز کی عمومی سماعت کی صلاحیتوں کو بڑھانے کی طرف اگلا قدم قرار دیا جا سکتا ہے۔