الذكاء الاصطناعي

Salmonn: نحو القدرات السمعية العامة للنماذج اللغوية الكبيرة

Published November 28, 2023

Updated April 28, 2026

Kunal Kejriwal

السماع، الذي يتضمن إدراك وفهم المعلومات السمعية العامة، أمر بالغ الأهمية للوكلاء الذكاء الاصطناعي في البيئات الحقيقية. وتشمل هذه المعلومات السمعية ثلاثة أنواع رئيسية من الأصوات: الموسيقى والأحداث الصوتية والكلام. في الآونة الأخيرة، أظهرت إطارات النموذج اللغوي الكبير (LLM) القائمة على النص أداءً ملحوظًا، حيث حقق أداءً على مستوى الإنسان في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). بالإضافة إلى ذلك، أصبحت تعديل التعليم، وهو طريقة تدريب باستخدام أزواج من الاستجابات المرجعية وطروحات المستخدم، شائعة. هذه النهج يُدرّب النماذج اللغوية الكبيرة على اتباع تعليمات المستخدم المفتوحة بشكل أكثر فعالية. ومع ذلك، يركز البحث الحالي بشكل متزايد على تعزيز النماذج اللغوية الكبيرة بالقدرة على إدراك المحتوى المتعدد الوسائط.

مُركّزًا على نفس الشيء، في هذه المقالة، سوف نتحدث عن SALMONN أو شبكة عصبية مفتوحة للغة الموسيقى الصوتية، وهي شبكة عصبية مفتوحة للغة الصوتية الموسيقية الحائزة على جائزة الدولة للتميز، تم بناؤها عن طريق دمج مشفرات الصوت والكلام مع نموذج لغوي كبير مُسبق التدريب في نموذج متعدد الوسائط صوتي-نصي واحد. تمكّن نموذج SALMONN النماذج اللغوية الكبيرة من فهم ومعالجة الإدخالات الصوتية العامة مباشرةً، وتقديم أداء تنافسي على مجموعة واسعة من مهام الصوت والكلام المستخدمة في التدريب، بما في ذلك الإجابة على الأسئلة القائمة على المعلومات السمعية، والترجمة والتعرف على الكلام، وتصديق المتحدث، والتعرف على العواطف، وكتابة تعليقات الصوت والموسيقى، وغيرها الكثير. سوف نتعمق أكثر في إطار SALMONN، ونتحقق من عمله وهيكله ونتائجه عبر مجموعة واسعة من مهام NLP. لذا دعونا نبدأ.

SALMONN : مقدمة في النماذج اللغوية الكبيرة المتعددة الوسائط الصوتية-النصية

SALMONN هو اختصار لشبكة عصبية مفتوحة للغة الصوتية الموسيقية، وهي إطار نموذج لغوي كبير متعدد الوسائط صوتي-نصي قادر على إدراك وفهم ثلاثة أنواع أساسية من الأصوات أو الأصوات، بما في ذلك الكلام والأحداث الصوتية والموسيقى. تمكّن نموذج SALMONN النماذج اللغوية الكبيرة من فهم ومعالجة الإدخالات الصوتية العامة مباشرةً، وتقديم أداء تنافسي على مجموعة واسعة من مهام الصوت والكلام.

为了 تعزيز أدائه على مهام الكلام والصوت غير الكلامية، يستخدم إطار SALMONN هيكلاً مزدوجًا للمشفرات يتكون من مشفر صوتي BEATs ومشفر كلام مستمد من نموذج Whisper للكلام. بالإضافة إلى ذلك، يستخدم إطار SALMONN أيضًا قسماً من نوع Q-Former أو متحول الاستعلام كوحدة اتصال لتحويل تسلسل الإخراج من مشفر متغير الطول إلى رموز صوتية متغيرة العدد، وبالتالي تحقيق دقة زمنية عالية لتركيب الصوت والنص. يتم استخدام نهج LoRA أو التكيف منخفض الرتبة كمتحول متعددي الوسائط إلى إطار Vicuna لتحقيق تماثل بين فضاء الإخراج وفضاء الإدخال المحسّن، في محاولة لتعزيز الأداء بشكل أكبر. في إطار SALMONN، القدرة على أداء المهام المتعددة الوسائط غير المرئية خلال مرحلة التدريب تُفقد خلال تدريب التعليمات كقدرات متعددة الوسائط ناشئة، وهذا هو السبب الرئيسي لتنفيذ مرحلة تفعيل إضافية في إطار SALMONN لاستعادة القدرات الناشئة العامة للنموذج اللغوي الكبير.

علاوة على ذلك، يستخدم الإطار مجموعة واسعة من أحداث الصوت ومقاييس الموسيقى ومقاييس الكلام لتقييم قدراته السمعية الإدراكية، ويقسم المقاييس إلى ثلاثة مستويات. في المستوى الأول، يُدرب الإطار ثمانية مهام في مرحلة تعليم التعليمات، بما في ذلك الترجمة وكتابة تعليقات الصوت والتعرف على الكلام. المستويان الآخران مهام غير مدربة، والمستوى الثاني يتكون من خمس مهام معالجة لغة طبيعية قائمة على الكلام مثل استخراج الكلمات الرئيسية والترجمة إلى لغات غير مدربة، ويعتمد على محاذاة متعددة اللغات عالية الجودة بين رموز النص والكلام. المهام في المستوى الثالث تحاول فهم المعلومات السمعية الكلامية وغير الكلامية للتفكير والرواية الصوتية.

لتلخيص، إطار SALMONN هو

أول نموذج لغوي كبير متعدد الوسائط قادر على فهم وفهم الإدخالات الصوتية العامة، بما في ذلك الأحداث الصوتية والكلام والموسيقى، إلى أقصى حد.
محاولة لتحليل القدرات الناشئة المتعددة الوسائط التي تقدمها من خلال تنفيذ عامل تحجيم LoRA، و sử dụng مرحلة تفعيل إضافية خلال التدريب لتفعيل القدرات الناشئة المتعددة الوسائط للإطار.

SALMONN : مقدمة في الهيكل والمنهجية

في هذا القسم، سننظر في هيكل الإطار، وطريقة التدريب، والترتيب التجريبي لإطار SALMONN.

هيكل النموذج

في قلب هيكله، يُزامن إطار SALMONN ويجمع بين مخرجات مشفرين سمعيين، ثم ينفذ قسماً من نوع Q-Former على مستوى الإطار كوحدة اتصال. يُدمج تسلسل الإخراج الناتج عن Q-Former مع طروحات تعليمية نصية، ثم يُقدم كإدخال لنهج التكيف LoRA لتحقيق الاستجابة المطلوبة.

المشفرات السمعية

يستخدم إطار SALMONN مشفرين سمعيين: مشفر صوتي BEATs غير كلامي، ومشفر كلام مستمد من إطار Whisper من OpenAI. يتم تدريب مشفر الصوت BEATs لاستخدام نهج التعلم الذاتي التكراري لاستخراج معاني صوتية عالية المستوى غير كلامية، بينما يتم تدريب مشفر الكلام على كمية كبيرة من البيانات الضعيفة الإشراف لمهام التعرف على الكلام والترجمة، وتناسب ميزات الإخراج للمشفر لتشمل الضوضاء الخلفية ومعلومات الكلام. يتم أولاً تحويل الإدخال الصوتي إلى رموز، ثم يُ Coveredmask وتنبؤ به في التدريب. تكمّل الميزات السمعية الناتجة عن هذين المشفرين بعضهما البعض، وتناسب كلاً من الكلام والصوت غير الكلامي.

قسم Q-Former على مستوى الإطار

تنفيذ هيكل Q-Former هو نهج شائع في إطارات النماذج اللغوية الكبيرة، لتحويل مخرجات مشفر الصورة إلى رموز نصية، ويتطلب بعض التعديل عند التعامل مع رموز صوتية بطول متغير. على سبيل المزيد من التحديد، ينظر الإطار إلى مخرجات مشفر الإدخال كتسلسل مترابط لمخرجات المشفر، ويستخدم Q-Former عددًا ثابتًا من الاستفسارات القابلة للتدريب لتحويل تسلسل مخرجات المشفر إلى رموز نصية باستخدام كتل متراكبة من Q-Former. يشبه كتلة Q-Former المتراكبة كتلة فك التشفير للتحويل، مع استثناءات هي إزالة أقنعة الحساسية في طبقات الانتباه الذاتي، و sử dụng عدد ثابت من الاستفسارات الثابتة في الكتل الأولية.

LoRA و LLM

كما يستخدم إطار SALMONN نموذج Vicuna LLM، وهو إطار نموذج لغوي كبير LLaMA تم تعديله لاتباع التعليمات بدقة أكبر، وأكثر فعالية. يُستخدم إطار LoRA كنهج شائع للتعديل الفعال للمعاملات، ويشمل إطار SALMONN لتحديد مصفوفات القيم وتكيف الاستفسار في طبقات الانتباه الذاتي.

طريقة التدريب

يستخدم إطار SALMONN نهجًا ثلاثي المراحل للتدريب المتعدد الوسائط. يتكون مرحلة التدريب من مرحلة ما قبل التدريب، ومرحلة تعديل التعليم التي يتم تضمينها في معظم إطارات النماذج اللغوية الكبيرة البصرية، ومرحلة تفعيل إضافية يتم تنفيذها لحل مشاكل التكيف الزائد التي تظهر خلال مهام كتابة تعليقات الصوت والتعرف على الكلام.

مرحلة ما قبل التدريب

لتحديد الفجوة بين المعاملات المُسبقة التدريب، بما في ذلك المشفرات والنموذج اللغوي الكبير، والمعاملات المُ初始化 عشوائيًا، بما في ذلك الوحدات المتحولة ووحدات الاتصال، يستخدم إطار SALMONN كمية كبيرة من بيانات كتابة تعليقات الصوت والتعرف على الكلام لما قبل تدريب مكونات LoRA وQ-Former. تحتوي هذه المهام على معلومات سمعية حيوية حول المحتوى الرئيسي لأحداث الصوت، سواء كانت كلامية أو غير كلامية، ولا تتطلب فهمًا أو استدلالًا معقدًا لتعلم المحاذاة بين المعلومات النصية والسمعية.

مرحلة تعديل التعليم

تُشبه مرحلة تعديل التعليم في إطار SALMONN تلك الموجودة في إطارات NLP والنموذج اللغوي الكبير البصري، من خلال استخدام قائمة بأحداث الصوت ومهام الموسيقى والكلام لتعديل تعليمات الصوت والنص. يتم تحديد الأولوية للمهام بناءً على أهميتها عبر مختلف الاختبارات، بما في ذلك التعرف على الهاتف والكلام المتداخل، وكتابة تعليقات الموسيقى. بالإضافة إلى ذلك، يتم تكوين المعلومات النصية المزودة مع بيانات الصوت لإنشاء طروحات تعليمية.

التكيف الزائد للمهام

حتى عند تنفيذ المرحلتين الأوليتين فقط، يقدم إطار SALMONN نتائج تنافسية على مهام تعديل التعليم، على الرغم من أن الأداء ليس على المستوى المطلوب عند أداء المهام المتعددة الوسائط، خاصةً على المهام التي تتطلب مهارات استدلال متعددة الوسائط. على سبيل المثال، قد يخالف النموذج في بعض الأحيان طروحات التعليم، مما يؤدي إلى توليد استجابات غير متعلقة أو غير صحيحة، ويُطلق على هذه الظاهرة اسم التكيف الزائد للمهام في إطار SALMONN، ويتطلب تنفيذ مرحلة التفعيل لحل هذه مشاكل التكيف الزائد.

مرحلة التفعيل

نهج فعال لحل مشاكل التكيف الزائد هو تنظيم النماذج اللغوية المشروطة الداخلية باستخدام استجابات أطول وأكثر تنوعًا، مثل السرد القصصي أو الإجابة على الأسئلة القائمة على المعلومات السمعية. ثم يتم توليد بيانات التدريب للنموذج باستخدام النص المزود مع الصوت أو تعليقات الموسيقى.

مواصفات المهام

لتحديد القدرات الناشئة المتعددة الوسائط لنموذج SALMONN، تم تضمين 15 مهام كلامية وصوتية وموسيقية، موزعة على ثلاثة مستويات.

المستوى الأول

في المستوى الأول، يتم استخدام المهام لتعديل التعليم، وبالتالي فهي أسهل مجموعة من المهام التي يجب على إطار SALMONN أداؤها.

المستوى الثاني

يتكون المستوى الثاني من مهام غير مدربة، ومستوى الصعوبة أعلى مقارنةً بمهام المستوى الأول. في المستوى الثاني، المهام هي مهام معالجة لغة طبيعية قائمة على الكلام، بما في ذلك استخراج الكلمات الرئيسية، والاستجواب القائم على الكلام، ومهام ملء الفواصل، والترجمة إلى لغات غير مدربة.

المستوى الثالث

مستوى الصعوبة في المهام في المستوى الثالث هو الأعلى مقارنةً بالمهام في المستويين الآخرين، ويتضمن مهام التفكير والرواية الصوتية. يتطلب مهمة التفكير والرواية الصوتية من إطار SALMONN فهم سؤال موجود في مقطع الصوت المدخل إلى النموذج، وfindingدليل داعم باستخدام أحداث صوتية أو موسيقى في الخلفية، وبالتالي توليد سبب مناسب للاستجابة على السؤال.

النتائج

مهام المستوى الأول

الجدول التالي يظهر النتائج على مهام المستوى الأول، ويمكن ملاحظة أن إطار SALMONN يُرجع نتائج تنافسية على مهام المستوى الأول مع أو بدون التفعيل.

مهام المستوى الثاني والثالث

على الرغم من أن إطار SALMONN يُرجع نتائج تنافسية على مهام المستوى الأول حتى بدون التفعيل، إلا أن نفس الشيء لا يمكن قوله عن مهام المستوى الثاني والثالث، حيث يعاني الإطار من التكيف الزائد بشدة على المهام، خاصةً على المهام التي تتطلب مهارات استدلال متعددة الوسائط. ويتداخل أداء الإطار بشكل أكبر على مهام الاستجواب القائم على الكلام والتفكير والرواية، مع التركيز على التفاعلات المتعددة الوسائط، ويعاني إطار SALMONN في اتباع التعليمات بدون التفعيل. ومع ذلك، مع التفعيل، تتحسن النتائج بشكل كبير، وتم تضمين النتائج في الصورة التالية.

التنازل عن عامل تحجيم LoRA

يُقيم التنازل عن عامل تحجيم LoRA تأثير استخدام عامل تحجيم LoRA المُختزل بمرور الوقت لتحديد مشاكل التكيف الزائد على المهام. كما يمكن ملاحظة أن خفض عامل تحجيم LoRA إلى 2.0 يرفع من قدرة إطار SALMONN على الاستدلال المتعدد الوسائط على مهام التعرف على الكلام والترجمة، والاستجواب القائم على الكلام، والرواية، ومهام التفكير والرواية على التوالي.

تقييم التكيف الزائد للمهام

للتأكيد على التفعيل، يُحلل إطار SALMONN التغييرات في الارتباك خلال المراحل الثلاث للتدريب، ويمكن ملاحظة أن التغييرات في الارتباك لمهام كتابة تعليقات الصوت والتعرف على الكلام تظهر قيمًا نهائية صغيرة بعد المرحلة الأولى من التدريب، مما يشير إلى تعلم النموذج للمحاذاة المتعددة الوسائط.

علاوة على ذلك، ينخفض الارتباك لمهمة التعرف على الكلام بعد تعديل التعليم بسبب اعتماده على مكون LoRA لتعلم رموز الإخراج. كما يُلاحظ أن تعديل التعليم يساعد في تقليل الارتباك على مهام الرواية والتفكير، ولكن الفجوة لا تزال كبيرة بما يكفي لأداء المهام بنجاح إلا إذا تم إضافة مرحلة تفعيل إضافية أو إزالة مكون LoRA.

التنشيط

يُغوص إطار SALMONN في أساليب تنشيط مختلفة، بما في ذلك تدريب النموذج على أزواج مهام الأسئلة والأجوبة النصية ذات الإجابات الطويلة، أو استخدام قصص طويلة مكتوبة صوتية، بينما يستخدم النصوص الطويلة للكلام لمهام التعرف على الكلام. يتم تعديل كلاً من مكونات Q-Former وLoRA باستخدام هذه الأساليب الثلاثة. بالإضافة إلى ذلك، يتم تجاهل الإدخالات الصوتية ومكون Q-Former في محاولة لتعديل مكونات LoRA وVicuna كنموذج لغوي كبير متناسب مع النص، وتم تضمين النتائج في الصورة التالية، ويمكن ملاحظة أن النموذج لا يمكن تنشيطه بواسطة التعرف على الكلام (التدريب على التعرف على الكلام مع تسميات طويلة)، ولا القصص أو النص.

الأفكار النهائية

في هذه المقالة، تحدثنا عن SALMONN أو شبكة عصبية مفتوحة للغة الصوتية الموسيقية، وهي إطار نموذج لغوي كبير متعدد الوسائط صوتي-نصي قادر على إدراك وفهم ثلاثة أنواع أساسية من الأصوات أو الأصوات، بما في ذلك الكلام والأحداث الصوتية والموسيقى. تمكّن نموذج SALMONN النماذج اللغوية الكبيرة من فهم ومعالجة الإدخالات الصوتية العامة مباشرةً، وتقديم أداء تنافسي على مجموعة واسعة من مهام الصوت والكلام.

يُقدم إطار SALMONN أداءً تنافسيًا على مجموعة واسعة من المهام المدربة، بما في ذلك كتابة تعليقات الصوت والترجمة والتعرف على الكلام، بينما يُ일반 إلى مجموعة من مهام الفهم غير المدربة، بما في ذلك الترجمة الكلامية لاستخراج الكلمات الرئيسية واللغات غير المدربة. نظرًا لقدراته، يمكن اعتبار إطار SALMONN خطوةً إلى الأمام في تعزيز القدرات السمعية العامة للنماذج اللغوية الكبيرة.