رطم AudioSep: افصل أي شيء تصفه - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

AudioSep: افصل أي شيء تصفه

mm

تم النشر

 on

LASS أو فصل مصدر الصوت الذي يتم الاستعلام عنه باللغة هو النموذج الجديد لـ CASA أو تحليل المشهد السمعي الحسابي الذي يهدف إلى فصل الصوت المستهدف عن مزيج معين من الصوت باستخدام استعلام لغة طبيعية يوفر واجهة طبيعية وقابلة للتطوير لمهام وتطبيقات الصوت الرقمي . على الرغم من أن أطر LASS قد تقدمت بشكل كبير في السنوات القليلة الماضية من حيث تحقيق الأداء المطلوب على مصادر صوتية محددة مثل الآلات الموسيقية، إلا أنها غير قادرة على فصل الصوت المستهدف في المجال المفتوح. 

الصوتSep، هو نموذج تأسيسي يهدف إلى حل القيود الحالية لأطر عمل LASS من خلال تمكين فصل الصوت المستهدف باستخدام استعلامات اللغة الطبيعية. قام مطورو إطار عمل AudioSep بتدريب النموذج على نطاق واسع على مجموعة واسعة من مجموعات البيانات متعددة الوسائط واسعة النطاق، وقاموا بتقييم أداء الإطار على مجموعة واسعة من المهام الصوتية بما في ذلك فصل الآلات الموسيقية، وفصل الأحداث الصوتية، وتحسين الكلام من بين أشياء أخرى كثيرة. يفي الأداء الأولي لـ AudioSep بالمعايير لأنه يُظهر قدرات تعلم رائعة بدون إطلاق النار ويقدم أداءً قويًا لفصل الصوت. 

في هذه المقالة، سنتعمق أكثر في عمل إطار عمل AudioSep حيث سنقوم بتقييم بنية النموذج ومجموعات البيانات المستخدمة للتدريب والتقييم والمفاهيم الأساسية المشاركة في عمل نموذج AudioSep. لذلك دعونا نبدأ بمقدمة أساسية لإطار عمل CASA. 

CASA، USS، QSS، أطر عمل LASS: مؤسسة AudioSep

CASA أو إطار تحليل المشهد السمعي الحسابي هو إطار يستخدمه المطورون لتصميم أنظمة الاستماع الآلي التي لديها القدرة على إدراك البيئات الصوتية المعقدة بطريقة مشابهة للطريقة التي يدرك بها البشر الصوت باستخدام أنظمتهم السمعية. يعد فصل الصوت، مع التركيز بشكل خاص على فصل الصوت المستهدف، مجالًا أساسيًا للبحث ضمن إطار عمل CASA، ويهدف إلى حل "مشكلة حفلة الكوكتيل"أو فصل التسجيلات الصوتية الواقعية عن تسجيلات أو ملفات مصدر الصوت الفردي. يمكن أن تعزى أهمية فصل الصوت بشكل أساسي إلى تطبيقاته واسعة النطاق بما في ذلك فصل مصدر الموسيقى، وفصل مصدر الصوت، وتحسين الكلام، وتحديد صوت الهدف، وغير ذلك الكثير. 

معظم الأعمال المتعلقة بفصل الصوت التي تمت في الماضي تدور بشكل أساسي حول فصل مصدر صوتي واحد أو أكثر مثل فصل الموسيقى أو فصل الكلام. يهدف نموذج جديد يحمل اسم USS أو Universal Sound Separation إلى فصل الأصوات العشوائية في التسجيلات الصوتية في العالم الحقيقي. ومع ذلك، يعد فصل كل مصدر صوت عن مزيج صوتي مهمة صعبة ومقيدة في المقام الأول بسبب المجموعة الواسعة من مصادر الصوت المختلفة الموجودة في العالم وهو السبب الرئيسي وراء عدم جدوى طريقة USS لتطبيقات العالم الحقيقي. في الوقت الحقيقي. 

البديل الممكن لطريقة USS هو QSS أو طريقة فصل الصوت المستندة إلى الاستعلام والتي تهدف إلى فصل مصدر صوت فردي أو مستهدف عن الخليط الصوتي بناءً على مجموعة معينة من الاستعلامات. بفضل هذا، يسمح إطار عمل QSS للمطورين والمستخدمين باستخراج مصادر الصوت المطلوبة من الخليط بناءً على متطلباتهم مما يجعل طريقة QSS حلاً أكثر عملية للتطبيقات الرقمية في العالم الحقيقي مثل تحرير محتوى الوسائط المتعددة أو تحرير الصوت. 

علاوة على ذلك، اقترح المطورون مؤخرًا امتدادًا لإطار عمل QSS أو إطار LASS أو إطار فصل مصدر الصوت الذي يتم الاستعلام عن اللغة والذي يهدف إلى فصل مصادر الصوت التعسفية عن خليط الصوت من خلال الاستفادة من أوصاف اللغة الطبيعية لمصدر الصوت المستهدف . وبما أن إطار LASS يسمح للمستخدمين باستخراج مصادر الصوت المستهدفة باستخدام مجموعة من تعليمات اللغة الطبيعية، فقد يصبح أداة قوية ذات تطبيقات واسعة النطاق في تطبيقات الصوت الرقمية. عند مقارنتها بطرق الاستعلام الصوتي أو الاستعلام البصري التقليدية، فإن استخدام تعليمات اللغة الطبيعية لفصل الصوت يوفر درجة أكبر من المزايا لأنه يضيف المرونة، ويجعل الحصول على معلومات الاستعلام أكثر سهولة وملاءمة. علاوة على ذلك، عند مقارنته بأطر فصل الصوت القائمة على الاستعلامات والتي تستخدم مجموعة محددة مسبقًا من التعليمات أو الاستعلامات، فإن إطار LASS لا يحد من عدد استعلامات الإدخال، ويتمتع بالمرونة اللازمة للتعميم لفتح المجال بسلاسة. 

في الأصل، يعتمد إطار عمل LASS على التعلم الخاضع للإشراف حيث يتم تدريب النموذج على مجموعة من البيانات المقترنة بالنص الصوتي. ومع ذلك، فإن المشكلة الرئيسية في هذا النهج هي محدودية توافر البيانات النصية الصوتية المشروحة والمُصنفة. من أجل تقليل موثوقية إطار LASS على المشروح البيانات المسمى النص الصوتي، يتم تدريب النماذج باستخدام نهج التعلم الإشرافي متعدد الوسائط. الهدف الأساسي وراء استخدام نهج الإشراف متعدد الوسائط هو استخدام نماذج التدريب المسبق المتباينة متعددة الوسائط مثل نموذج CLIP أو نموذج التدريب المسبق للصورة اللغوية المتباينة كأداة تشفير الاستعلام لإطار العمل. نظرًا لأن إطار عمل CLIP لديه القدرة على محاذاة تضمينات النص مع طرائق أخرى مثل الصوت أو الرؤية، فإنه يسمح للمطورين بتدريب نماذج LASS باستخدام طرائق غنية بالبيانات، ويسمح بالتداخل مع البيانات النصية في إعداد لقطة صفرية. ومع ذلك، تستخدم أطر LASS الحالية مجموعات بيانات صغيرة الحجم للتدريب، ولا يزال يتعين استكشاف تطبيقات إطار LASS عبر مئات المجالات المحتملة. 

لحل القيود الحالية التي تواجهها أطر عمل LASS، قدم المطورون AudioSep، وهو نموذج أساسي يهدف إلى فصل الصوت عن خليط الصوت باستخدام أوصاف اللغة الطبيعية. ينصب التركيز الحالي لـ AudioSep على تطوير نموذج فصل الصوت المُدرب مسبقًا والذي يستفيد من مجموعات البيانات متعددة الوسائط الحالية واسعة النطاق لتمكين تعميم نماذج LASS في تطبيقات المجال المفتوح. للتلخيص، نموذج AudioSep هو: "نموذج أساسي لفصل الصوت الشامل في المجال المفتوح باستخدام استعلامات اللغة الطبيعية أو الأوصاف المدربة على مجموعات بيانات صوتية ومتعددة الوسائط واسعة النطاق". 

AudioSep: المكونات الرئيسية والهندسة المعمارية

تشتمل بنية إطار عمل AudioSep على مكونين رئيسيين: أداة تشفير النص ونموذج الفصل. 

برنامج تشفير النص

يستخدم إطار عمل AudioSep أداة ترميز نص لنموذج CLIP أو نموذج التدريب المسبق للصورة اللغوية المتباينة أو نموذج CLAP أو التدريب المسبق للصوت اللغوي المتباين لاستخراج تضمينات النص ضمن استعلام اللغة الطبيعية. يتكون استعلام نص الإدخال من تسلسل "Nالرموز المميزة التي تتم معالجتها بعد ذلك بواسطة برنامج تشفير النص لاستخراج تضمينات النص لاستعلام لغة الإدخال المحدد. يستخدم برنامج تشفير النص مجموعة من كتل المحولات لتشفير الرموز المميزة لنص الإدخال، ويتم تجميع تمثيلات الإخراج بعد تمريرها عبر طبقات المحولات مما يؤدي إلى تطوير تمثيل متجه ثلاثي الأبعاد بطول ثابت حيث يتوافق D لأبعاد نماذج CLAP أو CLIP بينما يتم تجميد مشفر النص خلال فترة التدريب. 

تم تدريب نموذج CLIP مسبقًا على مجموعة بيانات واسعة النطاق من البيانات المقترنة بالنص والصور باستخدام التعلم المتباين وهو السبب الرئيسي وراء تعلم برنامج تشفير النص الخاص به رسم خرائط للأوصاف النصية في المساحة الدلالية التي تتم مشاركتها أيضًا بواسطة التمثيلات المرئية. تتمثل الميزة التي اكتسبها AudioSep باستخدام برنامج تشفير النص الخاص بـ CLIP في أنه يمكنه الآن توسيع نطاق نموذج LASS أو تدريبه من البيانات الصوتية والمرئية غير المسماة باستخدام التضمينات المرئية كبديل، وبالتالي تمكين تدريب نماذج LASS دون الحاجة إلى تعليقات توضيحية أو موسومة بيانات نصية صوتية. 

يعمل نموذج CLAP بشكل مشابه لنموذج CLIP ويستخدم هدف التعلم المتباين حيث يستخدم نصًا ومشفرًا صوتيًا لتوصيل الصوت واللغة، وبالتالي يجمع أوصاف النص والصوت في مساحة كامنة للنص الصوتي معًا. 

نموذج الانفصال

يستخدم إطار عمل AudioSep نموذج ResUNet لمجال التردد الذي يتم تغذيته بمزيج من المقاطع الصوتية باعتبارها العمود الفقري لفصل الإطار. يعمل الإطار أولاً عن طريق تطبيق STFT أو تحويل فورييه قصير الأمد على شكل الموجة لاستخراج مخطط طيفي معقد، ومخطط طيفي الحجم، ومرحلة X. ثم يتبع النموذج نفس الإعداد ويقوم بإنشاء شبكة تشفير وفك تشفير للمعالجة المخطط الطيفي للحجم. 

تتكون شبكة التشفير وفك التشفير ResUNet من 6 كتل متبقية و6 كتل وحدة فك ترميز و4 كتل عنق الزجاجة. يستخدم المخطط الطيفي الموجود في كل كتلة تشفير 4 كتل تقليدية متبقية لاختزال نفسه في ميزة عنق الزجاجة، بينما تستفيد كتل مفكك التشفير من 4 كتل فكية متبقية للحصول على مكونات الفصل عن طريق تكبير الميزات. بعد ذلك، تقوم كل من كتل التشفير وكتل فك التشفير المقابلة لها بإنشاء اتصال تخطي يعمل بنفس معدل التقريب أو الاختزال. تتكون الكتلة المتبقية من الإطار من طبقتين تنشيط Leaky-ReLU، وطبقتين للتطبيع الدفعي، وطبقتين CNN، علاوة على ذلك، يقدم الإطار أيضًا اختصارًا متبقيًا إضافيًا يربط المدخلات والمخرجات لكل كتلة متبقية فردية. يأخذ نموذج ResUNet المخطط الطيفي المعقد X كمدخل، وينتج قناع الحجم M كمخرج مع كون الطور المتبقي مشروطًا بتضمين النص الذي يتحكم في حجم القياس وتدوير زاوية المخطط الطيفي. يمكن بعد ذلك استخراج المخطط الطيفي المعقد المنفصل عن طريق ضرب قناع الحجم المتوقع والمرحلة المتبقية مع STFT (تحويل فورييه قصير الأمد) للخليط. 

في إطار عمل AudioSep، يستخدم طبقة FiLm أو طبقة معدلة خطيًا لربط نموذج الفصل ومشفر النص بعد نشر الكتل التلافيفية في ResUNet. 

التدريب والخسارة

أثناء التدريب على نموذج AudioSep، يستخدم المطورون طريقة زيادة جهارة الصوت، ويقومون بتدريب إطار عمل AudioSep من البداية إلى النهاية من خلال الاستفادة من وظيفة فقدان L1 بين الحقيقة الأرضية وأشكال الموجات المتوقعة. 

مجموعات البيانات والمعايير

كما ذكرنا في الأقسام السابقة، يعد AudioSep نموذجًا أساسيًا يهدف إلى حل التبعية الحالية لنماذج LASS على مجموعات البيانات المقترنة بالنص الصوتي المشروح. يتم تدريب نموذج AudioSep على مجموعة واسعة من مجموعات البيانات لتزويده بقدرات التعلم متعدد الوسائط، وفيما يلي وصف تفصيلي لمجموعة البيانات والمعايير التي يستخدمها المطورون لتدريب إطار عمل AudioSep. 

مجموعة الصوت

AudioSet عبارة عن مجموعة بيانات صوتية واسعة النطاق ذات تصنيف ضعيف تتألف من أكثر من 2 مليون مقتطف صوتي مدته 10 ثوانٍ مستخرج مباشرة من YouTube. يتم تصنيف كل مقتطف صوتي في مجموعة بيانات AudioSet حسب غياب أو وجود فئات الصوت دون تفاصيل التوقيت المحددة للأحداث الصوتية. تحتوي مجموعة بيانات AudioSet على أكثر من 500 فئة صوتية متميزة بما في ذلك الأصوات الطبيعية والأصوات البشرية وأصوات المركبات وغير ذلك الكثير. 

VGGSound

مجموعة بيانات VGGSound عبارة عن مجموعة بيانات مرئية وصوتية واسعة النطاق تم الحصول عليها مباشرة من موقع YouTube، تمامًا مثل AudioSet، وتحتوي على أكثر من 2,00,000 مقطع فيديو، يبلغ طول كل منها 10 ثوانٍ. تم تصنيف مجموعة بيانات VGGSound إلى أكثر من 300 فئة صوتية بما في ذلك الأصوات البشرية والأصوات الطبيعية وأصوات الطيور والمزيد. يضمن استخدام مجموعة بيانات VGGSound أن الكائن المسؤول عن إنتاج الصوت المستهدف يمكن وصفه أيضًا في المقطع المرئي المقابل. 

أوديوكابس

تعد AudioCaps أكبر مجموعة بيانات للتسميات التوضيحية الصوتية متاحة للعامة، وتضم أكثر من 50,000 مقطع صوتي مدته 10 ثوانٍ يتم استخراجها من مجموعة بيانات AudioSet. تنقسم البيانات الموجودة في AudioCaps إلى ثلاث فئات: بيانات التدريب، وبيانات الاختبار، وبيانات التحقق من الصحة، ويتم شرح المقاطع الصوتية بشريًا بأوصاف اللغة الطبيعية باستخدام منصة Amazon Mechanical Turk. تجدر الإشارة إلى أن كل مقطع صوتي في مجموعة بيانات التدريب يحتوي على تعليق واحد، في حين أن البيانات الموجودة في مجموعات الاختبار والتحقق تحتوي على 5 تعليقات حقيقية. 

ClothoV2

ClothoV2 عبارة عن مجموعة بيانات للتسميات التوضيحية الصوتية تتكون من مقاطع مصدرها منصة FreeSound، وكما هو الحال مع AudioCaps، يتم إضافة تعليقات توضيحية إلى كل مقطع صوتي باستخدام أوصاف اللغة الطبيعية باستخدام منصة Amazon Mechanical Turk. 

WavCaps

تمامًا مثل AudioSet، WavCaps عبارة عن مجموعة بيانات صوتية واسعة النطاق ذات تصنيف ضعيف تشتمل على أكثر من 400,000 مقطع صوتي مع تسميات توضيحية، ووقت تشغيل إجمالي يقارب 7568 ساعة من بيانات التدريب. يتم الحصول على المقاطع الصوتية الموجودة في مجموعة بيانات WavCaps من مجموعة واسعة من مصادر الصوت بما في ذلك BBC Sound Effects وAudioSet وFreeSound وSoundBible والمزيد.

تفاصيل التدريب

أثناء مرحلة التدريب، يقوم نموذج AudioSep بشكل عشوائي باختبار مقطعين صوتيين مصدرهما مقطعين صوتيين مختلفين من مجموعة بيانات التدريب، ثم يمزجهما معًا لإنشاء خليط تدريب حيث يبلغ طول كل مقطع صوتي حوالي 5 ثوانٍ. يقوم النموذج بعد ذلك باستخراج المخطط الطيفي المعقد من إشارة الشكل الموجي باستخدام نافذة هان بحجم 1024 بحجم 320 قفزة. 

يستخدم النموذج بعد ذلك أداة تشفير النص لنماذج CLIP/CLAP لاستخراج التضمينات النصية مع كون الإشراف على النص هو التكوين الافتراضي لـ AudioSep. بالنسبة لنموذج الفصل، يستخدم إطار عمل AudioSep طبقة ResUNet تتكون من 30 طبقة، و6 كتل تشفير، و6 كتل فك تشفير تشبه البنية المتبعة في إطار فصل الصوت العالمي. علاوة على ذلك، تحتوي كل كتلة تشفير على طبقتين تلافيفيتين بحجم نواة 3×3 مع عدد خرائط ميزات الإخراج لكتل ​​التشفير 32، 64، 128، 256، 512، و1024 على التوالي. تشترك كتل وحدة فك التشفير في التماثل مع كتل التشفير، ويقوم المطورون بتطبيق مُحسِّن Adam لتدريب نموذج AudioSep بحجم دفعة يبلغ 96. 

نتائج التقييم

على مجموعات البيانات المشاهدة

يقارن الشكل التالي أداء إطار عمل AudioSep على مجموعات البيانات التي تمت مشاهدتها أثناء مرحلة التدريب بما في ذلك مجموعات بيانات التدريب. يمثل الشكل أدناه نتائج التقييم المعياري لإطار عمل AudioSep عند مقارنتها بالأنظمة الأساسية بما في ذلك الكلام نماذج التعزيزو LASS و CLIP. يتم تمثيل نموذج AudioSep المزود ببرنامج تشفير النص CLIP باسم AudioSep-CLIP، في حين يتم تمثيل نموذج AudioSep المزود ببرنامج تشفير النص CLAP باسم AudioSep-CLAP.

كما هو موضح في الشكل، يعمل إطار عمل AudioSep جيدًا عند استخدام التسميات التوضيحية الصوتية أو التسميات النصية كاستعلامات إدخال، وتشير النتائج إلى الأداء الفائق لإطار عمل AudioSep عند مقارنته بنماذج LASS المعيارية السابقة ونماذج فصل الصوت التي يتم الاستعلام عنها صوتيًا. 

على مجموعات البيانات غير المرئية

لتقييم أداء AudioSep في إعداد اللقطة الصفرية، واصل المطورون تقييم الأداء على مجموعات البيانات غير المرئية، ويقدم إطار عمل AudioSep أداء فصل مثيرًا للإعجاب في إعداد اللقطة الصفرية، ويتم عرض النتائج في الشكل أدناه. 

علاوة على ذلك، توضح الصورة أدناه نتائج تقييم نموذج AudioSep مقابل تحسين الكلام حسب الطلب على Voicebank. 

يشير تقييم إطار عمل AudioSep إلى الأداء القوي والمرغوب في مجموعات البيانات غير المرئية في بيئة صفرية، وبالتالي يفسح المجال لأداء مهام التشغيل السليمة على توزيعات البيانات الجديدة. 

تصور نتائج الانفصال

يوضح الشكل أدناه النتائج التي تم الحصول عليها عندما استخدم المطورون إطار عمل AudioSep-CLAP لإجراء تصورات للمخططات الطيفية لمصادر الصوت المستهدفة للحقيقة الأرضية، ومزائج الصوت ومصادر الصوت المنفصلة باستخدام استعلامات نصية للصوتيات أو الأصوات المتنوعة. سمحت النتائج للمطورين بملاحظة أن نمط المصدر المنفصل للمخطط الطيفي قريب من مصدر الحقيقة الأرضية مما يدعم النتائج الموضوعية التي تم الحصول عليها أثناء التجارب. 

مقارنة الاستعلامات النصية

يقوم المطورون بتقييم أداء AudioSep-CLAP وAudioSep-CLIP على AudioCaps Mini، ويستفيد المطورون من تسميات أحداث AudioSet، والتسميات التوضيحية لـ AudioCaps، وأوصاف اللغة الطبيعية المُعاد شرحها لفحص تأثيرات الاستعلامات المختلفة، وما يلي يوضح الشكل مثالاً على تشغيل AudioCaps Mini. 

وفي الختام

الصوتSep هو نموذج أساسي تم تطويره بهدف أن يكون إطارًا عالميًا مفتوحًا لفصل الصوت يستخدم أوصاف اللغة الطبيعية لفصل الصوت. كما لوحظ أثناء التقييم، فإن إطار عمل AudioSep قادر على إجراء التعلم بدون لقطة والتعلم غير الخاضع للرقابة بسلاسة من خلال الاستفادة من التسميات التوضيحية الصوتية أو التسميات النصية كاستفسارات. تشير نتائج وتقييم أداء AudioSep إلى أداء قوي يتفوق على أحدث أطر فصل الصوت مثل LASS، وقد يكون قادرًا بدرجة كافية على حل القيود الحالية لأطر فصل الصوت الشائعة. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.