الذكاء الاصطناعي

أبحاث الذكاء الاصطناعي تتوقع وجود عناصر تحكم في الحجم المنفصلة للحوار والموسيقى والآثار الصوتية

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

يُقود بحث جديد بقيادة شركة ميتسوبيشي تحقيقاً في إمكانية استخراج ثلاث مسارات صوتية منفصلة من مصدر صوتي أصلية، وتنقسم المسار الصوتي إلى كلام وموسيقى وآثار صوتية (أي ضوضاء بيئية).

منذ أن هذا هو إطار معالجة ما بعد الحقيقة، فإنه يقدم إمكانيات للأجيال المستقبلية من منصات عرض الوسائط المتعددة، بما في ذلك المعدات الاستهلاكية، لتقديم عناصر تحكم في الحجم ثلاثية النقاط، مما يسمح للمستخدم بزيادة صوت الحوار أو خفض صوت المسار الصوتي.

في الشريط القصير أدناه من الفيديو المصاحب لأبحاث (انظر نهاية المقال للفيديو الكامل)، نرى جوانب مختلفة من المسار الصوتي تبرز مع تحريك المستخدم للسيطرة عبر مثلث مع كل من المكونات الصوتية الثلاث في زاوية:

شريط قصير من الفيديو المصاحب للورقة (انظر التضمين في نهاية المقال). عند تحريك المستخدم للسيطرة نحو أحد الجوانب الثلاثة المستخرجة في واجهة المستخدم ثلاثية الأبعاد (على اليمين)، يبرز الصوت هذا الجزء من المسار الصوتي الثلاثي. على الرغم من أن الفيديو الأطول يذكر عدداً من الأمثلة الإضافية على يوتيوب، إلا أنها تبدو غير متاحة حاليا. مصدر: https://vimeo.com/634073402

الورقة بعنوان مشكلة شوكة الكوكتيل: فصل صوت ثلاثي للصوت الحقيقي، وهي تأتي من باحثين في مختبرات أبحاث ميتسوبيشي إلكتريك (MERL) في كامبريدج، ماساتشوستس، و قسم هندسة الأنظمة الذكية في جامعة إنديانا في إلينوي.

فصل جوانب المسار الصوتي

لقد أطلق الباحثون على هذا التحدي اسم “مشكلة حفلة الكوكتيل” لأنها تتضمن عزل عناصر متشابكة بشكل حاد من المسار الصوتي، مما يخلق خريطة طريق تشبه شوكة (انظر الصورة أدناه). في الممارسة، قد يكون للمسارات الصوتية متعددة القنوات (أي ستيريو وأكثر) كميات مختلفة من أنواع المحتوى، مثل الحوار والموسيقى والمناخ، خاصة منذ أن يميل الحوار إلى السيطرة على القناة الوسطى في مزيج دولبي 5.1. حاليا، ومع ذلك، فإن مجال البحث النشط جداً في فصل الصوت يركز على التقاط هذه الخيوط من مسار صوتي مفرد ومخبز، كما يفعل البحث الحالي.

شوكة الكوكتيل – استخراج ثلاث مسارات صوتية منفصلة من مسار صوتي مفرد ومخلوط. مصدر: https://arxiv.org/pdf/2110.09958.pdf

ركز البحث الحديث على استخراج الكلام في مختلف البيئات، غالباً لأغراض إزالة الضوضاء من صوت الكلام للاستفادة اللاحقة بأنظمة معالجة اللغة الطبيعية (NLP)، ولكن أيضاً على عزل أصوات الغناء الأرشيفية، إما لإنشاء نسخ اصطناعية من المطربين الحقيقيين (حتى الموتى)، أو لتسهيل عزل الموسيقى على طريقة الكاراوكي.

مجموعة بيانات لكل جانب

حتى الآن، لم يُمنح الكثير من الاعتبار لاستخدام هذا النوع من تقنية الذكاء الاصطناعي لإعطاء المستخدمين المزيد من التحكم في مزيج المسار الصوتي. لذلك، قام الباحثون بتحديد المشكلة وتطوير مجموعة بيانات جديدة كمساعدة للبحث المستمر في فصل مسار الصوت متعدد الأنواع، بالإضافة إلى اختباره على إطارات فصل صوتية موجودة.

المجموعة الجديدة من البيانات التي طورها المؤلفون تسمى قسم وتجديد (DnR)، وهي مستمدة من مجموعات بيانات سابقة LibriSpeech و Free Music Archive و مجموعة بيانات Freesound 50k (FSD50K). لأولئك الذين يرغبون في العمل مع DnR من البداية، يجب إعادة بناء المجموعة من ثلاث مصادر؛ وإلا فسيتم إتاحتها قريباً في Zenodo، كما يدعي المؤلفون. ومع ذلك، في وقت الكتابة، الرابط GitHub لاستخراج الأدوات غير نشط حالياً، لذلك قد يحتاج المهتمون إلى الانتظار لفترة.

وجد الباحثون أن هيكل CrossNet غير المخلوط (XUMX) المقترح من سوني في مايو يعمل بشكل جيد مع DnR.

هيكل CrossNet من سوني.

يدعي المؤلفون أن نماذج استخراجهم بالتعلم الآلي تعمل بشكل جيد على مسارات صوتية من يوتيوب، على الرغم من أن التقييمات المقدمة في الورقة تستند إلى بيانات اصطناعية، والفيديو الرئيسي المقدم (المضمن أدناه) هو حالياً الوحيد الذي يبدو متاحاً.

تتكون كل من المجموعات الثلاث المستخدمة من مجموعة من النوعية من الإخراج الذي يحتاج إلى الفصل من مسار صوتي: FSD50K مشغول بالآثار الصوتية، ويتضمن 50,000 مقطع صوتي أحادي 44.1 kHz مع 200 علامة فئة من أونتولوجيا AudioSet من جوجل؛ وتتميز Free Music Archive بـ 100,000 أغنية ستيريو تغطي 161 نوعاً من الموسيقى، على الرغم من أن المؤلفين استخدموا مجموعة فرعية تحتوي على 25,000 أغنية، من أجل المساواة مع FSD50K؛ ويوفر LibriSpeech لـ DnR 100 ساعة من عينات كتاب صوتي كملفات صوتية mp3 44.1kHz.

العمل المستقبلي

يتوقع المؤلفون مزيداً من العمل على المجموعة ودمج النماذج المنفصلة التي تم تطويرها لأبحاث إضافية في إطارات التعرف على الكلام وتصنيف الصوت، مع تضمين توليد تعليمات تلقائية للكلام والصوت غير الكلامي. كما يعتزمون تقييم إمكانيات لنهج إعادة المزج التي يمكن أن تقلل من الآثار الحسية، والتي لا تزال مشكلة مركزية عند تقسيم مسار صوتي مخلوط إلى مكوناته الأساسية.

يمكن أن تكون هذه الأنواع من الفصل متاحة في المستقبل كسلعة استهلاكية في أجهزة التلفزيون الذكية التي تدمج شبكات استدلال عالية التأثير، على الرغم من أنه يبدو من المحتمل أن تتطلب التطبيقات المبكرة بعض مستوى من وقت المعالجة مسبقاً ومساحة تخزين. بالفعل، تستخدم سامسونج الشبكات العصبية المحلية لتعزيز الصورة، في حين أن معالج Cognitive Processor XR من سوني، المستخدم في سلسلة برافيا، يتحليل و يعيد تفسير مسارات الصوت بشكل حي عبر الذكاء الاصطناعي المتكامل الخفيف.

تتكرر الدعوات إلى مزيد من التحكم في مزيج المسار الصوتي دوريا، ومعظم الحلول المقترحة يجب أن تتعامل مع حقيقة أن المسار الصوتي قد تم بالفعل تخفيضه وفقاً للمعايير الحالية (وافتراضات حول ما يريده المشاهدون) في صناعات الأفلام والتلفزيون.

أصبح أحد المشاهدين، الذي أزعجه التفاوت الصارخ في مستويات الصوت بين عناصر مختلفة من مسارات الصوت في الأفلام، منزعجاً لدرجة أنه طور معدات قادرة على تسوية مستويات الصوت للأفلام والتلفزيون.

على الرغم من أن أجهزة التلفزيون الذكية تقدم مجموعة متنوعة من الطرق لمحاولة تعزيز صوت الحوار ضد مستويات الصوت الكبيرة للموسيقى، إلا أنها جميعاً تكافح ضد القرارات المتخذة في وقت المزج، ويمكن القول إنها ضد رؤى منتجي المحتوى الذين يرغبون في أن يختبر الجمهور مسارات الصوت الخاصة بهم بالضبط كما تم تعيينها.

يبدو من المحتمل أن يتعارض منتجو المحتوى مع هذا الإضافة المحتملة إلى “ثقافة الإعادة”، منذ أن أعرب عدد من الشخصيات البارزة في الصناعة بالفعل عن انزعاجه من خوارزميات التلفزيون الافتراضية مثل تحسين الحركة.

Unite.AI

أبحاث الذكاء الاصطناعي تتوقع وجود عناصر تحكم في الحجم المنفصلة للحوار والموسيقى والآثار الصوتية

فصل جوانب المسار الصوتي

مجموعة بيانات لكل جانب

العمل المستقبلي

You may like