الذكاء الاصطناعي

قراءة الشفاه باستخدام Visemes والتعلم الآلي

Published April 13, 2021

Updated April 5, 2026

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

يُقدم بحث جديد من مدرسة الهندسة الحاسوبية في طهران نهجًا محسّنًا لتحدي إنشاء أنظمة تعلم الآلة قادرة على قراءة الشفاه.

الورقة المعنية ، التي تحمل عنوان قراءة الشفاه باستخدام فك الشفرة Viseme ، تقارن أن النظام الجديد يحقق تحسنًا بنسبة 4٪ في معدل خطأ الكلمة عن أفضل النماذج المماثلة السابقة. ويُعالج النظام نقص البيانات التدريبية المفيدة في هذا القطاع عن طريق تعيين visemes إلى المحتوى النصي المشتق من ستة ملايين عينة في مجموعة بيانات OpenSubtitles للمواد المترجمة.

Viseme هي المكافئ البصري للفونيم ، وهو ببساطة خريطة صوت > صورة خريطة يمكن أن تشكل “ميزة” في نموذج تعلم الآلة.

Visemes في العمل. مصدر: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

بدء الباحثون bằng إنشاء معدل الخطأ الأدنى على مجموعات البيانات المتاحة ، وتنمية تسلسلات viseme من إجراءات التعيين المثبتة. وتطوير هذه العملية تدريجيًا قاموسًا مرئيًا من الكلمات – على الرغم من أنه من الضروري تحديد احتمالات الدقة للكلمات المختلفة التي تشترك في viseme (مثل “heart” و “art”).

فك شفرة Visemes من النص. مصدر: https://arxiv.org/pdf/2104.04784.pdf

عندما تنتج كلمتان متطابقتان نفس viseme ، يتم اختيار الكلمة الأكثر تكرارًا.

يبني النموذج على التعلم التقليدية التعلم من التسلسل إلى التسلسل عن طريق إضافة مرحلة فرعية حيث يتم التنبؤ ب visemes من النص ونمذجته في خط أنابيب مخصص:

في الأعلى ، الأساليب التقليدية للتسلسل إلى التسلسل في نموذج حرفي ؛ في الأسفل ، إضافة نمذجة حرف Viseme في نموذج بحث طهران. مصدر: https://arxiv.org/pdf/2104.04784.pdf

تم تطبيق النموذج بدون سياق مرئي ضد مجموعة بيانات LRS3-TED ، تم إصدارها من جامعة أكسفورد في عام 2018 ، مع معدل خطأ كلمة أسوأ تم الحصول عليه بنسبة 24.29٪.

كما يتضمن بحث طهران استخدام محول Grapheme-to-Phoneme.

في اختبار ضد بحث أكسفورد لعام 2017 قراءة الشفاه للجمل في البرية (انظر أدناه) ، حقق أسلوب الفيديو إلى Viseme معدل خطأ كلمة بنسبة 62.3٪ ، مقارنة بـ 69.5٪ لطريقة أكسفورد.

يخلص الباحثون إلى أن استخدام حجم أكبر من المعلومات النصية ، مع تحويل Grapheme-to-Phoneme و viseme ، يعد بمحسنات على حالة الفن في أنظمة قراءة الشفاه الآلية ، مع الاعتراف بأن الأساليب المستخدمة قد تنتج نتائج أفضل عند دمجها في إطارات أكثر تطورًا.

لقد كان القراءة الشفوية الموجهة بالآلة مجالًا نشطًا ومستمرًا في أبحاث الرؤية الحاسوبية و NLP على مدار العقدين الماضيين. من بين العديد من الأمثلة والمشاريع الأخرى ، في عام 2006 ، لفت استخدام برنامج قراءة الشفاه الآلي العناوين عند استخدامه لتفسير ما قاله أدولف هتلر في بعض الأفلام الصامتة الشهيرة التي تم تصويرها في ملاذه البافاري ، على الرغم من أن التطبيق يبدو أنه قد исчез في العتمة منذ ذلك الحين (بعد اثني عشر عامًا ، لجأ سير بيتر جاكسون إلى قراء الشفاه البشرية لاستعادة محادثات لقطات الحرب العالمية الأولى في مشروع الترميم لن يتجاوزوا).

في عام 2017 ، قراءة الشفاه للجمل في البرية ، تعاون بين جامعة أكسفورد وفرع أبحاث الذكاء الاصطناعي في جوجل ، أنتج ذكاء اصطناعي للقراءة الشفوية قادر على استنتاج 48٪ من الكلام في الفيديو بدون صوت ، حيث يمكن للقارئ الشفوي البشري أن يصل فقط إلى دقة 12.4٪ من نفس المواد. تم تدريب النموذج على آلاف الساعات من لقطات تلفزيون بي بي سي.

تبع هذا العمل مبادرة منفصلة من جامعة أكسفورد وجوجل من العام السابق ، بعنوان LipNet ، وهي هندسة شبكية عصبونية خريطة تسلسلات فيديو بطول متغير إلى تسلسلات نصية باستخدام شبكة متكررة محددة (GRN) ، والتي تضيف وظيفة إلى الهيكل الأساسي لشبكة عصبونية متكررة (RNN). حقق النموذج أداءً أفضل 4.1 مرة من قراء الشفاه البشرية.

إلى جانب مشكلة الحصول على نص دقيق في الوقت الفعلي ، يزداد تحدي تفسير الكلام من الفيديو مع إزالة السياق المفيد ، مثل الصوت ، وتصوير “الوجه” جيد الإضاءة ، ولغة / ثقافة حيث تكون الفونيمات / visemes متباينة بشكل نسبي.

على الرغم من عدم وجود فهم تجريبي حاليًا لما هي اللغات الأكثر صعوبة في قراءة الشفاه في غياب الصوت التام ، فإن اليابانية هي مرشح رئيسي. الطرق المختلفة التي يستخدم بها السكان الأصليون اليابانيون (وكذلك بعض السكان الأصليين الآسيويين الغربيين والشرقيين) التعبيرات الوجهية ضد محتوى كلامهم يجعلها بالفعل تحديًا أكبر لأنظمة تحليل المشاعر.

ومع ذلك ، من الجدير بالذكر أن معظم الأدب العلمي حول هذا الموضوع هو بشكل عام محافظ ، ليس أقلها لأن أي بحث موضوعي بهدف خير في هذا المجال يخاطر بالانخراط في التنميط العرقي ونشر الصور النمطية الحالية.

اللغات التي تحتوي على نسبة عالية من المكونات الحلقية ، مثل الشيشانية و الهولندية ، هي مشكلة خاصة لأنظمة استخراج الكلام الآلية ، في حين تضيف الثقافات التي قد يعبر فيها المتكلم عن العاطفة أو الاحترام بالنظر بعيدًا (مرة أخرى ، بشكل عام في الثقافات الآسيوية) بعدًا آخر حيث يحتاج باحثو قراءة الشفاه الآلي إلى تطوير أساليب إضافية لملء الفراغ من خلال أدلة سياقية أخرى.

Related Topics:Machine Learning research speech recognition

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai

Unite.AI

قراءة الشفاه باستخدام Visemes والتعلم الآلي

You may like