الذكاء الاصطناعي

توحيد الكلام والإيماءات

تم النشر 28 أغسطس 2021

تحديث 9 كانون الأول، 2022

مارتن أندرسون

عندما عدت إلى بريطانيا من بعض السنوات في جنوب إيطاليا ، استغرق الأمر بعض الوقت للتوقف عن الإيماءات أثناء حديثي. في المملكة المتحدة ، فإن دعم خطابك بحركات اليد الجريئة يجعلك تبدو مفرطًا في الكافيين ؛ في إيطاليا ، بصفتي شخصًا يتعلم اللغة ، فقد ساعدني ذلك بالفعل أن يتم فهمهحتى الآن، في المرات النادرة التي أتحدث فيها الإيطالية، تعود "الأيادي البريّة" إلى الخدمة. يكاد يكون من المستحيل التحدث بالإيطالية دون حركة.

في السنوات الأخيرة ، التواصل المدعوم بالإيماءات في الثقافة الإيطالية واليهودية لفت انتباه الجمهور على أنه أكثر من مجرد مجاز من أعمال مارتن سكورسيزي وأوائل أفلام وودي آلن. في عام 2013 ، جمعت صحيفة نيويورك تايمز ملف سجل فيديو قصير حركات اليد الإيطالية ؛ بدأت الأوساط الأكاديمية في دراسة النزعات العرقية للإشارة باليد ، بدلاً من رفض الموضوع باعتباره صورة نمطية ؛ والرموز التعبيرية الجديدة من Unicode Consortium هي إغلاق النقص في الإيماءات يأتي مع اتصال رقمي محض ، قائم على النصوص.

نهج موحد للكلام والإيماء

الآن، بحث جديد يسعى فريق من قسم الكلام والموسيقى والسمع في المعهد الملكي للتكنولوجيا KTH في السويد إلى الجمع بين التعرف على الكلام والإيماءات في نظام موحد متعدد الوسائط يمكن أن يزيد من فهمنا للتواصل القائم على الكلام باستخدام لغة الجسد كمكمل متكامل للكلام، بدلاً من مجال دراسة موازٍ.

مرئيات من صفحة الاختبار لمشروع الكلام / الإيماءة السويدية. المصدر: https://swatsw.github.io/isg_icmi21/

يقترح البحث نموذجًا جديدًا يسمى التركيب المتكامل للكلام والإيماء (ISG) ، ويجمع عددًا من أحدث النماذج العصبية من أبحاث الكلام والإيماءات.

النهج الجديد يتخلى عن الخطية نموذج خط الأنابيب (حيث يتم اشتقاق معلومات الإيماءات بالتسلسل من الكلام كمرحلة معالجة ثانوية) من أجل نهج أكثر تكاملاً ، والذي يتم تقييمه بالتساوي مع الأنظمة الحالية وفقًا للمستخدمين النهائيين ، والذي يحقق وقت تركيب أسرع ويقلل من عدد المعلمات.

النهج الخطي مقابل النهج المتكاملة. المصدر: https://arxiv.org/pdf/2108.11436.pdf

يشتمل النظام الجديد متعدد الوسائط على مُركِّب تلقائي لتحويل النص إلى كلام ومولد إيماءات يعتمد على الصوت والكلام ، وكلاهما مدرب على إيماءة Trinity Speech Gesture الحالية بيانات. تحتوي مجموعة البيانات على 244 دقيقة من التقاط الصوت والجسد لرجل يتحدث في مواضيع مختلفة ويوم بحرية.

العمل رواية وماسية مكافئة لـ دوريان المشروع ، الذي يولد تعابير الوجه والكلام ، بدلاً من الإيماءات والكلام ، والذي يقع أكثر في مجال التعرف على التعبيرات والتوليف.

أبنية

عناصر الكلام والمرئيات (الإيماءات) للمشروع غير متوازنة من حيث البيانات ؛ النص متناثر والإيماءات غنية وكثيفة البيانات - وهو تحد من حيث تحديد الأهداف والمقاييس. لذلك قام الباحثون بتقييم النظام بشكل أساسي من خلال استجابة الإنسان للمخرجات ، بدلاً من الأساليب الآلية الأكثر وضوحًا مثل متوسط الخطأ التربيعي (MSE).

تم تطوير نموذجي ISG الرئيسيين حول التكرار الثاني من جوجل 2017 تاكوترون مشروع تركيب الكلام من طرف إلى طرف ، ومشروع كوريا الجنوبية الوهج- TTS تم نشر مبادرة Tacotron في عام 2020. يستخدم Tacotron بنية LSTM ذاتية الانحدار ، بينما يعمل Glow-TTS بالتوازي عبر مشغلي الالتواء ، مع أداء GPU أسرع وبدون مشكلات الاستقرار التي يمكنها حضور نماذج الانحدار التلقائي.

اختبر الباحثون ثلاثة أنظمة فعالة للكلام / الإيماءات أثناء المشروع: نسخة معدلة من توليد الكلام والإيماءات متعدد الوسائط نشرت في عام 2021 من قبل عدد من نفس الباحثين في المشروع الجديد ؛ نسخة مخصصة ومعدلة ISG من Tacotron 2 مفتوح المصدر ؛ ونسخة ISG معدلة للغاية من Glow-TTS.

لتقييم الأنظمة ، أنشأ الباحثون بيئة تغذية مرتدة على شبكة الإنترنت تتميز بأشخاص مفصلي ثلاثي الأبعاد يتحدثون وينتقلون إلى مقاطع نصية محددة مسبقًا (يمكن رؤية المظهر العام للبيئة في صفحة المشروع العامة).

بيئة الاختبار.

طُلب من الأشخاص الخاضعين للاختبار تقييم أداء النظام بناءً على الكلام والإيماءات والكلام فقط والإشارة فقط. أظهرت النتائج تحسنًا طفيفًا في إصدار ISG الجديد مقارنة بإصدار خط الأنابيب الأقدم ، على الرغم من أن النظام الأحدث يعمل بسرعة أكبر وبموارد أقل.

عند سؤال "كيف الإنسان هو الإيماءة؟" ، ينتهي نموذج ISG المتكامل بشكل طفيف قبل نموذج خط الأنابيب الأبطأ ، مع تأخر طرازي Tacotron و Glow.

عند سؤاله "ما مدى إنسانية هذه البادرة؟"، ينهي نموذج ISG المتكامل بالكامل العمل متقدمًا قليلاً على نموذج خط الأنابيب الأبطأ، مع تأخر النماذج المستندة إلى Tacotron وGlow بشكل أكبر.

تتجاهل المضمنة

يوضح نموذج Tacotron2-ISG، وهو الأكثر نجاحًا من بين الأساليب الثلاثة، مستوى من التعلم "اللاواعي" المتعلق ببعض العبارات الأكثر شيوعًا في مجموعة البيانات، مثل "لا أعرف" - وعلى الرغم من عدم وجود بيانات صريحة من شأنها أن تتسبب في توليد إشارة تجاهل لمرافقة هذه العبارة، وجد الباحثون أن المولد يفعل ذلك بالفعل.

يشير الباحثون إلى أن الطبيعة الخاصة لهذا المشروع الجديد تعني حتمًا ندرة الموارد العامة، مثل مجموعات البيانات المخصصة التي تدمج بيانات الكلام والإيماءات بطريقة مناسبة لتدريب مثل هذا النظام. ومع ذلك، ورغم طليعية البحث، فإنهم يعتبرونه مجالًا واعدًا ونادرًا ما يُستكشف في مجال الكلام واللغويات والتعرف على الإيماءات.

تساعد الشبكات العصبية في إزالة الغيوم من الصور الجوية

لا تفوت

نظام AI Soulmate الذي يعتمد فقط على الصور

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

توحيد الكلام والإيماءات

نهج موحد للكلام والإيماء

أبنية

تتجاهل المضمنة

قد يعجبك