الذكاء الاصطناعي

توحيد الترجمة الصوتية والحركية

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

عندما عدت إلى بريطانيا بعد قضاء بعض السنوات في جنوب إيطاليا، استغرق الأمر بعض الوقت حتى أتوقف عن الإشارة أثناء التحدث. في المملكة المتحدة، دعم كلامك bằng حركات يدين قوية يجعلك تبدو متوترًا؛ في إيطاليا، كشخص يتعلم اللغة، ساعدني ذلك على أن أفهم. حتى الآن، في المناسبات النادرة التي أتحدث فيها الإيطالية، تعود “الأيدي البرية” إلى الخدمة. من الصعب جدا التحدث باللغة الإيطالية بدون حركة.

في السنوات الأخيرة، أصبحت الاتصالات المدعومة بالإشارات في الثقافة الإيطالية واليهودية محل اهتمام عام أكثر من مجرد صورة من عمل مارتن سكورسيزي وأوولي وودي آلن. في عام 2013، قام موقع نيويورك تايمز بتحويل تاريخ قصير للاشارات اليدوية الإيطالية؛ بدأت الأكاديمية دراسة الإشارات اليدوية العرقية، بدلاً من رفض الموضوع كصورة نمطية؛ وأضاف اتحاد يونيكود رموزًا جديدة للمواصلات الرقمية التي تعاني من نقص في الإشارات.

نهج موحد للكلام والحركة

الآن، بحث جديد من قسم الكلام والموسيقى والسمع في معهد التكنولوجيا الملكي السويدي يهدف إلى الجمع بين الكلام والحركة في نظام متعدد الوظائف يمكن أن يزيد من فهمنا للاتصالات القائمة على الكلام باستخدام لغة الجسد كمرافق متكامل للكلام، بدلاً من مجرد مجال دراسي مواز.

منظر من صفحة الاختبار لمشروع الكلام والحركة السويدي. مصدر: https://swatsw.github.io/isg_icmi21/

يقترح البحث نموذجًا جديدًا يسمى التكامل بين الكلام والحركة (ISG)، ويجمع بين العديد من النماذج العصبية الحديثة من بحوث الكلام والحركة.

ينسى النهج الجديد نموذج الخطي (حيث يتم اشتقاق معلومات الحركة بشكل متسلسل من الكلام كمرحلة معالجة ثانوية) لنهج أكثر تكاملًا، والذي يعتبر متساويًا مع الأنظمة الحالية وفقًا للمستخدمين النهائيين، والذي يحقق وقتًا أسرع للتركيب وعددًا أقل من المعاملات.

النهج الخطي مقابل النهج المتكامل. مصدر: https://arxiv.org/pdf/2108.11436.pdf

يضم النظام الجديد متعدد الوظائف معززًا للكلام التلقائي ومولدًا للحركة مدفوعًا بالكلام، وكلاهما مدرب على مجموعة بيانات Trinity Speech Gesture ال موجودة. تحتوي مجموعة البيانات على 244 دقيقة من الصوت والتقاط الجسم لرجل يتحدث عن مواضيع مختلفة ويشير بحرية.

العمل هو ما يعادل بشكل جديد ومختلف مشروع DurIAN، الذي يولد تعابير وجهية وكلامًا، بدلاً من الحركة والكلام، والذي يقع أكثر في نطاق التعرف على التعابير وتركيبها.

الهياكل

مكونا الكلام والبصري (الحركة) في المشروع غير متوازنين من حيث البيانات؛ النص نادر والحركة غنية ومتطلبة للبيانات – تحدي في تحديد الأهداف والمقاييس. لذلك قيم الباحثون النظام بشكل أساسي من خلال ردود فعل الإنسان على الإخراج، بدلاً من النهج الميكانيكي الواضح مثل متوسط مربع الخطأ (MSE).

تم تطوير نموذجين رئيسيين من ISG حول النسخة الثانية من مشروع Tacotron لشركة جوجل في عام 2017، ومبادرة Glow-TTS الكورية الجنوبية المنشورة في عام 2020. يستخدم Tacotron هيكلًا تلقائيًا متسلسلًا، بينما يعمل Glow-TTS بالتوازي عبر مشغلات التconvolution، مع أداء أسرع على وحدة معالجة الرسومات وبدون مشاكل الاستقرار التي يمكن أن ت伴ي النماذج التلقائية المتسلسلة.

قام الباحثون بتحليل ثلاثة أنظمة فعالة للكلام والحركة خلال المشروع: نسخة معدلة من نظام متعدد الوظائف لتركيب الكلام والحركة منشور في عام 2021 من قبل بعض نفس الباحثين في المشروع الجديد؛ نسخة مخصصة ومعدلة من ISG من Tacotron 2 مفتوح المصدر؛ ونسخة معدلة بشكل كبير من ISG من Glow-TTS.

为了 تقييم الأنظمة، أنشأ الباحثون بيئة تعليقات على الويب تampilkan أشخاصًا ثلاثي الأبعاد يتحدثون ويتحركون إلى مقاطع نصية محددة (يمكن رؤية مظهر البيئة في صفحة المشروع العامة).

بيئة الاختبار.

تم طلب من أفراد الاختبار تقييم أداء النظام بناءً على الكلام والحركة، والكلام فقط، والحركة فقط. أظهرت النتائج تحسنًا طفيفًا في نسخة ISG الجديدة على نسخة Pipeline القديمة، على الرغم من أن النظام الجديد يعمل بشكل أسرع وبموارد مخفضة.

سؤال “ما مدى إنسانية الإشارة؟”، ينهي نموذج ISG المتكامل بالكامل قليلاً أمام نموذج Pipeline الأبطئ، مع نموذج Tacotron ونموذج Glow في الخلف.

الانحناء المدمج

يظهر نموذج Tacotron2-ISG، الأكثر نجاحًا من النهج الثلاثة، مستوى من التعلم “اللاواعي” المتعلق ببعض العبارات الأكثر شيوعًا في مجموعة البيانات، مثل “لا أعرف” – على الرغم من عدم وجود بيانات صريحة تسبب في توليد انحناء لمرافقة هذه الجملة، وجد الباحثون أن المولد يؤدي فعلاً الانحناء.

يشير الباحثون إلى أن الطبيعة الخاصة جدًا لهذا المشروع الجديد يعني نقصًا في الموارد العامة، مثل مجموعات بيانات مخصصة تدمج بيانات الكلام والحركة بطريقة مناسبة لتدريب مثل هذا النظام. ومع ذلك، وبالنظر إلى طبيعة البحث الرائدة، يعتبرونها طريقًا واعدًا ومهملاً في الكلام واللغويات والتعرف على الإشارات.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai

Unite.AI

توحيد الترجمة الصوتية والحركية

نهج موحد للكلام والحركة

الهياكل

الانحناء المدمج

You may like