الذكاء الاصطناعي

كيف يجعل الذكاء الاصطناعي تحديد لغة الإشارة أكثر دقة من أي وقت مضى

Published December 23, 2024

Updated April 27, 2026

Alex McFarland

عندما نفكر في كسر حواجز الاتصال، غالباً ما نركز على تطبيقات ترجمة اللغة أو المساعدين الصوتيين. ولكن للأميركيين الذين يستخدمون لغة الإشارة، لم تُغش هذه الأدوات بعد الفجوة. لغة الإشارة ليست مجرد حركات يدين – إنها شكل غني ومعقد من الاتصال الذي يشمل تعابير الوجه ولغة الجسد، وتحمل كل عنصر معنى حاسما.

هنا ما يجعل هذا تحدياً خاصاً: على عكس اللغات المنطوقة، التي تختلف بشكل رئيسي في المفردات والقواعد، تختلف لغات الإشارة حول العالم بشكل أساسي في كيفية نقل المعنى. على سبيل المثال، اللغة الأمريكية للإشارة (ASL) لديها قواعدها الخاصة والنحو الذي لا يتطابق مع اللغة الإنجليزية المنطوقة.

ت意味ى هذه التعقيد أن إنشاء تكنولوجيا لتحديد وترجمة لغة الإشارة في الوقت الفعلي يتطلب فهم نظام اللغة كله في الحركة.

منهج جديد للتعرف

هنا حيث قرر فريق في جامعة فلوريدا أتلانتيك (FAU) كلية الهندسة وعلوم الكمبيوتر اتخاذ نهج جديد. بدلاً من محاولة التعامل مع كل تعقيد لغة الإشارة في وقت واحد، ركزوا على إتقان خطوة حاسمة: التعرف على إشارات الحروف الأمريكية للإشارة بدقة غير مسبوقة من خلال الذكاء الاصطناعي.

فكر في تعليم الكمبيوتر قراءة الكتابة اليدوية، ولكن في ثلاثة أبعاد وفي حركة. بنى الفريق شيئاً رائعاً: مجموعة بيانات تضم 29820 صورة ثابتة تظهر إشارات يدين اللغة الأمريكية للإشارة. ولكنهم لم يجمعوا فقط الصور. لقد وضعوا كل صورة مع 21 نقطة رئيسية على اليد، مما خلق خريطة مفصلة لكيفية تحرك اليدين وتشكيل الإشارات المختلفة.

الدكتور بدر الشريف، الذي قاد هذا البحث كمرشح دكتوراه، يشرح: “لم يتم استكشاف هذه الطريقة في الأبحاث السابقة، مما يجعلها اتجاهاً جديداً وواعداً للمساهمة في التقدم المستقبلي”.

تفكيك التكنولوجيا

دعونا نغوص في مزيج التكنولوجيا الذي يجعل نظام تحديد لغة الإشارة يعمل.

MediaPipe و YOLOv8

السحر يحدث من خلال التكامل السلس لادتنين أدوات قوية: MediaPipe و YOLOv8. فكر في MediaPipe كمراقب ماهر لليدين – مُترجم ماهر للغة الإشارة يمكنه تتبع كل حركة إصبع خفية وموضع اليد. اختار الفريق البحثي MediaPipe بشكل خاص لقدرته الاستثنائية على تقديم تتبع دقيق لمراكز اليد، مما يحدد 21 نقطة دقيقة على كل يد، كما ذكرنا أعلاه.

لكن التتبع ليس كافياً – نحن بحاجة إلى فهم ما تعنيه هذه الحركات. هذا هو حيث يأتي YOLOv8. YOLOv8 هو خبير في التعرف على الأنماط، يأخذ جميع هذه النقاط المتبعة ويفهم أي حرف أو إشارة تمثلها. يظهر البحث أن YOLOv8 عندما يعالج صورة، يقسمها إلى شبكة S × S، ويتحمل كل خلية شبكية مسؤولية الكشف عن كائنات (في هذه الحالة، إشارات اليد) داخل حدودها.

Alsharif et al., Franklin Open (2024)

كيف يعمل النظام في الواقع

العملية أكثر تعقيداً مما قد يبدو في البداية.

هنا ما يحدث خلف الكواليس:

مرحلة الكشف عن اليد

عندما تقوم بإشارة، يحدد MediaPipe أولاً يدك في الإطار ويحدد تلك 21 نقطة رئيسية. هذه ليست نقطات عشوائية – إنها تتوافق مع مفاصل ومراكز محددة على يدك، من أطراف الأصابع إلى قاعدة الكف.

التحليل المكاني

ثم يأخذ YOLOv8 هذه المعلومات ويفحصها في الوقت الفعلي. لكل خلية شبكية في الصورة، يتنبأ:

احتمال وجود إشارة يد موجودة
الإحداثيات الدقيقة لموقع الإشارة
درجة ثقة التنبؤ

التصنيف

يستخدم النظام ما يسمى “تنبؤ صندوق التحديد” – تخيل رسم مربع مثالي حول إشارة يدك. ي计算 YOLOv8 пять قيم حاسمة لكل مربع: إحداثيات x و y لمركز المربع، وعرضه وطوله، ودرجة الثقة في التنبؤ.

Alsharif et al., Franklin Open (2024)

لماذا يعمل هذا المزيج جيداً

اكتشف فريق البحث أنهم بدمج هذه التكنولوجيا، خلقوا شيئاً أكبر من مجموع أجزائه. تتبع MediaPipe الدقيق مع كشف YOLOv8 المتقدم للأجسام أنتج نتائج دقيقة بشكل ملحوظ – نحن نتحدث عن نسبة دقة 98٪ و 99٪ من النتيجة F1.

ما يجعل هذا الإنجاز مثيراً للإعجاب هو كيف يتعامل النظام مع تعقيد لغة الإشارة. قد تظهر بعض الإشارات متشابهة جداً للأعين غير المدربة، ولكن النظام يمكن أن يلاحظ الفروق الدقيقة.

نتائج قياسية

عندما يطور الباحثون تكنولوجيا جديدة، السؤال الكبير دائماً هو: “كيف يعمل هذا النظام في الواقع؟” بالنسبة لنظام تحديد لغة الإشارة هذا، النتائج مثيرة للإعجاب.

خضع فريق FAU لنظامهم لاختبارات صارمة، وهنا ما وجدوه:

يحدد النظام الإشارات بشكل صحيح 98٪ من الوقت
يتمكن من الكشف عن 98٪ من جميع الإشارات التي تظهر أمامه
درجة الأداء الإجمالية تصل إلى 99٪

“تظهر نتائج بحثنا قدرة نموذجنا على الكشف عن إشارات اللغة الأمريكية للإشارة وتصنيفها بدقة مع عدد قليل من الأخطاء،” يشرح الشريف.

يعمل النظام جيداً في المواقف اليومية – في إضاءات مختلفة، ومواضع يدين مختلفة، وحتى مع أشخاص مختلفين يؤدون الإشارات.

هذا الإنجاز يدفع حدود ما هو ممكن في تحديد لغة الإشارة. أنظمة سابقة عانت من الدقة، ولكن بدمج تتبع MediaPipe وقدرات كشف YOLOv8، خلق فريق البحث شيئاً خاصاً.

“ينسب نجاح هذا النموذج إلى حد كبير إلى التكامل العناية لتعلم النقل، وإنشاء مجموعة بيانات دقيقة، وضبط دقيق،” يقول محمد إلياس، أحد مؤلفي الدراسة. لقد أثمرت هذه الاهتمام بالتفاصيل في أداء النظام المذهل.

ما يعنيه هذا للاتصال

نجاح هذا النظام يفتح إمكانيات مثيرة لجعل الاتصال أكثر سهولة وشمولاً.

الفريق لا يتوقف عند مجرد التعرف على الحروف. التحدي الكبير التالي هو تعليم النظام لفهم مجموعة أوسع من أشكال اليدين والإشارات. فكر في تلك اللحظات التي تظهر الإشارات متشابهة جداً – مثل الحروف “M” و “N” في لغة الإشارة. يعمل الباحثون على مساعدة نظامهم لالتقاط هذه الفروق الدقيقة بشكل أفضل. كما يقول الدكتور الشريف: “من المهم أن نلاحظ أن نتائج هذه الدراسة تبرز ليس فقط متانة النظام ولكن أيضاً إمكانية استخدامه في تطبيقات عملية ووقتية حقيقية”.

ي集中 الفريق الآن على:

جعل النظام يعمل بشكل سلس على الأجهزة العادية
جعل ihn سريعاً بما يكفي للمحادثات في العالم الحقيقي
ضمان عمله بشكل موثوق في أي بيئة

تشارلز ديان ستيللا باتالاما من كلية الهندسة وعلوم الكمبيوتر في FAU يشارك الرؤية الأكبر: “من خلال تحسين تحديد اللغة الأمريكية للإشارة، يساهم هذا العمل في إنشاء أدوات يمكنها تعزيز الاتصال لمجتمع الصم وذوي الصم البكم”.

تخيل دخولك إلى مكتب الطبيب أو حضورك لدورة دراسية حيث تقوم هذه التكنولوجيا بتقديم جسور الاتصال على الفور. هذا هو الهدف الحقيقي هنا – جعل التفاعلات اليومية أكثر سلاسة وطبيعية للجميع المشاركين. إنها تكنولوجيا تساعد الناس على التواصل. سواء في التعليم أو الرعاية الصحية أو المحادثات اليومية، يمثل هذا النظام خطوة نحو عالم حيث تقل الحواجز الاتصالية باستمرار.

Alex McFarland

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.