رطم الكشف عن ملامسة العين من الجسم باستخدام التعلم الآلي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

الكشف عن ملامسة العين من الجسم باستخدام التعلم الآلي

mm
تحديث on

طور باحثون من فرنسا وسويسرا نظام رؤية حاسوبي يمكنه تقدير ما إذا كان الشخص ينظر مباشرة إلى كاميرا "الأنا" الخاصة بنظام الذكاء الاصطناعي بناءً على الطريقة التي يقف بها الشخص أو يتحرك فقط.

يستخدم الإطار الجديد معلومات اختزالية للغاية لإجراء هذا التقييم ، في شكل نقاط مفاتيح دلالية (انظر الصورة أدناه) ، بدلاً من محاولة تحليل موضع العين في صور الوجوه في المقام الأول. وهذا يجعل طريقة الكشف الناتجة خفيفة الوزن ومرنة للغاية ، مقارنة بهياكل اكتشاف الكائنات الأكثر كثافة في البيانات ، مثل YOLO.

يقيِّم الإطار الجديد ما إذا كان شخص ما في الشارع ينظر إلى مستشعر الالتقاط الخاص بالذكاء الاصطناعي ، بناءً على طريقة التصرف في جسده فقط. هنا ، من المرجح أن ينظر الأشخاص المظللون باللون الأخضر إلى الكاميرا ، بينما من المرجح أن ينظر الأشخاص الذين يرتدون اللون الأحمر بعيدًا. المصدر: https://arxiv.org/pdf/2112.04212.pdf

يقيِّم الإطار الجديد ما إذا كان شخص ما في الشارع ينظر إلى مستشعر الالتقاط الخاص بالذكاء الاصطناعي ، بناءً على طريقة التصرف في جسده فقط. هنا ، من المرجح أن ينظر الأشخاص المظللون باللون الأخضر إلى الكاميرا ، بينما من المرجح أن ينظر الأشخاص الذين يرتدون اللون الأحمر بعيدًا. المصدر: https://arxiv.org/pdf/2112.04212.pdf

على الرغم من أن الدافع وراء العمل هو تطوير أنظمة أمان أفضل للمركبات ذاتية القيادة ، إلا أن مؤلفي الورقة الجديدة يقرون أنه يمكن أن يكون لها تطبيقات عامة في الصناعات الأخرى ، مع ملاحظة "حتى في المدن الذكية ، يمكن أن يكون اكتشاف الاتصال بالعين مفيدًا لفهم سلوكيات المشاة بشكل أفضل ، على سبيل المثال ، تحديد أين يتجه انتباههم أو العلامات العامة التي ينظرون إليها".

للمساعدة في مزيد من التطوير لهذا والأنظمة اللاحقة ، قام الباحثون بتجميع مجموعة بيانات جديدة وشاملة تسمى LOOK ، والتي تتناول بشكل مباشر التحديات المحددة للكشف عن الاتصال البصري في سيناريوهات عشوائية مثل مشاهد الشوارع التي يتم إدراكها من الكاميرا المتجولة لقيادة ذاتية. المركبة ، أو مشاهد الحشد غير الرسمية التي قد يحتاج الروبوت من خلالها للتنقل والإذعان لمسار المشاة.

النتائج من إطار العمل ، مع تحديد "المشاهدين" باللون الأخضر.

النتائج من إطار العمل ، مع تحديد "المشاهدين" باللون الأخضر.

بحث بعنوان هل ينتبه المشاة؟ كشف الاتصال بالعين في البرية، ويأتي من أربعة باحثين في مبادرة أبحاث الذكاء المرئي للنقل (VITA) في سويسرا ، وواحد في جامعة السوربون.

معمار

تركزت معظم الأعمال السابقة في هذا المجال على انتباه السائق، باستخدام التعلم الآلي لتحليل مخرجات الكاميرات التي تواجه السائق، والاعتماد على رؤية ثابتة وثابتة وقريبة للسائق - وهي رفاهية من غير المرجح أن تكون متاحة في العالم. غالبًا ما تكون لقطات منخفضة الدقة لكاميرات التلفزيون العامة، حيث قد يكون الأشخاص بعيدين جدًا بحيث لا يتمكن نظام تحليل الوجه من حل تصرفات أعينهم، وحيث تعترض أيضًا عوائق أخرى (مثل النظارات الشمسية).

والأكثر أهمية بالنسبة للهدف المعلن للمشروع ، أن الكاميرات الخارجية في المركبات ذاتية القيادة لن تكون بالضرورة في السيناريو الأمثل أيضًا ، مما يجعل معلومات النقطة الرئيسية "منخفضة المستوى" مثالية كأساس لإطار تحليل النظرة. تحتاج أنظمة المركبات المستقلة إلى طريقة عالية الاستجابة وسريعة البرق لفهم ما إذا كان أحد المشاة - الذي قد يخرج عن الرصيف إلى مسار السيارة - قد رأى AV. في مثل هذه الحالة ، قد يعني الكمون الفرق بين الحياة والموت.

تأخذ البنية المعيارية التي طورها الباحثون (عادةً) صورة لكامل الجسم لشخص تُستخرج منه المفاصل ثنائية الأبعاد في شكل قاعدي هيكلي.

بنية النظام الفرنسي / السويسري الجديد للكشف عن ملامسة العين.

بنية النظام الفرنسي / السويسري الجديد للكشف عن ملامسة العين.

يتم تطبيع الوضع لإزالة المعلومات على المحور Y ، لإنشاء تمثيل "مسطح" للوضع الذي يضعه على قدم المساواة مع الآلاف من الأوضاع المعروفة التي تعلمتها الخوارزمية (والتي تم أيضًا `` تسويتها '') ، وما يرتبط بها من أعلام / تسميات ثنائية (على سبيل المثال 0: لا تبحث or 1: النظر).

تتم مقارنة الوضع بالمعرفة الداخلية للخوارزمية حول مدى توافق هذا الوضع مع صور المشاة الآخرين الذين تم تحديدهم على أنهم "ينظرون إلى الكاميرا" - التعليقات التوضيحية التي تم إجراؤها باستخدام أدوات المتصفح المخصصة التي طورها المؤلفون لعمال Amazon Mechanical Turk الذين شاركوا في تطوير مجموعة بيانات LOOK.

خضعت كل صورة في LOOK للتدقيق من قبل أربعة من عمال AMT ، وتم تضمين الصور التي وافق عليها ثلاثة من كل أربعة فقط في المجموعة النهائية.

تعتبر معلومات المحاصيل الرئيسية ، وهي جوهر الكثير من الأعمال السابقة ، من بين أقل المؤشرات موثوقية للتحديق في السيناريوهات الحضرية التعسفية ، ويتم دمجها كتدفق بيانات اختياري في الهندسة المعمارية حيث تكون جودة الالتقاط والتغطية كافيتين لدعم قرار بشأن ما إذا كان ينظر إلى الكاميرا أم لا. في حالة الأشخاص البعيدين جدًا ، لن تكون هذه بيانات مفيدة.

البيانات

اشتق الباحثون LOOK من عدة مجموعات بيانات سابقة غير مناسبة افتراضيًا لهذه المهمة. مجموعتا البيانات الوحيدتان اللتان تشتركان مباشرة في نطاق المشروع هما جاد و فطيرة، ولكل منها قيود.

JAAD هو عرض عام 2017 من جامعة يورك في تورنتو ، يحتوي على 390,000 من الأمثلة المعنونة للمشاة ، بما في ذلك المربعات المحيطة وتعليقات السلوك. من بين هؤلاء ، تم تصنيف 17,000 فقط على أنهم أنظر إلى السائق (أي كاميرا الأنا). تحتوي مجموعة البيانات على 346 مقطعًا بمعدل 30 إطارًا في الثانية يتم تشغيلها في 5-10 ثوانٍ من لقطات الكاميرا على متن الطائرة المسجلة في أمريكا الشمالية وأوروبا. JAAD لديها حادثة عالية من التكرارات ، ويبلغ إجمالي عدد المشاة الفريدين 686 فقط.

يشبه PIE الأحدث (2019) ، من جامعة يورك في تورنتو ، JAAD ، من حيث أنه يتميز بلقطات 30 إطارًا في الثانية على متن الطائرة ، هذه المرة مستمدة من ست ساعات من القيادة عبر وسط مدينة تورنتو ، والتي تنتج 700,000 من المشاة المشروحين و 1,842 من المشاة الفريدين ، 180 منهم فقط يتطلعون إلى الكاميرا.

بدلاً من ذلك ، قام الباحثون في الورقة الجديدة بتجميع البيانات الأكثر ملاءمة من ثلاث مجموعات بيانات سابقة للقيادة الذاتية: كيتي, JRDBو نوسينز، على التوالي من معهد كارلسروه للتكنولوجيا في ألمانيا ، وجامعة ستانفورد وموناش في أستراليا ، وعلم التغذية العرضي لمعهد ماساتشوستس للتكنولوجيا لمرة واحدة.

نتج عن هذا التنظيم مجموعة متنوعة على نطاق واسع من اللقطات من أربع مدن - بوسطن وسنغافورة وتوبنغن وبالو ألتو. مع ما يقرب من 8000 وجهة نظر مشاة مسماة ، يؤكد المؤلفون أن LOOK هي مجموعة البيانات الأكثر تنوعًا لاكتشاف ملامسة العين "في البرية".

التدريب والنتائج

تم إجراء الاستخراج والتدريب والتقييم على بطاقة NVIDIA GeForce GTX 1080ti واحدة مع 11 جيجابايت من VRAM ، تعمل على وحدة المعالجة المركزية Intel Core i7-8700 التي تعمل بسرعة 3.20 جيجاهرتز.

وجد المؤلفون أن طريقتهم لا تتحسن فقط على خطوط الأساس SOTA بنسبة 5 ٪ على الأقل ، ولكن أيضًا أن النماذج الناتجة المدربة على JAAD تعمم جيدًا على البيانات غير المرئية ، وهو سيناريو تم اختباره عن طريق الخلط المتبادل بين مجموعة من مجموعات البيانات.

نظرًا لأن الاختبار الذي تم إجراؤه كان معقدًا ، وكان لابد من توفير نماذج قائمة على المحاصيل (في حين أن عزل الوجه والقص ليسا محوريين في بنية المبادرة الجديدة) ، راجع الورقة للحصول على نتائج مفصلة.

نتائج متوسط ​​الدقة (AP) كنسبة مئوية ووظيفة لارتفاع الصندوق المحيط بالبكسل للاختبار عبر مجموعة بيانات JAAD ، مع عرض نتائج المؤلفين بخط غامق.

نتائج متوسط ​​الدقة (AP) كنسبة مئوية ووظيفة لارتفاع الصندوق المحيط بالبكسل للاختبار عبر مجموعة بيانات JAAD ، مع عرض نتائج المؤلفين بخط غامق.

أصدر الباحثون الكود الخاص بهم علنًا ، مع توفر مجموعة البيانات هناوشفرة المصدر في جيثب.

يستنتج المؤلفون آمالًا في أن يلهم عملهم المزيد من المساعي البحثية فيما يصفونه بـ "موضوع مهم ولكن تم تجاهله".