Connect with us

الكشف عن الاتصال البصري من وضع الجسم باستخدام التعلم الآلي

الذكاء الاصطناعي

الكشف عن الاتصال البصري من وضع الجسم باستخدام التعلم الآلي

mm

قام باحثون من فرنسا وسويسرا بتطوير نظام رؤية حاسوبية يمكنه تقدير ما إذا كان شخص ما ينظر مباشرة إلى كاميرا نظام الذكاء الاصطناعي بناءً على طريقة وقوف الشخص أو تحركه.

يستخدم الإطار الجديد معلومات خفيفة جدًا لاتخاذ هذا التقييم، على شكل نقاط رئيسية семантиية (انظر الصورة أدناه)، بدلاً من محاولة تحليل موقع العين بشكل أساسي في صور الوجوه. هذا يجعل طريقة الكشف الناتجة خفيفة جدًا ومرنة، بالمقارنة مع معمارية الكشف عن الكائنات الأكثر كثافة في البيانات، مثل YOLO.

The new framework evaluates whether or not a person in the street is looking at the AI's capture sensor, based solely on the disposition of their body. Here, people highlighted in green are likely to be looking at the camera, while those in red are more likely to be looking away. Source: https://arxiv.org/pdf/2112.04212.pdf

تقييم الإطار الجديد ما إذا كان شخص ما في الشارع ينظر إلى مستشعر التقاط الذكاء الاصطناعي بناءً على وضع جسمه فقط. هنا، الأشخاص المhighlighted باللون الأخضر من المحتمل أن يكونوا ينظرون إلى الكاميرا، بينما أولئك الذين في اللون الأحمر أكثر احتمالا لأن يكونوا ينظرون بعيدا. مصدر: https://arxiv.org/pdf/2112.04212.pdf[/em>

على الرغم من أن العمل محفز من تطوير أنظمة أمان أفضل للسيارات ذاتية القيادة، فإن مؤلفي الورقة الجديدة يقررون أن لها تطبيقات أكثر عمومية عبر صناعات أخرى، مشيرين إلى ‘حتى في المدن الذكية، يمكن أن يكون الكشف عن الاتصال البصري مفيدًا لفهم سلوك المشاة بشكل أفضل، على سبيل المثال، تحديد مكان انتباههم أو الإشارات العامة التي ينظرون إليها’.

للمساعدة في تطوير هذا النظام والأنظمة اللاحقة، قام الباحثون بتجميع قاعدة بيانات شاملة جديدة تسمى LOOK، والتي تتعامل مباشرة مع التحديات المحددة للكشف عن الاتصال البصري في سيناريوهات عشوائية مثل مشاهد الشوارع المتصورة من كاميرا السيارة ذاتية القيادة، أو مشاهد الحشود العابرة التي قد يحتاج الروبوت إلى التنقل فيها والانحناء على مسار المشاة.

Results from the framework, with 'lookers' identified in green.

نتائج من الإطار، مع تحديد “المنظرون” باللون الأخضر.

البحث هو مسمى هل يهتم المشاة؟ الكشف عن الاتصال البصري في البرية، ويأتي من أربعة باحثين في مبادرة البصيرة البصرية للنقل (VITA) في سويسرا، وواحد في جامعة السوربون.

الهيكل

معظم الأعمال السابقة في هذا المجال ركزت على انتباه السائق، باستخدام التعلم الآلي لتحليل الإخراج من كاميرات مواجهة السائق، والاعتماد على وجهة نظر ثابتة وثابتة وقريبة من السائق – فخامة غير محتملة في التغذيات منخفضة الدقة لكاميرات التلفزيون العامة، حيث قد يكون الناس بعيدًا جدًا لدرجة أن نظام تحليل الوجه لا يستطيع حل موضع عينهم، وهناك عوائق أخرى (مثل النظارات الشمسية) تعترض الطريق.

أكثر المركزية لهدف المشروع المعلن، الكاميرات الخارجية في السيارات ذاتية القيادة لن تكون بالضرورة في سيناريو مثالي أيضًا، مما يجعل معلومات النقاط الرئيسية منخفضة المستوى مثالية كأساس لإطار تحليل النظر. أنظمة السيارات ذاتية القيادة تحتاج إلى طريقة استجابة عالية وسرعة فائقة لفهم ما إذا كان المشاة – الذي قد يخطو خارج الرصيف إلى مسار السيارة – قد رأى السيارة. في مثل هذه الحالة، قد تعني التأخر الفرق بين الحياة والموت.

الهيكل المودي الذي طوره الباحثون يأخذ صورة كاملة الجسم لشخص ما، من التي يتم استخراج المفاصل ثنائية الأبعاد إلى شكل أساسي هيكلي.

The architecture of the new French/Swiss eye contact detection system.

هيكل نظام الكشف عن الاتصال البصري الفرنسي السويسري الجديد.

يتم تطبيع الوضع لإزالة المعلومات حول المحور Y، لإنشاء تمثيل “مستوي” للوضع الذي يجعله في تساوي مع الآلاف من المواقف المعروفة التي تعلمها الخوارزمية (التي تم “تسطيحها” أيضًا)، و علاماتها الثنائية المرتبطة (أي 0: لا ينظر أو 1: ينظر).

يتم مقارنة الوضع مع معرفة الخوارزمية الداخلية لكيفية対応 هذا الوضع مع صور أخرى للمشاة التي تم تحديدها على أنها “تنظر إلى الكاميرا” – التعليقات التي تم إجراؤها باستخدام أدوات متصفح مخصصة تم تطويرها من قبل المؤلفين لأشخاص Amazon Mechanical Turk الذين شاركوا في تطوير قاعدة بيانات LOOK.

كل صورة في LOOK كانت خاضعة للفحص من قبل أربعة أشخاص من Amazon Mechanical Turk، وتم تضمين فقط الصور التي وافق عليها ثلاثة من أربعة أشخاص في المجموعة النهائية.

معلومات قص cabeza، وهي جوهر الكثير من الأعمال السابقة، هي واحدة من أقل المؤشرات الموثوقة للنظر في السيناريوهات الحضرية العشوائية، وتتم تضمينها كتيار بيانات اختياري في الهيكل حيث يكون جودة التقاط وغطاء كافيين لدعم قرار حول ما إذا كان الشخص ينظر إلى الكاميرا أو لا. في حالة الأشخاص البعيدين جدًا، لن يكون هذا بيانات مفيدة.

البيانات

استمد الباحثون LOOK من عدة مجموعات بيانات سابقة لا تتوافق بشكل افتراضي مع هذه المهمة. فقط مجموعتي البيانات التي تشترك بشكل مباشر في نطاق المشروع هما JAAD و PIE، وكلتا المجموعتين لهما قيود.

JAAD هو عرض 2017 من جامعة يورك في تورونتو، يحتوي على 390,000 مثال مخطط للمشاة، بما في ذلك صناديق حدودية وتنسيق سلوك. من بين هذه، فقط 17,000 تم تحديدها على أنها تنظر إلى السائق (أي الكاميرا الذاتية). يحتوي المجموعة على 346 شريطة فيديو 30 إطارًا في الثانية، مع 5-10 ثوان من تسجيلات الكاميرا على متن السيارة في أمريكا الشمالية وأوروبا. JAAD لديها حدوث متكرر، وعدد المشاة الفريد هو فقط 686.

المجموعة الأحدث (2019) PIE، من جامعة يورك في تورونتو، تشبه JAAD، حيث تتميز بفيديو 30 إطارًا في الثانية على متن السيارة، هذه المرة مشتقة من ست ساعات من القيادة عبر وسط مدينة تورونتو، مما ينتج 700,000 مشاة مخطط و 1,842 مشاة فريد، فقط 180 منهم ينظرون إلى الكاميرا.

بدلاً من ذلك، قام الباحثون في الورقة الجديدة بتجميع البيانات الأكثر ملاءمة من ثلاث مجموعات بيانات للقيادة الذاتية: KITTI، JRDB، و NuScenes، على التوالي من معهد كارلسروه للتكنولوجيا في ألمانيا، وستانفورد و جامعة موناش في أستراليا، وشركة Nutonomy السابقة التابعة لجامعة MIT.

هذا التجميع الناجح أدى إلى مجموعة من اللقطات المتنوعة من أربع مدن – بوسطن، سنغافورة، توبينغن، وبالو ألتو. مع حوالي 8000 منظور مشاة مخطط، يؤكد المؤلفون أن LOOK هي مجموعة البيانات الأكثر تنوعًا للكشف عن الاتصال البصري “في البرية”.

التدريب والنتائج

تم إجراء الاستخراج والتدريب والتقييم على جهاز NVIDIA GeForce GTX 1080ti واحد مع 11 غيغابايت من VRAM، يعمل على معالج Intel Core i7-8700 بسرعة 3.20 غيغاهرتز.

وجد المؤلفون أن طريقةهم تحسن على أسس SOTA بفارق لا يقل عن 5٪، وأيضًا أن النماذج الناتجة التي تم تدريبها على JAAD تتعامل جيدًا مع البيانات غير المرئية، وهو سيناريو تم اختباره عن طريق مزج مجموعة من المجموعات.

منذ أن كان الاختبار معقدًا، ويجب أن يأخذ في الاعتبار نماذج القص، انظر الورقة للنتائج التفصيلية.

Results for average precision (AP) as a percentage and function of bounding box height in pixels for testing across the JAAD dataset, with authors' results in bold.

نتائج للدقة المتوسطة (AP) كنسبة مئوية ووظيفة لارتفاع صندوق الحدود بالبكسل للاختبار عبر مجموعة بيانات JAAD، مع نتائج المؤلفين بالخط العريض.

قام الباحثون بنشر كودهم بشكل عام، مع توفر قاعدة البيانات هنا، والكود المصدري على GitHub.

يختم المؤلفون بالتطلع إلى أن يعزز عملهم البحث في ما يصفه بأنه ‘موضوع مهم ومهمل’.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai