الذكاء الاصطناعي

تساعد الذكاء الاصطناعي المتحدثين المتوترين في ‘قراءة الغرفة’ خلال المؤتمرات عبر الفيديو

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

في عام 2013، حدد استطلاع حول الخوف الشائع أن احتمال الكلام العام كان أسوأ من احتمال الموت لمعظم المستطلعين. يُعرف هذا bằng متلازمة غلوكوفوبيا.

الهجرة التي دفعها كوفيد من اللقاءات وجهاً لوجه إلى مؤتمرات زوم عبر الإنترنت على منصات مثل زوم وغوغل سبايس لم تحسن الوضع، على الرغم من ذلك. حيث يحتوي الاجتماع على عدد كبير من المشاركين، فإن قدراتنا الطبيعية لتقييم التهديد تتأثر بالصفوف ورموز المشاركين منخفضة الدقة، وصعوبة قراءة الإشارات البصرية الدقيقة للتعبير الوجهي ولغة الجسد. على سبيل المثال، وجد أن سكايب هو منصة سيئة لنقل الدلالات غير اللفظية.

أثارت الآثار على أداء الكلام العام للاهتمام والاستجابة المتصورة بالكامل حتى الآن، وهي واضحة بديهيًا لمعظمنا. يمكن أن يسبب عدم وضوح استجابة الجمهور أن يتردد المتحدثون ويتعثروا في كلام الحشو، غير مدركين لمعرفة ما إذا كانت حججهم تلقى موافقة أو استهجان أو عدم اهتمام، مما يؤدي غالبًا إلى تجربة غير مريحة لكل من المتحدث والمتلقين.

تحت ضغط التحول غير المتوقع نحو مؤتمرات الفيديو عبر الإنترنت التي ألهمتها قيود كوفيد والاحتياطات، يزداد المشكلة بشكل جاد، وقد تم اقتراح عدد من مخططات反馈 الجمهور التخفيفية في مجتمعات الرؤية الحاسوبية وأبحاث التأثير على مدار العامين الماضيين.

حلول تركز على الأجهزة

معظم هذه الحلول تتطلب معدات إضافية أو برامج معقدة يمكن أن تثير مشاكل تتعلق بالخصوصية أو اللوجستيات – أساليب نهج مرتفعة التكلفة أو مقيدة بالموارد بشكل آخر تعود إلى ما قبل الجائحة. في عام 2001،提出了 جالفاكتيفاتور في معهد ماساتشوستس للتكنولوجيا، وهو جهاز يُرتدى على اليد ويستدل حالة المشاعر للمشارك في الجمهور، وتم اختباره خلال ندوة استمرت يومًا كاملاً.

من عام 2001، جالفاكتيفاتور من معهد ماساتشوستس للتكنولوجيا، الذي قاس استجابة التوصيل الكهربائي للجلد في محاولة لفهم مشاعر الجمهور والانخراط. مصدر: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

كما تم تخصيص الكثير من الطاقة الأكاديمية لمحاولة نشر ‘النقرات’ كنظام استجابة الجمهور (ARS)، وهو مقياس لزيادة المشاركة الفعالة من قبل الجماهير (التي تزيد تلقائيًا من الانخراط، لأنها تجبر المشاهد على دور عقدة ملاحظات نشطة)، ولكنها تم تصور أيضًا كوسيلة لتشجيع المتحدث.

تشمل المحاولات الأخرى “لربط” المتحدث والجمهور مراقبة معدل ضربات القلب، استخدام معدات معقدة تعمل بالجسم للاستفادة من تخطيط الدماغ الكهربائي، ‘مقياس التشجيع’، نظام التعرف على العواطف القائم على الرؤية الحاسوبية للعاملين المكتبيين، واستخدام المشاهد لإرسال الرموز التعبيرية أثناء كلام المتحدث.

من عام 2017، إنجاجميتر، وهو مشروع بحثي مشترك بين جامعة لودفيج ماكسيميليان في ميونخ وجامعة شتوتغارت. مصدر: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

كجزء من ملاحقة المجال المربح لتحليل الجمهور، أبدت القطاع الخاص اهتمامًا خاصًا بتقدير النظر وتتبعه – أنظمة حيث يخضع كل عضو في الجمهور (الذي قد يضطر في دوره إلى التحدث)، إلى تتبع العين كدليل على الانخراط والموافقة.

جميع هذه الطرق لها احتكاك كبير. تتطلب معظمها معدات إضافية أو إطارات برمجية معقدة يمكن أن تثير مشاكل تتعلق بالخصوصية أو اللوجستيات – أساليب نهج مرتفعة التكلفة أو مقيدة بالموارد بشكل آخر تعود إلى ما قبل الجائحة. لذلك، أصبح تطوير أنظمة بسيطة تعتمد على أدوات فيديو مؤتمرات شائعة интересًا خلال الأشهر الثمانية عشر الماضية.

تقديم موافقة الجمهور بشكل خفي

بهذا الغرض، تقدم сотрудة بحثية جديدة بين جامعة طوكيو وجامعة كارنيجي ميلون نظامًا جديدًا يمكنه الركوب على أدوات فيديو مؤتمرات قياسية (مثل زوم) باستخدام موقع ويب ممكّن للكاميرا فقط حيث يتم تشغيل برنامج تقدير النظر والوضع الخفيف.

تُترجم إيماءات المستخدم ونظرته المقدرة إلى بيانات ممثلة يتم إعادة تقديمها إلى المتحدث، مما يسمح بتحليل حي لمدى انخراط المحتوى في الجمهور – وأيضًا على الأقل مؤشر غامض للأوقات التي قد يفقد فيها المتحدث انتباه الجمهور.

مع كالمريسبونس، يُضاف انتباه المستخدم وحركات الرأس إلى مجموعة من ملاحظات الجمهور ويتحول إلى تمثيل بصرية يمكن أن يفيد المتحدث. انظر الفيديو المضمن في نهاية المقال لمزيد من التفاصيل والأمثلة. مصدر: https://www.youtube.com/watch?v=J_PhB4FCzk0

في العديد من الحالات الأكاديمية، مثل المحاضرات عبر الإنترنت، قد يكون الطلاب غير مرئيين للمتحدث، لأنهم لم يُشغّلوا كاميراتهم بسبب خجلهم من خلفيتهم أو مظهرهم الحالي. يمكن لكالمريسبونس أن يعالج هذا العائق الشوكي لتعليقات المتحدث من خلال الإبلاغ عما يعرفه حول كيفية نظر المتحدث في المحتوى، وإذا كانوا يؤنّون، دون الحاجة إلى تشغيل كاميرا المشاهد.

الورقة بعنوان كالمريسبونس: عرض ردود فعل الجمهور الجماعية في الاتصالات عن بُعد، وهي عمل مشترك بين两个 باحثين من جامعة طوكيو وواحد من جامعة كارنيجي ميلون.

يقدم المؤلفون عرضًا تجريبيًا مباشرًا على الويب، وقد نشروا الкод المصدري على جيثب.

إطار كالمريسبونس

اهتمام كالمريسبونس بحركة النعاس، بدلاً من مواقف رأسية أخرى، يعتمد على بحث (بعضها يعود إلى عصر داروين) يشير إلى أن أكثر من 80٪ من حركات رأس المستمعين تتكون من حركات النعاس (حتى عندما يعبرون عن عدم موافقة). في الوقت نفسه، أظهرت حركات النظر أن تكون دليلًا موثوقًا على الاهتمام أو الانخراط على عديد دراسات.

تم تنفيذ كالمريسبونس باستخدام HTML وCSS وJavaScript، ويتكون من ثلاثة أنظمة فرعية: عميل الجمهور، وعميل المتحدث، والخادم. يمرر عميل الجمهور بيانات نظر العين أو حركة الرأس من كاميرا المستخدم عبر WebSockets عبر منصة التطبيق السحابي Heroku.

تُصور حركات الرأس للجمهور على اليمين في حركة متحركة تحت كالمريسبونس. في هذه الحالة، تتوفر تمثيل الحركة ليس فقط للمتحدث، ولكن لجميع الجمهور. مصدر: https://arxiv.org/pdf/2204.02308.pdf

对于 قسم تتبع العين في المشروع، استخدم الباحثون ويب جازر، وهو إطار تتبع عين خفيف يعتمد على جافا سكريبت يمكن تشغيله مباشرة من موقع ويب (انظر الرابط أعلاه لتنفيذ الباحثين الخاص به).

منذ أن يغلب حاجة التنفيذ البسيط والاعتراف الإجمالي بالاستجابة على حاجة الدقة العالية في تقدير النظر والوضع، يتم تحسين بيانات الوضع الإدخالية وفقًا للقيم المتوسطة قبل النظر فيها لتقدير الاستجابة الإجمالية.

تُقيم حركة النعاس عبر مكتبة جافا سكريبت كلَمتراكر، التي تُطابق نماذج الوجه مع وجوه محددة في الصور أو مقاطع الفيديو من خلال تحويل معلم منتظم. لأغراض الاقتصاد والاتساق المنخفض، يتم مراقبة معلم الأنف فقط بشكل نشط في تنفيذ المؤلفين، لأن ذلك كافٍ لتتبع حركات النعاس.

ينشئ حركة طرف أنف المستخدم مسارًا يُسهم في مجموعة استجابة الجمهور المتعلقة بحركات النعاس، ويُصور بشكل إجمالي لجميع المشاركين.

خريطة الحرارة

في حين يتم تمثيل حركة النعاس بواسطة نقاط متحركة ديناميكية (انظر الصور أعلاه والفيديو في النهاية)، يتم الإبلاغ عن الانتباه البصري في شكل خريطة حرارة تُظهر المتحدث والجمهور حيث يركز Focus العام على شاشة العرض المشتركة أو بيئة مؤتمر الفيديو.

يمكن لجميع المشاركين رؤية مكان انتباه المستخدم العام. لا يذكر الورقة ما إذا كانت هذه الوظيفة متاحة عند khả năng رؤية “معرض” من المشاركين الآخرين، مما قد يكشف عن انتباه زائف إلى مشارك معين لreasons مختلفة.

اختبارات

تم صياغة两个 بيئات اختبار لكالمريسبونس في شكل دراسة إزالة غير صريحة، باستخدام ثلاث مجموعات مختلفة من الظروف: في ‘الوضع باء’ (الأساسي)، قام المؤلفون بتكرار محاضرة طالب عبر الإنترنت نمطية، حيث يحتفظ معظم الطلاب بكاميراتهم مغلقة، ولا يمكن للمتحدث رؤية وجوه الجمهور؛ في ‘الوضع سي آر-إي’، يمكن للمتحدث رؤية ملاحظات النظر (خريطة الحرارة)؛ في ‘الوضع سي آر-إن’، يمكن للمتحدث رؤية كلا النعاس والنشاط من الجمهور.

تألفت الحالة التجريبية الأولى من الوضع باء والوضع سي آر-إي؛ تألفت الحالة الثانية من الوضع باء والوضع سي آر-إن. تم الحصول على ملاحظات من كل من المتحدثين والجمهور.

في كل تجربة، تم تقييم ثلاثة عوامل: التقييم الموضوعي والخاضع للرأي للعرض (بما في ذلك استبيان ذاتي تم الإبلاغ عنه من قبل المتحدث بشأن مشاعره حول كيفية سير العرض)؛ عدد أحداث “كلام الحشو”، وهو مؤشر على عدم الأمان والتراجع اللحظي؛ والتعليقات النوعية. هذه المعايير هي شائعة مُقدرات لجودة الكلام وقلق المتحدث.

تألف مجموعة الاختبار من 38 شخصًا تتراوح أعمارهم بين 19 و44 عامًا، بما في ذلك 29 ذكرًا و9 إناث بمتوسط عمر 24.7 عامًا، جميعهم يابانيون أو صينيون، وجميعهم يتقنون اللغة اليابانية. تم تقسيمهم عشوائيًا إلى خمس مجموعات من 6-7 مشاركين، ولم يكن أي من الأشخاص يعرف بعضهم البعض شخصيًا.

أجريت الاختبارات على زوم، مع خمسة متحدثين قدموا عروضًا في التجربة الأولى وستة في الثانية.

شروط الحشو مميزة بأحجية برتقالية. بشكل عام، انخفض محتوى الحشو بنسبة معقولة مع زيادة ملاحظات الجمهور من النظام.

يشير الباحثون إلى أن أحد المتحدثين خفض عدد الحشو بشكل ملحوظ، وأن في ‘الوضع سي آر-إن’، نادرًا ما نطق المتحدث عبارات حشو. انظر الورقة لمزيد من النتائج المفصلة والمتفرقة التي تم الإبلاغ عنها؛ ومع ذلك، كانت النتائج الأكثر وضوحًا في التقييم الذاتي من المتحدثين ومشاركي الجمهور.

تضمنت تعليقات الجمهور ما يلي:

‘شعرت بأنني متورط في العروض” [AN2]، “لم أكن متأكدًا من تحسن خطابات المتحدثين، ولكنني شعرت بحس من الوحدة من تصور حركات الرأس للآخرين.’ [AN6]

‘لم أكن متأكدًا من تحسن خطابات المتحدثين، ولكنني شعرت بحس من الوحدة من تصور حركات الرأس للآخرين.’

يشير الباحثون إلى أن النظام يُroduce نوعًا جديدًا من الفجوات الاصطناعية في عرض المتحدث، لأن المتحدث يميل إلى الإشارة إلى النظام البصري لتقييم ملاحظات الجمهور قبل المضي قدمًا.

كما يشيرون إلى نوع من ‘تأثير معطف الأبيض’، من الصعب تجنبه في الظروف التجريبية، حيث شعرت بعض المشاركين بالتقييد بسبب الآثار الأمنية المحتملة لمراقبة البيانات البيولوجية.

الخلاصة

من المزايا البارزة في نظام مثل هذا هو أن جميع التكنولوجيات غير القياسية المضافة لهذا النهج تختفي تمامًا بعد انتهاء استخدامها. لا توجد إضافات متجاوزة لإلغاء التثبيت، أو لإثارة الشكوك في أذهان المشاركين حول ما إذا كانوا يجب أن يبقوا على أنظمتهم؛ ولا حاجة لتوجيه المستخدمين خلال عملية التثبيت (على الرغم من أن الإطار القائم على الويب يتطلب دقيقة أو دقيقتين من التعريف الأولي للمستخدم)، أو للتوجه إلى إمكانية عدم امتلاك المستخدمين للصلاحيات الكافية لتثبيت البرامج المحلية، بما في ذلك الإضافات والامتدادات القائمة على المتصفح.

على الرغم من أن التحركات الوجهية والبصرية المُقدرة ليست دقيقة كما يمكن أن تكون في ظروف قد يتم فيها استخدام إطارات التعلم الآلي المحلية (مثل سلسلة YOLO)، يوفر هذا النهج شبه الخالي من الاحتكاك دقة كافية لتحليل المزاج وال态ج العام في سيناريوهات مؤتمر الفيديو النموذجية. قبل كل شيء، إنه رخيص جدًا.

انظر فيديو المشروع المرتبط أدناه لمزيد من التفاصيل والأمثلة.

نُشر لأول مرة في 11 أبريل 2022.

Related Topics:education facial expressions research video surveillance