زاوية Anderson

يمكن للذكاء الاصطناعي تخمين سنة الصورة من أعمار الأشخاص

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

تظهر الأبحاث الجديدة أن الذكاء الاصطناعي يمكنه استخدام وجوه الأشخاص لتخمين سنة الصورة ، عن طريق الجمع بين تخمين العمر مع السنوات الميلادية المعروفة لتحقيق نتائج أفضل من الطرق القائمة على المشهد.

 

كان من السهل تخمين تاريخ الصورة في الماضي ، لأن أسلوب الشعر والملابس كان يتطور بسرعة.然而 ، انتهت هذه الدورة السريعة من التغيير منذ حوالي ثلاثين عامًا ، مما يجعل من الصعب تخمين سنة الصورة من خلال النظر إلى الشعر أو الملابس.

من الممكن أيضًا تحديد تاريخ الصور والأفلام بناءً على دقة اللون وخصائص الفيلم. لم يكن عليك أن تكون خبيرًا في هذا المجال ، ولكن إذا كنت تشاهد الأفلام القديمة ، سوف تتعرف على الدلالات الثقافية (مثل الموسيقى والسيارات والأزياء والمواضيع ، إلخ) التي تُرتبط بالفيلم.

تظهر هذه الصورة كيفية تحسين فيلم الفيلم بشكل تدريجي لتشمل مجموعة متنوعة من الألوان والأنماط الإضاءة.

تظهر هذه الصورة كيفية تحسين فيلم الفيلم بشكل تدريجي لتشمل مجموعة متنوعة من الألوان والأنماط الإضاءة. المصدر

كانت هناك طريقة أخرى لتحديد تاريخ الصورة ، وهي أن تكون الصورة بالأسود والأبيض ، ولكن هذه الطريقة أصبحت غير فعالة بعد انتشار التصوير الرقمي في بداية القرن الحالي.

هناك العديد من الأنظمة التجارية والتجريبية التي تحاول تحديد تاريخ الصور باستخدام هذه الطرق ، مثل PhotoDater.

تظهر هذه الصورة كيفية عمل PhotoDater في تحديد تاريخ الصورة.

تظهر هذه الصورة كيفية عمل PhotoDater في تحديد تاريخ الصورة. المصدر

في حالة عدم وجود علامات واضحة أخرى ، مثل الهواتف الذكية أو التكنولوجيا الخاصة بالعصر ، فإن أفضل طريقة لتحديد عمر الصورة هي معرفة الشخص في الصورة وتخمين عمره.

العمر الوجهي كمرجع

في مجال الرؤية الحاسوبية ، وال许多 مجالات أخرى (مثل الطب الشرعي والمعالجة الأرشيفية والصحافة وهندسة القواعد البيانية ، إلخ) ، فإن القدرة على تحديد عمر الصورة هي هدف مهم ، لأن العديد من المجموعات الرقمية والفيزيائية لا تحتوي على تعليقات مناسبة أو بيانات خاطئة.

لذلك ، سيكون من المفيد إذا كان نظام الذكاء الاصطناعي يمكنه مراجعة الصور بنفس الطريقة التي ننظر بها إلى مجموعتنا التاريخية ، وقول “نعم ، هذا كان عندما …” . السؤال هو ، ما يمكن أن يكون الحافز ، في غياب الدلالات المعتادة؟

تقدم ورقة بحثية جديدة من جمهورية التشيك نقطة انطلاق أولية لهذا النهج ، من خلال استغلال أنظمة الذكاء الاصطناعي لتحديد العمر ، جنبًا إلى جنب مع أنظمة التعرف على الوجه المرتبطة بقاعدة بيانات مشتركة من الهويات (في هذه الحالة ، مجموعة تشيكية من الممثلين والمنتجين).

تظهر هذه الصورة كيفية عمل النظام في تحديد تاريخ الصورة.

تظهر هذه الصورة كيفية عمل النظام في تحديد تاريخ الصورة. المصدر

يعمل النظام عن طريق تحديد الأشخاص المعروفين في الصورة ، وتخمين عمرهم باستخدام نموذج مدرب مسبقًا ، وطرح هذا التخمين من سنة ميلادهم لتحديد تاريخ الصورة المحتمل.

تم اختبار هذه الطريقة على صور من قاعدة بيانات الأفلام التشيكية والسلوفاكية ، وتبين أن هذا النهج يعطي نتائج أكثر دقة من الطرق القائمة على المشهد.

يتطلب هذا النظام قاعدة بيانات مركزية تحتوي على معرفات للأشخاص ، ولكن أي مجموعة أخرى تحتوي على تواريخ ميلاد مؤكدة وأحداث مؤكدة يمكن أن تعطي نتائج مماثلة.

تنص الورقة على ما يلي:

‘نقدم إطارًا احتماليًا يجمع بين الأدلة البصرية من نموذج التعرف على الوجه الحديث ونموذج تقدير العمر ، وآليات زمنية مبنية على المهنة لتحديد سنة التقاط الصورة.’

‘تظهر تجاربنا أن تجميع الأدلة من وجوه متعددة ي cải thiện الأداء بشكل مستمر ، و特别 في الصور التي تحتوي على عدة أشخاص يمكن التعرف عليهم.’

الورقة الجديدة بعنوان تاريخ الصورة عن طريق تجميع العمر الوجهي ، وهي من تأليف两个 باحثين من جامعة التكنولوجيا التشيكية في براغ ، مع وعد بنشر الكود والبيانات في وقت لاحق.

الطريقة

为了 تحديد تاريخ الصورة ، ينظر نظام الباحثين إلى كل وجه محدد و يحاول تخمين من قد يكون ، باستخدام قاعدة البيانات المذكورة أعلاه.

بعد ذلك ، يعمل النظام بشكل عكسي لتحديد السنة الأكثر احتمالا التي ستطابق تلك الأعمار:

左:系统生成时间轴 يظهر عندما كان الأفراد المعروفون أكثر نشاطًا ، بناءً على مسيرتهم المهنية. 右:هذا ي 结合 مع تقديرات العمر الوجهي لإنتاج تخمين نهائي لوقت التقاط الصورة.

左:系统生成时间轴 يظهر عندما كان الأفراد المعروفون أكثر نشاطًا ، بناءً على مسيرتهم المهنية. 右:هذا ي 结合 مع تقديرات العمر الوجهي لإنتاج تخمين نهائي لوقت التقاط الصورة.

为了处理 الكثير من التوليفات المحتملة ، يفترض النظام أن الوجوه مستقلة ، و أن مظهر كل وجه يعتمد فقط على هويته وتاريخ الصورة.

为了 تقدير تاريخ الصورة ، يستخدم النظام أولاً نموذج cvut-002 لتقدير عمر كل وجه ، ثم يحول هذا التخمين إلى تاريخ الصورة المحتمل bằng cách إضافة العمر إلى سنة الميلاد.

كل هوية تمثلها غموشة متوسطة محسوبة من الصور المرجعية.

يتم قياس التشابه بين وجه الاختبار والهوية باستخدام توزيع Von Mises Fisher ، الذي يแบบ كيفية تجميع الصور حول المتوسطة.

يحدد معامل الحدة المشترك كيفية ثقة النظام في تلك التجميعات ، ويتم تقديره باستخدام استراتيجية leave-one-out على الصور المرجعية.

يحدد النظام خمسة أنواع من الآليات الزمنية لتقدير متى قد يظهر شخص معترف به في صورة:

为了 التعامل مع الوجوه التي لا يمكن التعرف عليها بثقة ، يحتوي النظام على هوية غير معروفة مع توزيعات غير معلوماتية ، و توزيع زمني مسطح عبر جميع السنوات.

أداء النموذج الكامل في ظروف مفتوحة ، حيث تظهر وجوه معروفة و غير معروفة في نفس الصورة. يزيد متوسط الخطأ المطلق مع عدد الهويات غير المعروفة ، ولكن ي cải thiện بشكل مستمر مع وجود أكثر من الهويات المعروفة.

أداء النموذج الكامل في ظروف مفتوحة ، حيث تظهر وجوه معروفة و غير معروفة في نفس الصورة. يزيد متوسط الخطأ المطلق مع عدد الهويات غير المعروفة ، ولكن ي cải thiện بشكل مستمر مع وجود أكثر من الهويات المعروفة.

البيانات والاختبارات

استخدم الباحثون قاعدة بيانات CSFD لإنشاء مجموعة جديدة أسموها CSFD-1.6M.

تم بناء هذه القاعدة من مشاهد تضم عدة أشخاص ، مع كل وجه مصحوب بهوية وسنة.

تم استخدام سنوات إصدار الأفلام من قاعدة بيانات الأفلام التشيكية والسلوفاكية لتقدير تاريخ الصورة ، مع مطابقة كل شخص في الصورة لملف عام يحتوي على سنة ميلاده و صورة.

بعد ذلك ، تم مطابقة كل وجه في الصورة مع واحدة من الهويات المعروفة ، باستخدام ArcFace لإنشاء غموشات الوجه ، و حساب غموشة متوسطة لكل هوية.

ثم تم استخدام خوارزمية Hungarian لتعيين الوجوه للهويات بمقارنة تشابه الغموشات ، مع تعديلات عند عدم مطابقة عدد الوجوه المحتدة مع عدد الأفراد المعروفين.

إحصائيات من قاعدة بيانات CSFD-1.6M ، تفاصيل الصور الممسوحة ، الوجوه المحتدة ، مطابقات الهوية ، العينات النهائية المعلنة ، و مجموعة الهويات المتاحة.

إحصائيات من قاعدة بيانات CSFD-1.6M ، تفاصيل الصور الممسوحة ، الوجوه المحتدة ، مطابقات الهوية ، العينات النهائية المعلنة ، و مجموعة الهويات المتاحة.

تم رفض المطابقات إذا كان التشابه منخفضًا جدًا أو إذا كان العمر المقدر يختلف بشكل كبير عن العمر الحقيقي ، مع السماح بتحمل أكبر للأفراد الأكبر سنًا ، و لم يتم فلتر الوجوه حسب الجودة أو الحجم.

يشير الباحثون إلى تفوق مجموعةهم على مجموعة IMDB-WIKI:

‘قاعدة بياناتنا ليست فقط أكبر بشكل كبير ، ولكنها تتكون من مشاهد متعددة الأشخاص ، مما يسمح بدراسة تجميع المعلومات من عدة وجوه.’

قارن الباحثون عدة إصدارات من نظام التأريخ ، لتفهم من哪里 أتى مكاسبه:

كانت هناك نسخة من النموذج افترضت معرفة كاملة لمن في الصورة ، مما قدم حدًا أعلى لل أداء bằng إزالة أي عدم اليقين في التعرف على الهوية.

كان هناك نموذج أبسط اختار التكوين الأكثر احتمالا للهوية دون تهميش البديل ، مما أثبت أنه فعال بشكل جيد في الممارسة.

من ناحية أخرى ، كان هناك نموذج أساسي قام بتعيين كل وجه بشكل مستقل وجمع تقديرات السنة القائمة على العمر ، دون النظر في ما إذا كانت الهويات مجتمعة معقولة.

为了 اختبار مقدار الفائدة من استخدام الوجوه ، تم تدريب نموذج منفصل لتقدير التاريخ مباشرة من المشهد بأكمله.

المقاييس والبيانات

كان متوسط الخطأ المطلق بين السنة المتوقعة والقيمة الحقيقية هو المقياس الرئيسي للتحقيق.

تم تقسيم البيانات إلى خمسة أجزاء ، مع اهتمام لضمان أن جميع الصور من نفس الفيلم يتم الاحتفاظ بها في نفس الجزء.

تم استخدام ثلاثة من هذه الأجزاء للتدريب ، وواحد للتأكيد ، وواحد للاختبار.

تم تطبيق هذا التدوير الخماسي لمنع التحسين الزائد.

由于 نماذج الوجه لم يتم تدريبها على هذه القاعدة ، لم يكن هناك حاجة لتقسيمها ، وبدلاً من ذلك ، تم تقييمها مباشرة على مجموعة CSFD-1.6M الكاملة.

تم تدريب نموذج المشهد لمدة 200 دورة تحت خوارزمية Adam ، مع تصغير الصور إلى 384×384.

النتائج

قسم قسم النتائج في الورقة بشكل غير عادي عبر عدة مؤشرات أداء ، بدون اختبار مركزي واحد. ومع ذلك ، سنقدم بعض النتائج الأكثر صلة هنا.

أهم نتيجة ليست رقمًا واحدًا ، ولكن نمطًا: نماذج التجميع الوجهي (特别 الإصدارات الكاملة و Top-1) تتفوق بشكل مستمر على نموذج المشهد القوي في وجود شخصين أو أكثر من الأشخاص المعروفين – حتى لو تم تدريب نموذج المشهد مباشرة على البيانات.

为了 تقييم تأثير السابقة الزمنية ، قارن الباحثون عدة إصدارات من نموذجهم الكامل.

تم الحصول على الأداء الأقوى باستخدام السابقة العقدية ، التي تفوقت بشكل كبير على نموذج Naive (الذي لا يستخدم سابقة زمنية) و السابقة الموحدة (التي تفترض عدم تفضيل السنوات).

ينخفض الأداء بشكل حاد لجميع الطرق مع زيادة عدد الوجوه ، ولكن النماذج التي تستخدم سابقة زمنية واقعية مثل السابقة العقدية تتأثر بشكل أقل.

ينخفض الأداء بشكل حاد لجميع الطرق مع زيادة عدد الوجوه ، ولكن النماذج التي تستخدم سابقة زمنية واقعية مثل السابقة العقدية تتأثر بشكل أقل.

为了 إظهار قيمة قاعدة بيانات CSFD-1.6M فيما وراء تاريخ الصورة ، تم اختبار القاعدة أيضًا كموارد مسبقة لل任务 الأوسع لتقدير العمر الوجهي.

تم الحصول على نتائج أفضل في جميع پنجة مجموعات الاختبار ، مع فجوة أداء واضحة على مجموعتي AFAD و CLAP2016.

متوسط الخطأ المطلق (بمايونص و معيارية) على خمسة مجموعات اختبار لتقدير العمر ، مقارنة بين النماذج المسبقة على ImageNet و IMDB-WIKI و CSFD-1.6M. القيم الأقل تدل على أداء أفضل. CSFD-1.6M تنتج نتائج أفضل في جميع المجموعات.

متوسط الخطأ المطلق (بمايونص و معيارية) على خمسة مجموعات اختبار لتقدير العمر ، مقارنة بين النماذج المسبقة على ImageNet و IMDB-WIKI و CSFD-1.6M. القيم الأقل تدل على أداء أفضل. CSFD-1.6M تنتج نتائج أفضل في جميع المجموعات.

الاستنتاج

على الرغم من أن الورقة الجديدة تصبح كثيفة و غير قابلة للقراءة للقارئ العادي ، فإن الموضوع المعالج هو واحد من أكثر المواضيع إثارة للاهتمام و الأهمية في الأدب حول الرؤية الحاسوبية – لا سيما لأنه يتقاطع بشكل ماهر مع الأنثروبولوجيا و الدراسات الثقافية ، حيث تكون الثوابت صعبة التحديد.

 

* مثل تطور الموسيقى ، الذي تباطأ معدل تغيره.

نشر لأول مرة يوم الإثنين ، 10 نوفمبر 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai