الذكاء الاصطناعي

نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2

تم النشر 30 يونيو، 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

جديد بحث تقدم دراسة من جامعة كاليفورنيا في بيركلي طريقة لتحديد ما إذا كان الناتج من الجيل الجديد من أطر تركيب الصور - مثل Open AI DALL-E2و Google صورة و أجزاء - يمكن اكتشافها على أنها "غير حقيقية"، من خلال دراسة الهندسة والظلال والانعكاسات التي تظهر في الصور المركبة.

من خلال دراسة الصور التي تم إنشاؤها بواسطة مطالبات النص في DALL-E 2 ، وجد الباحثون أنه على الرغم من الواقعية المثيرة للإعجاب التي تتمتع بها الهندسة المعمارية ، إلا أن بعض التناقضات المستمرة تحدث فيما يتعلق بتقديم المنظور العالمي ، وإنشاء الظلال والتخلص منها ، و خاصة فيما يتعلق بتقديم الكائنات المنعكسة.

تقول الورقة:

لا تتوافق الهياكل [الهندسية] والظلال المصبوبة والانعكاسات في الأسطح العاكسة تمامًا مع هندسة المنظور المتوقعة للمشاهد الطبيعية. الهياكل والظلال الهندسية ، بشكل عام ، متسقة محليًا ، لكنها غير متسقة عالميًا.

'من ناحية أخرى، غالبًا ما يتم تقديم الانعكاسات بطريقة غير معقولة، وربما يرجع ذلك إلى أنها أقل شيوعًا في مجموعة بيانات صور التدريب.'

وفقًا للدراسة الجديدة ، يعد عدم وجود تقاطعات متسقة بين الكائن الذي تم عرضه وعرض انعكاسه طريقة موثوقة للكشف عن صورة DALL-E 2. المصدر: https://arxiv.org/pdf/2206.14617.pdf

تمثل الورقة غزوة مبكرة لما قد يصبح في النهاية مجالًا جديرًا بالملاحظة في مجتمع أبحاث رؤية الكمبيوتر - الكشف عن تركيب الصور.

منذ ظهور التزييف العميق في عام 2017، كشف التزييف العميق (في المقام الأول من المشفر التلقائي الإخراج من حزم مثل ديب فيس لاب و تبديل الوجه) أصبح نشطة وتنافسية مجال أكاديمي، مع أوراق ومنهجيات مختلفة تستهدف "العلامات" المتطورة للوجوه المصنّعة في لقطات الفيديو الحقيقية.

ومع ذلك ، حتى ظهور أنظمة توليد الصور المدربة بشكل فائق النطاق مؤخرًا ، كان الناتج من أنظمة موجه النص مثل CLIP لم يُشكل أي تهديد للوضع الراهن لـ"الواقعية الضوئية". ويعتقد مؤلفو البحث الجديد أن هذا الوضع على وشك التغيير، وأن حتى التناقضات التي اكتشفوها في مُخرَجات DALL-E 2 قد لا تُحدث فرقًا يُذكر في قدرة الصور المُخرَجة على خداع المُشاهدين.

يذكر المؤلفون *:

[مثل] الإخفاقات قد لا تهم كثيرًا النظام البصري البشري الذي وجد أنه غير كفء بشكل مدهش في بعض الأحكام الهندسية بما في ذلك التناقضات في الإضاءة, الظلال, تأملات, عرض الموقفو تشويه المنظور".

تلاشي المصداقية

يتعلق الفحص الجنائي الأول الذي أجراه المؤلفون لمخرجات DALL-E 2 بإسقاط المنظور - الطريقة التي يجب أن يتم بها حل موضع الحواف المستقيمة في الأشياء والقوام القريبة بشكل موحد إلى "نقطة التلاشي".

الخطوط المتوازية اليسرى على نفس المستوى تتحلل إلى نقطة تلاشي مشتركة ؛ على اليمين ، تحدد نقاط التلاشي المتعددة على نفس المستويات والمتوازية خط التلاشي (كما هو موضح باللون الأحمر).

لاختبار اتساق DALL-E 2 في هذا الصدد، استخدم المؤلفون DALL-E 2 لتوليد 25 صورة مركبة للمطابخ - وهي مساحة مألوفة، حتى في المساكن المجهزة جيدًا، عادة ما تكون محصورة بما يكفي لتوفير نقاط اختفاء متعددة محتملة لمجموعة من الأشياء والقوام.

فحص الإخراج من الموجه 'صورة لمطبخ بأرضية مبلطة'، وجد الباحثون أنه على الرغم من التمثيل المقنع بشكل عام في كل حالة (باستثناء بعض القطع الأثرية الغريبة والصغيرة التي لا علاقة لها بالمنظور) ، فإن الأشياء المصورة لا تبدو أبدًا متقاربة بشكل صحيح.

لاحظ المؤلفون أنه في حين أن كل مجموعة من الخطوط المتوازية من نمط التجانب متسقة وتتقاطع عند نقطة تلاشي واحدة (أزرق في الصورة أدناه) ، فإن نقطة التلاشي للسطح المضاد (السماوي) لا تتفق مع كل من خطوط التلاشي (أحمر) ) ونقطة التلاشي المشتقة من البلاط.

لاحظ المؤلفون أنه حتى لو لم يكن السطح المضاد موازيًا للبلاط ، يجب أن تتلاشى نقطة التلاشي السماوي إلى خط التلاشي (الأحمر) المحدد بواسطة نقاط التلاشي لبلاط الأرضيات.

تقول الورقة:

مع أن المنظور في هذه الصور متسق محليًا - بشكل مثير للإعجاب - إلا أنه ليس متسقًا عالميًا. وقد وُجد هذا النمط نفسه في كلٍّ من صور المطبخ الخمس والعشرين المُركّبة.

الطب الشرعي الظل

كما يعلم أي شخص سبق له التعامل مع تتبع الأشعة ، فإن للظلال أيضًا نقاط تلاشي محتملة ، مما يشير إلى إضاءة أحادية أو متعددة المصادر. بالنسبة للظلال الخارجية في ضوء الشمس القاسي ، يتوقع المرء أن تتحلل الظلال عبر جميع جوانب الصورة باستمرار إلى المصدر الوحيد للضوء (الشمس).

كما هو الحال مع التجربة السابقة ، أنشأ الباحثون 25 صورة DALL-E 2 باستخدام موجه "ثلاثة مكعبات على الرصيف تم تصويرها في يوم مشمس، بالإضافة إلى 25 مع موجه ""ثلاثة مكعبات على الرصيف تم تصويرها في يوم غائم".

في الصف العلوي ، صور تم إنشاؤها من "حث" ثلاثة مكعبات على الرصيف تم تصويرها في يوم غائم "؛ في الصف السفلي ، الصور التي تم إنشاؤها من موجه "ثلاثة مكعبات على الرصيف تم تصويرها في يوم مشمس".

في الصف العلوي، صور تم إنشاؤها من مطالبة الباحثين "ثلاثة مكعبات على رصيف تم تصويرها في يوم غائم"؛ وفي الصف السفلي، صور تم إنشاؤها من المطالبة "ثلاثة مكعبات على رصيف تم تصويرها في يوم مشمس".

لاحظ الباحثون أنه عند تمثيل الظروف الغائمة ، فإن DALL-E 2 قادر على عرض الظلال المرتبطة الأكثر انتشارًا بطريقة مقنعة ومعقولة ، ربما ليس أقلها لأن هذا النوع من الظل من المرجح أن يكون أكثر انتشارًا في صور مجموعة البيانات التي عليها تم تدريب الإطار.

ومع ذلك، وجد المؤلفون أن بعض الصور "المشمسة" كانت غير متسقة مع المشهد المضاء من مصدر ضوء واحد.

بالنسبة للصورة أعلاه، تم تحويل الأجيال إلى تدرجات الرمادي من أجل الوضوح، وإظهار كل كائن مع "شمسه" المخصصة له.

على الرغم من أن المشاهد العادي قد لا يلاحظ مثل هذه الشذوذ، إلا أن بعض الصور المولدة تحتوي على أمثلة أكثر وضوحًا لـ "فشل الظل":

في حين أن بعض الظلال ببساطة في المكان الخطأ ، فإن الكثير منها ، بشكل مثير للاهتمام ، يتوافق مع نوع التناقض المرئي الناتج في نمذجة CGI عندما يكون معدل العينة للضوء الافتراضي منخفضًا جدًا.

تأملات في DALL-E 2

وقد جاءت النتائج الأكثر إدانة من حيث التحليل الجنائي عندما اختبر المؤلفون قدرة DALL-E 2 على إنشاء أسطح عاكسة للغاية، وهو حساب مرهق أيضًا في تتبع الأشعة CGI وخوارزميات العرض التقليدية الأخرى.

في هذه التجربة، أنتج المؤلفون 25 صورة DALL-E 2 مع المطالبة "صورة لديناصور لعبة وانعكاسه في مرآة الزينة".

في جميع الحالات، أفاد المؤلفون أن الصورة المعكوسة للعبة المُصوَّرة كانت منفصلة بطريقة ما عن مظهر ومظهر الديناصور "الحقيقي". ويشيرون إلى أن المشكلة كانت عصية على التغيير في النص، ويبدو أنها نقطة ضعف أساسية في النظام.

يبدو أن هناك منطقًا في بعض الأخطاء - يبدو أن المثالين الأول والثالث في الصف العلوي يظهران ديناصورًا تكرار جيد جدًا ، لكن ليس معكوسًا.

تعليق المؤلفين:

'على عكس الظلال المصبوبة والهياكل الهندسية في الأقسام السابقة، يواجه DALL·E-2 صعوبة في تجميع الانعكاسات المعقولة، وربما يرجع ذلك إلى أن مثل هذه الانعكاسات أقل شيوعًا في مجموعة بيانات صور التدريب الخاصة به.'

قد يتم حل مثل هذه الثغرات في نماذج تحويل النص إلى صورة في المستقبل، والتي تكون قادرة على مراجعة المنطق الدلالي الشامل لمخرجاتها بشكل أكثر فعالية، والتي ستكون قادرة على فرض قواعد فيزيائية مجردة على المشاهد التي تم تجميعها إلى حد ما من الميزات ذات الصلة بالكلمات في المساحة الكامنة للنظام.

في ضوء الاتجاه المتزايد نحو معماريات توليفية أكبر من أي وقت مضى ، يستنتج المؤلفون:

ربما يكون الأمر مسألة وقت قبل أن تتعلم محركات التوليف القائمة على النص معالجة الصور بتناسق منظوري كامل. ولكن حتى ذلك الحين، قد تكون التحليلات الجنائية الهندسية مفيدة في تحليل هذه الصور.

* تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية.

نُشر لأول مرة في 30 يونيو 2022.

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2

تلاشي المصداقية

الطب الشرعي الظل

تأملات في DALL-E 2

قد يعجبك