رطم نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2 - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2

mm
تحديث on

جديد بحث من جامعة كاليفورنيا في بيركلي طريقة لتحديد ما إذا كان الناتج من الجيل الجديد من أطر تركيب الصور - مثل Open AI DALL-E2و Google صورة و أجزاء - يمكن اكتشافها على أنها "غير حقيقية" من خلال دراسة الهندسة والظلال والانعكاسات التي تظهر في الصور المركبة.

من خلال دراسة الصور التي تم إنشاؤها بواسطة مطالبات النص في DALL-E 2 ، وجد الباحثون أنه على الرغم من الواقعية المثيرة للإعجاب التي تتمتع بها الهندسة المعمارية ، إلا أن بعض التناقضات المستمرة تحدث فيما يتعلق بتقديم المنظور العالمي ، وإنشاء الظلال والتخلص منها ، و خاصة فيما يتعلق بتقديم الكائنات المنعكسة.

تقول الورقة:

لا تتوافق الهياكل [الهندسية] والظلال المصبوبة والانعكاسات في الأسطح العاكسة تمامًا مع هندسة المنظور المتوقعة للمشاهد الطبيعية. الهياكل والظلال الهندسية ، بشكل عام ، متسقة محليًا ، لكنها غير متسقة عالميًا.

من ناحية أخرى ، غالبًا ما يتم تقديم الانعكاسات بشكل غير معقول ، ربما لأنها أقل شيوعًا في مجموعة بيانات الصورة التدريبية.

وفقًا للدراسة الجديدة ، يعد عدم وجود تقاطعات متسقة بين الكائن الذي تم عرضه وعرض انعكاسه طريقة موثوقة للكشف عن صورة DALL-E 2. المصدر: https://arxiv.org/pdf/2206.14617.pdf

وفقًا للدراسة الجديدة ، يعد عدم وجود تقاطعات متسقة بين الكائن الذي تم عرضه وعرض انعكاسه طريقة موثوقة للكشف عن صورة DALL-E 2. المصدر: https://arxiv.org/pdf/2206.14617.pdf

تمثل الورقة غزوة مبكرة لما قد يصبح في النهاية مجالًا جديرًا بالملاحظة في مجتمع أبحاث رؤية الكمبيوتر - الكشف عن تركيب الصور.

منذ ظهور التزييف العميق في عام 2017، كشف التزييف العميق (في المقام الأول من المشفر التلقائي الإخراج من حزم مثل ديب فيس لاب و تبديل الوجه) أصبح نشطة وتنافسية الشريط الأكاديمي ، مع العديد من الأوراق والمنهجيات التي تستهدف "الحكايات" المتطورة للوجوه المركبة في لقطات فيديو حقيقية.

ومع ذلك ، حتى ظهور أنظمة توليد الصور المدربة بشكل فائق النطاق مؤخرًا ، كان الناتج من أنظمة موجه النص مثل CLIP لا تشكل أي تهديد للوضع الراهن لـ "الصورة الواقعية". يعتقد مؤلفو الورقة البحثية الجديدة أن هذا على وشك التغيير ، وأنه حتى التناقضات التي اكتشفوها في إخراج DALL-E 2 قد لا تحدث فرقًا كبيرًا في إمكانية إخراج الصور لخداع المشاهدين.

يذكر المؤلفون *:

[مثل] الإخفاقات قد لا تهم كثيرًا النظام البصري البشري الذي وجد أنه غير كفء بشكل مدهش في بعض الأحكام الهندسية بما في ذلك التناقضات في الإضاءة, الظلال, تأملات, عرض الموقفو تشويه المنظور.'

تلاشي المصداقية

يتعلق أول فحص جنائي أجراه المؤلفون لمخرجات DALL-E 2 بإسقاط المنظور - الطريقة التي يجب أن يتم بها وضع الحواف المستقيمة في الكائنات والقوام القريبة بشكل موحد إلى "نقطة التلاشي".

الخطوط المتوازية اليسرى على نفس المستوى تتحلل إلى نقطة تلاشي مشتركة ؛ على اليمين ، تحدد نقاط التلاشي المتعددة على نفس المستويات والمتوازية خط التلاشي (كما هو موضح باللون الأحمر).

الخطوط المتوازية اليسرى على نفس المستوى تتحلل إلى نقطة تلاشي مشتركة ؛ على اليمين ، تحدد نقاط التلاشي المتعددة على نفس المستويات والمتوازية خط التلاشي (كما هو موضح باللون الأحمر).

لاختبار اتساق DALL-E 2 في هذا الصدد ، استخدم المؤلفون DALL-E 2 لإنشاء 25 صورة مركبة للمطابخ - مساحة مألوفة ، حتى في المساكن المجهزة جيدًا ، تكون عادةً محصورة بدرجة كافية لتوفير نقاط تلاشي متعددة محتملة مجموعة من الكائنات والقوام.

فحص الإخراج من الموجه "صورة مطبخ بأرضية مبلطة"، وجد الباحثون أنه على الرغم من التمثيل المقنع بشكل عام في كل حالة (باستثناء بعض القطع الأثرية الغريبة والصغيرة التي لا علاقة لها بالمنظور) ، فإن الأشياء المصورة لا تبدو أبدًا متقاربة بشكل صحيح.

لاحظ المؤلفون أنه في حين أن كل مجموعة من الخطوط المتوازية من نمط التجانب متسقة وتتقاطع عند نقطة تلاشي واحدة (أزرق في الصورة أدناه) ، فإن نقطة التلاشي للسطح المضاد (السماوي) لا تتفق مع كل من خطوط التلاشي (أحمر) ) ونقطة التلاشي المشتقة من البلاط.

لاحظ المؤلفون أنه حتى لو لم يكن السطح المضاد موازيًا للبلاط ، يجب أن تتلاشى نقطة التلاشي السماوي إلى خط التلاشي (الأحمر) المحدد بواسطة نقاط التلاشي لبلاط الأرضيات.

تقول الورقة:

في حين أن المنظور في هذه الصور - بشكل مثير للإعجاب - متسق محليًا ، إلا أنه غير متسق عالميًا. تم العثور على هذا النمط نفسه في كل من 25 صورة مطبخ مركبة.

الطب الشرعي الظل

كما يعلم أي شخص سبق له التعامل مع تتبع الأشعة ، فإن للظلال أيضًا نقاط تلاشي محتملة ، مما يشير إلى إضاءة أحادية أو متعددة المصادر. بالنسبة للظلال الخارجية في ضوء الشمس القاسي ، يتوقع المرء أن تتحلل الظلال عبر جميع جوانب الصورة باستمرار إلى المصدر الوحيد للضوء (الشمس).

كما هو الحال مع التجربة السابقة ، أنشأ الباحثون 25 صورة DALL-E 2 باستخدام موجه "ثلاثة مكعبات على الرصيف تصويرها في يوم مشمس "، بالإضافة إلى 25 مع موجه "ثلاث مكعبات على الرصيف صورت في يوم غائم.

في الصف العلوي ، صور تم إنشاؤها من "حث" ثلاثة مكعبات على الرصيف تم تصويرها في يوم غائم "؛ في الصف السفلي ، الصور التي تم إنشاؤها من موجه "ثلاثة مكعبات على الرصيف تم تصويرها في يوم مشمس".

في الصف العلوي ، صور تم إنشاؤها من "حث" ثلاثة مكعبات على الرصيف تم تصويرها في يوم غائم "؛ في الصف السفلي ، الصور التي تم إنشاؤها من موجه "ثلاثة مكعبات على الرصيف تم تصويرها في يوم مشمس".

لاحظ الباحثون أنه عند تمثيل الظروف الغائمة ، فإن DALL-E 2 قادر على عرض الظلال المرتبطة الأكثر انتشارًا بطريقة مقنعة ومعقولة ، ربما ليس أقلها لأن هذا النوع من الظل من المرجح أن يكون أكثر انتشارًا في صور مجموعة البيانات التي عليها تم تدريب الإطار.

ومع ذلك ، وجد المؤلفون أن بعض الصور "المشمسة" كانت غير متوافقة مع مشهد مضاء من مصدر ضوء واحد.

بالنسبة للصورة أعلاه ، تم تحويل الأجيال إلى تدرج رمادي من أجل الوضوح ، وإظهار كل كائن بـ "الشمس" المخصصة له.

على الرغم من أن العارض العادي قد لا يكتشف مثل هذه الحالات الشاذة ، إلا أن بعض الصور التي تم إنشاؤها بها المزيد من الأمثلة الواضحة على "فشل الظل":

في حين أن بعض الظلال ببساطة في المكان الخطأ ، فإن الكثير منها ، بشكل مثير للاهتمام ، يتوافق مع نوع التناقض المرئي الناتج في نمذجة CGI عندما يكون معدل العينة للضوء الافتراضي منخفضًا جدًا.

تأملات في DALL-E 2

جاءت النتائج الأكثر إهانة من حيث التحليل الجنائي عندما اختبر المؤلفون قدرة DALL-E 2 على إنشاء أسطح عاكسة للغاية ، وهو حساب مرهق أيضًا في تتبع الأشعة CGI وخوارزميات العرض التقليدية الأخرى.

من أجل هذه التجربة ، أنتج المؤلفون 25 صورة DALL-E 2 مع موجه "صورة ديناصور لعبة وانعكاسها في مرآة الغرور".

أفاد المؤلفون أنه في جميع الحالات ، كانت الصورة المعكوسة للعبة المعروضة منفصلة بطريقة ما عن جانب لعبة الديناصورات `` الحقيقية '' وتصرفها. يذكر المؤلفون أن المشكلة كانت مقاومة للتغيرات في موجه النص ، ويبدو أنها نقطة ضعف أساسية في النظام.

يبدو أن هناك منطقًا في بعض الأخطاء - يبدو أن المثالين الأول والثالث في الصف العلوي يظهران ديناصورًا تكرار جيد جدًا ، لكن ليس معكوسًا.

تعليق المؤلفين:

"على عكس الظلال المصبوبة والهياكل الهندسية في الأقسام السابقة ، فإن DALL · E-2 يكافح لتجميع الانعكاسات المعقولة ، ربما لأن هذه الانعكاسات أقل شيوعًا في مجموعة بيانات الصور التدريبية الخاصة بها."

قد يتم تسوية مثل هذه الثغرات في نماذج تحويل النص إلى صورة في المستقبل والتي تكون قادرة على مراجعة المنطق الدلالي الشامل لمخرجاتها بشكل أكثر فعالية ، والتي ستكون قادرة على فرض قواعد مادية مجردة على المشاهد التي ، إلى حد ما ، تم تجميعها من السمات ذات الصلة بالكلمات في المساحة الكامنة للنظام.

في ضوء الاتجاه المتزايد نحو معماريات توليفية أكبر من أي وقت مضى ، يستنتج المؤلفون:

[قد يكون الأمر مجرد مسألة وقت قبل أن تتعلم محركات التلوين بالنص تقديم الصور بتناسق منظور كامل. حتى ذلك الوقت ، قد تكون تحليلات الطب الشرعي الهندسي مفيدة في تحليل هذه الصور.

 

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في 30 يونيو 2022.