رطم هل DALL-E 2 مجرد "لصق الأشياء معًا" دون فهم العلاقات بينهما؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

هل DALL-E 2 مجرد "لصق الأشياء معًا" دون فهم العلاقات بينهما؟

mm
تحديث on
"كوب على ملعقة". المصدر: DALL-E 2.

تشير ورقة بحثية جديدة من جامعة هارفارد إلى أن إطار OpenAI الذي يحتل العناوين الرئيسية لتحويل النص إلى صورة DALL-E 2 يواجه صعوبة ملحوظة في إعادة إنتاج حتى العلاقات على مستوى الأطفال بين العناصر التي يتم تكوينها في صور مركبة ، على الرغم من التطور المذهل للكثير من ناتجها.

أجرى الباحثون دراسة مستخدم شملت 169 مشاركًا من التعهيد الجماعي ، تم تقديمهم بصور DALL-E 2 استنادًا إلى المبادئ الإنسانية الأساسية لدلالات العلاقة ، جنبًا إلى جنب مع المطالبات النصية التي أوجدتها. عندما سئل عما إذا كانت المطالبات والصور مرتبطة ببعضها البعض ، كان يُنظر إلى أقل من 22٪ من الصور على أنها ذات صلة بالمطالبات المرتبطة بها ، من حيث العلاقات البسيطة جدًا التي طُلب من DALL-E 2 تصورها.

لقطة شاشة من التجارب التي أجريت للورقة الجديدة. تم تكليف المشاركين باختيار جميع الصور المطابقة للموجه. على الرغم من إخلاء المسؤولية في الجزء السفلي من الواجهة ، في جميع الحالات ، تم إنشاء الصور ، دون علم المشاركين ، من الموجه المرتبط المعروض. المصدر: https://arxiv.org/pdf/2208.00005.pdf

لقطة شاشة من التجارب التي أجريت للورقة الجديدة. تم تكليف المشاركين باختيار جميع الصور المطابقة للموجه. على الرغم من إخلاء المسؤولية في الجزء السفلي من الواجهة ، في جميع الحالات ، تم إنشاء الصور ، دون علم المشاركين ، من الموجه المرتبط المعروض. المصدر: https://arxiv.org/pdf/2208.00005.pdf

تشير النتائج أيضًا إلى أن القدرة الواضحة لـ DALL-E على ضم عناصر متباينة قد تتضاءل لأن هذه العناصر تصبح أقل احتمالًا لحدوثها في بيانات التدريب في العالم الحقيقي التي تعمل على تشغيل النظام.

على سبيل المثال ، حصلت صور "طفل يلمس وعاءًا" على معدل موافقة بنسبة 87٪ (أي نقر المشاركون على معظم الصور باعتبارها ذات صلة بالموجه) ، في حين تم تحقيق صور واقعية مشابهة لـ "قرد يلامس إجوانا" وافق 11٪ فقط:

يكافح DALL-E لتصوير الحدث غير المحتمل المتمثل في "لمس القرد للإغوانا" ، ربما لأنه غير شائع ، ومن المرجح أنه غير موجود ، في مجموعة التدريب.

يكافح DALL-E لتصوير الحدث غير المحتمل المتمثل في "لمس القرد للإغوانا" ، ربما لأنه غير شائع ، ومن المرجح أنه غير موجود ، في مجموعة التدريب.

في المثال الثاني ، غالبًا ما تحصل DALL-E 2 على المقياس وحتى الأنواع خاطئة ، ربما بسبب ندرة الصور الواقعية التي تصور هذا الحدث. على النقيض من ذلك ، من المعقول توقع عدد كبير من صور التدريب المتعلقة بالأطفال والطعام ، وأن هذا المجال الفرعي / الفصل متطور جيدًا.

تشير صعوبة DALL-E في محاذاة عناصر الصورة المتناقضة بشكل كبير إلى أن الجمهور مبهور جدًا حاليًا بقدرات النظام الواقعية والتفسيرية على نطاق واسع بحيث لم يطور عينًا نقدية للحالات التي يكون فيها النظام قد `` ألصق '' عنصرًا بشكل صارخ بعنصر آخر. ، كما في هذه الأمثلة من موقع DALL-E 2 الرسمي:

توليف قص ولصق ، من الأمثلة الرسمية لـ DALL-E 2. المصدر: https://openai.com/dall-e-2/

توليف قص ولصق ، من الأمثلة الرسمية لـ DALL-E 2. المصدر: https://openai.com/dall-e-2/

تنص الورقة الجديدة على:

يعد الفهم العلائقي مكونًا أساسيًا من عناصر الذكاء البشري ، والذي يتجلى في وقت مبكر من التطوير، ويتم حسابها بشكل سريع وتلقائي في الإدراك.

صعوبة DALL-E 2 في العلاقات المكانية الأساسية (مثل in, on, مع) يشير إلى أنه مهما تعلّمه ، فإنه لم يتعلم بعد أنواع التمثيلات التي تسمح للبشر ببناء العالم بشكل مرن وقوي.

"التفسير المباشر لهذه الصعوبة هو أن أنظمة مثل DALL-E 2 ليس لديها بعد تكوين علائقية."

يقترح المؤلفون أن أنظمة توليد الصور الموجهة بالنص مثل سلسلة DALL-E يمكن أن تستفيد من الاستفادة من الخوارزميات الشائعة في الروبوتات ، والتي تمثل الهويات والعلاقات في وقت واحد ، بسبب الحاجة إلى أن يتفاعل الوكيل فعليًا مع البيئة بدلاً من مجرد تصنيع مزيج من العناصر المتنوعة.

أحد هذه الأساليب بعنوان CLIPort، يستخدم نفس الشيء آلية CLIP التي تعمل كعنصر تقييم الجودة في DALL-E 2:

يستخدم CLIPort ، وهو تعاون في عام 2021 بين جامعة واشنطن و NVIDIA ، CLIP في سياق عملي للغاية لدرجة أن الأنظمة المدربة عليه يجب أن تطور بالضرورة فهمًا للعلاقات الجسدية ، وهو محفز غائب في DALL-E 2 وما شابه ذلك من `` الخيال '' أطر تركيب الصور. المصدر: https://arxiv.org/pdf/2109.12098.pdf

يستخدم CLIPort ، وهو تعاون في عام 2021 بين جامعة واشنطن و NVIDIA ، CLIP في سياق عملي للغاية لدرجة أن الأنظمة المدربة عليه يجب أن تطور بالضرورة فهمًا للعلاقات الجسدية ، وهو محفز غائب في DALL-E 2 وما شابه ذلك من `` الخيال '' أطر تركيب الصور. المصدر: https://arxiv.org/pdf/2109.12098.pdf

يقترح المؤلفون كذلك أن "ترقية أخرى معقولة" قد تكون لبنية أنظمة تركيب الصور مثل DALL-E لتضمينها تأثيرات مضاعفة في طبقة حسابية وحيدة ، تسمح بحساب العلاقات بطريقة مستوحاة من قدرات معالجة المعلومات في بيولوجي نظم.

ورقة جديدة بعنوان اختبار الفهم العلائقي في إنشاء الصور الموجهة بالنص، ويأتي من كولين كونويل وتومر دي أولمان في قسم علم النفس بجامعة هارفارد.

ما وراء النقد المبكر

وتعليقًا على "خفة اليد" وراء واقعية وسلامة مخرجات DALL-E 2 ، لاحظ المؤلفون الأعمال السابقة التي وجدت أوجه قصور في أنظمة الصور التوليدية بأسلوب DALL-E.

في يونيو من هذا العام ، جامعة كاليفورنيا في بيركلي وأشار صعوبة DALL-E في التعامل مع الانعكاسات والظلال ؛ في الشهر نفسه ، قامت دراسة من كوريا بالتحقيق في "تفرد" وأصالة مخرجات نمط DALL-E 2 بعين ناقدة؛ 1 تحليل أولي من صور DALL-E 2 ، بعد وقت قصير من الإطلاق ، من جامعة نيويورك وجامعة تكساس ، وجدت العديد من المشكلات المتعلقة بالتركيب وعوامل أساسية أخرى في صور DALL-E 2 ؛ والشهر الماضي ، عمل مشترك قدم بين جامعة إلينوي ومعهد ماساتشوستس للتكنولوجيا اقتراحات للتحسينات المعمارية لهذه الأنظمة من حيث التركيب.

لاحظ الباحثون كذلك أن النجوم المضيئة DALL-E مثل Aditya Ramesh لديها اعترف قضايا الإطار مع الحجم الملزم النسبي والنص والتحديات الأخرى.

كما اقترح المطورون الذين يقفون وراء نظام تركيب الصور المنافس من Google Imagen DrawBench، وهو نظام مقارنة جديد يقيس دقة الصورة عبر أطر ذات مقاييس متنوعة.

بدلاً من ذلك ، يقترح مؤلفو الورقة البحثية الجديدة أنه يمكن الحصول على نتيجة أفضل من خلال تأليب التقدير البشري - بدلاً من المقاييس الداخلية والخوارزمية - مع الصور الناتجة ، لتحديد نقاط الضعف ، وما الذي يمكن فعله لتخفيفها.

الدراسة

وتحقيقا لهذه الغاية ، فإن المشروع الجديد يبني منهجه على أسس نفسية ، ويسعى إلى التراجع عن التيار زيادة الاهتمام in الهندسة السريعة (وهو ، في الواقع ، تنازل عن أوجه القصور في DALL-E 2 ، أو أي نظام مشابه) ، للتحقيق وربما معالجة القيود التي تجعل مثل هذه "الحلول البديلة" ضرورية.

تقول الورقة:

يركز العمل الحالي على مجموعة من 15 علاقة أساسية سبق وصفها أو فحصها أو اقتراحها في الأدب المعرفي أو التنموي أو اللغوي. تحتوي المجموعة على كل من العلاقات المكانية المؤرضة (على سبيل المثال ، "X على Y") ، وعلاقات وكيل أكثر تجريدًا (على سبيل المثال ، "X يساعد Y").

المطالبات بسيطة عن قصد ، دون تعقيد أو تفصيل السمة. هذا ، بدلاً من مطالبة مثل "حمار وأخطبوط يلعبان لعبة. يمسك الحمار بحبل من أحد طرفيه ، ويمسك الأخطبوط بالطرف الآخر. الحمار يمسك الحبل في فمه. قطة تقفز فوق الحبل ، نستخدم "صندوق على السكين".

"لا تزال البساطة تلتقط مجموعة واسعة من العلاقات من مختلف المجالات الفرعية لعلم النفس البشري ، وتجعل إخفاقات النماذج المحتملة أكثر وضوحًا وتحديداً."

في دراستهم ، قام المؤلفون بتوظيف 169 مشاركًا من Prolific ، وجميعهم موجودون في الولايات المتحدة الأمريكية ، بمتوسط ​​عمر 33 عامًا ، و 59٪ من الإناث.

عُرض على المشاركين 18 صورة منظمة في شبكة 3 × 6 مع وجود موجه في الجزء العلوي ، وإخلاء مسؤولية في الجزء السفلي يوضح أنه ربما تم إنشاء جميع الصور أو بعضها أو لا شيء من الموجه المعروض ، ثم طُلب منهم ذلك حدد الصور التي اعتقدوا أنها مرتبطة بهذه الطريقة.

استندت الصور المقدمة للأفراد إلى الأدب اللغوي والتنموي والمعرفي ، وتضم مجموعة من ثماني علاقات جسدية وسبعة علاقات "وكيل" (سيتضح هذا في لحظة).

العلاقات المادية
في ، فوق ، تحت ، غطاء ، قريب ، مسدود ، معلق ، و مرتبطة.

العلاقات الوكيل
الدفع ، السحب ، اللمس ، الضرب ، الركل ، المساعدة ، و إعاقة.

كل هذه العلاقات مستمدة من مجالات الدراسة السابقة غير المتعلقة بعلوم الكمبيوتر.

تم اشتقاق اثني عشر كيانًا لاستخدامها في الموجهات ، مع ستة أشياء وستة عوامل:

الأجسام
صندوق ، اسطوانة ، بطانية ، وعاء ، فنجان ، و سكين.

وسيط عقاري
رجل ، امرأة ، طفل ، إنسان آلي ، قرد ، و الإغوانا.

(يقر الباحثون أن تضمين الإغوانا ، وليس الدعامة الأساسية للبحث الاجتماعي أو النفسي الجاف ، كان بمثابة `` علاج '')

لكل علاقة ، تم إنشاء خمس مطالبات مختلفة عن طريق أخذ عينات عشوائية من كيانين خمس مرات ، مما أدى إلى 75 مطالبة إجمالية ، تم تقديم كل منها إلى DALL-E 2 ، وتم استخدام 18 صورة أولية مقدمة لكل منها ، دون أي اختلافات أو الفرص الثانية المسموح بها.

النتائج

تقول الورقة *:

أبلغ المشاركون في المتوسط ​​عن قدر ضئيل من الاتفاق بين صور DALL-E 2 والمحفزات المستخدمة لتوليدها ، بمتوسط ​​22.2٪ [18.3 ، 26.6] عبر 75 مطالبة متميزة.

"المطالبات الوسيطة ، بمتوسط ​​28.4٪ [22.8 ، 34.2] عبر 35 مطالبة ، ولدت موافقة أعلى من المطالبات المادية ، بمتوسط ​​16.9٪ [11.9 ، 23.0] عبر 40 مطالبة."

نتائج الدراسة. تشير النقاط باللون الأسود إلى جميع المطالبات ، مع كل نقطة موجه فردي ، ويتفكك اللون وفقًا لما إذا كان الموضوع الفوري وكيلًا أم ماديًا (أي كائن).

نتائج الدراسة. تشير النقاط باللون الأسود إلى جميع المطالبات ، مع كل نقطة موجه فردي ، ويتفكك اللون وفقًا لما إذا كان الموضوع الفوري وكيلًا أم ماديًا (أي كائن).

لمقارنة الفرق بين الإدراك البشري والخوارزمي للصور ، قام الباحثون بتشغيل عروضهم من خلال المصدر المفتوح لـ OpenAI ViT-L / 14 إطار عمل يستند إلى CLIP. عند حساب متوسط ​​الدرجات ، وجدوا "علاقة معتدلة" بين مجموعتي النتائج ، وهو ما قد يكون مفاجئًا ، مع الأخذ في الاعتبار إلى أي مدى يساعد CLIP نفسه في إنشاء الصور.

نتائج مقارنة CLIP (ViT-L / 14) مع الاستجابات البشرية.

نتائج مقارنة CLIP (ViT-L / 14) مع الاستجابات البشرية.

يقترح الباحثون أن الآليات الأخرى داخل الهيكل ، ربما مقترنة بغلبة (أو نقص) البيانات في مجموعة التدريب قد تفسر الطريقة التي يمكن أن يتعرف بها CLIP على قيود DALL-E دون أن يكون قادرًا ، في جميع الحالات ، على فعل أي شيء الكثير عن المشكلة.

استنتج المؤلفون أن DALL-E 2 لديه فقط وسيلة افتراضية ، إن وجدت ، لإعادة إنتاج الصور التي تتضمن الفهم العلائقي ، وهو جانب أساسي من جوانب الذكاء البشري الذي يتطور فينا في وقت مبكر جدًا.

قد تكون الفكرة القائلة بأن أنظمة مثل DALL-E 2 لا تحتوي على تركيبة مفاجأة لأي شخص قد رأى استجابات DALL-E 2 المعقولة بشكل لافت للنظر لمحفزات مثل `` رسم كاريكاتوري لفجل دايكون صغير في توتو يمشي كلبًا ''. غالبًا ما تولد مثل هذه المحفزات تقريبًا معقولًا لمفهوم تركيبي ، مع وجود جميع أجزاء المحفزات في الأماكن الصحيحة.

ومع ذلك ، فإن التركيب ليس فقط القدرة على لصق الأشياء معًا - حتى الأشياء التي ربما لم تلاحظها معًا من قبل. التكوين يتطلب فهم القواعد التي تربط الأشياء معًا. العلاقات هي مثل هذه القواعد.

مان بايتس تي ريكس

مراجعة كما تحتضن أوبن إيه آي عدد أكبر من المستخدمين بعد تسييل الإصدار التجريبي الأخير من DALL-E 2 ، وبما أنه يتعين على المرء الآن أن يدفع مقابل معظم الأجيال ، فقد تصبح أوجه القصور في فهم العلاقات في DALL-E 2 أكثر وضوحًا لأن كل محاولة "فاشلة" لها وزن مالي لها ، والمبالغ المستردة غير متوفرة.

أولئك منا الذين تلقوا دعوة قبل ذلك بقليل كان لديهم الوقت (وحتى وقت قريب ، وقت فراغ أكبر للعب مع النظام) لملاحظة بعض "مواطن الخلل في العلاقة" التي يمكن أن تحدثها DALL-E 2.

على سبيل المثال ، من أجل ملف الحديقة الجوراسية معجب ، من الصعب جدًا الحصول على ديناصور لمطاردة شخص في DALL-E 2 ، على الرغم من أن مفهوم "المطاردة" لا يبدو في DALL-E 2 نظام الرقابة، وعلى الرغم من أن ملف تاريخ طويل يجب أن تقدم أفلام الديناصورات أمثلة تدريبية وفيرة (على الأقل في شكل مقطورات ولقطات دعائية) لهذا اللقاء المستحيل للأنواع.

استجابة نموذجية لـ DALL-E 2 للمطالبة "صورة ملونة لسيارة T-Rex تطارد رجلًا على الطريق". المصدر: DALL-E 2

استجابة نموذجية لـ DALL-E 2 للمطالبة "صورة ملونة لسيارة T-Rex تطارد رجلًا على الطريق". المصدر: DALL-E 2

لقد اكتشفت أن الصور أعلاه نموذجية للصيغ في ملف "[ديناصور] يطارد [شخص]" تصميم سريع ، ولا يمكن لأي قدر من التفصيل في الموجه جعل T-Rex يمتثل بالفعل. في الصورتين الأولى والثانية ، الرجل (أكثر أو أقل) يطارد T-Rex ؛ في الثالث ، الاقتراب منه بتجاهل عرضي للسلامة ؛ وفي الصورة النهائية ، يبدو أنه يركض بالتوازي مع الوحش العظيم. عبر حوالي 10 إلى 15 محاولة في هذا الموضوع ، وجدت أن الديناصور `` مشتت '' بالمثل.

يمكن أن تكون بيانات التدريب الوحيدة التي يمكن لـ DALL-E 2 الوصول إليها كانت في السطر "رجل يحارب الديناصور"، من اللقطات الدعائية لأفلام قديمة مثل مليون سنة ق (1966) ، وذلك جيف جولد بلوم رحلة مشهورة من ملك الحيوانات المفترسة هو مجرد استثناء في تلك الشريحة الصغيرة من البيانات.

 

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في 4 أغسطس 2022.