رطم كيف تعرف متى تنتج أنظمة تركيب الصور مواد "أصلية" حقًا - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

كيف تعرف متى تنتج أنظمة تركيب الصور مواد "أصلية" حقًا

mm
تحديث on
"تيدي بيرز تعمل على بحث جديد للذكاء الاصطناعي تحت الماء بتقنية التسعينيات" - المصدر: https://www.creativeboom.com/features/meet-dall-e/
"تيدي بيرز تعمل على بحث جديد للذكاء الاصطناعي تحت الماء بتقنية التسعينيات" - المصدر: https://www.creativeboom.com/features/meet-dall-e/

اقترحت دراسة جديدة من كوريا الجنوبية طريقة لتحديد ما إذا كانت أنظمة تركيب الصور تنتج صورًا جديدة حقًا ، أو متغيرات "ثانوية" في بيانات التدريب ، مما قد يؤدي إلى هزيمة الهدف من هذه البنى (مثل إنتاج صور جديدة وأصلية) .

في كثير من الأحيان ، تقترح الورقة أن هذا الأخير صحيح ، لأن المقاييس الحالية التي تستخدمها هذه الأنظمة لتحسين قدراتها التوليدية على مدار التدريب تُجبر على تفضيل الصور القريبة نسبيًا من الصور المصدر (غير المزيفة) في مجموعة البيانات .

بعد كل شيء ، إذا كانت الصورة التي تم إنشاؤها "قريبة بصريًا" من بيانات المصدر ، فمن المحتمل حتماً أن تسجل درجات "أصالة" أفضل من "الأصالة" ، لأنها "مخلصة" - إذا لم تكن ملهمة.

يمكن أن يحدث هذا في قطاع حديث العهد للغاية ولم تتم تجربته على تشعباته القانونية حتى الآن أصبحت قضية قانونية مهمة، إذا تبين أن محتوى الصورة التركيبية المُسوق تجاريًا لا يختلف بدرجة كافية عن مادة المصدر المحمية بحقوق الطبع والنشر (غالبًا) والتي هي حاليًا يسمح للإرواء قطاع البحث في شكل مجموعات بيانات مشهورة على شبكة الإنترنت (احتمالية ادعاءات الانتهاك المستقبلية من هذا النوع لها برزت في الآونة الأخيرة إلى حد ما فيما يتعلق بـ Microsoft GitHub Co-Pilot AI).

فيما يتعلق بالمخرجات المتماسكة والقوية لغويًا بشكل متزايد من أنظمة مثل OpenAI DALL-E2، جوجل صورةو الصين كوجفيو الإصدارات (بالإضافة إلى ملفات dall-e mini)، هناك عدد قليل جدا بأثر رجعي طرق الاختبار الموثوق به للتحقق من أصالة الصورة التي تم إنشاؤها.

في الواقع ، غالبًا ما يؤدي البحث عن بعض أكثر صور DALL-E 2 الجديدة شيوعًا إلى ظهور حالات إضافية لتلك الصور نفسها ، اعتمادًا على محرك البحث.

يؤدي تحميل مجموعة إخراج DALL-E 9 كاملة من 2 صور فقط إلى المزيد من مجموعات إخراج DALL-E 2. يؤدي فصل وتحميل الصورة الأولى (من منشور Twitter هذا بتاريخ 8 يونيو 2022 ، من حساب "Weird Dall-E Generations") إلى قيام Google بالتركيز على كرة السلة في الصورة ، مع أخذ البحث المعتمد على الصور في زقاق أعمى دلالي. بالنسبة إلى نفس البحث المستند إلى الصورة ، يبدو أن Yandex تقوم على الأقل ببعض التفكيك الفعلي القائم على البكسل ومطابقة الميزات.

يؤدي تحميل مجموعة إخراج DALL-E 9 كاملة من 2 صور فقط إلى المزيد من مجموعات إخراج DALL-E 2 ، لأن بنية الشبكة هي أقوى ميزة. فصل وتحميل الصورة الاولى (من هذا المنشور على Twitter في الثامن من يونيو 8 ، من حساب "Weird Dall-E Generations") تسبب في تركيز Google على كرة السلة في الصورة ، مع أخذ البحث المستند إلى الصور في زقاق أعمى دلالي. بالنسبة إلى نفس البحث المستند إلى الصورة ، يبدو أن Yandex تقوم على الأقل ببعض التفكيك الفعلي القائم على البكسل ومطابقة الميزات.

على الرغم من أن Yandex أكثر احتمالًا من استخدام بحث Google لملف ملامح (أي صورة مشتقة / محسوبة ملامح، وليس بالضرورة ملامح وجه الناس) و بصري (بدلاً من الخصائص الدلالية) للصورة المرسلة للعثور على صور مماثلة ، تمتلك جميع محركات البحث القائمة على الصور أيضًا نوع من جدول الأعمال أو الممارسة التي قد تجعل من الصعب التعرف على حالات مصدر> ولدت الانتحال عبر عمليات البحث على الويب.

بالإضافة إلى ذلك ، قد لا تكون بيانات التدريب الخاصة بنموذج توليدي متاحة للجمهور بالكامل ، مما يزيد من صعوبة فحص الطب الشرعي لأصالة الصور التي تم إنشاؤها.

ومن المثير للاهتمام ، إجراء بحث على شبكة الإنترنت قائم على الصور على إحدى الصور التركيبية التي أظهرتها Google في موقعها موقع Imagen المخصص لا يجد أي شيء على الإطلاق يمكن مقارنته بموضوع الصورة ، من حيث النظر إلى الصورة فعليًا والبحث عن صور مماثلة بحيادية. بدلاً من ذلك ، فإن نتائج البحث عن صور Google لصورة Imagen هذه مثبتة لغويًا كما كانت دائمًا ، لن تسمح ببحث ويب خالص قائم على الصور للصورة دون إضافة مصطلحات البحث "تخيل google" كمعامل إضافي (ومحدود):

على العكس من ذلك ، يجد Yandex عددًا كبيرًا من صور العالم الواقعي المتشابهة (أو المرتبطة بصريًا على الأقل) من المجتمع الفني للهواة:

بشكل عام ، سيكون من الأفضل قياس حداثة أو أصالة مخرجات أنظمة تركيب الصور بطريقة ما ، دون الحاجة إلى استخراج الميزات من كل صورة ممكنة تواجه الويب على الإنترنت في وقت تدريب النموذج ، أو في مجموعات البيانات غير العامة التي قد تستخدم مواد محمية بحقوق الطبع والنشر.

فيما يتعلق بهذه المسألة ، تعاون باحثون من كلية كيم جيتشول للدراسات العليا للذكاء الاصطناعي في المعهد الكوري المتقدم للعلوم والتكنولوجيا (KAIST AI) مع شركة NAVER Corp العالمية لتكنولوجيا المعلومات والاتصالات لتطوير نقاط الندرة يمكن أن تساعد في تحديد المزيد من الإبداعات الأصلية لأنظمة تركيب الصور.

تم إنشاء الصور هنا عبر StyleGAN-FFHQ. من اليسار إلى اليمين ، تشير الأعمدة إلى الأسوأ إلى أفضل النتائج. يمكننا أن نرى أن مقياس "خدعة الاقتطاع" (انظر أدناه) ومقياس الواقعية لهما أجندتهما الخاصة ، في حين أن درجة "الندرة" الجديدة (الصف العلوي) تبحث عن صور متماسكة ولكن أصلية (بدلاً من مجرد صور متماسكة). المصدر: https://arxiv.org/pdf/2206.08549.pdf

تم إنشاء الصور هنا عبر StyleGAN-FFHQ. من اليسار إلى اليمين ، تشير الأعمدة إلى الأسوأ إلى أفضل النتائج. يمكننا أن نرى أن مقياس "خدعة الاقتطاع" (انظر أدناه) ومقياس الواقعية لهما أجندتهما الخاصة ، في حين أن درجة "الندرة" الجديدة (الصف العلوي) تبحث عن صور متماسكة ولكن أصلية (بدلاً من مجرد صور متماسكة). نظرًا لوجود حدود لحجم الصورة في هذه المقالة ، يرجى الاطلاع على ورقة المصدر للحصول على تفاصيل ودقة أفضل. المصدر: https://arxiv.org/pdf/2206.08549.pdf

الجديد ورقة بعنوان نقاط الندرة: مقياس جديد لتقييم عدم شيوع الصور المركبة، ويأتي من ثلاثة باحثين في KAIST ، وثلاثة من NAVER Corp.

ما وراء "الحيلة الرخيصة"

من بين المقاييس السابقة التي تسعى الورقة الجديدة إلى تحسينها هي "خدعة الاقتطاع" اقترح في 2019 بالتعاون بين جامعة هيريوت وات البريطانية وجوجل ديب مايند.

تستخدم خدعة الاقتطاع بشكل أساسي توزيعًا كامنًا مختلفًا لأخذ العينات عما تم استخدامه لتدريب النموذج التوليدي.

فوجئ الباحثون الذين طوروا هذه الطريقة بأنها نجحت ، لكنهم اعترفوا في الورقة الأصلية بأنها تقلل من تنوع المخرجات المتولدة. ومع ذلك ، أصبحت خدعة الاقتطاع فعالة وشائعة ، في سياق ما يمكن إعادة وصفه بأنه `` خدعة رخيصة '' للحصول على نتائج ذات مظهر أصيل لا تستوعب حقًا جميع الاحتمالات الكامنة في البيانات ، وقد تشبه بيانات المصدر أكثر مما هو مطلوب.

فيما يتعلق بخدعة الاقتطاع ، لاحظ مؤلفو الورقة البحثية الجديدة:

لم يكن الغرض من ذلك هو إنتاج عينات نادرة في مجموعات بيانات التدريب ، ولكن بدلاً من ذلك لتجميع الصور النموذجية بشكل أكثر ثباتًا. نحن نفترض أن النماذج التوليدية الحالية ستكون قادرة على إنتاج عينات أكثر ثراءً في توزيع البيانات الحقيقي إذا كان من الممكن تحفيز المولد لإنتاج عينات نادرة بشكل فعال.

الميل العام للاعتماد على المقاييس التقليدية مثل Frechet Inception Distance (FID ، والتي تعرضت لانتقادات شديدة في ديسمبر 2021) ، ودرجة البداية (IS) ومسافة بداية Kernel (KID) باعتبارها `` مؤشرات تقدم '' أثناء تدريب النموذج التوليدي ، يعلق المؤلفون أيضًا *:

يقود مخطط التعلم هذا المولد إلى عدم توليف الكثير من العينات النادرة التي تكون فريدة من نوعها ولها خصائص قوية لا تمثل نسبة كبيرة من توزيع الصورة الحقيقية. تتضمن أمثلة العينات النادرة من مجموعات البيانات العامة الأشخاص الذين لديهم ملحقات مختلفة في FFHQ, الحيوانات البيضاء في AFHQو تماثيل غير شائعة في Metfaces.

تعد القدرة على إنشاء عينات نادرة مهمة ليس فقط لأنها مرتبطة بالقدرة المتطورة للنماذج التوليدية ، ولكن أيضًا لأن التفرد يلعب دورًا مهمًا في التطبيقات الإبداعية مثل البشر الافتراضي.

ومع ذلك ، نادرًا ما تحتوي النتائج النوعية للعديد من الدراسات الحديثة على هذه الأمثلة النادرة. نعتقد أن طبيعة مخطط التعلم العدائي تفرض توزيعًا للصور مشابهًا لتوزيع مجموعة بيانات التدريب. وبالتالي ، فإن الصور ذات الخصوصية الفردية أو الندرة الواضحة لا تأخذ سوى جزء صغير في الصور التي تم تجميعها بواسطة النماذج.

تقنية

تتكيف Rarity Score الجديدة للباحثين مع فكرة مقدمة في في وقت سابق أعمال - استخدام K- أقرب الجيران (KNNs) لتمثيل مصفوفات البيانات الأصلية (التدريبية) والتركيبية (المخرجات) في نظام تركيب الصور.

فيما يتعلق بهذه الطريقة الجديدة في التحليل ، يؤكد المؤلفون:

"نحن نفترض أن العينات العادية ستكون أقرب إلى بعضها البعض بينما العينات الفريدة والنادرة ستكون متناثرة في مساحة الميزة."

تُظهر صورة النتائج أعلاه أصغر مسافات الجوار (NNDs) إلى الأكبر ، في بنية StyleGAN مدربة على FFHQ.

بالنسبة لجميع مجموعات البيانات ، تُظهر العينات التي تحتوي على أصغر NNDs صورًا تمثيلية ونموذجية. على العكس من ذلك ، فإن العينات التي تحتوي على أكبر NNDs تتمتع بشخصية قوية وتختلف بشكل كبير عن الصور النموذجية مع أصغر NNDs.

من الناحية النظرية ، باستخدام هذا المقياس الجديد كمميز ، أو على الأقل إدراجه في بنية تمييز أكثر تعقيدًا ، يمكن توجيه النظام التوليدي بعيدًا عن التقليد الخالص نحو خوارزمية أكثر إبداعًا ، مع الحفاظ على التماسك الأساسي للمفاهيم التي قد تكون حاسمة لإنتاج صور أصلية (على سبيل المثال 'رجل', 'امرأة', 'سيارة', 'كنيسة'، وما إلى ذلك).

المقارنات والتجارب

في الاختبارات ، أجرى الباحثون مقارنة بين أداء Rarity Score مقابل كل من Truncation Trick و NVIDIA's 2019 درجة الواقعية، ووجدت أنه عبر مجموعة متنوعة من الأطر ومجموعات البيانات ، فإن النهج قادر على تمييز النتائج "الفريدة".

على الرغم من أن النتائج الواردة في الورقة واسعة النطاق بحيث لا يمكن تضمينها هنا ، يبدو أن الباحثين قد أظهروا قدرة الطريقة الجديدة على تحديد الندرة في كل من الصور المصدر (الحقيقية) والمولدة (المزيفة) في إجراء توليدي:

حدد أمثلة من النتائج المرئية الشاملة التي تمت إعادة إنتاجها في الورقة (انظر عنوان URL للمصدر أعلاه لمزيد من التفاصيل). على اليسار ، أمثلة حقيقية من FFHQ لديها عدد قليل جدًا من الجيران القريبين (أي أنها جديدة وغير عادية) في مجموعة البيانات الأصلية ؛ على اليمين ، صور مزيفة تم إنشاؤها بواسطة StyleGAN ، والتي حددها المقياس الجديد على أنها جديدة حقًا.

حدد أمثلة من النتائج المرئية الشاملة التي تمت إعادة إنتاجها في الورقة (انظر عنوان URL للمصدر أعلاه لمزيد من التفاصيل). على اليسار ، أمثلة حقيقية من FFHQ لديها عدد قليل جدًا من الجيران القريبين (أي أنها جديدة وغير عادية) في مجموعة البيانات الأصلية ؛ على اليمين ، صور مزيفة تم إنشاؤها بواسطة StyleGAN ، والتي حددها المقياس الجديد على أنها جديدة حقًا. نظرًا لوجود حدود لحجم الصورة في هذه المقالة ، يرجى الاطلاع على ورقة المصدر للحصول على تفاصيل ودقة أفضل.

لا يسمح مقياس Rarity Score الجديد بإمكانية تحديد المخرجات التوليدية `` الجديدة '' في بنية واحدة فحسب ، بل يسمح أيضًا ، كما يدعي الباحثون ، بإجراء مقارنات بين النماذج التوليدية للبنى المتنوعة والمتغيرة (على سبيل المثال ، التشفير التلقائي ، VAE ، GAN ، إلخ. ).

تشير الورقة البحثية إلى أن Rarity Score تختلف عن المقاييس السابقة من خلال التركيز على قدرة إطار العمل التوليدي على إنشاء صور فريدة ونادرة ، على عكس المقاييس `` التقليدية '' ، التي تفحص (إلى حد ما قصر النظر) التنوع بين الأجيال أثناء تدريب النموذج.

ما وراء المهام المحدودة

على الرغم من أن الباحثين في الورقة الجديدة قد أجروا اختبارات على أطر محدودة المجال (مثل مجموعات المولد / مجموعة البيانات المصممة خصيصًا لإنتاج صور لأشخاص أو قطط ، على سبيل المثال) ، يمكن تطبيق درجة الندرة على أي إجراء تخليقي تعسفي للصور حيث من المرغوب فيه تحديد الأمثلة التي تم إنشاؤها التي تستخدم التوزيعات المشتقة من البيانات المدربة ، بدلاً من زيادة المصداقية (وتقليل التنوع) عن طريق التداخل مع التوزيعات الأجنبية الكامنة ، أو الاعتماد على "الاختصارات" الأخرى التي تقوض الجدة لصالح الأصالة.

في الواقع ، يمكن لمثل هذا المقياس أن يميز حالات الإخراج الجديدة حقًا في أنظمة مثل سلسلة DALL-E ، باستخدام مسافة محددة بين نتيجة "خارجية" ظاهرة ، وبيانات التدريب ، والنتائج من مطالبات أو مدخلات مماثلة (على سبيل المثال ، صورة المطالبات المستندة).

في الممارسة العملية ، وفي غياب فهم واضح لمدى استيعاب النظام حقًا للمفاهيم المرئية والدلالية (غالبًا ما تعوقه المعرفة المحدودة ببيانات التدريب) ، يمكن أن تكون هذه طريقة قابلة للتطبيق لتحديد `` لحظة حقيقية ''. إلهام 'في نظام توليدي - النقطة التي أدى عندها عدد كاف من مفاهيم الإدخال والبيانات إلى شيء مبتكر حقًا ، بدلاً من شيء مشتق بشكل مفرط أو قريب من بيانات المصدر.

 

* تحويلاتي للاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في 20 يونيو 2022.