الذكاء الاصطناعي
ثلاث تحديات أمام Stable Diffusion

قد يكون إصدار stability.ai’s Stable Diffusion latent diffusion نموذج合成 الصور قبل بضعة أسابيع أحد أكثر الإفصاحات التكنولوجية أهمية منذ DeCSS في 1999؛ إنه بالتأكيد أكبر حدث في الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي منذ كود deepfakes في 2017 تم نسخها إلى GitHub وفرعها إلى ما سيصبح DeepFaceLab و FaceSwap ، وكذلك برنامج deepfake البث في الوقت الفعلي DeepFaceLive .
في لحظة، تم تجاوز إحباط المستخدمين حول قيود المحتوى في واجهة برمجة تطبيقات 합성 الصور DALL-E 2 ، لأنها تم الكشف عن أن مرشح NSFW في Stable Diffusion يمكن تعطيله عن طريق تغيير سطر واحد من الكود . Stable Diffusion Reddits الموجهة للبالغين ظهرت على الفور ، وتم قطعها بسرعة ، بينما انقسم المطور والمستخدم في Discord إلى المجتمعات الرسمية و NSFW ، وبدأت تويتر في ملء بالخلق الفантаستي Stable Diffusion .
في هذه اللحظة ، يبدو أن كل يوم يأتي ببعض الابتكارات المذهلة من المطورين الذين اعتمدوا النظام ، مع كتابة البرامج المساعدة والملحقات الخارجية بسرعة ل Krita ، Photoshop ، Cinema4D ، Blender ، ومنصات التطبيق الأخرى .
في غضون ذلك ، promptcraft – الفن المهني الجديد ل ‘AI whispering’ ، الذي قد يصبح أقصر خيار وظيفي منذ ‘Filofax binder’ – يصبح بالفعل تجاريًا ، بينما يتم تعزيز Stable Diffusion في وقت مبكر على مستوى Patreon ، مع اليقين من عروض أكثر تطورًا في المستقبل ، لأولئك الذين لا يرغبون في التنقل عبر Conda-based تثبيتات الكود المصدر ، أو المرشحات NSFW القسرية للتطبيقات القائمة على الويب .
وتستمر وتيرة التطوير والاستكشاف الحر للمستخدمين بسرعة خيالية ، بحيث يصعب رؤية ما يحدث في المستقبل . في الأساس ، لا نعرف بعد ماذا نتعامل ، أو ما هي القيود أو الإمكانيات .
ومع ذلك ، دعونا نلقي نظرة على ثلاثة من التحديات الأكثر إثارة للاهتمام والتي قد تواجهها مجتمع Stable Diffusion المتكون بسرعة والمتطور بسرعة ، وأملًا في التغلب عليها .
1: تحسين أنابيب التILING
عندما يتم تقديم الموارد المحدودة والمحدودة الصلبة لresolution الصور التدريبية ، يبدو من المحتمل أن يجد المطورون حلاً لتحسين جودة وإنتاجية Stable Diffusion . العديد من هذه المشاريع ستشمل استغلال قيود النظام ، مثل دقة الأصل 512×512 بكسل .
كما هو الحال دائمًا مع مبادرات رؤية الكمبيوتر و合成 الصور ، تم تدريب Stable Diffusion على صور بأبعاد مربعة ، في هذه الحالة تم إعادة عينة إلى 512×512 ، بحيث يمكن للمصادر أن تتناسب مع قيود وحدات معالجة الرسومات التي دربوا النموذج .
لذلك Stable Diffusion ‘يفكر’ (إذا كان يفكر على الإطلاق) في مصطلحات 512×512 ، وبالتأكيد في مصطلحات مربعة . العديد من المستخدمين الذين يفحصون حدود النظام يبلغون عن أن Stable Diffusion ينتج نتائج أكثر موثوقية وأقل تشويشًا عند هذا المعدل المحدود للغاية (انظر ‘معالجة الطرفيات’ أدناه) .
على الرغم من أن التطبيقات المختلفة تتميز بتعزيز الصورة عبر RealESRGAN (ويمكن إصلاح الوجوه السيئة عبر GFPGAN) ، فإن العديد من المستخدمين يطورون حاليًا أساليب لتقسيم الصور إلى أقسام 512x512px وخياطتها معًا لتشكيل أعمال مركبة أكبر .

This 1024×576 render, a resolution customarily impossible in a single Stable Diffusion render, was created by copying and pasting the attention.py Python file from the DoggettX fork of Stable Diffusion (a version which implements tile-based upscaling) into another fork. Source: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/
…












