الذكاء الاصطناعي

كيف يمكن أن يتطور الانتشار المستقر كمنتج استهلاكي رئيسي

تحديث on 9 كانون الأول، 2022

بسخرية، انتشار مستقرn ، إطار العمل الجديد لتركيب الصور بالذكاء الاصطناعي الذي أحدث ثورة في العالم ، ليس مستقرًا ولا `` منتشرًا '' حقًا - على الأقل ، ليس بعد.

تنتشر المجموعة الكاملة لقدرات النظام عبر مجموعة متنوعة من العروض المتغيرة باستمرار من حفنة من المطورين يتبادلون بشكل محموم أحدث المعلومات والنظريات في ندوات متنوعة على Discord - والغالبية العظمى من إجراءات التثبيت للحزم التي يقومون بإنشائها أو التعديل بعيد جدًا عن "التوصيل والتشغيل".

بدلاً من ذلك ، فإنها تميل إلى طلب سطر أوامر أو يحركها BAT التثبيت عبر GIT و Conda و Python و Miniconda وأطر تطوير متطورة أخرى - حزم البرامج نادرة جدًا بين التشغيل العام للمستهلكين لدرجة أن التثبيت الخاص بهم كثيرًا ما يتم وضع علامة عليها بواسطة بائعي برامج مكافحة الفيروسات والبرامج الضارة كدليل على نظام مضيف مخترق.

فقط مجموعة صغيرة من المراحل في القفاز الذي يتطلبه التثبيت القياسي Stable Diffusion حاليًا. تتطلب العديد من التوزيعات أيضًا إصدارات محددة من Python ، والتي قد تتعارض مع الإصدارات الحالية المثبتة على جهاز المستخدم - على الرغم من أنه يمكن تجنب ذلك من خلال التثبيتات المستندة إلى Docker ، وإلى حد معين ، من خلال استخدام بيئات Conda.

تمتلئ سلاسل الرسائل في كل من مجتمعات SFW و NSFW Stable Diffusion بالنصائح والحيل المتعلقة باختراق نصوص Python النصية والتثبيتات القياسية ، من أجل تمكين الوظائف المحسنة ، أو لحل أخطاء التبعية المتكررة ، ومجموعة من المشكلات الأخرى.

هذا يترك المستهلك العادي مهتمًا بـ خلق صور مذهلة من المطالبات النصية ، إلى حد كبير تحت رحمة العدد المتزايد من واجهات الويب API التي يتم تحقيق الدخل منها ، والتي يقدم معظمها عددًا قليلاً من أجيال الصور المجانية قبل طلب شراء الرموز المميزة.

بالإضافة إلى ذلك ، ترفض جميع هذه العروض المستندة إلى الويب تقريبًا إخراج محتوى NSFW (قد يتعلق الكثير منها بموضوعات غير إباحية ذات اهتمام عام ، مثل `` الحرب '') والتي تميز الانتشار المستقر عن الخدمات التي تقدمها شركة OpenAI's DALL-E. 2.

فوتوشوب للانتشار المستقر

تثير الإعجاب بالصور الرائعة أو المفعم بالحيوية أو الصور الدنيوية الأخرى التي تملأ هاشتاج #stablediffusion على Twitter يوميًا ، ما ينتظره العالم الأوسع على الأرجح هو فوتوشوب للانتشار المستقر - تطبيق قابل للتثبيت عبر الأنظمة الأساسية يطوي في أفضل وأقوى وظائف بنية Stability.ai ، بالإضافة إلى مختلف الابتكارات المبتكرة لمجتمع تطوير SD الناشئ ، بدون أي نوافذ CLI عائمة ، تثبيت وتحديث غامض ومتغير باستمرار الروتينية ، أو الميزات المفقودة.

ما لدينا حاليًا ، في معظم التركيبات الأكثر قدرة ، هو صفحة ويب متنوعة أنيقة تتخللها نافذة سطر أوامر غير مجسدة ، وعنوان URL الخاص بها هو منفذ مضيف محلي:

على غرار تطبيقات التوليف التي تعتمد على CLI مثل FaceSwap و DeepFaceLab المتمحور حول BAT ، يُظهر تثبيت "الحزمة المسبقة" لـ Stable Diffusion جذور سطر الأوامر ، مع الوصول إلى الواجهة عبر منفذ مضيف محلي (انظر أعلى الصورة أعلاه) التي تتصل مع وظيفة الانتشار المستقر المستندة إلى CLI.

لا شك أن هناك تطبيقًا أكثر بساطة قادمًا. يوجد بالفعل العديد من التطبيقات المتكاملة المستندة إلى Patreon والتي يمكن تنزيلها ، مثل غريسك و نمكد (انظر الصورة أدناه) - ولكن لا شيء حتى الآن يدمج النطاق الكامل من الميزات التي يمكن أن تقدمها بعض التطبيقات الأكثر تقدمًا والتي يصعب الوصول إليها من Stable Diffusion.

حزم مبكرة من Stable Diffusion المستندة إلى Patreon ، "مخصّصة للتطبيق" بشكل طفيف. تعد NMKD هي أول من قام بدمج إخراج CLI مباشرة في واجهة المستخدم الرسومية.

الحزم المبكرة القائمة على Patreon من Stable Diffusion ، "مخصّصة للتطبيق" بشكل طفيف. تعد NMKD هي أول من قام بدمج إخراج CLI مباشرة في واجهة المستخدم الرسومية.

دعونا نلقي نظرة على الشكل الذي قد يبدو عليه التطبيق الأكثر صقلًا وتكاملًا لهذه الأعجوبة المذهلة ذات المصدر المفتوح - والتحديات التي قد تواجهها.

الاعتبارات القانونية لتطبيق نشر مستقر تجاري ممول بالكامل

عامل NSFW

تم إصدار الكود المصدري للانتشار المستقر تحت ملف رخصة متساهلة للغاية التي لا تحظر عمليات إعادة التنفيذ التجارية والأعمال المشتقة التي يتم إنشاؤها على نطاق واسع من الكود المصدري.

إلى جانب العدد المذكور أعلاه والمتزايد من إنشاءات Stable Diffusion المستندة إلى Patreon ، بالإضافة إلى العدد الكبير من المكونات الإضافية للتطبيق التي يتم تطويرها من أجل FIGMA, كريتا, فوتوشوب, GIMPو خلاط (من بين أمور أخرى) ، لا يوجد عملي سبب عدم تمكن دار تطوير برمجيات ممولة تمويلًا جيدًا من تطوير تطبيق Stable Diffusion أكثر تطوراً وقدرة. من منظور السوق ، هناك كل الأسباب للاعتقاد بأن العديد من هذه المبادرات جارية بالفعل.

هنا ، تواجه هذه الجهود فورًا المعضلة المتعلقة بما إذا كان التطبيق ، مثل غالبية واجهات برمجة تطبيقات الويب للانتشار المستقر ، سيسمح بفلتر NSFW الأصلي الخاص بـ Stable Diffusion (a جزء من الكود) ، ليتم إيقاف تشغيله.

"دفن" مفتاح NSFW

على الرغم من أن ترخيص المصدر المفتوح لـ Stability.ai لـ Stable Diffusion يتضمن قائمة قابلة للتفسير على نطاق واسع من التطبيقات التي قد ليس يمكن استخدامها (يمكن القول بما في ذلك محتوى إباحي و deepfakes) ، الطريقة الوحيدة التي يمكن للبائع من خلالها حظر مثل هذا الاستخدام بشكل فعال هي تجميع مرشح NSFW في ملف قابل للتنفيذ معتم بدلاً من معلمة في ملف Python ، أو فرض مقارنة المجموع الاختباري على ملف Python أو DLL الذي يحتوي على توجيه NSFW ، بحيث لا يمكن أن يحدث العرض إذا قام المستخدمون بتغيير هذا الإعداد.

هذا من شأنه أن يترك التطبيق المفترض "محايدًا" بنفس الطريقة DALL-E 2 حاليًا، مما يقلل من جاذبيتها التجارية. أيضًا ، حتمًا ، من المحتمل أن تظهر في مجتمع التورنت / القرصنة لإلغاء تأمين مثل هذه القيود ، ببساطة عن طريق استبدال العناصر المعوقة ، وإلغاء أي متطلبات لمجموع اختباري.

في النهاية ، قد يختار البائع ببساطة تكرار تحذير Stability.ai ضد سوء الاستخدام الذي يميز التشغيل الأول للعديد من توزيعات Stable Diffusion الحالية.

ومع ذلك ، فإن مطوري البرامج مفتوحة المصدر الصغيرة الذين يستخدمون حاليًا إخلاء المسئولية غير الرسمي بهذه الطريقة ليس لديهم الكثير ليخسروه مقارنة بشركة برمجيات استثمرت قدرًا كبيرًا من الوقت والمال في جعل Stable Diffusion كامل الميزات ويمكن الوصول إليه - الأمر الذي يدعو إلى دراسة أعمق.

مسؤولية التزييف العميق

كما لدينا وأشار مؤخرا، تحتوي قاعدة بيانات LAION الجمالية، وهي جزء من 4.2 مليار صورة تم تدريب نماذج Stable Diffusion المستمرة عليها، على عدد كبير من صور المشاهير، مما يمكّن المستخدمين من إنشاء صور مزيفة بشكل فعال، بما في ذلك الصور الإباحية للمشاهير.

من مقالنا الأخير ، أربع مراحل من جينيفر كونيلي على مدى أربعة عقود من حياتها المهنية ، مستدل عليها من Stable Diffusion.

هذه قضية منفصلة وأكثر إثارة للجدل من إنتاج مواد إباحية "مجردة" قانونية (عادةً) ، والتي لا تصور أشخاصًا "حقيقيين" (على الرغم من أن هذه الصور يتم استنتاجها من عدة صور حقيقية في مادة التدريب).

نظرًا لأن عددًا متزايدًا من الولايات والدول الأمريكية تعمل على تطوير أو سن قوانين ضد المواد الإباحية المزيفة العميقة ، فإن قدرة Stable Diffusion على إنشاء إباحي للمشاهير قد تعني أن التطبيق التجاري غير الخاضع للرقابة بالكامل (أي الذي يمكنه إنشاء مواد إباحية) قد لا يزال بحاجة إلى بعض القدرة على تصفية وجوه المشاهير المتصورة.

تتمثل إحدى الطرق في توفير "قائمة سوداء" مضمنة بالمصطلحات التي لن يتم قبولها في موجه المستخدم ، فيما يتعلق بأسماء المشاهير والشخصيات الوهمية التي قد ترتبط بها. من المفترض أن تكون مثل هذه الإعدادات بحاجة إلى أن يتم إنشاؤها بلغات أكثر من اللغة الإنجليزية فقط ، لأن البيانات الأصلية تتميز بلغات أخرى. يمكن أن يتمثل النهج الآخر في دمج أنظمة التعرف على المشاهير مثل تلك التي طورتها Clarifai.

قد يكون من الضروري لمنتجي البرامج دمج مثل هذه الأساليب ، ربما تم إيقاف تشغيلها في البداية ، حيث قد يساعد ذلك في منع تطبيق Stable Diffusion قائم بذاته ومستقل من توليد وجوه المشاهير ، في انتظار تشريعات جديدة قد تجعل هذه الوظيفة غير قانونية.

مرة أخرى ، ومع ذلك ، يمكن حتما حل هذه الوظيفة وعكسها من قبل الأطراف المهتمة ؛ ومع ذلك ، يمكن لمنتج البرمجيات ، في هذا الاحتمال ، أن يدعي أن هذا هو تخريب غير مصرح به فعليًا - طالما أن هذا النوع من الهندسة العكسية لم يتم تسهيله بشكل مفرط.

الميزات التي يمكن تضمينها

من المتوقع أن تكون الوظيفة الأساسية في أي توزيع للانتشار المستقر من أي تطبيق تجاري جيد التمويل. يتضمن ذلك القدرة على استخدام المطالبات النصية لإنشاء صور مناسبة (نص إلى صورة) ؛ القدرة على استخدام الرسومات أو الصور الأخرى كإرشادات للصور التي تم إنشاؤها حديثًا (من صورة إلى صورة) ؛ وسائل تعديل الطريقة التي يُطلب من خلالها النظام أن يكون "خياليًا" ؛ طريقة لمقايضة الوقت مقابل الجودة ؛ وغيرها من "الأساسيات" ، مثل الأرشفة التلقائية / الفورية الاختيارية للصور ، والترقية الاختيارية الروتينية عبر ريالESRGAN، و "إصلاح الوجه" الأساسي على الأقل باستخدام جفبجان or كودفورمر.

هذا جميل "تثبيت الفانيليا". دعنا نلقي نظرة على بعض الميزات الأكثر تقدمًا التي يتم تطويرها أو توسيعها حاليًا ، والتي يمكن دمجها في تطبيق Stable Diffusion "التقليدي" الكامل.

التجميد العشوائي

حتى لو كنت إعادة استخدام بذرة من تصيير سابق ناجح ، من الصعب للغاية الحصول على Stable Diffusion لتكرار التحول بدقة إذا أي جزء من الموجه أو صورة المصدر (أو كليهما) للعرض اللاحق.

هذه مشكلة إذا كنت تريد استخدام إبسينث لفرض تحولات Stable Diffusion على فيديو حقيقي بطريقة متماسكة مؤقتًا - على الرغم من أن التقنية يمكن أن تكون فعالة جدًا في لقطات الرأس والكتفين البسيطة:

يمكن للحركة المحدودة أن تجعل من EbSynth وسيطًا فعالاً لتحويل تحولات الانتشار المستقر إلى فيديو واقعي. المصدر: https://streamable.com/u0pgzd

تعمل EbSynth من خلال استقراء مجموعة صغيرة من الإطارات الرئيسية "المعدلة" في مقطع فيديو تم تحويله إلى سلسلة من ملفات الصور (والتي يمكن إعادة تجميعها لاحقًا في مقطع فيديو).

في هذا المثال من موقع EbSynth ، تم رسم مجموعة صغيرة من الإطارات من مقطع فيديو بطريقة فنية. يستخدم EbSynth هذه الإطارات كدليل نمط لتغيير الفيديو بأكمله بشكل مشابه بحيث يتطابق مع النمط المطلي. المصدر: https://www.youtube.com/embed/eghGQtQhY38

في المثال أدناه ، الذي لا يتميز بأي حركة على الإطلاق من مدرب اليوغا الشقراء (الحقيقي) على اليسار ، لا يزال Stable Diffusion يواجه صعوبة في الحفاظ على وجه ثابت ، لأن الصور الثلاث التي يتم تحويلها إلى "إطارات رئيسية" ليست متطابقة تمامًا ، على الرغم من أنهم جميعًا يشتركون في نفس البذور الرقمية.

هنا ، حتى مع نفس الموجه والبذرة عبر جميع التحولات الثلاثة ، وتغييرات قليلة جدًا بين الإطارات المصدر ، تختلف عضلات الجسم في الحجم والشكل ، ولكن الأهم من ذلك أن الوجه غير متناسق ، مما يعيق الاتساق الزمني في عرض EbSynth المحتمل.

على الرغم من أن فيديو SD / EbSynth أدناه مبتكر للغاية ، حيث تم تحويل أصابع المستخدم (على التوالي) إلى زوج يمشي من الأرجل ذات البنطلونات وبطة ، فإن عدم تناسق البنطلون يمثل المشكلة التي يواجهها Stable Diffusion في الحفاظ على الاتساق عبر الإطارات الرئيسية المختلفة ، حتى عندما تكون إطارات المصدر متشابهة مع بعضها البعض وتكون البذرة متسقة.

تصبح أصابع الرجل رجلاً يمشي وبطة ، عبر Stable Diffusion و EbSynth. المصدر: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

المستخدم الذي أنشأ هذا الفيديو علق أن تحويل البطة ، الذي يمكن القول أنه الأكثر فعالية من الاثنين ، إذا كان أقل لفتًا للانتباه والأصالة ، يتطلب فقط إطارًا رئيسيًا محوّلًا واحدًا ، في حين كان من الضروري تقديم 50 صورة انتشار مستقر من أجل إنشاء سراويل المشي ، والتي تظهر بشكل زمني أكثر تناقض. لاحظ المستخدم أيضًا أن الأمر استغرق خمس محاولات لتحقيق الاتساق لكل من الإطارات الرئيسية الخمسين.

لذلك سيكون من المفيد جدًا تطبيق Stable Diffusion الشامل حقًا توفير وظائف تحافظ على الخصائص إلى أقصى حد عبر الإطارات الرئيسية.

أحد الاحتمالات هو أن يسمح التطبيق للمستخدم "بتجميد" التشفير العشوائي للتحويل على كل إطار ، والذي لا يمكن تحقيقه حاليًا إلا من خلال تعديل شفرة المصدر يدويًا. كما يوضح المثال أدناه ، فإن هذا يساعد على الاتساق الزمني ، على الرغم من أنه بالتأكيد لا يحل المشكلة:

قام أحد مستخدمي Reddit بتحويل لقطات كاميرا الويب الخاصة به إلى أشخاص مشهورين مختلفين ليس فقط من خلال الاستمرار في البذرة (وهو ما يمكن أن يفعله أي تنفيذ لـ Stable Diffusion) ، ولكن من خلال التأكد من أن معلمة stochastic_encode () كانت متطابقة في كل تحويل. تم تحقيق ذلك عن طريق تعديل الرمز ، ولكن يمكن أن يصبح بسهولة مفتاحًا يمكن للمستخدم الوصول إليه. من الواضح ، مع ذلك ، أنه لا يحل جميع القضايا الزمنية. المصدر: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

انعكاس نصي قائم على السحابة

الحل الأفضل لاستنباط شخصيات وكائنات متسقة مؤقتًا هو "خبزها" في ملف انعكاس نصي - ملف بحجم 5 كيلوبايت يمكن تدريبه في غضون ساعات قليلة بناءً على خمس صور مشروحة فقط ، والتي يمكن بعد ذلك استنباطها بواسطة شخص خاص "*" سريع ، يمكّن ، على سبيل المثال ، من الظهور المستمر لشخصيات جديدة لإدراجها في سرد ما.

يمكن تحويل الصور المرتبطة بالعلامات المناسبة إلى كيانات منفصلة عبر Textual Inversion ، واستدعاءها دون غموض ، وفي السياق والأسلوب الصحيحين ، بواسطة كلمات رمزية خاصة. المصدر: https://huggingface.co/docs/diffusers/training/text_inversion

إن الانعكاسات النصية عبارة عن ملفات مساعدة للنموذج الكبير جدًا والمدرب بالكامل الذي يستخدمه Stable Diffusion ، ويتم دمجها بشكل فعال في عملية الاستنباط / المطالبة ، حتى يتمكنوا من ذلك شارك في المشاهد المشتقة من النموذج ، والاستفادة من قاعدة بيانات النموذج الهائلة للمعرفة حول الكائنات والأنماط والبيئات والتفاعلات.

ومع ذلك ، على الرغم من أن الانعكاس النصي لا يستغرق وقتًا طويلاً للتدريب ، إلا أنه يتطلب قدرًا كبيرًا من VRAM ؛ وفقًا للإرشادات الحالية المختلفة ، في مكان ما بين 12 و 20 وحتى 40 جيجابايت.

نظرًا لأنه من غير المرجح أن يكون لدى معظم المستخدمين العاديين هذا النوع من ثقل GPU تحت تصرفهم ، فإن الخدمات السحابية تظهر بالفعل والتي ستتعامل مع العملية ، بما في ذلك إصدار Hugging Face. رغم أن هناك تطبيقات جوجل كولاب التي يمكن أن تخلق انعكاسات نصية للانتشار المستقر ، فإن متطلبات VRAM والوقت المطلوبة قد تجعل هذه التحديات صعبة لمستخدمي Colab ذوي المستوى المجاني.

بالنسبة لتطبيق Stable Diffusion (مثبت) محتمل ومستثمر جيدًا ، فإن تمرير هذه المهمة الثقيلة إلى الخوادم السحابية للشركة يبدو استراتيجية تسييل واضحة (على افتراض أن تطبيق Stable Diffusion منخفض التكلفة أو بدون تكلفة يتخلل مثل هذا غير - وظائف مجانية ، والتي تبدو مرجحة في العديد من التطبيقات المحتملة التي ستظهر من هذه التقنية في الأشهر الستة أو التسعة المقبلة).

بالإضافة إلى ذلك ، يمكن أن تستفيد العملية المعقدة إلى حد ما المتمثلة في التعليق على الصور والنصوص المقدمة وتنسيقها من الأتمتة في بيئة متكاملة. قد يبدو "عامل الإدمان" المحتمل لإنشاء عناصر فريدة يمكنها استكشاف العوالم الشاسعة للانتشار المستقر والتفاعل معها قهريًا ، لكل من المتحمسين عمومًا والمستخدمين الأصغر سنًا.

ترجيح سريع متعدد الاستخدامات

هناك العديد من التطبيقات الحالية التي تسمح للمستخدم بتعيين تركيز أكبر على قسم من موجه نص طويل ، ولكن الأداة تختلف كثيرًا بين هذه ، وغالبًا ما تكون ثقيلة أو غير بديهية.

شوكة الانتشار المستقر المشهورة جدًا بواسطة AUTOMATIC1111، على سبيل المثال ، يمكن خفض قيمة كلمة سريعة أو رفعها عن طريق وضعها بين قوسين مفرد أو عدة أقواس (لإلغاء التركيز) أو أقواس مربعة لمزيد من التأكيد.

الأقواس المربعة و / أو الأقواس يمكن أن تحول فطورك في هذا الإصدار من الأوزان السريعة للانتشار المستقر ، لكنه كابوس للكوليسترول في كلتا الحالتين.

تستخدم التكرارات الأخرى لـ Stable Diffusion علامات التعجب للتأكيد ، في حين أن الأكثر تنوعًا يسمح للمستخدمين بتعيين أوزان لكل كلمة في الموجه من خلال واجهة المستخدم الرسومية.

يجب أن يسمح النظام أيضًا بـ أوزان موجزة سلبية - ليس فقط من أجل عشاق الرعب، ولكن لأنه قد يكون هناك ألغاز أقل إثارة للقلق وأكثر إثارة في المساحة الكامنة لـ Stable Diffusion مما يمكن أن يستدعيه استخدامنا المحدود للغة.

الزائدة

بعد وقت قصير من فتح المصدر المثير للانتشار المستقر ، حاولت شركة OpenAI - عبثًا إلى حد كبير - استعادة بعض من رعد DALL-E 2 من خلال أعلن "التلوين الخارجي" ، الذي يسمح للمستخدم بتوسيع الصورة إلى ما وراء حدودها بمنطق دلالي وتماسك مرئي.

وبطبيعة الحال ، كان هذا منذ ذلك الحين نفذت في أشكال مختلفة للانتشار المستقر ، وكذلك في كريتا، ويجب بالتأكيد تضمينه في إصدار شامل بنمط Photoshop من Stable Diffusion.

يمكن أن تؤدي الزيادة القائمة على التجانب إلى تمديد عرض قياسي بحجم 512 × 512 إلى ما لا نهاية تقريبًا ، طالما أن المطالبات والصورة الحالية والمنطق الدلالي تسمح بذلك. المصدر: https://github.com/lkwq007/stablediffusion-infinity

يمكن أن تؤدي الزيادة القائمة على التجانب إلى تمديد عرض قياسي 512 × 512 إلى ما لا نهاية تقريبًا ، طالما أن المطالبات والصورة الحالية والمنطق الدلالي تسمح بذلك. المصدر: https://github.com/lkwq007/stablediffusion-infinity

نظرًا لأن Stable Diffusion يتم تدريبه على صور بحجم 512 × 512 بكسل (ولأسباب أخرى متنوعة) ، فإنه كثيرًا ما يقطع الرؤوس (أو أجزاء الجسم الأساسية الأخرى) عن الموضوعات البشرية ، حتى عندما تشير المطالبة بوضوح إلى "تركيز الرأس" ، وما إلى ذلك.

أمثلة نموذجية للانتشار المستقر "قطع الرأس" ؛ لكن الطلاء الخارجي يمكن أن يعيد جورج إلى الصورة.

يجب أيضًا استخدام أي تطبيق خارجي من النوع الموضح في الصورة المتحركة أعلاه (والذي يعتمد حصريًا على مكتبات Unix ، ولكن يجب أن يكون قابلاً للنسخ المتماثل على Windows) كعلاج بنقرة واحدة / سريع لذلك.

في الوقت الحالي ، يقوم عدد من المستخدمين بتمديد لوحة الصور "المقطوعة الرأس" لأعلى ، وملء منطقة الرأس تقريبًا ، واستخدام img2img لإكمال العرض الفاشل.

إخفاء فعال يفهم السياق

اخفاء يمكن أن يكون أمرًا سيئًا للغاية في Stable Diffusion ، اعتمادًا على الشوكة أو الإصدار المعني. في كثير من الأحيان ، عندما يكون من الممكن رسم قناع متماسك على الإطلاق ، ينتهي الأمر بالمنطقة المحددة بالطلاء بمحتوى لا يأخذ سياق الصورة بالكامل في الاعتبار.

في إحدى المرات ، قمت بإخفاء قرنيات صورة للوجه ، وأعطيت الأمر 'عيون زرقاء' كقناع في الطلاء - فقط لأجد أنني بدت وكأنني أنظر من خلال عينين بشريتين مقطوعتين إلى صورة بعيدة للذئب ذو المظهر الغريب. أعتقد أنني محظوظ لأنه لم يكن فرانك سيناترا.

التحرير الدلالي ممكن أيضا عن طريق تحديد الضوضاء الذي أنشأ الصورة في المقام الأول ، مما يسمح للمستخدم بمعالجة عناصر هيكلية محددة في العرض دون التداخل مع بقية الصورة:

تغيير عنصر واحد في صورة بدون إخفاء تقليدي وبدون تغيير المحتوى المجاور ، من خلال تحديد الضوضاء التي نشأت الصورة أولاً ومعالجة الأجزاء التي ساهمت في المنطقة المستهدفة. المصدر: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

تعتمد هذه الطريقة على جهاز أخذ العينات K-Diffusion.

المرشحات الدلالية للأحمق الفسيولوجية

كما ذكرنا من قبل ، يمكن لـ Stable Diffusion إضافة أو طرح الأطراف بشكل متكرر ، ويرجع ذلك إلى حد كبير إلى مشكلات البيانات وأوجه القصور في التعليقات التوضيحية المصاحبة للصور التي دربتها.

تمامًا مثل ذلك الطفل الضال الذي ألقى بلسانه في الصورة الجماعية للمدرسة ، فإن الفظائع البيولوجية لـ Stable Diffusion ليست واضحة دائمًا على الفور ، وربما تكون قد أعدت Instagram أحدث تحفة الذكاء الاصطناعي الخاصة بك قبل أن تلاحظ الأيدي الزائدة أو الأطراف الذائبة.

من الصعب جدًا إصلاح هذه الأنواع من الأخطاء بحيث يكون من المفيد إذا احتوى تطبيق Stable Diffusion كامل الحجم على نوع من نظام التعرف التشريحي الذي استخدم التجزئة الدلالية لحساب ما إذا كانت الصورة الواردة تحتوي على عيوب تشريحية شديدة (كما في الصورة أعلاه ) ، ويتجاهلها لصالح تصيير جديد قبل تقديمه للمستخدم.

بالطبع ، قد ترغب في تقديم الإلهة كالي ، أو دكتور الأخطبوط ، أو حتى إنقاذ جزء غير متأثر من الصورة المصابة بأطراف ، لذلك يجب أن تكون هذه الميزة تبديلًا اختياريًا.

إذا كان بإمكان المستخدمين تحمل جانب القياس عن بُعد ، فيمكن حتى نقل هذه الأخطاء بشكل مجهول في جهد جماعي للتعلم الاتحادي الذي قد يساعد النماذج المستقبلية على تحسين فهمهم للمنطق التشريحي.

تحسين الوجه التلقائي القائم على LAION

كما أشرت في بلدي النظرة السابقة في ثلاثة أشياء يمكن أن يعالجها Stable Diffusion في المستقبل ، لا ينبغي تركه فقط لأي إصدار من GFPGAN لمحاولة "تحسين" الوجوه التي يتم عرضها في عمليات تصيير الدرجة الأولى.

تعد "تحسينات" GFPGAN عامة بشكل رهيب ، وتقوض في كثير من الأحيان هوية الفرد الذي تم تصويره ، وتعمل فقط على وجه تم عرضه بشكل سيئ في العادة ، حيث لم يتلق مزيدًا من وقت المعالجة أو الاهتمام أكثر من أي جزء آخر من الصورة.

لذلك ، يجب أن يكون البرنامج الاحترافي لـ Stable Diffusion قادرًا على التعرف على وجه (بمكتبة قياسية وخفيفة الوزن نسبيًا مثل YOLO) ، وتطبيق الوزن الكامل لقوة GPU المتاحة لإعادة عرضه ، وإما دمج الوجه المحسن في عرض السياق الكامل الأصلي ، أو حفظه بشكل منفصل لإعادة تكوينه يدويًا. حاليًا ، هذه عملية "تدريب عملي" إلى حد ما.

في الحالات التي تم فيها تدريب Stable Diffusion على عدد مناسب من صور أحد المشاهير ، فمن الممكن تركيز سعة وحدة معالجة الرسومات بالكامل على عرض لاحق فقط لوجه الصورة المقدمة ، والذي يعد عادةً تحسنًا ملحوظًا - وعلى عكس GFPGAN ، يعتمد على المعلومات من البيانات المدربة من LAION ، بدلاً من مجرد تعديل وحدات البكسل المعروضة.

عمليات البحث داخل التطبيق LAION

منذ أن بدأ المستخدمون يدركون أن البحث في قاعدة بيانات LAION عن المفاهيم والأشخاص والموضوعات يمكن أن يكون مساعدًا لاستخدام Stable Diffusion بشكل أفضل، تم إنشاء العديد من مستكشفات LAION عبر الإنترنت، بما في ذلك hasibeentrained.com.

تتيح وظيفة البحث في haveibeentrained.com للمستخدمين استكشاف الصور التي تدعم الانتشار المستقر ، واكتشاف ما إذا كان من المحتمل أن تكون الأشياء أو الأشخاص أو الأفكار التي قد يرغبون في استنباطها من النظام قد تم تدريبهم عليها. هذه الأنظمة مفيدة أيضًا لاكتشاف الكيانات المجاورة ، مثل الطريقة التي يتجمع بها المشاهير ، أو "الفكرة التالية" التي تؤدي إلى الفكرة الحالية. المصدر: https://haveibeentrained.com/؟search_text=bowl٪20of٪20fruit

على الرغم من أن قواعد البيانات المستندة إلى الويب غالبًا ما تكشف عن بعض العلامات المصاحبة للصور ، فإن عملية تعميم التي تحدث أثناء تدريب النموذج يعني أنه من غير المحتمل أن يتم استدعاء أي صورة معينة باستخدام علامتها كموجه.

بالإضافة إلى ذلك ، فإن إزالة 'كلمات التوقف' وممارسة الاشتقاق والترجمة في معالجة اللغات الطبيعية تعني أن العديد من العبارات المعروضة تم تقسيمها أو حذفها قبل تدريبها على الانتشار المستقر.

ومع ذلك ، فإن الطريقة التي ترتبط بها المجموعات الجمالية معًا في هذه الواجهات يمكن أن تعلم المستخدم النهائي الكثير عن منطق (أو ، يمكن القول ، `` الشخصية '') للانتشار المستقر ، وتثبت أنه مساعد لإنتاج صورة أفضل.

وفي الختام

هناك العديد من الميزات الأخرى التي أود أن أراها في التنفيذ الكامل لسطح المكتب الأصلي لـ Stable Diffusion ، مثل تحليل الصور الأصلي المستند إلى CLIP ، والذي يعكس عملية الانتشار الثابت القياسية ويسمح للمستخدم باستنباط العبارات والكلمات التي يستخدمها النظام بشكل طبيعي مع الصورة المصدر ، أو العرض.

بالإضافة إلى ذلك ، سيكون القياس الحقيقي القائم على التجانب إضافة مرحب بها ، نظرًا لأن ESRGAN تقريبًا أداة حادة مثل GFPGAN. لحسن الحظ ، خطط لدمج com.txt2imghd يؤدي تطبيق GOBIG إلى جعل هذا الأمر حقيقة واقعة عبر التوزيعات ، ويبدو أنه خيار واضح لتكرار سطح المكتب.

لا تهمني بعض الطلبات الشائعة الأخرى من مجتمعات Discord ، مثل القواميس السريعة المتكاملة والقوائم القابلة للتطبيق للفنانين والأنماط ، على الرغم من أن دفتر الملاحظات داخل التطبيق أو معجم العبارات القابل للتخصيص قد يبدو إضافة منطقية.

وبالمثل ، فإن القيود الحالية للرسوم المتحركة التي تتمحور حول الإنسان في Stable Diffusion ، على الرغم من أنها بدأت من قبل CogVideo ومشاريع أخرى مختلفة ، لا تزال وليدة بشكل لا يصدق ، وتحت رحمة البحث الأولي في السوابق الزمنية المتعلقة بالحركة البشرية الأصيلة.

في الوقت الحالي ، يتم استخدام فيديو Stable Diffusion بدقة مخدر، على الرغم من أنه قد يكون له مستقبل قريب أكثر إشراقًا في صناعة الدمى المزيفة ، عبر EbSynth وغيرها من مبادرات تحويل النص إلى مقاطع الفيديو الوليدة نسبيًا (وتجدر الإشارة إلى عدم وجود أشخاص تم توليفهم أو `` تغييرهم '' في Runway's أحدث فيديو ترويجي).

هناك وظيفة قيّمة أخرى تتمثل في تمرير Photoshop الشفاف ، والذي تم إنشاؤه منذ فترة طويلة في محرر نسيج Cinema4D ، من بين تطبيقات أخرى مماثلة. باستخدام هذا ، يمكن للمرء تحويل الصور بين التطبيقات بسهولة واستخدام كل تطبيق لإجراء التحويلات التي يتفوق فيها.

أخيرًا ، وربما الأهم من ذلك ، يجب ألا يكون برنامج Stable Diffusion الكامل لسطح المكتب قادرًا على التبديل بسهولة بين نقاط التفتيش (أي إصدارات النموذج الأساسي الذي يشغل النظام) فحسب ، بل يجب أن يكون قادرًا أيضًا على تحديث الانعكاسات النصية المصممة خصيصًا والتي نجحت مع إصدارات النموذج الرسمية السابقة ، ولكن قد يتم كسرها من خلال الإصدارات اللاحقة من النموذج (كما أشار المطورون في Discord الرسمي إلى أنه قد يكون هذا هو الحال).

ومن المفارقات ، أن المنظمة في أفضل وضع لإنشاء مثل هذه المصفوفة القوية والمتكاملة من الأدوات لـ Stable Diffusion ، Adobe ، قد تحالفت بقوة مع مبادرة أصالة المحتوى أنه قد يبدو خطوة خاطئة في العلاقات العامة إلى الوراء للشركة - إلا إذا كان عليها عرقلة القوى التوليدية لـ Stable Diffusion تمامًا كما فعلت OpenAI مع DALL-E 2 ، ووضعها بدلاً من ذلك كتطور طبيعي لممتلكاتها الكبيرة في التصوير الفوتوغرافي للأوراق المالية.

نُشر لأول مرة في 15 سبتمبر 2022.

يطور الفريق منهجًا لمقارنة الشبكات العصبية

لا تفوت

علماء الفيزياء الحيوية يقتربون من المجاهر الذكية

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

كيف يمكن أن يتطور الانتشار المستقر كمنتج استهلاكي رئيسي

الذكاء الاصطناعي

كيف يمكن أن يتطور الانتشار المستقر كمنتج استهلاكي رئيسي

جدول المحتويات

فوتوشوب للانتشار المستقر