رطم EasyPhoto: منشئ الصور الشخصي الخاص بك باستخدام الذكاء الاصطناعي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

EasyPhoto: منشئ الصور الشخصي الخاص بك بتقنية الذكاء الاصطناعي

mm
تحديث on
EasyPhoto: منشئ الصور الشخصية بالذكاء الاصطناعي

انتشار مستقر واجهة مستخدم الويب، أو SD-WebUI، هي مشروع شامل لنماذج الانتشار الثابت التي تستخدم مكتبة Gradio لتوفير واجهة متصفح. سنتحدث اليوم عن EasyPhoto، وهو مكون إضافي مبتكر لـ WebUI يمكّن المستخدمين النهائيين من إنشاء صور شخصية وصور بتقنية الذكاء الاصطناعي. يقوم البرنامج الإضافي EasyPhoto WebUI بإنشاء صور شخصية بتقنية الذكاء الاصطناعي باستخدام قوالب متنوعة، مما يدعم أنماط الصور المختلفة والتعديلات المتعددة. بالإضافة إلى ذلك، ومن أجل تعزيز قدرات EasyPhoto بشكل أكبر، يمكن للمستخدمين إنشاء صور باستخدام نموذج SDXL للحصول على نتائج أكثر إرضاءً ودقة وتنوعًا. هيا نبدأ.

مقدمة إلى EasyPhoto والانتشار المستقر

يعد إطار Stable Diffusion إطار عمل شائعًا وقويًا قائمًا على الانتشار يستخدمه المطورون لإنشاء صور واقعية بناءً على أوصاف نص الإدخال. بفضل إمكانياته، يتميز إطار Stable Diffusion بمجموعة واسعة من التطبيقات، بما في ذلك الرسم الخارجي للصور، والرسم الداخلي للصور، والترجمة من صورة إلى صورة. تبرز Stable Diffusion Web UI، أو SD-WebUI، كواحدة من أكثر التطبيقات شهرة وشهرة في هذا الإطار. ويتميز بواجهة متصفح مبنية على مكتبة Gradio، مما يوفر واجهة تفاعلية وسهلة الاستخدام لنماذج Stable Diffusion. لتعزيز التحكم وسهولة الاستخدام بشكل أكبر في إنشاء الصور، تدمج SD-WebUI العديد من تطبيقات Stable Diffusion.

نظرًا للراحة التي يوفرها إطار عمل SD-WebUI، قرر مطورو إطار عمل EasyPhoto إنشاءه كمكون إضافي للويب بدلاً من تطبيق كامل. على النقيض من الأساليب الحالية التي غالبًا ما تعاني من فقدان الهوية أو تقدم ميزات غير واقعية في الصور، يعمل إطار عمل EasyPhoto على تعزيز إمكانيات تحويل صورة إلى صورة لنماذج Stable Diffusion لإنتاج صور دقيقة وواقعية. يمكن للمستخدمين بسهولة تثبيت إطار عمل EasyPhoto كملحق داخل واجهة WebUI، مما يعزز سهولة الاستخدام وإمكانية الوصول إلى نطاق أوسع من المستخدمين. يتيح إطار عمل EasyPhoto للمستخدمين إنشاء صور موجهة للهوية وعالية الجودة و صور واقعية لمنظمة العفو الدولية التي تشبه إلى حد كبير هوية الإدخال.

أولاً، يطلب إطار عمل EasyPhoto من المستخدمين إنشاء شبيه رقمي عن طريق تحميل بعض الصور لتدريب نموذج وجه LoRA أو نموذج التكيف منخفض الرتبة عبر الإنترنت. يقوم إطار عمل LoRA بضبط نماذج الانتشار بسرعة من خلال الاستفادة من تقنية التكيف ذات الرتبة المنخفضة. تسمح هذه العملية للنموذج القائم بفهم معلومات المعرف الخاصة بمستخدمين محددين. يتم بعد ذلك دمج النماذج المدربة ودمجها في نموذج الانتشار المستقر الأساسي للتداخل. علاوة على ذلك، أثناء عملية التداخل، يستخدم النموذج نماذج انتشار مستقرة في محاولة لإعادة طلاء مناطق الوجه في قالب التداخل، ويتم التحقق من التشابه بين صور الإدخال والإخراج باستخدام وحدات ControlNet المختلفة. 

ينشر إطار عمل EasyPhoto أيضًا عملية نشر على مرحلتين لمعالجة المشكلات المحتملة مثل القطع الأثرية الحدودية وفقدان الهوية، وبالتالي ضمان أن الصور التي تم إنشاؤها تقلل من التناقضات المرئية مع الحفاظ على هوية المستخدم. علاوة على ذلك، لا يقتصر مسار التداخل في إطار عمل EasyPhoto على إنشاء صور شخصية فحسب، بل يمكن استخدامه أيضًا لإنشاء أي شيء يتعلق بمعرف المستخدم. وهذا يعني أنه بمجرد تدريب نموذج لورا بالنسبة لمعرف معين، يمكنك إنشاء مجموعة واسعة من صور الذكاء الاصطناعي، وبالتالي يمكن أن يكون لها تطبيقات واسعة النطاق بما في ذلك التجارب الافتراضية. 

تو تلخيص، إطار عمل EasyPhoto

  1. يقترح نهجًا جديدًا لتدريب نموذج LoRA من خلال دمج نماذج LoRA المتعددة للحفاظ على دقة الوجه للصور التي تم إنشاؤها. 
  2. يستخدم أساليب التعلم المعزز المختلفة لتحسين نماذج LoRA لمكافآت هوية الوجه التي تساعد أيضًا في تعزيز تشابه الهويات بين صور التدريب والنتائج الناتجة. 
  3. يقترح عملية نشر ثنائية المرحلة تعتمد على الطلاء وتهدف إلى إنشاء صور الذكاء الاصطناعي ذات جماليات وتشابه عاليين. 

EasyPhoto: الهندسة المعمارية والتدريب

يوضح الشكل التالي عملية التدريب الخاصة بإطار عمل EasyPhoto AI. 

كما هو واضح، يطلب الإطار أولاً من المستخدمين إدخال صور التدريب، ثم يقوم بإجراء اكتشاف الوجه لاكتشاف مواقع الوجه. بمجرد أن يكتشف الإطار الوجه، فإنه يقوم باقتصاص الصورة المدخلة باستخدام نسبة محددة محددة مسبقًا تركز فقط على منطقة الوجه. يقوم الإطار بعد ذلك بنشر نموذج لتجميل البشرة ونموذج للكشف عن بروزها للحصول على صورة تدريب نظيفة وواضحة للوجه. يلعب هذان النموذجان دورًا حاسمًا في تعزيز الجودة البصرية للوجه، ويضمنان أيضًا إزالة معلومات الخلفية، وأن صورة التدريب تحتوي في الغالب على الوجه. أخيرًا، يستخدم الإطار هذه الصور المعالجة ومطالبات الإدخال لتدريب نموذج LoRA، وبالتالي تزويده بالقدرة على فهم خصائص الوجه الخاصة بالمستخدم بشكل أكثر فعالية ودقة. 

علاوة على ذلك، خلال مرحلة التدريب، يتضمن الإطار خطوة تحقق حاسمة، حيث يحسب الإطار فجوة معرف الوجه بين صورة إدخال المستخدم وصورة التحقق التي تم إنشاؤها بواسطة نموذج LoRA المُدرب. تعد خطوة التحقق من الصحة عملية أساسية تلعب دورًا رئيسيًا في تحقيق دمج نماذج LoRA، مما يضمن في النهاية أن إطار LoRA المدرب يتحول إلى شبيه، أو تمثيل رقمي دقيق للمستخدم. بالإضافة إلى ذلك، سيتم تحديد صورة التحقق التي تحتوي على درجة Face_id المثالية كصورة Face_id، وسيتم بعد ذلك استخدام صورة Face_ID هذه لتعزيز تشابه الهوية في توليد التداخل. 

من خلال المضي قدمًا، استنادًا إلى عملية التجميع، يقوم الإطار بتدريب نماذج LoRA مع كون تقدير الاحتمالية هو الهدف الأساسي، في حين أن الحفاظ على تشابه هوية الوجه هو الهدف النهائي. لمعالجة هذه المشكلة، يستخدم إطار عمل EasyPhoto تقنيات التعلم المعزز لتحسين الهدف النهائي مباشرة. ونتيجة لذلك، فإن ملامح الوجه التي تتعلمها نماذج LoRA تظهر تحسنًا يؤدي إلى تحسين التشابه بين النتائج التي تم إنشاؤها في القالب، ويوضح أيضًا التعميم عبر القوالب. 

عملية التدخل

يوضح الشكل التالي عملية التداخل لمعرف مستخدم فردي في إطار عمل EasyPhoto، وينقسم إلى ثلاثة أجزاء

  • المعالجة المسبقة للوجه للحصول على مرجع ControlNet وصورة الإدخال المعالجة مسبقًا. 
  • الانتشار الأول الذي يساعد في توليد نتائج خشنة تشبه إدخال المستخدم. 
  • الانتشار الثاني الذي يعمل على إصلاح الشوائب الحدودية، مما يجعل الصور أكثر دقة، وتظهر أكثر واقعية. 

بالنسبة للمدخلات، يأخذ الإطار صورة Face_id (التي تم إنشاؤها أثناء التحقق من صحة التدريب باستخدام درجة Face_id المثالية)، وقالب التداخل. الناتج عبارة عن صورة مفصلة للغاية ودقيقة وواقعية للمستخدم، ويشبه إلى حد كبير هوية المستخدم ومظهره الفريد على أساس قالب الاستدلال. دعونا نلقي نظرة مفصلة على هذه العمليات.

معالجة مسبقة للوجه

تتمثل إحدى طرق إنشاء صورة AI استنادًا إلى قالب التداخل دون تفكير واعي في استخدام نموذج SD لرسم منطقة الوجه في قالب التداخل. بالإضافة إلى ذلك، فإن إضافة إطار عمل ControlNet إلى العملية لا يعزز الحفاظ على هوية المستخدم فحسب، بل يعزز أيضًا التشابه بين الصور التي تم إنشاؤها. ومع ذلك، فإن استخدام ControlNet مباشرة للرسم الإقليمي يمكن أن يؤدي إلى مشكلات محتملة قد تتضمن

  • عدم التناسق بين الإدخال والصورة التي تم إنشاؤها: من الواضح أن النقاط الرئيسية في صورة القالب غير متوافقة مع النقاط الرئيسية في صورةface_id ولهذا السبب فإن استخدام ControlNet مع صورةface_id كمرجع يمكن أن يؤدي إلى بعض التناقضات في الإخراج. 
  • العيوب في منطقة Inpaint : قد يؤدي إخفاء منطقة ما، ثم طلاءها بوجه جديد، إلى عيوب ملحوظة، خاصة على طول حدود الطلاء الداخلي، الأمر الذي لن يؤثر فقط على صحة الصورة التي تم إنشاؤها، بل سيؤثر سلبًا أيضًا على واقعية الصورة. 
  • فقدان الهوية عن طريق شبكة التحكم: نظرًا لأن عملية التدريب لا تستخدم إطار عمل ControlNet، فإن استخدام ControlNet أثناء مرحلة التداخل قد يؤثر على قدرة نماذج LoRA المدربة على الحفاظ على هوية معرف مستخدم الإدخال. 

لمعالجة المشكلات المذكورة أعلاه، يقترح إطار عمل EasyPhoto ثلاثة إجراءات. 

  • محاذاة ولصق: باستخدام خوارزمية لصق الوجه، يهدف إطار عمل EasyPhoto إلى معالجة مشكلة عدم التطابق بين معالم الوجه بين معرف الوجه والقالب. أولاً، يحسب النموذج معالم الوجه لـface_id وصورة القالب، وبعد ذلك يحدد النموذج مصفوفة التحويل المتقاربة التي سيتم استخدامها لمحاذاة معالم الوجه لصورة القالب مع صورة Face_id. تحتفظ الصورة الناتجة بنفس معالم صورة Face_id، وتتوافق أيضًا مع صورة القالب. 
  • فيوز الوجه: Face Fuse هو أسلوب جديد يُستخدم لتصحيح عيوب الحدود الناتجة عن رسم القناع، ويتضمن تصحيح العيوب باستخدام إطار عمل ControlNet. تسمح هذه الطريقة لإطار عمل EasyPhoto بضمان الحفاظ على الحواف المتناغمة، وبالتالي توجيه عملية إنشاء الصورة في النهاية. تقوم خوارزمية دمج الوجه أيضًا بدمج صورة roop (صور المستخدم الحقيقية الأرضية) والقالب، مما يسمح للصورة المدمجة الناتجة بعرض استقرار أفضل لحدود الحافة، مما يؤدي بعد ذلك إلى إخراج محسن خلال مرحلة النشر الأولى. 
  • التحقق من صحة ControlNet الموجه: نظرًا لعدم تدريب نماذج LoRA باستخدام إطار عمل ControlNet، فإن استخدامه أثناء عملية الاستدلال قد يؤثر على قدرة نموذج LoRA على الحفاظ على الهويات. من أجل تعزيز قدرات التعميم لـ EasyPhoto، يأخذ الإطار في الاعتبار تأثير إطار عمل ControlNet، ويتضمن نماذج LoRA من مراحل مختلفة. 

الانتشار الأول

تستخدم مرحلة النشر الأولى صورة القالب لإنشاء صورة بمعرف فريد يشبه معرف مستخدم الإدخال. صورة الإدخال عبارة عن دمج بين صورة إدخال المستخدم وصورة القالب، في حين أن قناع الوجه الذي تمت معايرته هو قناع الإدخال. لزيادة التحكم في توليد الصور بشكل أكبر، يدمج إطار عمل EasyPhoto ثلاث وحدات ControlNet حيث تركز وحدة ControlNet الأولى على التحكم في الصور المدمجة، وتتحكم وحدة ControlNet الثانية في ألوان الصورة المدمجة، ووحدة ControlNet النهائية هي الوحدة المفتوحة. (التحكم في الوضع البشري لعدة أشخاص في الوقت الفعلي) للصورة المستبدلة التي لا تحتوي فقط على بنية الوجه لصورة القالب، ولكن أيضًا على هوية وجه المستخدم.

الانتشار الثاني

في مرحلة النشر الثانية، يتم تحسين وضبط القطع الأثرية القريبة من حدود الوجه إلى جانب تزويد المستخدمين بالمرونة لإخفاء منطقة معينة في الصورة في محاولة لتعزيز فعالية التوليد داخل تلك المنطقة المخصصة. في هذه المرحلة، يقوم الإطار بدمج الصورة الناتجة التي تم الحصول عليها من مرحلة الانتشار الأولى مع صورة السقف أو نتيجة صورة المستخدم، وبالتالي توليد الصورة المدخلة لمرحلة الانتشار الثانية. بشكل عام، تلعب مرحلة النشر الثانية دورًا حاسمًا في تحسين الجودة الشاملة وتفاصيل الصورة المولدة. 

معرفات المستخدمين المتعددة

أحد أبرز ميزات EasyPhoto هو دعمه لإنشاء معرفات مستخدمين متعددة، ويوضح الشكل أدناه مسار عملية التداخل لمعرفات المستخدمين المتعددة في إطار عمل EasyPhoto. 

لتوفير الدعم لإنشاء معرف متعدد المستخدمين، يقوم إطار عمل EasyPhoto أولاً باكتشاف الوجه على قالب التداخل. يتم بعد ذلك تقسيم قوالب التداخل هذه إلى أقنعة عديدة، حيث يحتوي كل قناع على وجه واحد فقط، ويتم إخفاء بقية الصورة باللون الأبيض، وبالتالي تقسيم إنشاء معرف المستخدمين المتعددين إلى مهمة بسيطة تتمثل في إنشاء معرفات مستخدم فردية. بمجرد أن يقوم الإطار بإنشاء صور معرف المستخدم، يتم دمج هذه الصور في قالب الاستدلال، وبالتالي تسهيل التكامل السلس لصور القالب مع الصور التي تم إنشاؤها، مما يؤدي في النهاية إلى صورة عالية الجودة. 

التجارب والنتائج

الآن بعد أن أصبح لدينا فهم لإطار عمل EasyPhoto، فقد حان الوقت لاستكشاف أداء إطار عمل EasyPhoto. 

يتم إنشاء الصورة أعلاه بواسطة البرنامج المساعد EasyPhoto، ويستخدم نموذج SD يعتمد على النمط لإنشاء الصورة. كما يمكن ملاحظته، تبدو الصور التي تم إنشاؤها واقعية ودقيقة تمامًا. 

يتم إنشاء الصورة المضافة أعلاه بواسطة إطار عمل EasyPhoto باستخدام نموذج SD يعتمد على Comic Style. كما هو واضح، تبدو الصور الكوميدية والصور الواقعية واقعية تمامًا، وتشبه إلى حد كبير صورة الإدخال على أساس مطالبات المستخدم أو متطلباته. 

تم إنشاء الصورة المضافة أدناه بواسطة إطار عمل EasyPhoto من خلال استخدام قالب متعدد الأشخاص. وكما هو واضح، فإن الصور التي تم إنشاؤها واضحة ودقيقة وتشبه الصورة الأصلية. 

وبمساعدة EasyPhoto، يمكن للمستخدمين الآن إنشاء مجموعة واسعة من صور الذكاء الاصطناعي، أو إنشاء معرفات مستخدمين متعددة باستخدام القوالب المحفوظة، أو استخدام نموذج SD لإنشاء قوالب الاستدلال. توضح الصور المضافة أعلاه قدرة إطار عمل EasyPhoto على إنتاج صور AI متنوعة وعالية الجودة.

وفي الختام

تحدثنا في هذه المقالة عن EasyPhoto، أ رواية WebUI البرنامج المساعد الذي يسمح للمستخدمين النهائيين بإنشاء صور وصور بتقنية الذكاء الاصطناعي. يقوم المكون الإضافي EasyPhoto WebUI بإنشاء صور شخصية بتقنية الذكاء الاصطناعي باستخدام قوالب عشوائية، وتدعم التأثيرات الحالية لـ EasyPhoto WebUI أنماط صور مختلفة وتعديلات متعددة. بالإضافة إلى ذلك، ومن أجل تعزيز قدرات EasyPhoto بشكل أكبر، يتمتع المستخدمون بالمرونة اللازمة لإنشاء الصور باستخدام نموذج SDXL لإنشاء صور أكثر إرضاءً ودقة وتنوعًا. يستخدم إطار عمل EasyPhoto نموذجًا أساسيًا للانتشار مستقرًا مقترنًا بنموذج LoRA مُدرب مسبقًا والذي ينتج مخرجات صور عالية الجودة.

هل أنت مهتم بمولدات الصور؟ نحن نقدم أيضًا قائمة بـ أفضل مولدات AI Headshot و أفضل مولدات الصور بالذكاء الاصطناعي سهلة الاستخدام ولا تتطلب خبرة فنية.

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.