בינה מלאכותית

EasyPhoto: מחולל תמונות AI האישי שלך

מְעוּדכָּן on אוקטובר 30, 2023

EasyPhoto: מחולל הפורטרטים האישי שלך בינה מלאכותית

דיפוזיה יציבה ממשק משתמש אינטרנט, או SD-WebUI, הוא פרויקט מקיף עבור מודלים של דיפוזיה יציבה המשתמש בספריית Gradio כדי לספק ממשק דפדפן. היום, אנחנו הולכים לדבר על EasyPhoto, תוסף WebUI חדשני המאפשר למשתמשי קצה ליצור דיוקנאות ותמונות בינה מלאכותית. התוסף EasyPhoto WebUI יוצר דיוקנאות AI תוך שימוש בתבניות שונות, התומך בסגנונות צילום שונים ובשינויים מרובים. בנוסף, כדי לשפר עוד יותר את היכולות של EasyPhoto, משתמשים יכולים ליצור תמונות באמצעות מודל SDXL לתוצאות משביעות רצון, מדויקות ומגוונות יותר. בואו נתחיל.

מבוא ל-EasyPhoto ולפיזור יציב

המסגרת Stable Diffusion היא מסגרת דור פופולרית וחזקה המבוססת על דיפוזיה המשמשת מפתחים ליצירת תמונות ריאליסטיות המבוססות על תיאורי טקסט קלט. הודות ליכולותיה, המסגרת Stable Diffusion מתהדרת במגוון רחב של יישומים, לרבות ציור חוץ, ציור תמונה ותרגום תמונה לתמונה. ה-Stable Diffusion Web UI, או SD-WebUI, בולט כאחד היישומים הפופולריים והידועים ביותר של מסגרת זו. הוא כולל ממשק דפדפן שנבנה על ספריית Gradio, המספק ממשק אינטראקטיבי וידידותי למשתמש עבור דגמי Stable Diffusion. כדי לשפר עוד יותר את השליטה והשימושיות ביצירת תמונות, SD-WebUI משלב יישומי Diffusion יציב רבים.

בשל הנוחות שמציעה מסגרת SD-WebUI, מפתחי המסגרת של EasyPhoto החליטו ליצור אותה כתוסף אינטרנט ולא כאפליקציה מלאה. בניגוד לשיטות הקיימות שסובלות לעיתים קרובות מאובדן זהות או מכניסות תכונות לא מציאותיות לתמונות, המסגרת של EasyPhoto ממנפת את יכולות התמונה לתמונה של דגמי ה-Stable Diffusion כדי לייצר תמונות מדויקות וריאליסטיות. משתמשים יכולים להתקין בקלות את מסגרת EasyPhoto כהרחבה בתוך ה-WebUI, ולשפר את הידידותיות והנגישות למגוון רחב יותר של משתמשים. מסגרת EasyPhoto מאפשרת למשתמשים ליצור מונחי זהות, באיכות גבוהה ו דיוקנאות AI מציאותיים הדומים מאוד לזהות הקלט.

ראשית, המסגרת של EasyPhoto מבקשת מהמשתמשים ליצור את ה-doppelganger הדיגיטלי שלהם על ידי העלאת כמה תמונות כדי להכשיר מודל LoRA או Low-Rank Adaptation באינטרנט. מסגרת LoRA מכוונת במהירות את דגמי הדיפוזיה על ידי שימוש בטכנולוגיית התאמה בדרגה נמוכה. תהליך זה מאפשר למודל המבוסס להבין את פרטי הזיהוי של משתמשים ספציפיים. הדגמים המאומנים מתמזגים ומשולבים במודל הבסיס של דיפוזיה יציבה לצורך הפרעה. יתר על כן, במהלך תהליך ההפרעות, המודל משתמש במודלים של דיפוזיה יציבים בניסיון לצבוע מחדש את אזורי הפנים בתבנית ההפרעות, והדמיון בין הקלט לתמונות הפלט מאומת באמצעות יחידות ControlNet השונות.

המסגרת של EasyPhoto גם פורסת תהליך דיפוזיה דו-שלבי כדי להתמודד עם בעיות פוטנציאליות כמו חפצי גבולות ואובדן זהות, ובכך להבטיח שהתמונות שנוצרות ממזערות חוסר עקביות חזותית תוך שמירה על זהות המשתמש. יתר על כן, צינור ההפרעות במסגרת EasyPhoto אינו מוגבל רק ליצירת פורטרטים, אלא ניתן להשתמש בו גם ליצירת כל דבר שקשור למזהה המשתמש. זה מרמז שברגע שאתה מאמן את דגם LoRA עבור מזהה מסוים, אתה יכול ליצור מגוון רחב של תמונות בינה מלאכותית, וכך יכול להיות לו יישומים נרחבים כולל נסיונות וירטואליים.

לסיכום, מסגרת EasyPhoto

מציע גישה חדשה לאימון מודל LoRA על ידי שילוב מספר דגמי LoRA כדי לשמור על נאמנות הפנים של התמונות שנוצרו.
עושה שימוש בשיטות למידת חיזוקים שונות כדי לייעל את מודלים של LoRA לתגמול זהות פנים המסייע עוד יותר בהגברת הדמיון של הזהויות בין תמונות האימון והתוצאות שנוצרו.
מציע תהליך דיפוזיה מבוסס צבע דו-שלבי שמטרתו ליצור תמונות AI עם אסתטיקה ודמיון גבוהים.

EasyPhoto : אדריכלות והדרכה

האיור הבא מדגים את תהליך ההכשרה של מסגרת EasyPhoto AI.

כפי שניתן לראות, המסגרת מבקשת תחילה מהמשתמשים להזין את תמונות האימון, ולאחר מכן מבצעת זיהוי פנים כדי לזהות את מיקומי הפנים. ברגע שהמסגרת מזהה את הפנים, היא חותכת את תמונת הקלט באמצעות יחס ספציפי מוגדר מראש המתמקד אך ורק באזור הפנים. לאחר מכן, המסגרת פורסת מודל של ייפוי עור ומודל זיהוי בולטות כדי לקבל תמונת אימון פנים נקייה וברורה. שני הדגמים הללו ממלאים תפקיד מכריע בשיפור האיכות החזותית של הפנים, וגם מבטיחים שמידע הרקע הוסר, ותמונת האימון מכילה בעיקר את הפנים. לבסוף, המסגרת משתמשת בתמונות מעובדות אלה ובהנחיות הקלט כדי לאמן את מודל LoRA, ובכך לצייד אותו ביכולת להבין מאפייני פנים ספציפיים למשתמש בצורה יעילה ומדויקת יותר.

יתרה מזאת, במהלך שלב ההדרכה, המסגרת כוללת שלב אימות קריטי, בו המסגרת מחשבת את פער מזהה הפנים בין תמונת הקלט של המשתמש, לבין תמונת האימות שנוצרה על ידי מודל LoRA המאומן. שלב האימות הוא תהליך בסיסי הממלא תפקיד מפתח בהשגת היתוך של מודלים של LoRA, ובסופו של דבר מבטיח כי מסגרת LoRA מאומנת הופך לדופלגנגר, או לייצוג דיגיטלי מדויק של המשתמש. בנוסף, תמונת האימות בעלת ציון face_id האופטימלי תיבחר כתמונת face_id, ותמונת ה-face_id הזו תשמש לאחר מכן כדי לשפר את הדמיון הזהות של יצירת ההפרעות.

בהמשך, בהתבסס על תהליך האנסמבל, המסגרת מכשירה את מודלים של LoRA כשהמטרה העיקרית היא הערכת סבירות, בעוד ששמירה על דמיון זהות הפנים היא המטרה במורד הזרם. כדי להתמודד עם בעיה זו, המסגרת של EasyPhoto עושה שימוש בטכניקות למידת חיזוק כדי לייעל את המטרה במורד הזרם ישירות. כתוצאה מכך, תווי הפנים שדגמי LoRA לומדים מציגים שיפור שמוביל לדמיון משופר בין התוצאות שנוצרו בתבנית, וגם מדגים את ההכללה בין התבניות.

תהליך הפרעות

האיור הבא מדגים את תהליך ההפרעה עבור מזהה משתמש בודד במסגרת EasyPhoto, ומחולק לשלושה חלקים

עיבוד מקדים לפנים לקבלת ההפניה ל-ControlNet ותמונת הקלט המעובדת מראש.

דיפוזיה ראשונה שעוזר ביצירת תוצאות גסות הדומות לקלט המשתמש.

דיפוזיה שניה שמתקן את חפצי הגבול, ובכך הופך את התמונות למדוייקות יותר, ולהיראות מציאותיות יותר.

עבור הקלט, המסגרת לוקחת תמונת face_id (נוצרת במהלך אימות האימון באמצעות ציון face_id האופטימלי), ותבנית הפרעה. הפלט הוא דיוקן מפורט, מדויק ומציאותי ביותר של המשתמש, ודומה מאוד לזהות ולמראה הייחודי של המשתמש על בסיס תבנית ההסקה. בואו נסתכל בפירוט על תהליכים אלה.

קדם תהליך פנים

דרך ליצור דיוקן AI המבוסס על תבנית הפרעות ללא נימוק מודע היא להשתמש במודל SD כדי לצבוע את אזור הפנים בתבנית ההפרעות. בנוסף, הוספת מסגרת ControlNet לתהליך לא רק משפרת את שימור זהות המשתמש, אלא גם משפרת את הדמיון בין התמונות שנוצרות. עם זאת, שימוש ישירות ב-ControlNet לציור אזורי יכול להציג בעיות פוטנציאליות שעשויות לכלול

חוסר עקביות בין הקלט לתמונה שנוצרה: ניכר כי נקודות המפתח בתמונת התבנית אינן תואמות לנקודות המפתח בתמונת face_id וזו הסיבה ששימוש ב-ControlNet עם תמונת face_id כהתייחסות יכול להוביל לחוסר עקביות בפלט.

פגמים באזור הצביעה: מיסוך אזור ואז צביעתו בפנים חדשות עשוי להוביל לפגמים בולטים, במיוחד לאורך גבול הצביעה שלא רק ישפיעו על האותנטיות של התמונה שנוצרת, אלא גם ישפיעו לרעה על הריאליזם של התמונה.
אובדן זהות על ידי Control Net : מכיוון שתהליך האימון אינו משתמש במסגרת ControlNet, השימוש ב-ControlNet במהלך שלב ההפרעות עשוי להשפיע על יכולתם של דגמי ה-LoRA המאומנים לשמר את זהות המשתמש הקלט.

כדי להתמודד עם הבעיות שהוזכרו לעיל, המסגרת של EasyPhoto מציעה שלושה נהלים.

יישור והדבק: על ידי שימוש באלגוריתם של הדבקת פנים, מסגרת EasyPhoto שואפת להתמודד עם סוגיית אי ההתאמה בין ציוני דרך פנים בין מזהה הפנים לתבנית. ראשית, המודל מחשב את נקודות הציון של הפנים של ה-face_id ושל תמונת התבנית, ולאחר מכן המודל קובע את מטריצת הטרנספורמציה האפינית שתשמש ליישור ציוני הפנים של תמונת התבנית עם תמונת ה-face_id. התמונה המתקבלת שומרת על אותם נקודות ציון של תמונת face_id, וגם מתיישרת עם תמונת התבנית.

פיוז פנים: Face Fuse היא גישה חדשנית המשמשת לתיקון חפצי הגבול הנובעים מצביעת מסכה, והיא כוללת תיקון חפצים באמצעות מסגרת ControlNet. השיטה מאפשרת למסגרת EasyPhoto להבטיח שמירה על קצוות הרמוניים, ובכך להנחות בסופו של דבר את תהליך יצירת התמונה. אלגוריתם היתוך הפנים ממזג עוד יותר את תמונת ה-roop (תמונת אמת קרקעית משתמש) ואת התבנית, המאפשרת לתמונה הממוזגת המתקבלת להפגין ייצוב טוב יותר של גבולות הקצה, מה שמוביל לאחר מכן לפלט משופר בשלב הדיפוזיה הראשון.
אימות מודרך של ControlNet: מכיוון שדגמי ה-LoRA לא הוכשרו באמצעות מסגרת ControlNet, השימוש בו במהלך תהליך ההסקה עשוי להשפיע על יכולתו של מודל ה-LoRA לשמר את הזהויות. על מנת לשפר את יכולות ההכללה של EasyPhoto, המסגרת שוקלת את ההשפעה של מסגרת ControlNet, ומשלבת מודלים של LoRA משלבים שונים.

דיפוזיה ראשונה

שלב הדיפוזיה הראשון משתמש בתמונת התבנית כדי ליצור תמונה עם מזהה ייחודי הדומה למזהה משתמש הקלט. תמונת הקלט היא מיזוג של תמונת הקלט של המשתמש ותמונת התבנית, בעוד שמסיכת הפנים המכוילת היא מסכת הקלט. כדי להגביר עוד יותר את השליטה על יצירת התמונה, המסגרת של EasyPhoto משלבת שלוש יחידות ControlNet כאשר יחידת ControlNet הראשונה מתמקדת בשליטה על התמונות המותכות, יחידת ControlNet השנייה שולטת בצבעי התמונה הממוזגת, ויחידת ControlNet הסופית היא הפתוחה (בקרת תנוחות אנושיות מרובות בזמן אמת) של התמונה המוחלפת שמכילה לא רק את מבנה הפנים של תמונת התבנית, אלא גם את זהות הפנים של המשתמש.

דיפוזיה שניה

בשלב הדיפוזיה השני, החפצים ליד גבול הפנים מעודנים ומכווננים יחד עם מתן גמישות למשתמשים להסוות אזור מסוים בתמונה בניסיון להגביר את האפקטיביות של היצירה בתוך אותו אזור ייעודי. בשלב זה, המסגרת ממזגת את תמונת הפלט המתקבלת משלב הדיפוזיה הראשון עם תמונת ה-roop או תוצאת תמונת המשתמש, וכך מייצרת את תמונת הקלט לשלב הדיפוזיה השני. בסך הכל, שלב הדיפוזיה השני ממלא תפקיד מכריע בשיפור האיכות הכללית ופרטי התמונה שנוצרה.

מזהי משתמש מרובים

אחת מנקודות השיא של EasyPhoto היא התמיכה שלה ביצירת מזהי משתמש מרובים, והאיור שלהלן מדגים את הצינור של תהליך ההפרעה עבור מזהי משתמש מרובי במסגרת EasyPhoto.

כדי לספק תמיכה ליצירת מזהה מרובה משתמשים, המסגרת של EasyPhoto מבצעת תחילה זיהוי פנים על תבנית ההפרעות. תבניות הפרעות אלו מפוצלות לאחר מכן למספר רב של מסכות, כאשר כל מסכה מכילה רק פנים אחד, ושאר התמונה מוסווה בלבן, ובכך מפרקת את יצירת מזהי ריבוי המשתמשים למשימה פשוטה של יצירת מזהי משתמש בודדים. ברגע שהמסגרת מייצרת את תמונות מזהה המשתמש, תמונות אלו מתמזגות לתוך תבנית ההסקה, ובכך מאפשרת שילוב חלק של תמונות התבנית עם התמונות שנוצרו, שבסופו של דבר מביאה לתמונה באיכות גבוהה.

ניסויים ותוצאות

כעת, לאחר שהבנו את המסגרת של EasyPhoto, הגיע הזמן שנבדוק את הביצועים של המסגרת של EasyPhoto.

התמונה לעיל נוצרת על ידי התוסף EasyPhoto, והיא משתמשת במודל SD מבוסס Style ליצירת התמונה. כפי שניתן לראות, התמונות שנוצרו נראות מציאותיות והן די מדויקות.

התמונה שנוספה לעיל נוצרת על ידי מסגרת EasyPhoto תוך שימוש במודל SD מבוסס Comic Style. כפי שניתן לראות, התמונות הקומיקס והתמונות הריאליסטיות נראות מציאותיות למדי, ודומות מאוד לתמונת הקלט על בסיס הנחיות או דרישות המשתמש.

התמונה שנוספה להלן נוצרה על ידי מסגרת EasyPhoto על ידי שימוש בתבנית מרובה אנשים. כפי שניתן לראות בבירור, התמונות שנוצרות ברורות, מדויקות ודומות לתמונה המקורית.

בעזרת EasyPhoto, משתמשים יכולים כעת ליצור מגוון רחב של דיוקנאות בינה מלאכותית, או ליצור מספר מזהי משתמש באמצעות תבניות שמורות, או להשתמש במודל SD כדי ליצור תבניות מסקנות. התמונות שנוספו לעיל מדגימות את היכולת של מסגרת EasyPhoto בהפקת תמונות AI מגוונות ואיכותיות.

סיכום

במאמר זה, דיברנו על EasyPhoto, א תוסף WebUI חדש המאפשר למשתמשי קצה ליצור דיוקנאות ותמונות בינה מלאכותית. התוסף EasyPhoto WebUI יוצר דיוקנאות AI תוך שימוש בתבניות שרירותיות, וההשלכות הנוכחיות של EasyPhoto WebUI תומכות בסגנונות צילום שונים ובשינויים מרובים. בנוסף, כדי לשפר עוד יותר את היכולות של EasyPhoto, למשתמשים יש את הגמישות ליצור תמונות באמצעות מודל SDXL כדי ליצור תמונות משביעות רצון, מדויקות ומגוונות יותר. המסגרת של EasyPhoto משתמשת במודל בסיס דיפוזיה יציב יחד עם דגם LoRA מיומן מראש המפיק פלטי תמונה באיכות גבוהה.

מתעניינים במחוללי תמונות? אנו מספקים גם רשימה של מחוללי צילום הראש הטובים ביותר של AI ו מחוללי תמונות AI הטובים ביותר קלים לשימוש ואינם דורשים מומחיות טכנית.

נושאים קשורים:easyphoto

ChatDev: סוכני תקשורת לפיתוח תוכנה

לא לפספס

ההתרחבות האסטרטגית של גוגל בתחום הבינה המלאכותית: הימור של 2 מיליארד דולר על Anthropic

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.

Unite.AI

EasyPhoto: מחולל תמונות AI האישי שלך

בינה מלאכותית

EasyPhoto: מחולל תמונות AI האישי שלך

תוכן העניינים

מבוא ל-EasyPhoto ולפיזור יציב

EasyPhoto : אדריכלות והדרכה