בינה מלאכותית

סגנון מיידי: שימור סגנון ביצירת טקסט לתמונה

יצא לאור

לפני 3 שבועות

אפריל 19, 2024

במהלך השנים האחרונות, דגמי דיפוזיה מבוססי כוונון הוכיחו התקדמות יוצאת דופן במגוון רחב של משימות התאמה אישית והתאמה אישית של תמונה. עם זאת, למרות הפוטנציאל שלהם, מודלים נוכחיים של דיפוזיה מבוססי כוונון ממשיכים להתמודד עם שורה של אתגרים מורכבים בייצור ויצירת תמונות עקביות בסגנון, וייתכן שיש שלוש סיבות מאחורי זה. ראשית, מושג הסגנון עדיין נותר לא מוגדר ולא מוגדר, וכולל שילוב של אלמנטים הכוללים אווירה, מבנה, עיצוב, חומר, צבע ועוד. שיטות שניות המבוססות על היפוך נוטות להידרדרות בסגנון, וכתוצאה מכך לאובדן תכוף של פרטים עדינים. לבסוף, גישות מבוססות מתאם דורשות כוונון משקל תכוף עבור כל תמונת רפרנס כדי לשמור על איזון בין יכולת שליטה בטקסט ועוצמת הסגנון.

יתרה מזאת, המטרה העיקרית של רוב גישות העברת הסגנון או יצירת תמונת סגנון היא להשתמש בתמונת ההפניה, וליישם את הסגנון הספציפי שלה מתת-קבוצה או תמונת התייחסות נתונה לתמונת תוכן יעד. עם זאת, המספר הרחב של תכונות הסגנון הוא שמקשה על החוקרים לאסוף מערכי נתונים מסוגננים, המייצגים את הסגנון בצורה נכונה, והערכת הצלחת ההעברה. בעבר, מודלים ומסגרות שעוסקים בתהליך דיפוזיה מבוסס כוונון עדין, מכווננים את מערך הנתונים של תמונות שחולקות סגנון משותף, תהליך שהוא גם גוזל זמן וגם עם יכולת הכללה מוגבלת במשימות בעולם האמיתי מכיוון שהוא קשה לאסוף תת-קבוצה של תמונות שחולקות סגנון זהה או כמעט זהה.

במאמר זה נדבר על InstantStyle, מסגרת שתוכננה במטרה להתמודד עם הבעיות העומדות בפני דגמי הדיפוזיה הנוכחיים מבוססי כוונון ליצירת תמונות והתאמה אישית. נדבר על שתי האסטרטגיות המרכזיות המיושמת על ידי מסגרת InstantStyle:

גישה פשוטה אך יעילה לניתוק סגנון ותוכן מתמונות התייחסות בתוך מרחב התכונות, שחזו בהנחה שניתן להוסיף או לגרוע אחד מהשני תכונות בתוך אותו מרחב תכונות.
מניעת דליפות סגנון על ידי הזרקת תכונות תמונת הייחוס באופן בלעדי לבלוקים הספציפיים לסגנון, והימנעות מכוונת מהצורך להשתמש במשקלים מסורבלים לכיוונון עדין, ולעתים קרובות מאפיינת עיצובים כבדי פרמטרים יותר.

מאמר זה נועד לכסות את מסגרת InstantStyle לעומק, ואנו חוקרים את המנגנון, המתודולוגיה, הארכיטקטורה של המסגרת יחד עם ההשוואה שלה למסגרות מתקדמות. נדבר גם על האופן שבו מסגרת InstantStyle מדגימה תוצאות סגנונות חזותיות יוצאות דופן, ויוצרת איזון אופטימלי בין יכולת השליטה של אלמנטים טקסטואליים ועוצמת הסגנון. אז בואו נתחיל.

InstantStyle: שימור סגנון ביצירת טקסט לתמונה

טקסט מבוסס פיזור למסגרות בינה מלאכותית מחוללות תמונה זכו להצלחה בולטת ויוצאת דופן במגוון רחב של משימות התאמה אישית והתאמה אישית, במיוחד במשימות יצירת תמונה עקביות, כולל התאמה אישית של אובייקטים, שימור תמונה והעברת סגנון. עם זאת, למרות ההצלחה והדחיפה האחרונה בביצועים, העברת סגנון נותרה משימה מאתגרת עבור חוקרים בשל האופי הבלתי מוגדר והבלתי מוגדר של הסגנון, לעתים קרובות כולל מגוון אלמנטים כולל אווירה, מבנה, עיצוב, חומר, צבע ועוד הרבה יותר. עם זאת, המטרה העיקרית של יצירת תמונה מסוגננת או העברת סגנון היא ליישם את הסגנון הספציפי מתמונת התייחסות נתונה או תת-קבוצת התייחסות של תמונות לתמונת תוכן היעד. עם זאת, המספר הרחב של תכונות הסגנון מקשה על החוקרים לאסוף מערכי נתונים מסוגננים, המייצגים את הסגנון בצורה נכונה, והערכת הצלחת ההעברה. בעבר, מודלים ומסגרות שעוסקים בתהליך דיפוזיה מבוסס כוונון עדין, מכווננים את מערך הנתונים של תמונות שחולקות סגנון משותף, תהליך שהוא גם גוזל זמן וגם עם יכולת הכללה מוגבלת במשימות בעולם האמיתי מכיוון שהוא קשה לאסוף תת-קבוצה של תמונות שחולקות סגנון זהה או כמעט זהה.

עם האתגרים שבהם נתקלת הגישה הנוכחית, חוקרים גילו עניין בפיתוח גישות כוונון עדין להעברת סגנון או יצירת תמונה מסוגננת, וניתן לפצל את המסגרות הללו לשתי קבוצות שונות:

גישות ללא מתאם: גישות ומסגרות ללא מתאמים ממנפות את כוחה של תשומת לב עצמית בתהליך הדיפוזיה, ועל ידי יישום פעולת תשומת לב משותפת, מודלים אלו מסוגלים לחלץ תכונות חיוניות כולל מפתחות וערכים מתמונות בסגנון התייחסות נתון ישירות.

גישות מבוססות מתאם: לעומת זאת, גישות ומסגרות מבוססות מתאם משלבות מודל קל משקל שנועד לחלץ ייצוגי תמונה מפורטים מהתמונות בסגנון ההתייחסות. לאחר מכן, המסגרת משלבת את הייצוגים הללו בתהליך הדיפוזיה במיומנות תוך שימוש במנגנוני תשומת לב צולבים. המטרה העיקרית של תהליך האינטגרציה היא להנחות את תהליך היצירה, ולוודא שהתמונה המתקבלת מותאמת לניואנסים הסגנוניים הרצויים של תמונת ההתייחסות.

עם זאת, למרות ההבטחות, שיטות ללא כוונון נתקלות לעיתים בכמה אתגרים. ראשית, הגישה נטולת המתאם דורשת החלפה של מפתח וערכים בתוך שכבות הקשב העצמי, ותופסת מראש את מטריצות המפתח והערך הנגזרות מהתמונות בסגנון ההתייחסות. כאשר מיושמת על תמונות טבעיות, הגישה נטולת המתאם דורשת היפוך התמונה בחזרה לרעש הסמוי באמצעות טכניקות כמו DDIM או היפוך של Denoising Diffusion Implicit Models. עם זאת, שימוש ב-DDIM או בגישות היפוך אחרות עלול לגרום לאובדן של פרטים עדינים כמו צבע ומרקם, ולכן להקטין את מידע הסגנון בתמונות שנוצרו. יתרה מזאת, הצעד הנוסף שמציג גישות אלו הוא תהליך שלוקח זמן, ויכול להוות חסרונות משמעותיים ביישומים מעשיים. מצד שני, האתגר העיקרי של שיטות מבוססות מתאם טמון באיזון הנכון בין זליגת ההקשר ועוצמת הסגנון. דליפת תוכן מתרחשת כאשר עלייה בעוצמת הסגנון גורמת להופעה של אלמנטים שאינם סגנוניים מתמונת ההתייחסות בפלט שנוצר, כאשר נקודת הקושי העיקרית היא הפרדת סגנונות מהתוכן שבתמונת ההפניה בצורה יעילה. כדי לטפל בבעיה זו, מסגרות מסוימות בונות מערכי נתונים זוגיים המייצגים את אותו אובייקט בסגנונות שונים, מה שמקל על החילוץ של ייצוג תוכן וסגנונות מפורקים. עם זאת, הודות לייצוג הבלתי מוגדר מטבעו של סגנון, המשימה של יצירת מערכי נתונים זוגיים בקנה מידה גדול מוגבלת מבחינת מגוון הסגנונות שהיא יכולה לתפוס, וזהו גם תהליך עתיר משאבים.

כדי להתמודד עם מגבלות אלו, מוצגת מסגרת InstantStyle שהיא מנגנון חדשני ללא כוונון המבוסס על שיטות קיימות מבוססות מתאם עם יכולת להשתלב בצורה חלקה עם שיטות הזרקה אחרות מבוססות תשומת לב, ולהשיג ניתוק תוכן וסגנון בצורה יעילה. יתר על כן, המסגרת של InstantStyle מציגה לא אחת, אלא שתי דרכים יעילות להשלמת ניתוק הסגנון והתוכן, להשגת העברת סגנון טובה יותר ללא צורך בהכנסת שיטות נוספות להשגת ניתוק או בניית מערכי נתונים זוגיים.

יתר על כן, מסגרות קודמות מבוססות מתאם היו בשימוש נרחב בשיטות מבוססות CLIP כמחלץ תכונת תמונה, מסגרות מסוימות בחנו את האפשרות ליישם ניתוק תכונה בתוך מרחב התכונה, ובהשוואה לחוסר קביעה של סגנון, קל יותר תאר את התוכן באמצעות טקסט. מכיוון שתמונות וטקסטים חולקים מרחב תכונה בשיטות מבוססות CLIP, פעולת חיסור פשוטה של תכונות טקסט ההקשר ותכונות התמונה יכולה להפחית את זליגת התוכן באופן משמעותי. יתר על כן, ברוב של מודלים של דיפוזיה, יש רובד מסוים בארכיטקטורה שלו שמחדיר את מידע הסגנון, ומשיג את ניתוק התוכן והסגנון על ידי הזרקת תכונות תמונה רק לתוך בלוקים בסגנון ספציפי. על ידי יישום שתי האסטרטגיות הפשוטות הללו, המסגרת של InstantStyle מסוגלת לפתור בעיות דליפת תוכן בהן נתקלים רוב המסגרות הקיימות תוך שמירה על חוזק הסגנון.

לסיכום, מסגרת InstantStyle משתמשת בשני מנגנונים פשוטים, פשוטים אך יעילים כדי להשיג התנתקות יעילה של תוכן וסגנון מתמונות התייחסות. המסגרת של Instant-Style היא גישה עצמאית ונטולת כוונון מודל המדגימה ביצועים יוצאי דופן במשימות העברת סגנון עם פוטנציאל עצום למשימות במורד הזרם.

סגנון מיידי: מתודולוגיה וארכיטקטורה

כפי שהדגימו גישות קודמות, יש איזון בהזרקת תנאי הסגנון במודלים של דיפוזיה ללא כוונון. אם עוצמת מצב התמונה גבוהה מדי, זה עלול לגרום לדליפת תוכן, בעוד שאם עוצמת מצב התמונה יורדת נמוך מדי, ייתכן שהסגנון לא נראה ברור מספיק. סיבה מרכזית מאחורי התבוננות זו היא שבתמונה, הסגנון והתוכן קשורים זה בזה, ובשל תכונות הסגנון הבלתי מוגדרות הטבועות, קשה לנתק את הסגנון והכוונה. כתוצאה מכך, משקולות קפדניות מכוונות לרוב עבור כל תמונת התייחסות בניסיון לאזן בין יכולת השליטה בטקסט לבין חוזק הסגנון. יתר על כן, עבור תמונת התייחסות נתונה של קלט ותיאור הטקסט המתאים לה בשיטות המבוססות על היפוך, גישות היפוך כמו DDIM מאומצות על פני התמונה כדי לקבל את מסלול הדיפוזיה ההפוכה, תהליך שמקרוב את משוואת ההיפוך כדי להפוך תמונה לתמונה סמויה ייצוג רעש. בהתבסס על אותו הדבר, ומתחיל ממסלול הדיפוזיה ההפוך יחד עם קבוצה חדשה של הנחיות, שיטות אלו מייצרות תוכן חדש עם סגנונו המתאים לקלט. עם זאת, כפי שמוצג באיור הבא, גישת היפוך DDIM עבור תמונות אמיתיות היא לרוב לא יציבה מכיוון שהיא מסתמכת על הנחות ליניאריזציה מקומיות, וכתוצאה מכך להפצה של שגיאות, ומובילה לאובדן תוכן ולשחזור תמונה שגוי.

בבואנו למתודולוגיה, במקום להשתמש באסטרטגיות מורכבות כדי להפריד בין תוכן וסגנון לתמונות, המסגרת של Instant-Style נוקטת בגישה הפשוטה ביותר להשגת ביצועים דומים. בהשוואה לתכונות הסגנון הלא מוגדרות, תוכן יכול להיות מיוצג על ידי טקסט טבעי, מה שמאפשר למסגרת Instant-Style להשתמש במקודד הטקסט מ-CLIP כדי לחלץ את המאפיינים של טקסט התוכן כייצוגי הקשר. במקביל, מסגרת Instant-Style מיישמת מקודד תמונת CLIP כדי לחלץ את התכונות של תמונת הייחוס. תוך ניצול האפיון של תכונות גלובליות של CLIP, והפחתת תכונות טקסט התוכן מתכונות התמונה, המסגרת של Instant-Style מסוגלת לנתק את הסגנון והתוכן בצורה מפורשת. למרות שזו אסטרטגיה פשוטה, היא עוזרת למסגרת Instant-Style יעילה למדי בצמצום זליגת תוכן למינימום.

יתר על כן, כל שכבה בתוך רשת עמוקה אחראית ללכידת מידע סמנטי שונה, וההתבוננות המרכזית ממודלים קודמים היא שקיימות שתי שכבות קשב שאחראיות לטיפול בסגנון. למעלה באופן ספציפי, אלו שכבות הבלוקים.0.תשומת לב.1 ו-down blocks.2.attentions.1 אחראיות ללכידת סגנון כמו צבע, חומר, אווירה, ושכבת הפריסה המרחבית לוכדת את המבנה והקומפוזיציה בהתאמה. המסגרת של Instant-Style משתמשת בשכבות אלו באופן מרומז כדי לחלץ מידע בסגנון, ומונעת דליפת תוכן מבלי לאבד את חוזק הסגנון. האסטרטגיה פשוטה אך יעילה מכיוון שהמודל איתר בלוקים בסגנון שיכולים להחדיר את תכונות התמונה לתוך בלוקים אלה כדי להשיג העברת סגנון חלקה. יתרה מזאת, מכיוון שהמודל מקטין מאוד את מספר הפרמטרים של המתאם, יכולת בקרת הטקסט של המסגרת משתפרת, והמנגנון ישים גם למודלים אחרים של הזרקת תכונות מבוססות תשומת לב לעריכה ומשימות אחרות.

סגנון מיידי: ניסויים ותוצאות

המסגרת Instant-Style מיושמת על המסגרת Stable Diffusion XL, והיא משתמשת במתאם ה-IR המאומן מראש כדוגמה שלו כדי לאמת את המתודולוגיה שלו, ומשתיקה את כל הבלוקים מלבד בלוקי הסגנון לתכונות תמונה. מודל Instant-Style גם מאמן את מתאם ה-IR על 4 מיליון מערכי נתונים מותאמים בקנה מידה גדול של תמונת טקסט מאפס, ובמקום לאמן את כל הבלוקים, מעדכן רק את בלוקי הסגנון.

כדי לנהל את יכולות ההכללה והחוסן שלה, המסגרת של Instant-Style עורכת ניסויים רבים בהעברת סגנונות עם סגנונות שונים על פני תכנים שונים, וניתן לראות את התוצאות בתמונות הבאות. בהינתן תמונת התייחסות בסגנון יחיד יחד עם הנחיות משתנות, המסגרת של Instant-Style מספקת איכות גבוהה וסגנון עקבי דור תמונה.

יתרה מכך, מכיוון שהדגם מחדיר מידע תמונה רק בבלוקים בסגנון, הוא מסוגל למתן את נושא דליפת התוכן באופן משמעותי, ולכן, אינו צריך לבצע כוונון משקל.

בהמשך הדרך, המסגרת של Instant-Style מאמצת גם את ארכיטקטורת ControlNet כדי להשיג סטיילינג מבוסס תמונה עם שליטה מרחבית, והתוצאות מוצגות בתמונה הבאה.

בהשוואה לשיטות קודמות של הטכנולוגיה, כולל StyleAlign, B-LoRA, Swapping Self Attention ו-IP-Adapter, המסגרת של Instant-Style מדגימה את האפקטים הוויזואליים הטובים ביותר.

מחשבות סופיות

במאמר זה, דיברנו על Instant-Style, מסגרת כללית שמשתמשת בשתי אסטרטגיות פשוטות אך יעילות להשגת התנתקות יעילה של תוכן וסגנון מתמונות התייחסות. מסגרת InstantStyle תוכננה במטרה להתמודד עם הבעיות העומדות בפני דגמי הדיפוזיה הנוכחיים מבוססי כוונון ליצירת תמונה והתאמה אישית. המסגרת של Instant-Style מיישמת שתי אסטרטגיות חיוניות: גישה פשוטה אך יעילה לניתוק סגנון ותוכן מתמונות התייחסות בתוך מרחב הפיצ'רים, חזויה בהנחה שניתן להוסיף או להחסיר תכונות בתוך אותו מרחב תכונה זו מזו. שנית, מניעת דליפות סגנון על ידי הזרקת תכונות תמונת הייחוס בלעדית לבלוקים הספציפיים לסגנון, והימנעות מכוונת מהצורך להשתמש במשקלים מסורבלים לכיוונון עדין, ולעתים קרובות מאפיינת עיצובים כבדי פרמטרים יותר.

נושאים קשורים:בינה מלאכותית ראייה ממוחשבת מודלים של דיפוזיה גנרטיבי איי דור תמונה סגנון מיידי InstantStyle

10 ההסעות המובילות מדוח אינדקס הבינה המלאכותית של סטנפורד לשנת 2024

לא לפספס

עלייתם של מהנדסי תוכנה בינה מלאכותית: SWE-Agent, Devin AI ועתיד הקידוד

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.