בדל עריכת אובייקטים בסיוע בינה מלאכותית עם Imagic של גוגל ו-'מחק והחלף' של Runway - Unite.AI
צור קשר

בינה מלאכותית

עריכת אובייקטים בסיוע בינה מלאכותית עם Imagic של גוגל ו-'מחק והחלף' של Runway

mm
מְעוּדכָּן on

השבוע שני אלגוריתמים גרפיים חדשים, אך מנוגדים מונעי בינה מלאכותית, מציעים דרכים חדשות למשתמשי קצה לבצע שינויים פרטניים ויעילים ביותר באובייקטים בתמונות.

הראשון הוא דמיון, מ-Google Research, בשיתוף המכון הטכנולוגי הישראלי ומכון ויצמן למדע. אימג'יק מציעה עריכה מותנית בטקסט של אובייקטים באמצעות כוונון עדין של מודלים של דיפוזיה.

שנה את מה שאתה אוהב, ועזוב את השאר - Imagic מבטיחה עריכה מפורטת רק של החלקים שאתה רוצה שישנו. מקור: https://arxiv.org/pdf/2210.09276.pdf

שנה את מה שאתה אוהב, ועזוב את השאר - Imagic מבטיחה עריכה מפורטת רק של החלקים שאתה רוצה שישנו. מקור: https://arxiv.org/pdf/2210.09276.pdf

כל מי שאי פעם ניסה לשנות רק אלמנט אחד בעיבוד מחדש של Stable Diffusion יידע טוב מדי שלכל עריכה מוצלחת, המערכת תשנה חמישה דברים שאהבתם בדיוק כפי שהם היו. זהו חיסרון שכרגע רבים מחובבי ה-SD המוכשרים ביותר מדשדשים ללא הרף בין Stable Diffusion לפוטושופ, כדי לתקן סוג זה של 'נזק נלווה'. מנקודת מבט זו בלבד, ההישגים של אימג'יק נראים בולטים.

בזמן הכתיבה, ל-Imagic עדיין חסר אפילו סרטון תדמית, ובהתחשב בזה של גוגל יחס זהיר לשחרור כלי סינתזת תמונות ללא גבולות, לא בטוח באיזו מידה, אם בכלל, נקבל הזדמנות לבדוק את המערכת.

ההצעה השנייה היא הנגישה יותר של Runway ML מחק והחלף מתקן, א תכונה חדשה בקטע 'כלי קסם של AI' בחבילה המקוונת הבלעדית שלה של כלי עזר לאפקטים חזותיים מבוססי למידת מכונה.

תכונת מחק והחלפה של Runway ML, כבר נראתה בתצוגה מקדימה של מערכת עריכת טקסט לווידאו. מקור: https://www.youtube.com/watch?v=41Qb58ZPO60

תכונת מחק והחלפה של Runway ML, כבר נראתה בתצוגה מקדימה של מערכת עריכת טקסט לווידאו. מקור: https://www.youtube.com/watch?v=41Qb58ZPO60

בואו נסתכל קודם על היציאה של Runway.

מחק והחלף

כמו Imagic, Erase and Replace עוסק אך ורק בתמונות סטילס, אם כי ל-Runway יש תצוגה מקדימה אותה פונקציונליות בפתרון עריכת טקסט לווידאו שעדיין לא פורסם:

למרות שכל אחד יכול לבדוק את הגרסה החדשה של 'מחק והחלפה' בתמונות, גרסת הווידאו עדיין לא זמינה לציבור. מקור: https://twitter.com/runwayml/status/1568220303808991232

למרות שכל אחד יכול לבדוק את הגרסה החדשה של 'מחק והחלפה' בתמונות, גרסת הווידאו עדיין לא זמינה לציבור. מקור: https://twitter.com/runwayml/status/1568220303808991232

למרות ש-Runway ML לא פרסמה פרטים על הטכנולוגיות שמאחורי 'מחק והחלפה', המהירות שבה אתה יכול להחליף צמח בית בחזה משכנע למדי של רונלד רייגן מעידה על כך שמודל דיפוזיה כמו דיפוזיה יציבה (או, הרבה פחות סביר, מורשה DALL-E 2) הוא המנוע שממציא מחדש את האובייקט לבחירתך ב'מחק והחלפה'.

החלפת צמח בית בחזה של הג'יפר היא לא ממש מהירה כמו זו, אבל היא די מהירה. מקור: https://app.runwayml.com/

החלפת צמח בית בחזה של הג'יפר היא לא ממש מהירה כמו זו, אבל היא די מהירה. מקור: https://app.runwayml.com/

למערכת יש כמה הגבלות מסוג DALL-E 2 - תמונות או טקסט המסמן את המסננים 'מחק והחלפה' יפעילו אזהרה לגבי השעיית חשבון אפשרית במקרה של הפרות נוספות - למעשה שיבוט מתמשך של OpenAI מדיניות עבור DALL-E 2.

רבות מהתוצאות חסרות את הקצוות הגסים האופייניים של דיפוזיה יציבה. Runway ML הם משקיעים ו שותפי מחקר ב-SD, וייתכן שהם הכשירו מודל קנייני שעדיף על משקולות הקוד הפתוח 1.4 המחסום שכולנו נאבקים איתם כרגע (כפי שקבוצות פיתוח רבות אחרות, חובבים ומקצוענים כאחד, מתאמנות או מכווננות עדין דגמי דיפוזיה יציבים).

החלפת שולחן ביתי ב'שולחן עשוי מקרח' ב-Runway ML Erase and Replace.

החלפת שולחן ביתי ב'שולחן עשוי מקרח' ב-Runway ML Erase and Replace.

כמו באימג'יק (ראה להלן), מחק והחלף הוא 'מונחה עצמים', כביכול - אתה לא יכול פשוט למחוק חלק 'ריק' מהתמונה ולצבוע אותו עם התוצאה של הנחית הטקסט שלך; בתרחיש זה, המערכת פשוט תעקוב אחר העצם הנראה לעין הקרוב ביותר לאורך קו הראייה של המסכה (כגון קיר או טלוויזיה), ותחיל את השינוי שם.

כפי שהשם מעיד, לא ניתן להחדיר אובייקטים לחלל ריק ב'מחק והחלפה'. כאן, מאמץ לזמן את המפורסם ביותר מבין האדונים של סית' מביא לציור קיר מוזר הקשור לוואדר בטלוויזיה, בערך היכן שצויר אזור 'החלף'.

כפי שהשם מעיד, לא ניתן להחדיר אובייקטים לחלל ריק ב'מחק והחלפה'. כאן, מאמץ לזמן את המפורסם ביותר מבין האדונים של סית' מביא לציור קיר מוזר הקשור לוויידר בטלוויזיה, בערך היכן שצויר אזור 'החלף'.

קשה לדעת אם מחק והחלף מתחמק בכל הנוגע לשימוש בתמונות המוגנות בזכויות יוצרים (שעדיין חסומות במידה רבה, אם כי בהצלחה משתנה, ב-DALL-E 2), או אם הדגם המשמש במנוע העיבוד האחורי פשוט לא מותאם לדברים מהסוג הזה.

ה- NSFW המעט NSFW 'Mural of Nicole Kidman' מצביע על כך שהמודל (ככל הנראה) המבוסס על דיפוזיה בהישג יד חסרה את הדחייה השיטתית לשעבר של DALL-E 2 של עיבוד פרצופים ריאליסטיים או תוכן מטורף, בעוד שהתוצאות של ניסיונות להראות יצירות המוגנות בזכויות יוצרים נעות בין המעורפלות ('קסנומורף') לאבסורד ('כס הברזל'). הכנס מימין למטה, תמונת המקור.

ה- NSFW המעט NSFW 'Mural of Nicole Kidman' מצביע על כך שהמודל (ככל הנראה) המבוסס על דיפוזיה בהישג יד חסרה את הדחייה השיטתית לשעבר של DALL-E 2 של עיבוד פרצופים ריאליסטיים או תוכן מטורף, בעוד שהתוצאות של ניסיונות להראות יצירות המוגנות בזכויות יוצרים נעות בין המעורפלות ('קסנומורף') לאבסורד ('כס הברזל'). הכנס מימין למטה, תמונת המקור.

יהיה מעניין לדעת באילו שיטות מחיקה והחלפה משתמשת כדי לבודד את האובייקטים שהיא מסוגלת להחליף. יש להניח שהתמונה עוברת גזירה כלשהי של CLIP, כשהפריטים הבדידים מופרדים על ידי זיהוי אובייקטים ופילוח סמנטי שלאחר מכן. אף אחת מהפעולות הללו לא עובדת בשום מקום באותה מידה בהתקנה משותפת או בגינה של Stable Diffusion.

אבל שום דבר לא מושלם - לפעמים נראה שהמערכת מוחקת ואינה מחליפה, גם כאשר (כפי שראינו בתמונה למעלה), מנגנון הרינדור הבסיסי בהחלט יודע מה המשמעות של הנחית טקסט. במקרה זה, זה בלתי אפשרי להפוך שולחן קפה לקסנומורף - במקום זאת, השולחן פשוט נעלם.

איטרציה מפחידה יותר של 'איפה וולדו', כאשר מחק והחלף לא מצליח לייצר חייזר.

איטרציה מפחידה יותר של 'איפה וולדו', כאשר מחק והחלף לא מצליח לייצר חייזר.

מחק והחלפה נראית כמערכת יעילה להחלפת אובייקטים, עם צביעה מעולה. עם זאת, הוא לא יכול לערוך אובייקטים נתפסים קיימים, אלא רק להחליף אותם. למעשה לשנות תוכן תמונה קיים מבלי להתפשר על חומר סביבתי זו ללא ספק משימה קשה הרבה יותר, הקשורה למאבק הארוך של מגזר חקר הראייה הממוחשבת לקראת התפרקות במרחבים הסמויים השונים של המסגרות הפופולריות.

דמיון

זו משימה שאימאג'יק מטפלת בה. ה מאמר חדש מציע דוגמאות רבות של עריכות שמשנות בהצלחה היבטים בודדים של תמונה תוך השארת שאר התמונה ללא נגיעה.

באימג'יק, התמונות המתוקנות אינן סובלות ממתיחה אופיינית, עיוות ו'ניחוש חסימה' האופייניים ל-deepfake puppet, המשתמשת בפרורים מוגבלים שנגזרים מתמונה בודדת.

באימג'יק, התמונות המתוקנות אינן סובלות ממתיחה אופיינית, עיוות ו'ניחוש חסימה' האופייניים ל-deepfake puppet, המשתמשת בפרורים מוגבלים שנגזרים מתמונה בודדת.

המערכת מפעילה תהליך בן שלושה שלבים - אופטימיזציה של הטבעת טקסט; כוונון עדין של הדגם; ולבסוף, הדור של התמונה המתוקנת.

Imagic מקודד את הנחיית טקסט היעד כדי לאחזר את הטבעת הטקסט הראשונית, ולאחר מכן מייעל את התוצאה כדי לקבל את תמונת הקלט. לאחר מכן, המודל הגנרטיבי מכוון עדין לתמונת המקור, תוך הוספת מגוון פרמטרים, לפני שהוא נתון לאינטרפולציה המבוקשת.

Imagic מקודד את הנחיית טקסט היעד כדי לאחזר את הטבעת הטקסט הראשונית, ולאחר מכן מייעל את התוצאה כדי לקבל את תמונת הקלט. לאחר מכן, המודל הגנרטיבי מכוון עדין לתמונת המקור, תוך הוספת מגוון פרמטרים, לפני שהוא נתון לאינטרפולציה המבוקשת.

באופן לא מפתיע, המסגרת מבוססת על זו של גוגל תמונה ארכיטקטורת טקסט לווידאו, אם כי החוקרים קובעים שעקרונות המערכת ישימים באופן נרחב על מודלים של דיפוזיה סמויה.

אימג'ן משתמשת בארכיטקטורה של שלוש שכבות, במקום במערך שבע השכבות המשמש למערך העדכני יותר של החברה איטרציה של טקסט לווידאו של התוכנה. שלושת המודולים הנבדלים מהווים מודל דיפוזיה מחולל הפועל ברזולוציה של 64x64 פיקסלים; דגם ברזולוציית סופר שמשדרג את הפלט הזה ל-256x256px; ודגם נוסף ברזולוציית סופר כדי לקחת פלט עד רזולוציית 1024×1024.

אימג'יק מתערבת בשלב המוקדם ביותר של תהליך זה, מייעלת את הטמעת הטקסט המבוקש בשלב 64 פיקסלים ב-Adam Optimizer בקצב למידה סטטי של 0.0001.

כיתת אמן בהתנתקות: אותם משתמשי קצה שניסו לשנות משהו פשוט כמו צבע של אובייקט שעבר בדיפוזיה, מודל GAN או NeRF יידעו עד כמה זה משמעותי שאימאג'יק יכולה לבצע טרנספורמציות כאלה מבלי 'להתפרק' ' העקביות של שאר התמונה.

כיתת אמן בהתנתקות: אותם משתמשי קצה שניסו לשנות משהו פשוט כמו צבע של אובייקט שעבר בדיפוזיה, מודל GAN או NeRF יידעו עד כמה זה משמעותי שאימאג'יק יכולה לבצע טרנספורמציות כאלה מבלי 'להיקרע'. ' העקביות של שאר התמונה.

לאחר מכן מתרחש כוונון עדין בדגם הבסיס של Imagen, עבור 1500 צעדים לכל תמונת קלט, מותנה בהטמעה המתוקנת. במקביל, השכבה המשנית של 64px>256px עוברת אופטימיזציה במקביל בתמונה המותנית. החוקרים מציינים שלאופטימיזציה דומה עבור השכבה הסופית 256px>1024px יש "מעט עד ללא השפעה" על התוצאות הסופיות, ולכן לא יישמו זאת.

המאמר מציין שתהליך האופטימיזציה אורך כשמונה דקות עבור כל תמונה על תאומים TPUV4 צ'יפס. העיבוד הסופי מתרחש ב-Image הליבה מתחת ל- ערכת דגימה של DDIM.

במשותף עם תהליכי כוונון דומים של גוגל תא חלומות, ניתן להשתמש בהטמעות המתקבלות בנוסף להעצמת סגנונות, כמו גם לעריכות פוטוריאליסטיות המכילות מידע שנלקח ממסד הנתונים הבסיסי הרחב יותר המניע את Imagen (מאחר שכפי שהעמודה הראשונה להלן מראה, לתמונות המקור אין שום תוכן הדרוש כדי להשפיע על טרנספורמציות אלה).

ניתן להעלות תנועה ועריכות פוטוריאליות גמישות באמצעות Imagic, בעוד שהקודים הנגזרים והמפורקים המתקבלים בתהליך יכולים לשמש באותה קלות לפלט מסוגנן.

ניתן להעלות תנועה ועריכות פוטוריאליות גמישות באמצעות Imagic, בעוד שהקודים הנגזרים והמפורקים המתקבלים בתהליך יכולים לשמש באותה קלות לפלט מסוגנן.

החוקרים השוו את Imagic לעבודות קודמות SDEdit, גישה מבוססת GAN משנת 2021, שיתוף פעולה בין אוניברסיטת סטנפורד ואוניברסיטת קרנגי מלון; ו Text2Live, שיתוף פעולה, מאפריל 2022, בין מכון ויצמן למדע ו-NVIDIA.

השוואה ויזואלית בין Imagic, SDEdit ו-Text2Live.

השוואה ויזואלית בין Imagic, SDEdit ו-Text2Live.

ברור שהגישות הקודמות מתקשות, אבל בשורה התחתונה, שכוללת שילוב של שינוי מסיבי של תנוחה, בעלי התפקידים לא מצליחים לשנות את צורת חומר המקור, לעומת הצלחה בולטת של אימג'יק.

דרישות המשאבים וזמן ההכשרה של אימג'יק לתמונה, למרות שהם קצרים בסטנדרטים של עיסוקים כאלה, הופכים אותה לבלתי סביר להכללה באפליקציה מקומית לעריכת תמונות במחשבים אישיים - ולא ברור באיזו מידה תהליך הכוונון יכול להיות מצטמצם לרמות הצרכנים.

כפי שהיא עומדת, Imagic היא הצעה מרשימה שמתאימה יותר לממשקי API - סביבה ש-Google Research, צרור ביקורת בכל הקשור לזיוף עמוק, עשויה בכל מקרה להיות הכי נוחה איתה.

 

פורסם לראשונה ב-18 באוקטובר 2022.