בינה מלאכותית
עריכת אובייקטים בסיוע בינה מלאכותית עם Imagic של גוגל ו-'מחק והחלף' של Runway
השבוע שני אלגוריתמים גרפיים חדשים, אך מנוגדים מונעי בינה מלאכותית, מציעים דרכים חדשות למשתמשי קצה לבצע שינויים פרטניים ויעילים ביותר באובייקטים בתמונות.
הראשון הוא דמיון, מ-Google Research, בשיתוף המכון הטכנולוגי הישראלי ומכון ויצמן למדע. אימג'יק מציעה עריכה מותנית בטקסט של אובייקטים באמצעות כוונון עדין של מודלים של דיפוזיה.
כל מי שאי פעם ניסה לשנות רק אלמנט אחד בעיבוד מחדש של Stable Diffusion יידע טוב מדי שלכל עריכה מוצלחת, המערכת תשנה חמישה דברים שאהבתם בדיוק כפי שהם היו. זהו חיסרון שכרגע רבים מחובבי ה-SD המוכשרים ביותר מדשדשים ללא הרף בין Stable Diffusion לפוטושופ, כדי לתקן סוג זה של 'נזק נלווה'. מנקודת מבט זו בלבד, ההישגים של אימג'יק נראים בולטים.
בזמן הכתיבה, ל-Imagic עדיין חסר אפילו סרטון תדמית, ובהתחשב בזה של גוגל יחס זהיר לשחרור כלי סינתזת תמונות ללא גבולות, לא בטוח באיזו מידה, אם בכלל, נקבל הזדמנות לבדוק את המערכת.
ההצעה השנייה היא הנגישה יותר של Runway ML מחק והחלף מתקן, א תכונה חדשה בקטע 'כלי קסם של AI' בחבילה המקוונת הבלעדית שלה של כלי עזר לאפקטים חזותיים מבוססי למידת מכונה.
בואו נסתכל קודם על היציאה של Runway.
מחק והחלף
כמו Imagic, Erase and Replace עוסק אך ורק בתמונות סטילס, אם כי ל-Runway יש תצוגה מקדימה אותה פונקציונליות בפתרון עריכת טקסט לווידאו שעדיין לא פורסם:
למרות ש-Runway ML לא פרסמה פרטים על הטכנולוגיות שמאחורי 'מחק והחלפה', המהירות שבה אתה יכול להחליף צמח בית בחזה משכנע למדי של רונלד רייגן מעידה על כך שמודל דיפוזיה כמו דיפוזיה יציבה (או, הרבה פחות סביר, מורשה DALL-E 2) הוא המנוע שממציא מחדש את האובייקט לבחירתך ב'מחק והחלפה'.
למערכת יש כמה הגבלות מסוג DALL-E 2 - תמונות או טקסט המסמן את המסננים 'מחק והחלפה' יפעילו אזהרה לגבי השעיית חשבון אפשרית במקרה של הפרות נוספות - למעשה שיבוט מתמשך של OpenAI מדיניות עבור DALL-E 2.
רבות מהתוצאות חסרות את הקצוות הגסים האופייניים של דיפוזיה יציבה. Runway ML הם משקיעים ו שותפי מחקר ב-SD, וייתכן שהם הכשירו מודל קנייני שעדיף על משקולות הקוד הפתוח 1.4 המחסום שכולנו נאבקים איתם כרגע (כפי שקבוצות פיתוח רבות אחרות, חובבים ומקצוענים כאחד, מתאמנות או מכווננות עדין דגמי דיפוזיה יציבים).
כמו באימג'יק (ראה להלן), מחק והחלף הוא 'מונחה עצמים', כביכול - אתה לא יכול פשוט למחוק חלק 'ריק' מהתמונה ולצבוע אותו עם התוצאה של הנחית הטקסט שלך; בתרחיש זה, המערכת פשוט תעקוב אחר העצם הנראה לעין הקרוב ביותר לאורך קו הראייה של המסכה (כגון קיר או טלוויזיה), ותחיל את השינוי שם.
קשה לדעת אם מחק והחלף מתחמק בכל הנוגע לשימוש בתמונות המוגנות בזכויות יוצרים (שעדיין חסומות במידה רבה, אם כי בהצלחה משתנה, ב-DALL-E 2), או אם הדגם המשמש במנוע העיבוד האחורי פשוט לא מותאם לדברים מהסוג הזה.
יהיה מעניין לדעת באילו שיטות מחיקה והחלפה משתמשת כדי לבודד את האובייקטים שהיא מסוגלת להחליף. יש להניח שהתמונה עוברת גזירה כלשהי של CLIP, כשהפריטים הבדידים מופרדים על ידי זיהוי אובייקטים ופילוח סמנטי שלאחר מכן. אף אחת מהפעולות הללו לא עובדת בשום מקום באותה מידה בהתקנה משותפת או בגינה של Stable Diffusion.
אבל שום דבר לא מושלם - לפעמים נראה שהמערכת מוחקת ואינה מחליפה, גם כאשר (כפי שראינו בתמונה למעלה), מנגנון הרינדור הבסיסי בהחלט יודע מה המשמעות של הנחית טקסט. במקרה זה, זה בלתי אפשרי להפוך שולחן קפה לקסנומורף - במקום זאת, השולחן פשוט נעלם.
מחק והחלפה נראית כמערכת יעילה להחלפת אובייקטים, עם צביעה מעולה. עם זאת, הוא לא יכול לערוך אובייקטים נתפסים קיימים, אלא רק להחליף אותם. למעשה לשנות תוכן תמונה קיים מבלי להתפשר על חומר סביבתי זו ללא ספק משימה קשה הרבה יותר, הקשורה למאבק הארוך של מגזר חקר הראייה הממוחשבת לקראת התפרקות במרחבים הסמויים השונים של המסגרות הפופולריות.
דמיון
זו משימה שאימאג'יק מטפלת בה. ה מאמר חדש מציע דוגמאות רבות של עריכות שמשנות בהצלחה היבטים בודדים של תמונה תוך השארת שאר התמונה ללא נגיעה.
המערכת מפעילה תהליך בן שלושה שלבים - אופטימיזציה של הטבעת טקסט; כוונון עדין של הדגם; ולבסוף, הדור של התמונה המתוקנת.
באופן לא מפתיע, המסגרת מבוססת על זו של גוגל תמונה ארכיטקטורת טקסט לווידאו, אם כי החוקרים קובעים שעקרונות המערכת ישימים באופן נרחב על מודלים של דיפוזיה סמויה.
אימג'ן משתמשת בארכיטקטורה של שלוש שכבות, במקום במערך שבע השכבות המשמש למערך העדכני יותר של החברה איטרציה של טקסט לווידאו של התוכנה. שלושת המודולים הנבדלים מהווים מודל דיפוזיה מחולל הפועל ברזולוציה של 64x64 פיקסלים; דגם ברזולוציית סופר שמשדרג את הפלט הזה ל-256x256px; ודגם נוסף ברזולוציית סופר כדי לקחת פלט עד רזולוציית 1024×1024.
אימג'יק מתערבת בשלב המוקדם ביותר של תהליך זה, מייעלת את הטמעת הטקסט המבוקש בשלב 64 פיקסלים ב-Adam Optimizer בקצב למידה סטטי של 0.0001.
לאחר מכן מתרחש כוונון עדין בדגם הבסיס של Imagen, עבור 1500 צעדים לכל תמונת קלט, מותנה בהטמעה המתוקנת. במקביל, השכבה המשנית של 64px>256px עוברת אופטימיזציה במקביל בתמונה המותנית. החוקרים מציינים שלאופטימיזציה דומה עבור השכבה הסופית 256px>1024px יש "מעט עד ללא השפעה" על התוצאות הסופיות, ולכן לא יישמו זאת.
המאמר מציין שתהליך האופטימיזציה אורך כשמונה דקות עבור כל תמונה על תאומים TPUV4 צ'יפס. העיבוד הסופי מתרחש ב-Image הליבה מתחת ל- ערכת דגימה של DDIM.
במשותף עם תהליכי כוונון דומים של גוגל תא חלומות, ניתן להשתמש בהטמעות המתקבלות בנוסף להעצמת סגנונות, כמו גם לעריכות פוטוריאליסטיות המכילות מידע שנלקח ממסד הנתונים הבסיסי הרחב יותר המניע את Imagen (מאחר שכפי שהעמודה הראשונה להלן מראה, לתמונות המקור אין שום תוכן הדרוש כדי להשפיע על טרנספורמציות אלה).
החוקרים השוו את Imagic לעבודות קודמות SDEdit, גישה מבוססת GAN משנת 2021, שיתוף פעולה בין אוניברסיטת סטנפורד ואוניברסיטת קרנגי מלון; ו Text2Live, שיתוף פעולה, מאפריל 2022, בין מכון ויצמן למדע ו-NVIDIA.
ברור שהגישות הקודמות מתקשות, אבל בשורה התחתונה, שכוללת שילוב של שינוי מסיבי של תנוחה, בעלי התפקידים לא מצליחים לשנות את צורת חומר המקור, לעומת הצלחה בולטת של אימג'יק.
דרישות המשאבים וזמן ההכשרה של אימג'יק לתמונה, למרות שהם קצרים בסטנדרטים של עיסוקים כאלה, הופכים אותה לבלתי סביר להכללה באפליקציה מקומית לעריכת תמונות במחשבים אישיים - ולא ברור באיזו מידה תהליך הכוונון יכול להיות מצטמצם לרמות הצרכנים.
כפי שהיא עומדת, Imagic היא הצעה מרשימה שמתאימה יותר לממשקי API - סביבה ש-Google Research, צרור ביקורת בכל הקשור לזיוף עמוק, עשויה בכל מקרה להיות הכי נוחה איתה.
פורסם לראשונה ב-18 באוקטובר 2022.