ืืืืืืช ืฉื Anderson
ืืืจื ืืขืจืืืช ืืืืื ืืฉืืคืจืช ืืืืฆืขืืช AI

תחום המחקר של סינתזה של וידאו/תמונות מפיק באופן קבוע ארכיטקטורות של עריכת וידאו, וב-9 החודשים האחרונים, יציאות מסוג זה הפכו לתדירות יותר. עם זאת, רובם מייצגים רק התקדמות מוגבלת במצב האמנות, מאחר שהאתגרים העיקריים הם משמעותיים.
היום, שיתוף פעולה חדש בין סין ליפן הפיק דוגמאות שראוי לבחון את הגישה, אפילו אם אינה בהכרח עבודה חלוצית.
בקליפ הווידאו למטה (מאתר הפרויקט המשויך, ש- תיאזהרו, עלול להיתקע בדפדפן) ניתן לראות כי בעוד שיכולות ה-Deepfaking של המערכת אינן קיימות בקונפיגורציה הנוכחית, המערכת עושה עבודה טובה בשינוי משמעותי ומשכנע של זהות האישה הצעירה בתמונה, על בסיס מסכת וידאו (בתחתית-שמאל):
לחץ לשחק. על בסיס מסכת הסגמנטציה המוויזואלית בתחתית-שמאל, האישה המקורית (בחלק העליון-שמאל) משתנה לזהות בולטת, אף על פי שתהליך זה אינו משיג את חילופי הזהות המצוינים בפרומפט. מקור: https://yxbian23.github.io/project/video-painter/ (היזהרו, בעת כתיבת המאמר, אתר זה, שמלא בווידאו, נטה להיתקע בדפדפן). בבקשה, התייחסו לסרטונים המקוריים, אם אתם יכולים לגשת אליהם, לרזולוציה ופרטים טובים יותר, או בדקו את הדוגמאות בווידאו המקיף של הפרויקט ב-https://www.youtube.com/watch?v=HYzNfsD3A0s
עריכה מבוססת מסכה מסוג זה היא מוכרת היטב במודלים דיפוזיביים לטנטיים סטטיים, באמצעות כלים כמו ControlNet. עם זאת, שמירה על עקביות רקע בווידאו היא מאתגרת הרבה יותר, אפילו כאשר אזורים ממוסכים מספקים למודל גמישות יצירתית, כפי שמוצג למטה:
לחץ לשחק. שינוי מין, עם שיטת VideoPainter החדשה. בבקשה, התייחסו לסרטונים המקוריים, אם אתם יכולים לגשת אליהם, לרזולוציה ופרטים טובים יותר, או בדקו את הדוגמאות בווידאו המקיף של הפרויקט ב-https://www.youtube.com/watch?v=HYzNfsD3A0s
מחברי העבודה החדשה שוקלים את שיטתם ביחס לארכיטקטורה BrushNet של Tencent (ש-סקרנו בשנה שעברה), ול-ControlNet, שתיהן עוסקות בארכיטקטורה דו-ענפית המסוגלת לבודד את יצירת הרקע והקדמה.
עם זאת, יישום ישיר של שיטה זו לגישת Diffusion Transformers (DiT) המוצעת על ידי Sora של OpenAI, מעלה אתגרים מיוחדים, כפי שמציינים המחברים:
‘[יישום ישיר] של [הארכיטקטורה של BrushNet ו-ControlNet] ל-Video DiTs מציג מספר אתגרים: [ראשית, בשל] יסוד הייצור החזק וגודל המודל הכבד של Video DiT, שיחזור ה-Video DiT המלא/חצי-ענק כמקודד הקונטקסט יהיה מיותר ואינו מעשי מבחינה חישובית.
‘[שנית, בניגוד] ל-BrushNet, שענף הבקרה הטהור הוא קונבולוציה, טוקנים באזורים ממוסכים של DiT מכילים באופן טבעי מידע רקע בשל תשומת לב גלובלית, מסבכים את ההבחנה בין אזורים ממוסכים ולא-ממוסכים ב- DiT.
‘[לבסוף,] ControlNet חסר הזרקת תכונות בכל השכבות, מונע את הבקרה הצפופה של הרקע למשימות אינפיינטינג.’
לפיכך, החוקרים פיתחו גישה Plug-and-Play בצורת מסגרת דו-ענפית בשם VideoPainter.
VideoPainter מציע מסגרת דו-ענפית לאינפיינטינג וידאו, המשפרת את ה-DiTs המאומנים מראש עם מקודד קונטקסט קל משקל. מקודד זה מהווה רק 6% מפרמטרי הגב, שאותם טוענים המחברים כי הופך את הגישה ליעילה יותר משיטות קונבנציונליות.
המודל מציע שלוש חידושים מרכזיים: מקודד קונטקסט מזרם בן שתי שכבות להנחיה רקע יעילה; מערכת אינטגרציה של תכונות נבחרות על ידי מסכה, המפרידה בין טוקנים ממוסכים ולא-ממוסכים; וטכניקת דגימה מחדש של ID אזור האינפיינטינג, השומרת על עקביות זהות לאורך רצפי וידאו ארוכים.
על ידי קיפאון של ה-DiTs המאומנים מראש ומקודד הקונטקסט, תוך הכנסת ID-Adapter, VideoPainter מבטיח שטוקנים של אזורי אינפיינטינג מקליפים קודמים נשמרים לאורך וידאו, מה שמפחית פליטות ואי-עקביות.
המסגרת תוכננה גם לתאימות Plug-and-Play, המאפשרת למשתמשים לש












