בדל DynamiCrafter: הנפשת תמונות בדומיין פתוח עם קדימות של פיזור וידאו - Unite.AI
צור קשר

בינה מלאכותית

DynamiCrafter: אנימציה של תמונות בדומיין פתוח עם מקדימות של פיזור וידאו

mm

יצא לאור

 on

DynamiCrafter: אנימציה של תמונות בדומיין פתוח עם מקדימות של פיזור וידאו

ראיית מחשב הוא אחד התחומים המרגשים והנחקרים ביותר בקהילת הבינה המלאכותית כיום, ולמרות השיפור המהיר של דגמי הראייה הממוחשבת, אתגר רב שנים שעדיין מטריד מפתחים הוא אנימציית תמונה. גם כיום, מסגרות של אנימציה לתמונה נאבקות להמיר תמונות סטילס למקבילות הווידאו שלהן המציגות דינמיקה טבעית תוך שמירה על המראה המקורי של התמונות. באופן מסורתי, מסגרות של אנימציה תמונה מתמקדות בעיקר בהנפשת סצנות טבעיות עם תנועות ספציפיות לתחום כמו שיער אדם או תנועות גוף, או דינמיקה סטוכסטית כמו נוזלים ועננים. למרות שגישה זו עובדת במידה מסוימת, היא מגבילה את הישימות של מסגרות האנימציה הללו לתוכן ויזואלי כללי יותר. 

יתר על כן, גישות קונבנציונליות של הנפשת תמונה מתרכזות בעיקר בסינתזה של תנועות נדנודות וסטוכסטיות, או בהתאמה אישית לקטגוריות אובייקט ספציפיות. עם זאת, פגם בולט בגישה הוא ההנחות החזקות המוטלות על שיטות אלו, אשר בסופו של דבר מגבילות את הישימות שלהן במיוחד על פני תרחישים כלליים כמו אנימציית תמונה בדומיין פתוח. במהלך השנים האחרונות, דגמי T2V או טקסט לווידאו הפגינו הצלחה יוצאת דופן ביצירת סרטונים חיים ומגוונים באמצעות הנחיות טקסטואליות, והדגמה זו של דגמי T2V היא מה שמהווה את הבסיס למסגרת DynamiCrafter. 

המסגרת של DynamiCrafter היא ניסיון להתגבר על המגבלות הנוכחיות של מודלים של אנימציית תמונות ולהרחיב את הישימות שלהם לתרחישים גנריים הכוללים תמונות בעולם פתוח. המסגרת של DynamiCrafter מנסה לסנתז תוכן דינמי עבור תמונות בדומיין פתוח, ולהמיר אותן לסרטוני אנימציה. הרעיון המרכזי מאחורי DynamiCrafter הוא לשלב את התמונה כהדרכה בתהליך היצירתי בניסיון לנצל את התנועה הקודמת של מודלים של דיפוזיה של טקסט לווידאו שכבר קיימים. עבור תמונה נתונה, המודל של DynamiCrafter מיישם תחילה שנאי שאילתות המקרין את התמונה לתוך חלל ייצוג קונטקסט עשיר מיושר טקסט, מה שמקל על מודל הווידאו לעכל את תוכן התמונה באופן תואם. עם זאת, מודל DynamiCrafter עדיין מתקשה לשמר כמה פרטים ויזואליים בסרטוני הווידאו שנוצרו, בעיה שמודל DynamiCrafter מתגבר עליה על ידי הזנת התמונה המלאה למודל הדיפוזיה על ידי שרשור התמונה עם הרעשים הראשוניים, ולכן משלים את המודל עם תמונה מדויקת יותר מֵידָע. 

מאמר זה נועד לכסות את המסגרת של DynamiCrafter לעומק, ואנו בוחנים את המנגנון, המתודולוגיה, הארכיטקטורה של המסגרת יחד עם ההשוואה שלה למסגרות ליצירת תמונות ווידאו מתקדמות. אז בואו נתחיל. 

DynamiCrafter: אנימציית תמונות בדומיין פתוח

הנפשת תמונת סטילס מציעה לעתים קרובות חוויה ויזואלית מרתקת לקהל, שכן נראה שהיא מביאה את תמונת הסטילס לחיים. במהלך השנים, מסגרות רבות חקרו שיטות שונות להנפשת תמונות סטילס. מסגרות הנפשה ראשוניות יישמו גישות מבוססות סימולציה פיזית שהתמקדו בהדמיית תנועה של אובייקטים ספציפיים. עם זאת, בשל המודל העצמאי של כל קטגוריית אובייקט, גישות אלו לא היו יעילות ולא היו להן יכולת הכללה. כדי לשכפל תנועות מציאותיות יותר, הופיעו שיטות מבוססות התייחסות שהעבירו מידע על תנועה או מראה מאותות התייחסות כמו סרטונים לתהליך הסינתזה. למרות שגישות מבוססות התייחסות הניבו תוצאות טובות יותר עם קוהרנטיות זמנית טובה יותר בהשוואה לגישות מבוססות סימולציה, הן היו זקוקות להדרכה נוספת שהגבילה את היישומים המעשיים שלהן. 

בשנים האחרונות, רוב מסגרות האנימציה מתמקדות בעיקר בהנפשת סצנות טבעיות עם תנועות סטוכסטיות, ספציפיות לתחום או תנודות. למרות שהגישה המיושמת על ידי מסגרות אלו עובדת במידה מסוימת, התוצאות שמייצרות מסגרות אלו אינן משביעות רצון, עם מקום משמעותי לשיפור. התוצאות המדהימות שהושגו על ידי מודלים מחוללים של טקסט לווידאו בשנים האחרונות העניקו השראה למפתחי המסגרת של DynamiCrafter למנף את היכולות היצירתיות החזקות של מודלים של טקסט לווידאו להנפשת תמונה. 

הבסיס המרכזי של מסגרת DynamiCrafter הוא לשלב תמונה מותנית בניסיון לשלוט בתהליך יצירת הווידאו של מודלים של פיזור טקסט לווידאו. עם זאת, המטרה הסופית של אנימציית תמונה עדיין לא טריוויאלית שכן אנימציית תמונה דורשת שימור פרטים כמו גם הבנת הקשרים חזותיים החיוניים ליצירת דינמיקה. עם זאת, דגמי פיזור וידאו רב-מודאליים הניתנים לשליטה כמו VideoComposer ניסו לאפשר יצירת וידאו עם הדרכה חזותית מתמונה. עם זאת, גישות אלה אינן מתאימות לאנימציית תמונה מכיוון שהן גורמות לשינויים זמניים פתאומיים או להתאמה ויזואלית נמוכה לתמונת הקלט בשל מנגנוני הזרקת התמונה הפחות מקיפים שלהם. כדי להתמודד עם מכשול זה, המסגרת של DyaniCrafter מציעה גישת הזרקת זרם כפול, המורכבת מהנחיית פרטים חזותיים, וייצוג הקשר מיושר טקסט. גישת הזרקת הזרימה הכפולה מאפשרת למסגרת DynamiCrafter להבטיח שמודל הפצת הווידאו מסנתז תוכן דינמי שנשמר בפרטים באופן משלים. 

עבור תמונה נתונה, המסגרת של DynamiCrafter מקרינה תחילה את התמונה לתוך מרחב ייצוג ההקשר מיושר הטקסט באמצעות רשת למידת הקשר שתוכננה במיוחד. ליתר דיוק, מרחב ייצוג ההקשר מורכב משנאי שאילתות שניתן ללמוד כדי לקדם עוד יותר את ההתאמה שלו למודלים של הדיפוזיה, ומקודד תמונה CLIP מאומן מראש לחילוץ תכונות תמונה מיושרות טקסט. לאחר מכן, המודל משתמש במאפייני ההקשר העשירים באמצעות שכבות תשומת לב צולבת, והמודל משתמש ב-Gated fusion כדי לשלב תכונות טקסט אלו עם שכבות תשומת לב צולבת. עם זאת, גישה זו מחליפה את ייצוגי ההקשר הנלמדים עם פרטים חזותיים מיושרים לטקסט המאפשרים הבנה סמנטית של הקשר תמונה המאפשרת לסנתז דינמיקה סבירה וחיה. יתר על כן, בניסיון להשלים פרטים ויזואליים נוספים, המסגרת משרשרת את התמונה המלאה עם הרעש הראשוני למודל הדיפוזיה. כתוצאה מכך, גישת ההזרקה הכפולה המיושמת על ידי מסגרת DynamiCrafter מבטיחה התאמה ויזואלית כמו גם תוכן דינמי סביר לתמונת הקלט. 

בהמשך, מודלים של דיפוזיה או DMs הוכיחו ביצועים יוצאי דופן ויכולת ייצור ביצירת T2I או טקסט לתמונה. כדי לשכפל את ההצלחה של דגמי T2I ליצירת וידאו, מוצעים מודלים של VDM או Video Diffusion המשתמשים בארכיטקטורת U-New מחולקת לפי מרחב-זמן בחלל הפיקסלים כדי לדגמן סרטונים ברזולוציה נמוכה. העברת הלמידה של מסגרות T2I למסגרות T2V תסייע בהפחתת עלויות ההדרכה. למרות שלמודלים של VDM או Video Diffusion יש את היכולת ליצור סרטונים באיכות גבוהה, הם מקבלים רק הנחיות טקסט כהדרכה הסמנטית היחידה שעשויה לא לשקף את כוונותיו האמיתיות של המשתמש או להיות מעורפלות. עם זאת, התוצאות של רוב דגמי ה-VDM כמעט ואינן נצמדות לתמונת הקלט וסובלות מבעיית הווריאציה הזמנית הלא מציאותית. גישת DynamiCrafter בנויה על מודלים של פיזור וידאו מותני טקסט הממנפים את הדינמיקה העשירה שלהם להנפשת תמונות בדומיין פתוח. הוא עושה זאת על ידי שילוב עיצובים מותאמים להבנה סמנטית טובה יותר והתאמה לתמונת הקלט. 

DynamiCrafter: שיטה וארכיטקטורה

עבור תמונת סטילס נתונה, המסגרת של DyanmiCrafter מנסה להנפיש את תמונה לסרטון כלומר הפקת וידאו קליפ קצר. הווידאו קליפ יורש את התוכן הוויזואלי מהתמונה, ומפגין דינמיקה טבעית. עם זאת, קיימת אפשרות שהתמונה עשויה להופיע במיקום השרירותי של רצף הפריימים המתקבל. הופעת תמונה במיקום שרירותי היא סוג מיוחד של אתגר הנצפה במשימות יצירת וידאו מותנות בתמונה עם דרישות התאמה ויזואלית גבוהות. המסגרת של DynamiCrafter מתגברת על אתגר זה על ידי ניצול הקודמים היצירתיים של מודלים של דיפוזי וידאו מאומנים מראש. 

דינמיקת תמונה מ-Video Diffusion Prer

בדרך כלל, ידוע כי מודלים של דיפוזיה של טקסט מתחום פתוח לווידאו מציגים תוכן חזותי דינמי במודל של התניה על תיאורי טקסט. כדי להנפיש תמונת סטילס עם קודים יצירתיים של טקסט לווידאו, על המסגרות להחדיר תחילה את המידע החזותי בתהליך יצירת הווידאו בצורה מקיפה. יתר על כן, עבור סינתזה דינמית, מודל ה-T2V צריך לעכל את התמונה להבנת ההקשר, בעוד שהוא אמור להיות מסוגל גם לשמר את הפרטים החזותיים בסרטוני הווידאו שנוצרו. 

ייצוג הקשר מיושר טקסט

כדי להנחות יצירת וידאו עם הקשר תמונה, מסגרת DynamiCrafter מנסה להקרין את התמונה לתוך חלל הטבעה מיושר המאפשר למודל הווידאו להשתמש במידע התמונה בצורה תואמת. בעקבות זאת, המסגרת של DynamiCrafter משתמשת במקודד התמונה כדי לחלץ תכונות תמונה מתמונת הקלט מאחר והטבעות הטקסט נוצרות באמצעות מקודד טקסט CLIP מאומן מראש. כעת, למרות שהאסימונים הסמנטיים הגלובליים ממקודד התמונה CLIP מיושרים עם כתוביות התמונה, הוא מייצג בעיקר את התוכן החזותי ברמה הסמנטית, ובכך לא מצליח ללכוד את מלוא היקף התמונה. המסגרת של DynamiCrafter מיישמת אסימונים חזותיים מלאים מהשכבה האחרונה של מקודד ה-CLIP כדי לחלץ מידע שלם יותר מאחר שאסימונים חזותיים אלה מפגינים נאמנות גבוהה במשימות יצירת תמונות מותנות. יתר על כן, המסגרת משתמשת בהטמעות הקשר וטקסט כדי ליצור אינטראקציה עם תכונות הביניים של U-Net באמצעות שכבות תשומת לב צולבת כפולה. העיצוב של רכיב זה מקל על יכולתו של הדגם לספוג תנאי תמונה באופן תלוי שכבה. יתרה מזאת, מכיוון ששכבות הביניים של ארכיטקטורת U-Net מתקשרות יותר לתנוחות או צורות של אובייקט, צפוי שתכונות התמונה ישפיעו בעיקר על מראה הסרטונים, במיוחד מכיוון ששכבות שני הקצוות מקושרות יותר למראה. 

הנחיית פרטים חזותיים

המסגרת של DyanmiCrafter משתמשת בייצוג קונטקסט עשיר ואינפורמטיבי המאפשר למודל דיפוזי הווידאו בארכיטקטורה שלו לייצר סרטונים הדומים מאוד לתמונת הקלט. עם זאת, כפי שהודגם בתמונה הבאה, התוכן שנוצר עשוי להציג אי התאמות מסוימות עקב היכולת המוגבלת של מקודד ה-CLIP המאומן מראש לשמר את המידע הקלט לחלוטין, מכיוון שהוא תוכנן ליישר שפה ותכונות חזותיות. 

כדי לשפר את ההתאמה החזותית, המסגרת של DynamiCrafter מציעה לספק למודל דיפוזיית הווידאו פרטים חזותיים נוספים שנשלפו מתמונת הקלט. כדי להשיג זאת, דגם DyanmiCrafter משרשר את התמונה המותנית עם רעש ראשוני פר-פריים ומזין אותם לרכיב ה-U-Net המהווה כהנחיה. 

פרדיגמת אימון

מסגרת DynamiCrafter משלבת את התמונה המותנית באמצעות שני זרמים משלימים הממלאים תפקיד משמעותי בהנחיית פרטים ובקרת הקשר. כדי להקל על אותו הדבר, מודל DynamiCrafter משתמש בתהליך הכשרה בן שלושה שלבים

  1. בשלב הראשון, המודל מאמן את רשת ייצוג ההקשר של התמונה. 
  2. בשלב השני, המודל מתאים את רשת ייצוג ההקשר של התמונה למודל הטקסט לווידאו. 
  3. בשלב השלישי והאחרון, המודל מכוונן עדין את רשת ייצוג ההקשר של התמונה ביחד עם רכיב ה-Visual Detail Guidance. 

כדי להתאים מידע תמונה לתאימות עם מודל ה-Text-to-Video (T2V), מסגרת DynamiCrafter מציעה לפתח רשת ייצוג הקשר, P, המיועדת ללכוד פרטים חזותיים מיושרים לטקסט מהתמונה הנתונה. מתוך הכרה בכך ש-P דורש שלבי אופטימיזציה רבים להתכנסות, גישת המסגרת כוללת אימון ראשוני שלה באמצעות מודל פשוט יותר של טקסט לתמונה (T2I). אסטרטגיה זו מאפשרת לרשת ייצוג ההקשר להתרכז בלמידה על הקשר התמונה לפני שילובו עם מודל T2V באמצעות אימון משותף עם P והשכבות המרחביות, בניגוד לשכבות הזמניות, של מודל T2V. 

כדי להבטיח תאימות T2V, המסגרת של DyanmiCrafter ממזגת את תמונת הקלט עם רעש פר-פריים, וממשיכה לכוונן עדין את השכבות המרחביות של ה-P וגם של מודל ההבחנה החזותית (VDM). שיטה זו נבחרה כדי לשמור על שלמות התובנות הזמניות הקיימות של דגם ה-T2V ללא ההשפעות השליליות של מיזוג תמונה צפוף, שעלול לפגוע בביצועים ולסטות מהמטרה העיקרית שלנו. יתרה מכך, המסגרת משתמשת באסטרטגיה של בחירה אקראית של מסגרת וידאו כתנאי התמונה להשגת שתי מטרות: (i) למנוע מהרשת לפתח תבנית צפויה המקשרת ישירות את התמונה הממוזגת למיקום מסגרת ספציפי, ו-(ii) כדי לעודד ייצוג הקשר מותאם יותר על ידי מניעת אספקת מידע נוקשה מדי עבור כל מסגרת מסוימת. 

DynamiCrafter: ניסויים ותוצאות

המסגרת של DynamiCrafter מאמנת תחילה את רשת ייצוג ההקשר ואת שכבות תשומת הלב הצולבת של התמונה ב-Stable Diffusion. המסגרת אז מחליפה את דיפוזיה יציבה רכיב עם VideoCrafter ומכוון עוד יותר את רשת ייצוג ההקשר והשכבות המרחביות להתאמה, ועם שרשור תמונה. בהסקת מסקנות, המסגרת מאמצת את דגימת ה-DDIM עם הדרכה ללא מסווג מרובים מצבים. יתר על כן, כדי להעריך את הקוהרנטיות והאיכות הזמנית של הסרטונים המסונתזים הן בתחום הזמני והמרחבי, המסגרת מדווחת על FVD או Frechet Video Distance, כמו גם KVD או Kernel Video Distance, ומעריכה את הביצועים של צילום אפס בכל השיטות של מדדי MSR-VTT ו-UCF-101. כדי לחקור את ההתאמה התפיסתית בין התוצאות שנוצרו לתמונת הקלט, המסגרת מציגה PIC או Perceptual Input Conformity, ומאמצת את מדד המרחק התפיסתי DreamSim כפונקציה של המרחק. 

האיור הבא מדגים את ההשוואה החזותית של תוכן מונפש שנוצר עם סגנונות ותוכן שונים. 

כפי שניתן לראות, בין כל השיטות השונות, מסגרת DynamiCrafter דבקה היטב במצב תמונת הקלט, ומייצרת סרטונים קוהרנטיים באופן זמני. הטבלה הבאה מכילה את הנתונים הסטטיסטיים ממחקר משתמשים עם 49 משתתפים של שיעור ההעדפה עבור קוהרנטיות זמנית (TC), ואיכות תנועה (MC) יחד עם שיעור הבחירה עבור התאמה חזותית לתמונת הקלט. (IC). כפי שניתן לראות, מסגרת DynamiCrafter מסוגלת להתעלות על שיטות קיימות בפער ניכר. 

האיור הבא מדגים את התוצאות שהושגו באמצעות שיטת ההזרקה הכפולה ופרדיגמת האימון. 

מחשבות סופיות

במאמר זה, דיברנו על DynamiCrafter, ניסיון להתגבר על המגבלות הנוכחיות של מודלים של אנימציה תמונה ולהרחיב את הישימות שלהם לתרחישים גנריים הכוללים תמונות בעולם פתוח. המסגרת של DynamiCrafter מנסה לסנתז תוכן דינמי עבור תמונות בדומיין פתוח, ולהמיר אותן לסרטוני אנימציה. הרעיון המרכזי מאחורי DynamiCrafter הוא לשלב את התמונה כהדרכה בתהליך היצירתי בניסיון לנצל את התנועה הקודמת של מודלים של דיפוזיה של טקסט לווידאו שכבר קיימים. עבור תמונה נתונה, המודל של DynamiCrafter מיישם תחילה שנאי שאילתות המקרין את התמונה לתוך חלל ייצוג קונטקסט עשיר מיושר טקסט, מה שמקל על מודל הווידאו לעכל את תוכן התמונה באופן תואם. עם זאת, מודל DynamiCrafter עדיין מתקשה לשמר כמה פרטים ויזואליים בסרטוני הווידאו שנוצרו, בעיה שמודל DynamiCrafter מתגבר עליה על ידי הזנת התמונה המלאה למודל הדיפוזיה על ידי שרשור התמונה עם הרעשים הראשוניים, ולכן משלים את המודל עם תמונה מדויקת יותר מֵידָע. 

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.