ืืื ื ืืืืืืชืืช
ืืขืจืืช ืืืฉื ืืืืืืืช ืืืืื ืืฆืืืืช ืขื ืืชืคืฉืืืช ืืฆืืื

יוזמה חדשה מקבוצת Alibaba מציעה אחת השיטות הטובות ביותר שראיתי ליצירת אווטארים אנושיים מלאים מבוססת מודל היסוד של Stable Diffusion.
בשם MIMO (MIMיקים עם Oבייקטים מיקום), המערכת משתמשת בטכנולוגיות ומודולים פופולריים, כולל מודלים אנושיים המבוססים על CGI ו AnimateDiff, כדי לאפשר החלפת דמויות עקבית בזמן בווידאו – או לנעול דמות עם פוזה שלדית המוגדרת על ידי משתמש.
כאן אנו רואים דמויות מותכות ממקור תמונה יחיד, ומונעות על ידי תנועה מוגדרת מראש:
[לחץ על הווידאו למטה כדי לשחק]
מדמויות מקור יחיד, שלוש דמויות שונות מונעות על ידי רצף פוזה 3D (הרחוק ביותר) באמצעות מערכת MIMO. ראה את דף הפרויקט ואת הווידאו המצורף של YouTube (מוטמע בסוף המאמר) לדוגמאות נוספות ורזולוציה עליונה. מקור: https://menyifang.github.io/projects/MIMO/index.html
דמויות מיוצרות, שיכולות גם להגיע מפריימים בווידאו ובדרכים אחרות, יכולות להיכלל בצילומים מהעולם האמיתי.
MIMO מציעה מערכת חדשה שיוצרת שלושה קידודים נפרדים, כל אחד עבור דמות, סצנה וחסימה (כלומר, מאטינג, כאשר אובייקט או אדם עובר בפני הדמות המתוארת). קידודים אלו משולבים בזמן היסק.
[לחץ על הווידאו למטה כדי לשחק]
MIMO יכולה להחליף דמויות מקוריות עם דמויות פוטוריאליסטיות או סגנוניות שעוקבות אחרי התנועה מהווידאו היעד. ראה את דף הפרויקט ואת הווידאו המצורף של YouTube (מוטמע בסוף המאמר) לדוגמאות נוספות ורזולוציה עליונה.
המערכת מאומנת על המודל Stable Diffusion V1.5, באמצעות מאגר נתונים מותאם שנאסף על ידי החוקרים, ומורכב באופן שווה מווידאו אמיתי וסימולטיבי.
הבעיה הגדולה של וידאו התפשטות היא יציבות זמנית, שבה תוכן הווידאו הופך להיות מנוקד או ‘מתפתח’ בדרכים שאינן רצויות עבור ייצוג דמות עקבי.
MIMO, לעומת זאת, משתמשת ביעילות בתמונה יחידה כמפה להנחיה עקבית, שיכולה להיערך ולהיות מוגבלת על ידי ה SMPL CGI מודל.
מכיוון שההפניה היא עקבית, והמודל הבסיסי עליו המערכת מאומנת הורחב עם דוגמאות תנועה מייצגות, היכולות של המערכת לפלט עקבי בזמן הן מעל הסטנדרט הכללי עבור אווטארים מבוססי התפשטות.
[לחץ על הווידאו למטה כדי לשחק]
דוגמאות נוספות של דמויות MIMO המונעות על ידי פוזה. ראה את דף הפרויקט ואת הווידאו המצורף של YouTube (מוטמע בסוף המאמר) לדוגמאות נוספות ורזולוציה עליונה.
זה הופך להיות יותר נפוץ עבור תמונות יחידות להיות משומשות כמקור לייצוגים נוירונים יעילים, הן בעצמן, או בדרך רב-מודאלית, משולבים עם פרומפטים טקסט. לדוגמה, המערכת הפופולרית LivePortrait יכולה גם ליצור פנים מזויפות מתמונות פנים יחידות.
החוקרים מאמינים כי העקרונות המשמשים במערכת MIMO יכולים להירחב למערכות ומסגרות יצירתיות חדשות.
ה מאמר החדש כותרת MIMO: סינתזה של וידאו דמויות בקרה עם מודלים מרחביים מפורקים, ובא מארבעה חוקרים במכון Alibaba Group לחישובים אינטליגנטיים. העבודה היא דף פרויקט עם וידאו ו ווידאו YouTube מצורף, שגם מוטמע בסוף המאמר.
שיטה
MIMO מגיעה להפרדה אוטומטית ו לא מופרעת של הרכיבים המרחביים, בארכיטקטורה של קצה לקצה (כלומר, כל התהליכים המשניים משולבים במערכת, והמשתמש רק צריך לספק את החומר הקלט).

הסכמה קונספטואלית ל MIMO. Source: https://arxiv.org/pdf/2409.16160
אובייקטים בווידאו מקור מתורגמים מ 2D ל 3D, בתחילה באמצעות Depth Anything מונוקולר. היסוד האנושי בכל פריים מופשט עם שיטות המותאמות מה Tune-A-Video פרויקט.
אלו תכונות מתורגמות לפסים וולומטריים וידאו באמצעות Segment Anything 2 ארכיטקטורה של Facebook Research.
השכבה עצמה מתקבלת על ידי הסרת אובייקטים שנגלו בשתי השכבות האחרות, באופן שמספק מסכה בסגנון רוטוסקופ אוטומטית.
לתנועה, סט קודים לטנטיים מופשטים עבור היסוד האנושי הם מעוגנים למודל SMPL CGI אנושי, שתנועותיו מספקות את ההקשר עבור תוכן אנושי מונקד.
מפת תכונות 2D עבור תוכן אנושי מתקבלת על ידי differentiable rasterizer המושג מיוזמה 2020 של NVIDIA. בשילוב הנתונים 3D המושגים מ SMPL עם הנתונים 2D המושגים על ידי שיטת NVIDIA, הקודים הלטנטיים המייצגים ‘אדם נוירוני’ הם בהתאמה מוצקה להקשר הסופי.
בנקודה זו, זה נחוץ להקים הפניה משותפת הנחוצה בארכיטקטורות שמשתמשות ב SMPL – פוזה קאנונית. זה באופן כללי דומה ל ‘אדם הוויטרוביאני’ של דה וינצ’י, בכך שהוא מייצג תבנית פוזה אפס שיכולה לקבל תוכן ואז להיות מעוות, לוקחת את התוכן (בעצם) טקסטורה מעורבת איתו.
העיוותים האלו, או ‘סטיות מהנורמה’, מייצגים תנועה אנושית, בעוד המודל SMPL שומר על הקודים הלטנטיים המרכיבים את זהות האדם שהופשט, וכך מייצג את האווטאר התוצאה באופן נכון במונחים של פוזה וטקסטורה.

דוגמה לפוזה קאנונית בדמות SMPL. מקור: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
באשר לנושא entanglement (היקף שבו נתונים מאומנים יכולים להיראות לא גמישים כאשר אתה מתיח אותם מעבר לגבולות והתאמות המאומנות), המחברים מצהירים*:
‘כדי להפריד לחלוטין את המראה מפריימים וידאו מוצבים, פתרון אידיאלי הוא ללמוד את הייצוג האנושי הדינמי מהווידאו המונוקולר ולהמיר אותו מהמרחב המוצב למרחב הקאנוני.
‘בהתחשב ביעילות, אנו מעסיקים שיטה פשוטה שמומרת את התמונה האנושית המוצבת לתוצאה קאנונית סטנדרטית באמצעות מודל התנחלות אנושי מותאם מראש. התמונה הקאנונית המותכת מוזנת למקודדי ID כדי לקבל את [הקוד].
‘עיצוב פשוט זה מאפשר הפרדה מלאה של זהות ותכונות תנועה. עקב Animate Anyone, מקודדי ID כוללים CLIP מקודד תמונה וארכיטקטורת reference-net כדי לשתף את התכונה הגלובלית והמקומית, [בהתאמה].’
עבור הסצנה והחסימה, Variational Autoencoder (VAE – במקרה זה מושג מ פרסום 2013) משותף וקבוע משמש לשתף את הסצנה והחסימה לתוך המרחב הלטנטי. אי סדרים מטופלים על ידי inpainting שיטה מ ProPainter פרויקט 2023.
פעם שהם מורכבים ומתוקנים בדרך זו, שני הרקע ואובייקטים חוסמים בווידאו יספקו מסכה עבור האווטאר האנושי הנע.
התכונות המפורקות האלו מוזנות ל U-Net backbone המבוסס על ארכיטקטורת Stable Diffusion V1.5. קוד הסצנה המלא מחובר עם רעש לטנטי ילידי המערכת. הרכיב האנושי משולב על ידי self-attention ושכבות cross-attention, בהתאמה.
אז, ה denoised תוצאה מוצאת דרך מפענח VAE.
נתונים ובדיקות
עבור האימון, החוקרים יצרו מאגר נתונים אנושיים בשם HUD-7K, שכלל 5,000 וידאו דמויות אמיתיות ו 2,000 הנפשות סינתטיות שנוצרו על ידי En3D מערכת.
המודל אומן על שמונה NVIDIA A100 GPUs (אף על פי שהמאמר אינו מפרט אם אלו היו 40GB או 80GB VRAM מודלים), ל 50 איטרציות, באמצעות 24 פריימים וידאו ו גודל batch של ארבע, עד convergence.
המודול התנועה עבור המערכת אומן על המשקלים של AnimateDiff. במהלך תהליך האימון, המשקלים של VAE encoder/decoder, והמקודד CLIP תמונה היו קפואים (בניגוד ל fine-tuning מלא, שיהיה בעל השפעה רחבה יותר על מודל יסוד).
MIMO לא נבדקה מול מערכות דומות, החוקרים בדקו אותה על רצף תנועה קשה מחוץ לתחום מ AMASS ו Mixamo. תנועות אלו כללו טיפוס, משחק וריקוד.
הם גם בדקו את המערכת על וידאו אנושי ברחבי העולם.
בשני המקרים, המאמר דוחה ‘עמידות גבוהה’ עבור תנועות 3D לא נראות, מזוויות שונות.
אף על פי שהמאמר מציע תוצאות תמונה סטטית רבות המדגימות את יעילות המערכת, הביצועים האמיתיים של MIMO נבדקים עם תוצאות וידאו נרחבות המוצעות בדף הפרויקט, ובווידאו YouTube המצורף (ממנו הווידאו בתחילת המאמר הושג).
המחברים מסכמים:
‘תוצאות ניסוי [הוכיחו] כי שיטתנו מאפשרת לא רק בקרה גמישה של דמות, תנועה וסצנה, אלא גם היקף מתקדם לדמויות שרירותיות, כלליות לתנועות 3D חדשות, ויישומים לסצנות אינטראקטיביות.
‘אנו גם [מאמינים] כי פתרוננו, שלוקח בחשבון את הטבע התלת-ממדי ומקודד אוטומטית את הווידאו 2D לרכיבים מרחביים היררכיים, יכול להשראה למחקרים עתידיים עבור סינתזה וידאו 3D.
‘בנוסף, מסגרתנו אינה רק מתאימה ליצירת וידאו דמויות, אלא גם יכולה להיערך למשימות וידאו סינתזה נשלטות אחרות.’
מסקנה
זה מרענן לראות מערכת אווטאר המבוססת על Stable Diffusion שנראית כאילו היא מסוגלת ליציבות זמנית כזו – לא רק בגלל שאווטארים גאוסיאניים נראים כאילו הם מגיעים לשליטה בתחום המחקר הספציפי הזה.
האווטארים הסגנוניים המיוצגים בתוצאות הם יעילים, ואף על פי שרמת הריאליזם ש MIMO יכולה לייצר אינה שווה כרגע למה ש Gaussian Splatting מסוגלת, היתרונות השונים של יצירת בני אדם עקביים ברשת דיפוזיה לטנטית (LDM) הם ניכרים.
* המרתי את הציטוטים הפנימיים של המחברים לקישורים, וכאשר נדרש, קישורים חיצוניים מסבירים.
פורסם לראשונה יום רביעי, 25 ספטמבר 2024






