בינה מלאכותית

ST-NeRF: קומפוזיציה ועריכה לסינתזה של וידאו

Published May 7, 2021

Updated April 5, 2026

Martin Anderson

קונסורציום מחקר סיני פיתח טכניקות להביא יכולות עריכה וקומפוזיציה לאחד מהמחקרים החמים ביותר בתחום סינתזה של תמונות בשנה האחרונה – Neural Radiance Fields (NeRF). המערכת נקראת ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

מה שנראה כפאנורמה פיזית בתמונה למטה הוא למעשה רק משתמש ‘מגליל’ דרך נקודות מבט בתוכן וידאו שקיים במרחב 4D. נקודת המבט אינה נעולה לביצועים של האנשים המוצגים בווידאו, שתנועותיהם יכולות להיצפות מכל חלק של רדיוס 180 מעלות.

ST-NeRF

כל פנים בווידאו הוא אלמנט נפרד שנתפס, מורכב יחד לסצנה קוהרנטית שניתן לחקור באופן דינאמי.

הפנים יכולים להישתכפל באופן חופשי בתוך הסצנה, או להישתנות בגודל:

ST-NeRF

בנוסף, ההתנהגות הזמנית של כל פנים יכולה להיות משנה בקלות, להאט, לרוץ לאחור, או להיות מנופלת בדרכים רבות, ופותחת את הדרך לארכיטקטורות פילטר ורמה גבוהה מאוד של פרשנות.

Two separate NeRF facets run at different speeds in the same scene. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4

אין צורך לרוטוסקופ את המבצעים או הסביבה, או לתת למבצעים לבצע את תנועותיהם בעיוורון ומחוץ להקשר של הסצנה המיועדת. במקום זאת, הצילום נתפס באופן טבעי על ידי מערך של 16 מצלמות וידאו המכסות 180 מעלות:

16 cameras ST-NeRF

The three elements depicted above, the two people and the environment, are distinct, and outlined only for illustrative purposes. Each can be swapped out, and each can be inserted into the scene at an earlier or later point in their individual capture timeline.

ST-NeRF הוא חידוש במחקר ב-Neural Radiance Fields (NeRF), מסגרת למידת מכונה שבה מספר רב של צילומים מסונתזים לחלל וירטואלי ניווטי על ידי אימון נרחב (אם כי צילום נקודת מבט יחידה גם הוא תת-ענף של מחקר NeRF).

Neural Radiance Fields work by collating multiple capture viewpoints into a single coherent and navigable 3D space, with the gaps between coverage estimated and rendered by a neural network. Where video (rather than still images) is used, the rendering resources needed are often considerable. Source: https://www.matthewtancik.com/nerf

העניין ב-NeRF הפך למסוגנן בתשעת החודשים האחרונים, ורשימה שנשמרת על ידי Reddit list של מאמרים נגזרים או חקריים NeRF כרגע מונה שישים פרויקטים.

Just a few of the many off-shoots of the original NeRF paper. Source: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

אימון זול

המאמר הוא שיתוף פעולה בין חוקרים באוניברסיטת Shanghai Tech ו-DGene Digital Technology, והוא התקבל עם התלהבות at Open Review.

ST-NeRF מציע מספר חידושים על יוזמות קודמות במרחבי וידאו ניווטיים המושגים על ידי ML. לא פחות, הוא משיג רמה גבוהה של ריאליזם עם רק 16 מצלמות. אם כי DyNeRF של Facebook משתמש ברק שתי מצלמות יותר מזה, הוא מציע קשת ניווטית מוגבלת הרבה יותר.

An example of Facebook’s DyNeRF environment, with a more limited field of movement, and more cameras per square foot needed to reconstruct the scene. Source: https://neural-3d-video.github.io

בנוסף לחוסר ביכולת לערוך ולהרכיב פנים נפרדים, DyNeRF הוא במיוחד יקר במונחים של משאבים חישוביים. לעומת זאת, החוקרים הסינים טוענים כי עלות האימון לנתונים שלהם יוצאת לכ-900-$3,000, לעומת $30,000 עבור המודל הגנרי של וידאו המתקדם, DVDGAN, ומערכות אינטנסיביות כמו DyNeRF.

המבקרים הבחינו גם כי ST-NeRF עושה חידוש גדול בניתוק תהליך הלמידה של תנועה מתהליך הסינתזה של תמונה. הפרדה זו היא זו שמאפשרת עריכה והרכבה, עם גישות קודמות מוגבלות וליניאריות לעומת זאת.

אף על פי ש-16 מצלמות הוא מערך מאוד מוגבל עבור חצי עיגול שלם של תצפית, החוקרים מקווים לקצץ את המספר הזה עוד יותר בעבודות מאוחרות יותר על ידי שימוש ברקע סטטי מוקדם וגישות דיגיטליות יותר לדיגום סצנה. הם גם מקווים לשלב יכולות רילייטינג, חידוש אחרון במחקר NeRF.

טיפול במגבלות של ST-NeRF

בהקשר של מאמרים אקדמיים CS שנוטים לזרוק את השימושיות האמיתית של מערכת חדשה בסעיף סופי, אפילו המגבלות שהחוקרים מודים ב- ST-NeRF הן לא רגילות.

הם מבחינים כי המערכת לא יכולה כרגע לאפיין ולהציג בנפרד עצמים מסוימים בסצנה, כי האנשים בצילום מחולקים לישויות נפרדות על ידי מערכת שתוכננה לזהות בני אדם ולא עצמים – בעיה שנראית קלה לפתרון עם YOLO ומסגרות דומות, עם עבודה קשה יותר של הוצאת וידאו אנושי כבר הושגה.

אף על פי שהחוקרים מבחינים כי כרגע לא ניתן ליצור תנועה איטית, נראה כי אין הרבה מה שימנע את המימוש של זה באמצעות חידושים קיימים באינטרפולציה של פריימים כמו DAIN ו-RIFE.

כמו בכל יישומי NeRF, וברבים אחרים בתחומי מחקר ראייה ממוחשבת, ST-NeRF יכול לכשל במקרים של הסתרה חמורה, שבה הנושא מוסתר זמנית על ידי אדם אחר או עצם, ועלול להיות קשה לעקוב אחריו ברציפות או להשיגו בדיוק לאחר מכן. כמו במקומות אחרים, קושי זה עשוי לחכות לפתרונות אפיקים. בינתיים, החוקרים מודים כי התערבות ידנית היא הכרחית בפריימים המוסתרים.

לבסוף, החוקרים מבחינים כי הליכי הסגמנטציה של בני אדם נשענים כרגע על הבדלי צבע, שיכולים להוביל לאיחוד בלתי מכוון של שני אנשים לבלוק סגמנטציה אחד – מכשול שאינו מוגבל ל- ST-NeRF, אלא אינטרינזי לספרייה המשמשת, ושיכול להיפתר על ידי ניתוח זרימה אופטית וטכניקות מתפתחות אחרות.

פורסם לראשונה ב-7 במאי 2021.

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

ST-NeRF: קומפוזיציה ועריכה לסינתזה של וידאו

אימון זול

טיפול במגבלות של ST-NeRF

You may like