ืืื ื ืืืืืืชืืช
ืืื ืกืืืืืช ืืฆืืืืช ืืืืืจืช HDR ืฉื Apple ืืืืืืช ืืคืชืืจ ืืขืืืช ืฉื ืืืืจื ืขืืืจ Neural Rendering?

ההשקעה הנמרצת והארוכת הטווח של Apple בטכנולוגיות מציאות מוגברת מיטלטלת השנה, עם רשימה חדשה של כלים למפתחים ללצוד ולהמיר אובייקטים מהעולם האמיתי לפנים של AR, ואמונה גוברת בתעשייה כי משקפי AR מוקדדים הם בדרך לתמוך בחוויות המציאותיות הכבירות שרוחות המחקר האלו יכולות לאפשר.
בין חבילה של מידע חדש על מאמצי Apple במציאות מוגברת, מאמר חדש מחטיבת מחקר הראייה הממוחשבת של החברה מגלה שיטה להשתמש בתמונות פנורמיות HDR ב-360 מעלות כדי לספק החזרות ותאורה סצנה-ספציפיות עבור אובייקטים שמושתלים בסצנות מציאות מוגברת.
שכותרתו אומדן מפת סביבה HDR עבור מציאות מוגברת בזמן אמת, המאמר, מאת מהנדס המחקר של Apple Computer Vision Gowri Somanath ומנהל הלמידה המקוונת הבכיר Daniel Kurz, מציע את היצירה הדינמית של סביבות HDR בזמן אמת דרך רשת עצבית מקומית (CNN) הרצה בסביבת עיבוד ניידת. התוצאה היא שאובייקטים מחזירים יכולים להחזיר סביבות חדשות ובלתי נראות בדרישה:

בתהליך יצירת אובייקטים AR החדש של Apple, מבשל מושתל על ידי פוטוגרמטריה עם סביבתו, מה שמוביל להחזרות משכנעות שאינן ‘אפויות’ לתוך הטקסטורה. מקור: https://docs-assets.developer.apple.com/
השיטה, שהוצגה ב-CVPR 2021, לוכדת תמונה של הסצנה השלמה ומשתמשת בEnvMapNet CNN כדי לאמד מפה פנורמית HDR ויזואלית, הידועה גם כ’חקירת אור’.

המפה התוצאתית מזהה מקורות אור חזקים (מוקפים בסוף בהנימצא העליון) ומחשב אותם בהדרגה בעת תיעוד האובייקטים הווירטואליים.

הארכיטקטורה של EnvMapNet, המעבדת תמונות מוגבלות למפות HDR מלאות של סצנה. מקור: https://arxiv.org/pdf/2011.10687.pdf
האלגוריתם יכול לרוץ בפחות מ-9ms על iPhone XS, ומסוגל לתיעוד אובייקטים המודעים להחזרות בזמן אמת, עם שגיאה כיוונית מופחתת ב-50% לעומת גישות קודמות ושונות לבעיה.

חקירות אור
סביבות תאורה HDR היו גורם באפקטים ויזואליים מאז תמונות HDR (שהומצאו ב-1986) הפכו לכוח משמעותי דרך התקדמות בטכנולוגיית המחשב בשנות ה-90. מי שצופה בסרטונים מאחורי הקלעים עשוי לשים לב לנוכחות הסוריאליסטית של טכנאים המחזיקים כדורים מחופים בסרט – תמונות ייחוס להיכלל כגורמים סביבתיים בעת שיחזור אלמנטים CGI לסצנה.

מקור: https://beforesandafters.com/
אולם, השימוש בכדורים כרומיים למיפוי החזרות קודם לשנות ה-90, וחוזר לנייר SIGGRAPH מ-1983 Pyramidal Parametrics, שהציג תמונות נייחות של רובוט CGI מחזיר בסגנון שיהיה מפורסם כמעט עשור לאחר מכן דרך אפקטים ‘מתכת נוזלית’ של ג’יימס קמרון Terminator 2: Judgement Day.
סביבות HDR ב-Neural Rendering?
Neural Rendering מציעה אפשרות ליצור וידאו פוטוריאליסטי מקלט קלוש, כולל מפות סגמנטציה גסות.

Intel ISL’s segmentation>image neural rendering (2017). מקור: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
במאי, חוקרים מ-Intel חשפו יוזמה חדשה בסינתזת תמונות עצביות שבה צולם סרטון מ-Grand Theft Auto V כדי ליצור פלט פוטוריאליסטי על בסיס מאגרי תמונות רחוב גרמני.

מקור: https://www.youtube.com/watch?v=0fhUJT21-bs
האתגר בפיתוח סביבות Neural Rendering שיכולות להתאים לתנאי תאורה שונים הוא להפריד את תוכן האובייקט מהגורמים הסביבתיים שמשפיעים עליו.
כפי שהוא עומד, החזרות ואפקטים אניזוטרופיים נותרים פונקציות של הסרטון המקורי (שהופך אותם לאגפיים), או דורשים את אותו סכמה שחוקרי Intel העסיקו, שיוצרים פלט סמי-פוטוריאליסטי ממנוע (גיימינג) גס, מבצעים סגמנטציה עליו ואז מיישמים העברת סגנון ממאגר ‘אפוי’ (כגון סט התמונות הגרמניות ששימשו במחקר האחרון).

ב-Neural Rendering (סרטון GTA V בשמאל), הרכב בחזית מדגים החזרות משכנעות ואפילו רווי את החיישן של המצלמה הווירטואלית עם החזרות מהשמש. אבל היבט התאורה הזה נגזר מהסרטון המקורי, מאחר שהפנים העצביים בסצנה אין להם מבנים תאורה עצמוניים ומשתנים שיכולים להשתנות.
החזרה ב-NeRF
תמונות המושגות משדות קרינה עצביים (NeRF) מאתגרות באותו אופן. על אף שמחקרים אחרונים ב-NeRF הצליחו להתקדם בהפרדת היסודות המרכיבים סצנה עצבית (למשל, שיתוף הפעולה NeRFactor של MIT/Google), החזרות נותרו מכשול.

הגישה NeRFactor של MIT ו-Google מפרידה את הנורמלים, נראות (צללים), טקסטורה ואלבדו מקומי, אבל היא אינה מחזירה סביבה רחבה (או נעה), מאחר שהיא קיימת בוואקום. מקור: https://arxiv.org/pdf/2106.01970.pdf
NeRF יכולה לפתור בעיה זו עם אותו סוג של מיפוי HDR ש-Apple משתמשת. כל פיקסל בשדה קרינה עצבית מחושב על טראג’קטוריה ממצלמה וירטואלית עד לנקודה שבה ‘הקרן’ יכולה לנוע, דומה לריטרייסינג ב-CGI קלאסי. הוספת קלט HDR לחישוב ה’קרן’ היא שיטה פוטנציאלית להשגת החזרה סביבתית אמיתית, והיא בעצם אנלוגית לשיטות ‘תאורה גלובלית’ או ‘רדיוסיטי’ ב-CGI, שבהן סצנה או אובייקט מוארים חלקית על ידי החזרות מורגשות של סביבתם.
אף על פי שבטוח שמטריצת HDR לא תעשה דבר כדי להקל על NeRF את העומסים החישוביים הבולטים, רוב המחקר בתחום זה כרגע מתרכז בטיפול בהיבט זה של הצינור. באופן בלתי נמנע, החזרה היא אחד הרבים המחכים בכנפיים למלא ולאתגר את הארכיטקטורה המותאמת מחדש. אולם, NeRF לא יכולה להגיע למלוא הפוטנציאל שלה כשיטת סינתזת תמונות ווידאו עצבית דיסקרטית, ללא אימוץ דרך לחשוב על סביבה מקיפה.
החזרה בצינורות Neural Rendering
בגרסה היפותטית של סצנת Neural Rendering של Intel GTA V עם HDR, חקירת HDR יחידה לא תוכל להכיל את ההחזרות הדינמיות שצריכות להיות מבוטאות באובייקטים נעים. למשל, כדי לראות את הרכב שלך משתקף ברכב שלפניך כשהוא נעצר באור, הרכב הקדמי יכול להיות בעל חקירת אור HDR מונפשת, אשר רזולוציה תורד בהדרגה ככל שהוא נרחק מנקודת המבט של המשתמש, להפוך לנמוך-רזולוציה ורק ייצוגי כשהוא נוסע הרחק – דומה ל-‘מרחק הציור’ במשחקי וידאו.
הפוטנציאל האמיתי של עבודת Apple בתאורה HDR ומפות החזרה אינו שהוא מיוחד במינו, שכן הוא בנוי על עבודות קודמות בסינתזת תמונות כלליות ובפיתוח סצנות AR. עם זאת, הפריצה האפשרית מיוצגת על ידי הדרך שבה הגבלות חישוב מקומיות קשות שילבו עם חידושי החומרה של Apple M-series בלמידת מכונה, כדי לייצר מיפוי HDR קל משקל, בעל עיכוב נמוך, שמיועד לפעול תחת משאבים מוגבלים.
אם בעיה זו יכולה להיפתר באופן כלכלי, התפתחות הסגמנטציה-סינתזת וידאו פוטוריאליסטית עשויה להתקדם בצעד משמעותי.
מקור: https://docs-assets.developer.apple.com/












