בינה מלאכותית
עיבוד עצבי: כמה נמוך אתה יכול לרדת מבחינת קלט?
אתמול כמה עבודה חדשה יוצאת דופן בסינתזה של תמונות עצביות משכה את תשומת הלב ואת דמיונו של האינטרנט, כאשר חוקרי אינטל חשפו שיטה חדשה לשיפור הריאליזם של תמונות סינתטיות.
המערכת, כפי שהודגם בא וידאו מאת אינטל, מתערבת ישירות בצינור התמונות של משחק הווידאו Grand Theft Auto V, ומשפרת אוטומטית את התמונות באמצעות אלגוריתם סינתזת תמונות שאומן ברשת עצבית קונבולוציונית (CNN), תוך שימוש בדימויים מהעולם האמיתי אדר מערך נתונים, והחלפת התאורה והמרקם הפחות מציאותיים של מנוע המשחק GTA.
מגיבים, במגוון רחב של תגובות בקהילות כמו Reddit ו-Hacker News, טוענים לא רק שעיבוד עצבי מסוג זה יכול להחליף ביעילות את הפלט הפחות פוטוריאליסטי של מנועי משחקים מסורתיים ו-CGI ברמת VFX, אלא שתהליך זה יכול להיות הושג עם קלט בסיסי הרבה יותר ממה שהודגם בהדגמה של Intel GTA5 - יצירת כניסות פרוקסי 'בובה' ביעילות עם פלטים מציאותיים ביותר.
מערכי נתונים מותאמים
העיקרון הודגם על ידי דור חדש של GAN ומערכות מקודדים/מפענחים במהלך שלוש השנים האחרונות, כמו ה-GauGAN של NVIDIA, שמייצר תמונות נוף פוטו-ריאליסטיות מהצלחות גסות.
למעשה, עיקרון זה מפנה את השימוש המקובל בפילוח סמנטי פנימה ראיית מחשב משיטה פסיבית המאפשרת למערכות מכונות לזהות ולבודד אובייקטים נצפים לכדי קלט יצירתי, כאשר המשתמש 'מצייר' מפת פילוח סמנטית מזויפת והמערכת מייצרת דימויים התואמים את הקשרים שהיא מבינה ממי שכבר סיווג ופילח פרט מסוים תחום, כגון נוף.
מערכות סינתזת תמונות של מערך נתונים מותאמות פועלות על ידי התאמה בין תוויות סמנטיות על שני מערכי נתונים: ערכת תמונות עשירה ומלאה, שנוצרה מתמונות בעולם האמיתי (כמו עם ערכת Mapillary ששימשה לשיפור GTA5 בהדגמה של אינטל אתמול) או מתמונות סינתטיות, כגון תמונות CGI.
סביבות חיצוניות אינן מאתגרות יחסית בעת יצירת טרנספורמציות של מערך נתונים מזווגים מסוג זה, מכיוון שבליטות הן בדרך כלל מוגבלות למדי, לטופוגרפיה יש טווח מוגבל של שונות שניתן ללכוד באופן מקיף במערך נתונים, ואנחנו לא צריכים להתמודד עם יצירת אנשים מלאכותיים , או ניהול משא ומתן על העמק המופלא (עדיין).
היפוך מפות פילוח
גוגל פיתחה גרסת אנימציה של סכימת GauGAN, הנקראת טבע אינסופי, המסוגל "להזות" במכוון נופים פיקטיביים מתמשכים ובלתי נגמרים על ידי תרגום מפות סמנטיות מזויפות לדימויים פוטוריאליסטיים באמצעות NVIDIA חרבות מערכת מילוי:
עם זאת, Infinite Nature משתמש בתמונה בודדת כנקודת התחלה ומשתמש ב-SPADE רק כדי לצייר במקטעים החסרים במסגרות עוקבות, בעוד ש-SPADE עצמו יוצר טרנספורמציות של תמונה ישירות ממפות פילוח.
נראה כי היכולת הזו עוררה את מעריצי מערכת Intel Image Enhancement - האפשרות להפיק תמונות פוטו-ריאליסטיות באיכות גבוהה מאוד, אפילו בזמן אמת (בסופו של דבר), מקלט גס ביותר.
החלפת טקסטורות ותאורה בעיבוד עצבי
במקרה של קלט GTA5, חלקם תהו האם משהו מהטקסטורה והתאורה של הפרוצדורה והמפת הסיביות היקרים מבחינה חישובית מהפלט של מנוע המשחק באמת יהיה צורך במערכות רינדור עצביות עתידיות, או שאולי ניתן יהיה לשנות רזולוציה, קלט ברמת ה-wireframe לווידאו פוטו-ריאליסטי שעולה על יכולות ההצללה, המרקם והתאורה של מנועי המשחק, ויוצר סצנות היפר-ריאליסטיות מקלט פרוקסי של 'מציין מקום'.
זה אולי נראה מובן מאליו שהיבטים שנוצרו על ידי משחקים כמו השתקפויות, טקסטורות וסוגים אחרים של פרטים סביבתיים הם מקורות מידע חיוניים למערכת עיבוד עצבית מהסוג שהדגימה אינטל. עם זאת, עברו כמה שנים מאז NVIDIA יחידה (רשתות תרגום תמונה לתמונה ללא פיקוח) הוכיחו שרק התחום חשוב, ושגם היבטים גורפים כמו 'לילה או יום' הם בעצם נושאים שיש לטפל בהם באמצעות העברת סגנון:
במונחים של קלט נדרש, זה עשוי להשאיר את מנוע המשחק רק צריך ליצור סימולציות של גיאומטריה ופיסיקה בסיסית, מכיוון שמנוע העיבוד העצבי יכול לצבוע יתר על המידה את כל ההיבטים האחרים על ידי סינתזה של התמונות הרצויות ממערך הנתונים שנלכד, תוך שימוש במפות סמנטיות כפירוש שִׁכבָה.
גישת הרינדור העצבי של אינטל כוללת ניתוח של פריימים מעובדים לחלוטין מהמאגרים של GTA5, ולמערכת העצבית יש נטל נוסף של יצירת הן מפות העומק והן את מפות הפילוח. מכיוון שמפות עומק זמינות באופן מרומז בצינורות תלת מימד מסורתיים (והם פחות תובעניים להפקה מאשר טקסטורה, מעקב אחר קרניים או תאורה גלובלית), זה עשוי להיות שימוש טוב יותר במשאבים כדי לתת למנוע המשחק לטפל בהם.
קלט מופשט למנוע עיבוד עצבי
ההטמעה הנוכחית של רשת שיפור התמונה של אינטל, אם כן, עשויה להיות כרוכה בהרבה מאוד מחזורי מחשוב מיותרים, שכן מנוע המשחק מייצר מרקם ותאורה יקרים מבחינה חישובית שמנוע הרינדור העצבי לא באמת צריך. נראה שהמערכת תוכננה בצורה זו לא בגלל שזו בהכרח גישה אופטימלית, אלא בגלל שקל יותר להתאים מנוע עיבוד עצבי לצינור קיים מאשר ליצור מנוע משחק חדש המותאם לגישת עיבוד עצבי.
השימוש החסכוני ביותר במשאבים במערכת משחקים מסוג זה יכול להיות שיתוף פעולה מוחלט של ה-GPU על ידי מערכת העיבוד העצבי, כאשר קלט ה-proxy המופשט מטופל על ידי ה-CPU.
יתר על כן, מנוע המשחק יכול בקלות לייצר מפות פילוח מייצגות בעצמו, על ידי כיבוי כל ההצללה והתאורה בפלט שלו. בנוסף, הוא יכול לספק וידאו ברזולוציה נמוכה בהרבה ממה שנדרש ממנו בדרך כלל, מכיוון שהסרטון יצטרך להיות רק מייצג באופן רחב של התוכן, כאשר פרטים ברזולוציה גבוהה יטופלו על ידי המנוע העצבי, מה שיפנה עוד יותר משאבי מחשוב מקומיים.
העבודה הקודמת של Intel ISL עם פילוח>תמונה
התרגום הישיר של פילוח לווידאו פוטוריאליסטי רחוק מלהיות היפותטי. בשנת 2017 אינטל ISL, יוצרי הזעם של אתמול, שוחרר ראשונית מחקר מסוגל לבצע סינתזת וידאו עירונית ישירות מפילוח סמנטי.
למעשה, הצינור המקורי הזה של 2017 רק הוארך כדי להתאים לפלט המעובד במלואו של GTA5.
עיבוד עצבי ב-VFX
עיבוד עצבי ממפות פילוח מלאכותיות נראה גם כטכנולוגיה מבטיחה עבור VFX, עם אפשרות לתרגם ישירות סרטונים בסיסיים מאוד ישירות לצילומי אפקטים חזותיים מוגמרים, על ידי יצירת מערכי נתונים ספציפיים לתחום שנלקחו ממודלים או מתמונות סינתטיות (CGI).
הפיתוח והאימוץ של מערכות כאלה יעבירו את מוקד המאמץ האמנותי מזרימת עבודה פרשנית לזרימת עבודה מייצגת, ויגבירו את איסוף הנתונים מונע התחום מתפקיד תומך לתפקיד מרכזי באמנות החזותית.
המאמר עודכן בשעה 4:55 כדי להוסיף חומר על מחקר Intel ISL 2017.