בינה מלאכותית

עיבוד עצבי: כמה נמוך אתה יכול לרדת מבחינת קלט?

מְעוּדכָּן on דצמבר 9, 2022

אתמול כמה עבודה חדשה יוצאת דופן בסינתזה של תמונות עצביות משכה את תשומת הלב ואת דמיונו של האינטרנט, כאשר חוקרי אינטל חשפו שיטה חדשה לשיפור הריאליזם של תמונות סינתטיות.

המערכת, כפי שהודגם בא וידאו מאת אינטל, מתערבת ישירות בצינור התמונות של משחק הווידאו Grand Theft Auto V, ומשפרת אוטומטית את התמונות באמצעות אלגוריתם סינתזת תמונות שאומן ברשת עצבית קונבולוציונית (CNN), תוך שימוש בדימויים מהעולם האמיתי אדר מערך נתונים, והחלפת התאורה והמרקם הפחות מציאותיים של מנוע המשחק GTA.

מגיבים, במגוון רחב של תגובות בקהילות כמו Reddit ו-Hacker News, טוענים לא רק שעיבוד עצבי מסוג זה יכול להחליף ביעילות את הפלט הפחות פוטוריאליסטי של מנועי משחקים מסורתיים ו-CGI ברמת VFX, אלא שתהליך זה יכול להיות הושג עם קלט בסיסי הרבה יותר ממה שהודגם בהדגמה של Intel GTA5 - יצירת כניסות פרוקסי 'בובה' ביעילות עם פלטים מציאותיים ביותר.

מערכי נתונים מותאמים

העיקרון הודגם על ידי דור חדש של GAN ומערכות מקודדים/מפענחים במהלך שלוש השנים האחרונות, כמו ה-GauGAN של NVIDIA, שמייצר תמונות נוף פוטו-ריאליסטיות מהצלחות גסות.

למעשה, עיקרון זה מפנה את השימוש המקובל בפילוח סמנטי פנימה ראיית מחשב משיטה פסיבית המאפשרת למערכות מכונות לזהות ולבודד אובייקטים נצפים לכדי קלט יצירתי, כאשר המשתמש 'מצייר' מפת פילוח סמנטית מזויפת והמערכת מייצרת דימויים התואמים את הקשרים שהיא מבינה ממי שכבר סיווג ופילח פרט מסוים תחום, כגון נוף.

מסגרת למידת מכונה מיישמת פילוח סמנטי על סצנות חיצוניות שונות, ומספקת את הפרדיגמה האדריכלית המאפשרת פיתוח של מערכות אינטראקטיביות, כאשר המשתמש צובע בלוק פילוח סמנטי והמערכת ממלאת את הבלוק בתמונות תואמות ממערך נתונים ספציפי לתחום, כגון סט תצוגת רחוב Mapillary של גרמניה, בשימוש בהדגמת העיבוד העצבי של אינטל GTA5. מקור: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

מסגרת למידת מכונה מיישמת פילוח סמנטי על סצנות חיצוניות שונות, ומספקת את הפרדיגמה האדריכלית המאפשרת פיתוח של מערכות אינטראקטיביות, כאשר המשתמש מצייר בלוק פילוח סמנטי והמערכת ממלאת את הבלוק בתמונות תואמות ממערך נתונים ספציפי לתחום, כגון סט תצוגת רחוב Mapillary של גרמניה, בשימוש בהדגמת העיבוד העצבי של אינטל GTA5. מקור: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

מערכות סינתזת תמונות של מערך נתונים מותאמות פועלות על ידי התאמה בין תוויות סמנטיות על שני מערכי נתונים: ערכת תמונות עשירה ומלאה, שנוצרה מתמונות בעולם האמיתי (כמו עם ערכת Mapillary ששימשה לשיפור GTA5 בהדגמה של אינטל אתמול) או מתמונות סינתטיות, כגון תמונות CGI.

דוגמאות למערך נתונים משולב עבור מערכת סינתזת תמונות שנועדה ליצור דמויות מעובדות עצביות מסקיצות מגושמות. בצד שמאל, דוגמאות ממערך הנתונים של CGI. דגימות אמצעיות מתאימות ממערך הנתונים 'סקיצה'. נכון, עיבודים עצביים שתרגמו סקיצות בחזרה לתמונות באיכות גבוהה. מקור: https://www.youtube.com/watch?v=miLIwQ7yPkA

סביבות חיצוניות אינן מאתגרות יחסית בעת יצירת טרנספורמציות של מערך נתונים מזווגים מסוג זה, מכיוון שבליטות הן בדרך כלל מוגבלות למדי, לטופוגרפיה יש טווח מוגבל של שונות שניתן ללכוד באופן מקיף במערך נתונים, ואנחנו לא צריכים להתמודד עם יצירת אנשים מלאכותיים , או ניהול משא ומתן על העמק המופלא (עדיין).

היפוך מפות פילוח

גוגל פיתחה גרסת אנימציה של סכימת GauGAN, הנקראת טבע אינסופי, המסוגל "להזות" במכוון נופים פיקטיביים מתמשכים ובלתי נגמרים על ידי תרגום מפות סמנטיות מזויפות לדימויים פוטוריאליסטיים באמצעות NVIDIA חרבות מערכת מילוי:

מקור: https://www.youtube.com/watch?v=oXUf6anNAtc

עם זאת, Infinite Nature משתמש בתמונה בודדת כנקודת התחלה ומשתמש ב-SPADE רק כדי לצייר במקטעים החסרים במסגרות עוקבות, בעוד ש-SPADE עצמו יוצר טרנספורמציות של תמונה ישירות ממפות פילוח.

מקור: https://nvlabs.github.io/SPADE/

נראה כי היכולת הזו עוררה את מעריצי מערכת Intel Image Enhancement - האפשרות להפיק תמונות פוטו-ריאליסטיות באיכות גבוהה מאוד, אפילו בזמן אמת (בסופו של דבר), מקלט גס ביותר.

החלפת טקסטורות ותאורה בעיבוד עצבי

במקרה של קלט GTA5, חלקם תהו האם משהו מהטקסטורה והתאורה של הפרוצדורה והמפת הסיביות היקרים מבחינה חישובית מהפלט של מנוע המשחק באמת יהיה צורך במערכות רינדור עצביות עתידיות, או שאולי ניתן יהיה לשנות רזולוציה, קלט ברמת ה-wireframe לווידאו פוטו-ריאליסטי שעולה על יכולות ההצללה, המרקם והתאורה של מנועי המשחק, ויוצר סצנות היפר-ריאליסטיות מקלט פרוקסי של 'מציין מקום'.

זה אולי נראה מובן מאליו שהיבטים שנוצרו על ידי משחקים כמו השתקפויות, טקסטורות וסוגים אחרים של פרטים סביבתיים הם מקורות מידע חיוניים למערכת עיבוד עצבית מהסוג שהדגימה אינטל. עם זאת, עברו כמה שנים מאז NVIDIA יחידה (רשתות תרגום תמונה לתמונה ללא פיקוח) הוכיחו שרק התחום חשוב, ושגם היבטים גורפים כמו 'לילה או יום' הם בעצם נושאים שיש לטפל בהם באמצעות העברת סגנון:

Day2NightImageTranslation-06

Watch this video on YouTube

במונחים של קלט נדרש, זה עשוי להשאיר את מנוע המשחק רק צריך ליצור סימולציות של גיאומטריה ופיסיקה בסיסית, מכיוון שמנוע העיבוד העצבי יכול לצבוע יתר על המידה את כל ההיבטים האחרים על ידי סינתזה של התמונות הרצויות ממערך הנתונים שנלכד, תוך שימוש במפות סמנטיות כפירוש שִׁכבָה.

המערכת של אינטל משפרת מסגרת גמורה ומעובדת לחלוטין מ-GTA5, ומוסיפה פילוח ומפות עומק מוערכות - שני היבטים שיכולים להיות מסופקים ישירות על ידי מנוע משחק מפורק. מקור: https://www.youtube.com/watch?v=P1IcaBn3ej0

גישת הרינדור העצבי של אינטל כוללת ניתוח של פריימים מעובדים לחלוטין מהמאגרים של GTA5, ולמערכת העצבית יש נטל נוסף של יצירת הן מפות העומק והן את מפות הפילוח. מכיוון שמפות עומק זמינות באופן מרומז בצינורות תלת מימד מסורתיים (והם פחות תובעניים להפקה מאשר טקסטורה, מעקב אחר קרניים או תאורה גלובלית), זה עשוי להיות שימוש טוב יותר במשאבים כדי לתת למנוע המשחק לטפל בהם.

קלט מופשט למנוע עיבוד עצבי

ההטמעה הנוכחית של רשת שיפור התמונה של אינטל, אם כן, עשויה להיות כרוכה בהרבה מאוד מחזורי מחשוב מיותרים, שכן מנוע המשחק מייצר מרקם ותאורה יקרים מבחינה חישובית שמנוע הרינדור העצבי לא באמת צריך. נראה שהמערכת תוכננה בצורה זו לא בגלל שזו בהכרח גישה אופטימלית, אלא בגלל שקל יותר להתאים מנוע עיבוד עצבי לצינור קיים מאשר ליצור מנוע משחק חדש המותאם לגישת עיבוד עצבי.

השימוש החסכוני ביותר במשאבים במערכת משחקים מסוג זה יכול להיות שיתוף פעולה מוחלט של ה-GPU על ידי מערכת העיבוד העצבי, כאשר קלט ה-proxy המופשט מטופל על ידי ה-CPU.

יתר על כן, מנוע המשחק יכול בקלות לייצר מפות פילוח מייצגות בעצמו, על ידי כיבוי כל ההצללה והתאורה בפלט שלו. בנוסף, הוא יכול לספק וידאו ברזולוציה נמוכה בהרבה ממה שנדרש ממנו בדרך כלל, מכיוון שהסרטון יצטרך להיות רק מייצג באופן רחב של התוכן, כאשר פרטים ברזולוציה גבוהה יטופלו על ידי המנוע העצבי, מה שיפנה עוד יותר משאבי מחשוב מקומיים.

העבודה הקודמת של Intel ISL עם פילוח>תמונה

התרגום הישיר של פילוח לווידאו פוטוריאליסטי רחוק מלהיות היפותטי. בשנת 2017 אינטל ISL, יוצרי הזעם של אתמול, שוחרר ראשונית מחקר מסוגל לבצע סינתזת וידאו עירונית ישירות מפילוח סמנטי.

הפילוח של Intel ISL לתמונה עובד מ-2017. מקור: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

למעשה, הצינור המקורי הזה של 2017 רק הוארך כדי להתאים לפלט המעובד במלואו של GTA5.

סינתזת תמונה צילומית עם רשתות חידוד מדורגות

Photographic Image Synthesis with Cascaded Refinement Networks

Watch this video on YouTube

עיבוד עצבי ב-VFX

עיבוד עצבי ממפות פילוח מלאכותיות נראה גם כטכנולוגיה מבטיחה עבור VFX, עם אפשרות לתרגם ישירות סרטונים בסיסיים מאוד ישירות לצילומי אפקטים חזותיים מוגמרים, על ידי יצירת מערכי נתונים ספציפיים לתחום שנלקחו ממודלים או מתמונות סינתטיות (CGI).

מערכת עיבוד עצבית היפותטית, שבה כיסוי נרחב של כל אובייקט מטרה מופשט לתוך מערך נתונים תורם, ושם מפות פילוח שנוצרו באופן מלאכותי משמשות כבסיס לפלט פוטו-ריאליסטי ברזולוציה מלאה. מקור: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

הפיתוח והאימוץ של מערכות כאלה יעבירו את מוקד המאמץ האמנותי מזרימת עבודה פרשנית לזרימת עבודה מייצגת, ויגבירו את איסוף הנתונים מונע התחום מתפקיד תומך לתפקיד מרכזי באמנות החזותית.

שיפור הפוטוריאליזם שיפור