בינה מלאכותית

שיפור הפוטוריאליזם של סימולציות נהיגה עם רשתות יריבות יצירתיות

מְעוּדכָּן on דצמבר 9, 2022

יוזמת מחקר חדשה בין ארה"ב וסין הציעה שימוש ברשתות יריבות יצירתיות (GANs) כדי להגביר את הריאליזם של סימולטורים לנהיגה.

בהתמודדות חדשה עם האתגר של ייצור תרחישי נהיגה פוטוריאליסטיים של POV, החוקרים פיתחו שיטה היברידית שמשחקת את החוזקות של גישות שונות, על ידי ערבוב הפלט הפוטו-ריאליסטי יותר של מערכות מבוססות CycleGAN עם אלמנטים שנוצרים באופן קונבנציונלי יותר, הדורשים רמה גבוהה יותר של פירוט ועקביות, כגון סימון כבישים וכלי הרכב בפועל הנצפים מנקודת מבטו של הנהג.

גרפיקה עצבית עצבית היברידית (HGNG) מציעה כיוון חדש לסימולציות נהיגה השומרת על הדיוק של מודלים תלת מימדיים עבור אלמנטים חיוניים (כגון סימוני כביש וכלי רכב), תוך כדי משחק ליתרונות של GANs ביצירת רקע ואווירה מעניינים ולא חוזרים על עצמם. פרט. מָקוֹר

גרפיקה עצבית עצבית היברידית (HGNG) מציעה כיוון חדש לסימולציות נהיגה השומרת על הדיוק של מודלים תלת מימדיים עבור אלמנטים חיוניים (כגון סימון כבישים וכלי רכב), תוך כדי משחק ליתרונות של GANs ביצירת רקע ואווירה מעניינים ולא חוזרים על עצמם. פרט. מָקוֹר

המערכת, הנקראת Hybrid Generative Neural Graphics (HGNG), מזריקה פלט מוגבל ביותר מסימולטור נהיגה רגיל מבוסס CGI לתוך צינור GAN, שבו ה-NVIDIA חרבות המסגרת משתלטת על עבודת יצירת הסביבה.

היתרון, לדברי המחברים, הוא שסביבות הנהיגה יהפכו למגוון יותר, וייצור חוויה סוחפת יותר. כמו שזה נראה, אפילו המרת פלט CGI לפלט רינדור עצבי פוטוריאלי אינו יכול לפתור את בעיית החזרה, שכן הצילומים המקוריים הנכנסים לצינור העצבי מוגבלים על ידי גבולות סביבות המודל, והנטייה שלהם לחזור על טקסטורות ורשתות.

מקור: https://www.youtube.com/watch?v=0fhUJT21-bs

קטעים שהומרו משנת 2021 מאמר 'שיפור הפוטוריאליזם', שנותרו תלויים בצילומי CGI, כולל הרקע והפרטים הכלליים של הסביבה, המגבילים את מגוון הסביבה בחוויה המדומה. מקור: https://www.youtube.com/watch?v=P1IcaBn3ej0

בעיתון נכתב*:

"הנאמנות של סימולטור נהיגה קונבנציונלי תלויה באיכות של צינור הגרפיקה הממוחשבת שלו, המורכבת ממודלים תלת מימדיים, טקסטורות ומנוע רינדור. מודלים ומרקמים תלת מימדיים באיכות גבוהה דורשים אומנות, בעוד שמנוע העיבוד חייב להריץ חישובי פיזיקה מסובכים לצורך ייצוג מציאותי של תאורה והצללה.'

השמיים מאמר חדש מכונה פוטוריאליזם בסימולציות נהיגה: מיזוג סינתזת תמונה יריבתית יצירתית עם רינדור, ומגיע מחוקרים מהמחלקה להנדסת חשמל ומחשבים באוניברסיטת אוהיו סטייט, ו-Chongqing Changan Automobile Co Ltd בצ'ונגצ'ינג, סין.

חומר רקע

HGNG הופך את הפריסה הסמנטית של סצנה שנוצרה על ידי CGI קלט על ידי ערבוב של חומר קדמי שעבר חלקית עם סביבות שנוצרו על ידי GAN. למרות שהחוקרים ערכו ניסויים עם מערכי נתונים שונים שעליהם ניתן לאמן את המודלים, הוכח שהיעיל ביותר הוא KITTI Vision Benchmark Suite, הכוללת בעיקר לכידות של חומר POV של נהגים מהעיר הגרמנית קרלסרוהה.

HGNG מייצר פריסת פילוח סמנטי מהפלט שעובד ב-CGI, ולאחר מכן משלב את SPADE, עם קידודים בסגנון משתנה, כדי ליצור תמונות רקע פוטו-ריאליסטיות אקראיות ומגוונות, כולל אובייקטים סמוכים בסצנות עירוניות. המאמר החדש קובע כי דפוסים חוזרים ונשנים, הנפוצים לצינורות CGI מוגבלים במשאבים, 'שבירה טבילה' עבור נהגים אנושיים המשתמשים בסימולטור, וכי הרקע המגוון יותר ש-GAN יכול לספק יכול להקל על בעיה זו.

החוקרים ערכו ניסויים בשניהם GAN מותנה (cGAN) ו CycleGAN (CyGAN) כרשתות יצירתיות, ומוצאות בסופו של דבר שלכל אחת יש חוזקות וחולשות: cGAN דורש מערכי נתונים מותאמים, ו-CyGAN לא. עם זאת, CyGAN אינו יכול כעת להתעלות על הביצועים העדכניים ביותר בסימולטורים קונבנציונליים, בהמתנה לשיפורים נוספים ב התאמת תחום ועקביות מחזור. לכן cGAN, עם דרישות הנתונים המותאמות הנוספות שלו, משיגה את התוצאות הטובות ביותר כרגע.

הארכיטקטורה הרעיונית של HGNG.

בצינור הגרפיקה העצבית של HGNG, ייצוגים דו-ממדיים נוצרים מסצנות מסונתזות של CGI. האובייקטים שמועברים לזרימת ה-GAN מהעיבוד של ה-CGI מוגבלים לאלמנטים 'חיוניים', כולל סימוני כבישים וכלי רכב, ש-GAN עצמו אינו יכול כעת להציג בעקביות ובשלמות זמניים נאותים עבור סימולטור נהיגה. התמונה המסונתזת של cGAN נמזגת עם העיבוד החלקי המבוסס על פיזיקה.

בדיקות

כדי לבדוק את המערכת, החוקרים השתמשו ב-SPADE, שהוכשר על נופי עיר, כדי להמיר את הפריסה הסמנטית של הסצנה לפלט פוטוריאליסטי. מקור ה-CGI הגיע מסימולטור נהיגה בקוד פתוח קרלה, הממנפת את Unreal Engine 4 (UE4).

פלט מסימולטור הנהיגה בקוד פתוח CARLA. מקור: https://arxiv.org/pdf/1711.03938.pdf

מנוע ההצללה והתאורה של UE4 סיפק את הפריסה הסמנטית ואת התמונות המעובדות חלקית, עם פלט של כלי רכב וסימון נתיבים בלבד. מיזוג הושג עם א GP-GAN מופע מאומן על מסד נתונים של תכונות חולפות, וכל הניסויים פועלים על NVIDIA RTX 2080 עם 8 GB של GDDR6 VRAM.

SIGGRAPH 2014 - תכונות חולפות להבנה ועריכה ברמה גבוהה של סצינות בחוץ

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

החוקרים בדקו עבור שימור סמנטי - היכולת של תמונת הפלט להתאים למסכת הפילוח הסמנטי הראשונית המיועדת כתבנית לסצנה.

בתמונות הבדיקה למעלה, אנו רואים שבתמונה 'רנדור בלבד' (משמאל למטה), הרינדור המלא אינו משיג צללים סבירים. החוקרים מציינים שכאן (עיגול צהוב) צללים של עצים הנופלים על המדרכה סווגו בטעות לפי DeepLabV3 (מסגרת הפילוח הסמנטי המשמשת לניסויים אלה) כתוכן 'דרך'.

בזרימת העמודה האמצעית, אנו רואים שלרכבים שנוצרו ב-cGAN אין מספיק הגדרה עקבית כדי להיות ניתנים לשימוש בסימולטור נהיגה (עיגול אדום). בזרימת העמודה הימנית ביותר, התמונה המשולבת תואמת את ההגדרה הסמנטית המקורית, תוך שמירה על אלמנטים חיוניים מבוססי CGI.

כדי להעריך ריאליזם, השתמשו החוקרים מרחק התחלה של Frechet (FID) כמדד ביצועים, מכיוון שהוא יכול לפעול על נתונים מותאמים או נתונים לא מזווגים.

שלושה מערכי נתונים שימשו כאמת יסוד: Cityscapes, KITTI ו ADE20K.

תמונות הפלט הושוו זו מול זו באמצעות ציוני FID, ומול הצינור המבוסס על פיזיקה (כלומר, CGI), בעוד שימור סמנטי הוערך גם כן.

בתוצאות לעיל, המתייחסות לשימור סמנטי, ציונים גבוהים יותר טובים יותר, כאשר הגישה מבוססת הפירמידה של CGAN (אחד ממספר צינורות שנבדקו על ידי החוקרים) הציון הגבוה ביותר.

התוצאות המופיעות ישירות למעלה מתייחסות לציוני FID, כאשר HGNG ניקוד הגבוה ביותר באמצעות שימוש במערך הנתונים של KITTI.

שיטת 'הצג רק' (מסומן כ [23]) נוגע לתפוקה מ-CARLA, זרימת CGI שאינה צפויה להיות פוטו-ריאליסטית.

תוצאות איכותיות במנוע העיבוד הקונבנציונלי ('c' בתמונה ישירות למעלה) מציגות מידע רקע רחוק לא מציאותי, כגון עצים וצמחייה, תוך שהם דורשים מודלים מפורטים וטעינת רשת בדיוק בזמן, כמו גם הליכים עתירי מעבד אחרים. באמצע (ב), אנו רואים ש-cGAN לא מצליח להשיג הגדרה נאותה עבור האלמנטים החיוניים, מכוניות וסימוני כבישים. בתפוקה המשולבת המוצעת (א), הגדרת הרכב והכביש טובה, בעוד שהסביבה הסביבתית מגוונת ופוטו-ריאליסטית.

המאמר מסכם בכך שהוא מציע שניתן להגביר את העקביות הזמנית של הקטע שנוצר על ידי GAN של צינור העיבוד באמצעות שימוש במערכי נתונים עירוניים גדולים יותר, וכי עבודה עתידית בכיוון זה יכולה להציע חלופה אמיתית לטרנספורמציות עצביות יקרות של מבוססי CGI. זרמים, תוך מתן ריאליזם וגיוון רב יותר.

* ההמרה שלי של הציטוטים המוטבעים של המחברים להיפר-קישורים.

פורסם לראשונה ב-23 ביולי 2022.