ปัญญาประดิษฐ์

การปรับปรุงภาพถ่ายที่เหมือนจริงของการจำลองการขับขี่ด้วยเครือข่าย Generative Adversarial

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

โครงการวิจัยใหม่ระหว่างสหรัฐอเมริกาและจีนได้เสนอการใช้เครือข่าย Generative Adversarial (GANs) เพื่อเพิ่มความสมจริงของซิมูเลเตอร์การขับขี่

ในแนวทางใหม่ในการแก้ไขปัญหาการสร้างสถานการณ์การขับขี่จากมุมมองของคนขับที่เหมือนจริง นักวิจัยได้พัฒนาแนวทางแบบไฮบริดที่เล่นถึงจุดแข็งของแนวทางต่างๆ โดยผสมการผลิตภาพที่เหมือนจริงมากขึ้นของระบบ CycleGAN-based กับองค์ประกอบที่สร้างขึ้นตามแบบแผนซึ่งต้องการรายละเอียดและความสม่ำเสมอมากขึ้น เช่น สัญลักษณ์บนถนนและยานพาหนะที่สังเกตเห็นจากมุมมองของคนขับ

Hybrid Generative Neural Graphics (HGNG) offer a new direction for driving simulations that retains the accuracy of 3D models for essential elements (such as road markings and vehicles), while playing to the strengths of GANs in generating interesting and non-repetitive background and ambient detail. Source

ระบบซึ่งเรียกว่า Hybrid Generative Neural Graphics (HGNG) จะฉีดผลลัพธ์ที่จำกัดจากซิมูเลเตอร์การขับขี่แบบ CGI ทั่วไปเข้าไปในพายพไลน์ GAN โดยที่เฟรมเวิร์ก NVIDIA SPADE จะรับช่วงการสร้างสภาพแวดล้อม

ข้อได้เปรียบตามที่ผู้เขียนระบุไว้คือสภาพแวดล้อมการขับขี่จะมีความหลากหลายมากขึ้น ทำให้เกิดประสบการณ์ที่สมจริงมากขึ้น ในปัจจุบัน แม้จะ แปลง ออกพุต CGI เป็นออกพุตการเรนเดอร์แบบニューラル แต่ก็ไม่สามารถแก้ไขปัญหาเรื่องการทำซ้ำได้ เนื่องจากฟุตเทจต้นฉบับที่เข้าสู่พายพไลน์ニューラล์ถูกจำกัดโดยข้อจำกัดของสภาพแวดล้อมแบบจำลอง และความโน้มเอียงที่จะทำซ้ำเท็กซ์เชอร์และเมช

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

ฟุตเทจที่แปลงจาก เอกสาร ‘การเพิ่มภาพถ่ายที่เหมือนจริง’ ในปี 2021 ซึ่งยังคงพึ่งพาฟุตเทจ CGI ที่เรนเดอร์แล้ว รวมถึงพื้นหลังและรายละเอียดสภาพแวดล้อมทั่วไป ซึ่งจำกัดความหลากหลายของสภาพแวดล้อมในประสบการณ์จำลองSource: https://www.youtube.com/watch?v=P1IcaBn3ej0

เอกสารระบุว่า*:

‘ความถูกต้องของซิมูเลเตอร์การขับขี่แบบดั้งเดิมขึ้นอยู่กับคุณภาพของพายพไลน์กราฟิกคอมพิวเตอร์ ซึ่งประกอบด้วยโมเดล 3 มิติ เท็กซ์เชอร์ และเครื่องเรนเดอร์ โมเดล 3 มิติและเท็กซ์เชอร์ที่มีคุณภาพสูงต้องการทักษะศิลปะ ในขณะที่เครื่องเรนเดอร์ต้องทำการคำนวณฟิสิกส์ที่ซับซ้อนสำหรับการแสดงภาพ แสงและเงา อย่างสมจริง’

เอกสารใหม่ ใหม่ มีชื่อเรื่องว่า ภาพถ่ายที่เหมือนจริงในซิมูเลเตอร์การขับขี่: การผสมผสานการสร้างภาพแบบ Generative Adversarial กับการเรนเดอร์ และมาจากนักวิจัยที่ภาควิชาวิศวกรรมไฟฟ้าและคอมพิวเตอร์ มหาวิทยาลัยรัฐโอไฮโอ และ Chongqing Changan Automobile Co Ltd ใน Chongqing, จีน

พื้นหลัง

HGNG จะแปลงโครงสร้างเชิงพื้นที่ของฉาก CGI ที่สร้างขึ้นโดยการผสมวัสดุพื้นหน้าบางส่วนกับสภาพแวดล้อมที่สร้างโดย GAN แม้ว่านักวิจัยจะทดลองกับชุดข้อมูลต่างๆ เพื่อฝึกโมเดล แต่ชุดข้อมูลที่มีประสิทธิภาพมากที่สุดคือ KITTI Vision Benchmark Suite ซึ่งมีภาพถ่ายจากมุมมองของคนขับในเมือง Karlsruhe ประเทศเยอรมนีเป็นส่วนใหญ่

HGNG สร้างโครงสร้างเชิงพื้นที่จากออกพุต CGI และแล้วแทรก SPADE โดยมีการเข้ารหัสสไตล์ที่แตกต่างกัน เพื่อสร้างภาพพื้นหลังที่เหมือนจริงและหลากหลาย รวมถึงวัตถุใกล้เคียงในฉากเมือง

นักวิจัยทดลองกับเครือข่าย Generative Adversarial แบบ Conditional (cGAN) และ CycleGAN (CyGAN) พบว่าแต่ละแบบมีข้อดีและข้อเสีย: cGAN ต้องการชุดข้อมูลคู่ ในขณะที่ CyGAN ไม่ต้องการ แต่ CyGAN ไม่สามารถทำได้ดีกว่าซิมูเลเตอร์แบบดั้งเดิมในขณะนี้ จนกว่าจะมีการปรับปรุงใน การปรับเปลี่ยนโดเมน และความสม่ำเสมอของวงจร

สถาปัตยกรรมแนวคิดของ HGNG

ในพายพไลน์กราฟิกส์แบบニューラล์ HGNG จะสร้างการแสดงภาพ 2 มิติจากฉาก CGI ที่สร้างขึ้น วัตถุที่ผ่านไปยัง GAN จะจำกัดอยู่เพียง ‘สิ่งจำเป็น’ เช่น สัญลักษณ์บนถนนและยานพาหนะ ซึ่ง GAN ไม่สามารถเรนเดอร์ได้ด้วยความสม่ำเสมอและความสมบูรณ์ที่เพียงพอสำหรับซิมูเลเตอร์การขับขี่ ในขณะที่ภาพที่สร้างโดย cGAN จะผสมกับการเรนเดอร์แบบฟิสิกส์

การทดสอบ

เพื่อทดสอบระบบ นักวิจัยใช้ SPADE ที่ฝึกอบรมด้วย Cityscapes เพื่อแปลงโครงสร้างเชิงพื้นที่ของฉากเป็นออกพุตที่เหมือนจริง อินพุต CGI มาจากซิมูเลเตอร์การขับขี่แบบโอเพ่นซอร์ส CARLA ซึ่งใช้ Unreal Engine 4 (UE4)

ออกพุตจากซิมูเลเตอร์การขับขี่แบบโอเพ่นซอร์ส CARLA Source: https://arxiv.org/pdf/1711.03938.pdf

การเรนเดอร์และการคำนวณแสงเงาของ UE4 จะให้โครงสร้างเชิงพื้นที่และภาพที่เรนเดอร์บางส่วน โดยมีเพียงยานพาหนะและเครื่องหมายถนนเท่านั้นที่ออกพุต การผสมผสานจะทำโดยใช้ GP-GAN ที่ฝึกอบรมด้วย Transient Attributes Database และการทดสอบทั้งหมดจะทำงานบน NVIDIA RTX 2080 โดยมี 8 GB GDDR6 VRAM

นักวิจัยทดสอบ การรักษาเชิงพื้นที่ ซึ่งเป็นความสามารถของภาพออกพุตที่จะสอดคล้องกับแมสค์เชิงพื้นที่ที่ตั้งใจไว้สำหรับฉาก

ในภาพทดสอบด้านบน เราจะเห็นว่าใน ‘การเรนเดอร์เท่านั้น’ (ล่างซ้าย) การเรนเดอร์เต็มจะไม่ได้รับเงาที่สมจริง นักวิจัยสังเกตเห็นว่าที่นี่ (วงกลมสีเหลือง) เงาของต้นที่ตกลงบนถนนคนเดินถูกจำแนกโดย DeepLabV3 (เฟรมเวิร์กการจำแนกเชิงพื้นที่ที่ใช้สำหรับการทดสอบเหล่านี้) ว่าเป็น ‘ส่วนหนึ่งของถนน’

ในคอลัมน์กลาง เราจะเห็นว่าภาพที่สร้างโดย cGAN ไม่มีนิยามที่สม่ำเสมอเพียงพอสำหรับองค์ประกอบที่จำเป็น (วงกลมสีแดง) ในคอลัมน์ขวาสุด ภาพที่ผสมผสานจะสอดคล้องกับคำจำกัดความเชิงพื้นที่ดั้งเดิม ในขณะที่รักษาองค์ประกอบ CGI ที่จำเป็นไว้

เพื่อประเมินความสมจริง นักวิจัยใช้ Frechet Inception Distance (FID) เป็นมาตรการแสดงผล เนื่องจากสามารถทำงานกับข้อมูลคู่หรือไม่คู่ได้

สามชุดข้อมูลถูกใช้เป็นข้อมูลจริง: Cityscapes, KITTI และ ADE20K

ภาพออกพุตจะถูกเปรียบเทียบกันโดยใช้คะแนน FID และกับพายพไลน์แบบฟิสิกส์ (เช่น CGI) ในขณะที่การรักษาเชิงพื้นที่จะถูกประเมินเช่นกัน

ในผลลัพธ์ด้านบน ซึ่งเกี่ยวข้องกับการรักษาเชิงพื้นที่ คะแนนสูงกว่าจะดีกว่า โดยวิธีการแบบพีระมิด cGAN (หนึ่งในหลายพายพไลน์ที่นักวิจัยทดสอบ) ได้คะแนนสูงสุด

ผลลัพธ์ที่แสดงด้านบนเกี่ยวข้องกับคะแนน FID โดยมี HGNG ได้คะแนนสูงสุดจากการใช้ชุดข้อมูล KITTI

วิธีการ ‘การเรนเดอร์เท่านั้น’ (แสดงเป็น [23]) เกี่ยวข้องกับออกพุตจาก CARLA ซึ่งเป็นพายพไลน์ CGI ที่ไม่คาดหวังว่าจะเหมือนจริง

ผลลัพธ์คุณภาพในเครื่องเรนเดอร์แบบดั้งเดิม (‘c’ ในภาพด้านบน) แสดงให้เห็นถึงข้อมูลพื้นหลังที่ไม่สมจริง เช่น ต้นไม้และพืชพรรณ ซึ่งต้องการโมเดลที่มีรายละเอียดและโหลดเมชแบบเรียลไทม์ รวมถึงกระบวนการอื่นๆ ที่ต้องใช้โปรเซสเซอร์ ในขณะที่ (b) cGAN ไม่สามารถให้นิยามที่เพียงพอสำหรับองค์ประกอบที่จำเป็น เช่น รถยนต์และเครื่องหมายถนน ในภาพออกพุตที่ผสมผสานที่เสนอ (a) การกำหนดค่าของรถยนต์และถนนมีคุณภาพดี ในขณะที่สภาพแวดล้อมมีความหลากหลายและเหมือนจริง

เอกสารสรุปโดยเสนอว่าความสม่ำเสมอของส่วน GAN ในพายพไลน์การเรนเดอร์สามารถเพิ่มขึ้นได้โดยใช้ชุดข้อมูลเมืองที่ใหญ่ขึ้น และงานในอนาคตในด้านนี้อาจให้ทางเลือกที่แท้จริงสำหรับการแปลงニューラล์ที่มีค่าใช้จ่ายสูงของสตรีม CGI และให้ความสมจริงและความหลากหลายมากขึ้น

* การแปลงอ้างอิงแบบอินไลน์ของผู้เขียนเป็นลิงก์

เผยแพร่ครั้งแรกเมื่อวันที่ 23 กรกฎาคม 2022