Connect with us

ดิสนีย์รวม CGI เข้ากับการเรนเดอร์แบบニューラルเพื่อแก้ปัญหาความไม่สมจริง

ปัญญาประดิษฐ์

ดิสนีย์รวม CGI เข้ากับการเรนเดอร์แบบニューラルเพื่อแก้ปัญหาความไม่สมจริง

mm

แผนกการวิจัย AI ของดิสนีย์ได้พัฒนาแนวทางแบบไฮบริดสำหรับการจำลองใบหน้าระดับคุณภาพภาพยนตร์ โดยรวมความแข็งแกร่งของการเรนเดอร์แบบニューラล์สำหรับใบหน้าเข้ากับความสม่ำเสมอของแนวทาง CGI

เอกสารที่กำลังจะเผยแพร่จะมีชื่อเรื่องว่า การเรนเดอร์ด้วยสไตล์: การรวมแนวทางแบบดั้งเดิมและแบบニューラล์สำหรับการเรนเดอร์ใบหน้าระดับคุณภาพสูง และสามารถดูได้ใน วิดีโอที่เพิ่งเผยแพร่ ในช่อง Disney Research YouTube (ฝังไว้ที่ส่วนล่างของบทความนี้*)

เมชที่รวมกับการเรนเดอร์ใบหน้าแบบニューラล์

เมชที่รวมกับการเรนเดอร์ใบหน้าแบบニューラล์ ดูวิดีโอที่ส่วนล่างของบทความสำหรับรายละเอียดและคุณภาพที่ดีกว่า Source: https://www.youtube.com/watch?v=k-RKSGbWLng (ถูกแทนที่ด้วย https://www.youtube.com/watch?v=TwpLqTmvqVk)

ตามที่วิดีโอระบุ การเรนเดอร์ใบหน้าแบบニューラล์ (รวมถึง deepfakes) สามารถสร้างดวงตาและปากที่สมจริงมากกว่า CGI ที่สามารถทำได้ ในขณะที่เนื้อผิวใบหน้าแบบ CGI มีความสม่ำเสมอและเหมาะสมสำหรับการผลิต VFX ระดับซีนีมา

ดังนั้นดิสนีย์จึงทดลองให้ StyleGan2 ของ NVIDIA จัดการคุณสมบัติรอบๆ ใบหน้าและองค์ประกอบ “ชีวิตที่สำคัญ” เช่น ดวงตา ในขณะที่ซ้อนทับเนื้อผิวใบหน้า CGI ที่สม่ำเสมอเข้ากับเอาต์พุต

<img class="wp-image-178955 size-full" src="https://www.unite.ai/wp-content/uploads/2021/11/disney-combined-neural-cgi-approach.jpg" alt="จากวิดีโอ (ดูส่วนล่างของบทความ) แนวคิดทางสถาปัตยกรรมเบื้องหลังแนวทางไฮบริดของดิสนีย์ โดยเมช CGI แบบเก่า ซึ่งใช้ในการสร้าง 'คาร์รี ฟิชเชอร์' และ 'ปีเตอร์ คัชชิง' ใน โร้ก วัน (2016) ถูกผสมผสานเข้ากับสภาพแวดล้อมใบหน้าแบบニューラล์” width=”1200″ height=”519″ /> จากวิดีโอ (ดูส่วนล่างของบทความ) แนวคิดทางสถาปัตยกรรมเบื้องหลังแนวทางไฮบริดของดิสนีย์ โดยเมช CGI แบบเก่า ซึ่งใช้ในการสร้าง ‘คาร์รี ฟิชเชอร์’ และ ‘ปีเตอร์ คัชชิง’ ใน โร้ก วัน (2016) ถูกผสมผสานเข้ากับสภาพแวดล้อมใบหน้าแบบニューラล์

วิดีโอดังกล่าวอ้างอิงถึงคำวิจารณ์ที่มักพบเกี่ยวกับความไม่สมจริงและผล “uncanny valley” ของการสร้าง CGI ของนักแสดง Star Wars ปีเตอร์ คัชชิง ที่เสียชีวิตไปแล้ว ใน โร้ก วัน (2016) โดยยอมรับว่า:

‘ยังคงมีช่องว่างขนาดใหญ่ระหว่างสิ่งที่คนสามารถจับภาพและเรนเดอร์ได้ง่ายๆ กับสิ่งที่เป็นตัวแทนแบบดิจิทัลที่มีคุณภาพสูงและสมจริง รวมถึงผม ดวงตา และปากภายใน เพื่อปิดช่องว่างนี้ มันจำเป็นต้องมีการทำงานด้วยมือจากศิลปินผู้มีทักษะ’

ในความเป็นจริง ระบบการจำลองใบหน้าสมัยใหม่ไม่ได้พยายามสร้างดวงตา ปากภายใน หรือผม ซึ่งมีปัญหาเกี่ยวกับความสมจริงในเทคนิคเหล่านี้ (ดวงตา) หรือความสม่ำเสมอในแง่ของเวลา (ผม)

วิดีโอดังกล่าวแสดงให้เห็นว่าศิลปิน VFX จะได้รับหลังจากเซสชั่นการจำลองใบหน้าสมัยใหม่ ดวงตา ผม และปากภายในจะถูกจัดการโดยทีมที่แยกจากกันในสายการผลิต

วิดีโอดังกล่าวแสดงให้เห็นว่าศิลปิน VFX จะได้รับหลังจากเซสชั่นการจำลองใบหน้าสมัยใหม่ ดวงตา ผม และปากภายในจะถูกจัดการโดยทีมที่แยกจากกันในสายการผลิต รวมถึงการทำสีและแสง

การควบคุมแสง

แนวทางไฮบริดนี้ยังมีประโยชน์ในการ relighting ซึ่งเป็นความท้าทายที่สำคัญสำหรับการเรนเดอร์ใบหน้าแบบニューラล์ เนื่องจากการซ้อนทับเนื้อผิวใบหน้า CGI สามารถ relit ได้ง่ายกว่า

รูปแบบแอนิเมชันของแนวทาง CGI/ニューラล์

รูปแบบแอนิเมชันของแนวทาง CGI/ニューラล์

ในสถานการณ์ที่ท้าทายมากกว่า เช่น การถ่ายภาพภายนอก นักวิจัยได้พัฒนาวิธีการ inpainting รอบๆ พื้นที่ที่ไม่มีการป้องกันรอบๆ บุคคลที่ถูก “สร้าง”

ขอบเขตสีดำถูกสร้างขึ้นเพื่อให้พื้นที่ “ผืนผ้า” สำหรับการ inpainting ส่วนภายนอกของอัตลักษณ์และการผสมผสานเนื้อผิว CGI เข้ากับเอาต์พุต CGI/ニューラล์ที่ผสมผสาน

วิดีโอดังกล่าวระบุ:

‘การเรนเดอร์แบบニューラล์ไม่ตรงกับข้อจำกัดพื้นหลังอย่างสมบูรณ์แบบ – มันถูกตั้งใจให้เป็นเพียงแนวทางเท่านั้น เนื่องจากการเพิ่มประสิทธิภาพสำหรับส่วนประกอบของมนุษย์ที่สมจริง เช่น ผม ดวงตา และฟัน เป็นเป้าหมายหลัก การรักษาอัตลักษณ์ที่สม่ำเสมอในขณะที่เปลี่ยนการ照明ของสภาพแวดล้อมเป็นเรื่องที่ท้าทายกว่า’

การสร้างเมช CGI จากการเรนเดอร์แบบニューラล์

ทีมวิจัยได้พัฒนาอัลกอริทึมแบบแปรผันโดยใช้ฐานข้อมูลขนาดใหญ่ของภาพใบหน้า 3 มิติ และอ้างว่าสามารถสร้างเมชใบหน้า 3 มิติที่ “สุ่มแต่สมเหตุสมผล” จากข้อมูลที่ถูกต้อง

มีข้อจำกัดที่จะต้อง克服 รวมถึงความยากในการทำให้ผมอยู่ในความสม่ำเสมอในแง่ของเวลาในผลลัพธ์ของการเรนเดอร์แบบニューラล์ และวิดีโอ (ดูส่วนล่าง) แสดงตัวอย่างหลายรูปแบบของการเปลี่ยนแปลงผมอย่างรวดเร็วในขณะ pan รอบๆ ใบหน้า CGI/ニューラล์

ความสม่ำเสมอในแง่ของเวลาของการเรนเดอร์วิดีโอแบบニューラล์เป็นปัญหาที่กว้างกว่าแค่ดิสนีย์ และดูเหมือนว่าในอนาคตอาจใช้วิธีการอื่นๆ เช่น การเพิ่มผมในขั้นตอนหลังการผลิต หรือวิธีการอื่นๆ สำหรับการสร้างผมมากกว่าการหวังว่าวิธีการแบบニューラล์ใหม่จะแก้ปัญหาได้

การใช้สำหรับการสร้างชุดข้อมูล

วิธีการนี้ถูกเสนอเป็นวิธีการที่มีศักยภาพในการสร้างข้อมูลสังเคราะห์และเพิ่มความหลากหลายของชุดข้อมูลภาพใบหน้า ซึ่งในช่วงไม่กี่ปีที่ผ่านมาได้กลายเป็น การโจมตีภาพที่ไม่สมจริง

ดิสนีย์เห็นภาพถึงเทคนิคใหม่นี้ที่เติมชุดข้อมูลภาพใบหน้า

ดิสนีย์เห็นภาพถึงเทคนิคใหม่นี้ที่เติมชุดข้อมูลภาพใบหน้า

‘ผลลัพธ์ที่สมจริงทุกอย่างที่เราสร้างขึ้นมีเรขาคณิตพื้นฐานและแผนที่สี ซึ่งเรนเดอร์จากมุมมองของกล้องที่ไม่รู้จักและมีการ照明ที่ทราบ ‘ข้อมูลพื้นฐาน’ นี้มีความสำคัญสำหรับการฝึกอบรมแอปพลิเคชันในอนาคต เช่น การสร้างภาพ 3 มิติจากภาพ 2 มิติ การรู้จำใบหน้า หรือการทำความเข้าใจฉาก และดังนั้นผลลัพธ์ที่เรนเดอร์ทุกอย่างจึงสามารถพิจารณาเป็นตัวอย่างข้อมูล และเราสามารถสร้างหลายรูปแบบของบุคคลต่างๆ ได้’

‘นอกจากนี้ สำหรับบุคคลเดียวที่เรนเดอร์ในน้ำเสียงเดียวและมุมมองและแสงเดียว เราสามารถสร้างรูปแบบสุ่มของภาพที่สมจริงโดยการเปลี่ยนเมล็ดสุ่มระหว่างการเพิ่มประสิทธิภาพ’

นักวิจัยระบุว่าความหลากหลายของเอาต์พุตที่สามารถกำหนดค่าได้สามารถใช้ในการฝึกอบรมแอปพลิเคชันการรู้จำใบหน้า โดยสรุป:

‘วิธีการของเราสามารถใช้เทคโนโลยีในปัจจุบันสำหรับการจับภาพผิวใบหน้า การสร้างแบบจำลองและการเรนเดอร์ และสร้างภาพใบหน้าที่สมจริงโดยอัตโนมัติ ซึ่งตรงกับอัตลักษณ์ที่ต้องการ น้ำเสียง และการกำหนดค่าฉาก วิธีการนี้มีการใช้งานและเรนเดอร์ใบหน้าสำหรับภาพยนตร์และความบันเทิง ซึ่งช่วยลดแรงงานของศิลปิน และสำหรับการสร้างข้อมูลในด้านการเรียนรู้ลึกต่างๆ ‘

สำหรับการดูแนวทางใหม่นี้อย่างลึกซึ้งยิ่งขึ้น ดูวิดีโอที่เผยแพร่ในวันนี้:

 * ลิงก์วิดีโอเดิมถูกแทนที่ด้วยลิงก์อื่นที่เหมือนกัน 8 ชั่วโมงหลังจากที่บทความนี้ถูกเผยแพร่ ฉันเปลี่ยนลิงก์ที่เกี่ยวข้องทั้งหมด เนื่องจากไม่มีร่องรอยของวิดีโอเดิม

 

8:24 GMT+2 – ลิงก์วิดีโอถูกเปลี่ยน เนื่องจากถูกเปลี่ยนโดยช่อง Disney Research YouTube โดยไม่ทราบสาเหตุ

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai