ปัญญาประดิษฐ์

การจัดการ ‘วันผมไม่ดี’ ในการสร้างภาพมนุษย์

Published April 15, 2022

Updated April 28, 2026

Martin Anderson

ตั้งแต่ยุคทองของประติมากรรมโรมัน การสร้างภาพผมมนุษย์เป็นเรื่องที่ท้าทาย มีเส้นผมประมาณ 100,000 เส้นบนหัวคนเฉลี่ย ซึ่งมีดัชนีการหักเหที่แตกต่างกันไปตามสี และเมื่อถึงความยาวที่กำหนด จะเคลื่อนไหวและเปลี่ยนรูปในลักษณะที่สามารถจำลองได้โดยใช้ แบบจำลองฟิสิกส์ที่ซับซ้อน – ซึ่งจนถึงปัจจุบันสามารถใช้ได้เฉพาะผ่านวิธีการ ‘ดั้งเดิม’ ของ CGI เท่านั้น

จาก ผลงานวิจัย ของ Disney ในปี 2017 แบบจำลองที่ใช้ฟิสิกส์พยายามนำการเคลื่อนไหวที่สมจริงมาใช้กับลักษณะผมที่เป็นของเหลวในกระบวนการทำงานของ CGI Source: https://www.youtube.com/watch?v=-6iF3mufDW0

ปัญหาได้รับการแก้ไขอย่างไม่ดีโดยวิธีการสร้างภาพลวงตาที่เป็นที่นิยมในยุคปัจจุบัน ในช่วงหลายปีที่ผ่านมา แพ็คเกจชั้นนำ DeepFaceLab มีแบบจำลอง ‘หัวเต็ม’ ซึ่งสามารถจับภาพได้เฉพาะรูปทรงที่แข็งของลักษณะผมสั้น (โดยทั่วไปเป็นผมชาย) เท่านั้น และ FaceSwap ซึ่งเป็นแบบจำลองที่มีความเสถียรของ DFL (ทั้งสองแพ็คเกจนี้ได้รับการพัฒนาจากโค้ดต้นฉบับของ DeepFakes ในปี 2017) ได้นำเสนอการนำแบบจำลอง BiseNet สำหรับการแบ่งส่วนเชิงความหมายมาใช้ ซึ่งช่วยให้ผู้ใช้สามารถรวมหูและผมเข้ากับผลลัพธ์ของการสร้างภาพลวงตาได้

แม้จะสร้างลักษณะผมสั้นได้ แต่ผลลัพธ์ก็มีคุณภาพ จำกัดมาก โดยทั่วไปหัวจะดูเหมือนถูกวางทับบนภาพเคลื่อนไหวมากกว่าที่จะถูกผสมผสานเข้ากับภาพ

GAN Hair

วิธีการสร้างภาพมนุษย์ที่แข่งขันกันสองวิธีหลักคือ Neural Radiance Fields (NeRF) ซึ่งสามารถจับภาพฉากจากหลายมุมมองและจัดเก็บการแสดงภาพ 3 มิติของมุมมองเหล่านี้ในเครือข่ายประสาทที่สามารถสำรวจได้ และ Generative Adversarial Networks (GANs) ซึ่งมีความก้าวหน้ามากกว่าในด้านการสร้างภาพมนุษย์ (ไม่เพียงแต่เพราะ NeRF เพิ่งถูกนำเสนอในปี 2020)

การทำความเข้าใจเรื่องรูปทรง 3 มิติของ NeRF ช่วยให้สามารถจำลองฉากได้ด้วยความเที่ยงตรงที่ดีและสม่ำเสมอ แม้ว่าจะมีการนำแบบจำลองฟิสิกส์มาใช้น้อยหรือไม่มีเลย และในความเป็นจริงแล้วมีการเปลี่ยนแปลงข้อมูลที่รวบรวมที่ไม่เกี่ยวข้องกับการเปลี่ยนมุมมองของกล้อง NeRF ในปัจจุบันมีความสามารถ จำกัดมาก ในการสร้างการเคลื่อนไหวของเส้นผม

วิธีการสร้างภาพที่ใช้ GAN เริ่มต้นด้วยความเสียเปรียบอย่างมาก เนื่องจากไม่เหมือนกับ NeRF พื้นที่ 潜在 ของ GAN ไม่ได้รวมการทำความเข้าใจเรื่องรูปทรง 3 มิติไว้โดยธรรมชาติ ดังนั้นการสร้างภาพใบหน้าที่มีความรู้สึก 3 มิติจาก GAN จึงกลายเป็นเรื่องที่น่าสนใจในการวิจัยการสร้างภาพในหลายปีที่ผ่านมา โดยมี InterFaceGAN ในปี 2019 เป็นหนึ่งในผลงานที่สำคัญ

อย่างไรก็ตาม ผลลัพธ์ที่แสดงและเลือกจาก InterFaceGAN ยังคงแสดงให้เห็นว่าการสร้างเส้นผมที่มีความสม่ำเสมอด้านเวลาเป็นเรื่องที่ท้าทายในแง่ของความสม่ำเสมอด้านเวลา สำหรับกระบวนการทำงาน VFX ที่อาจเกิดขึ้น

เส้นผม ‘สizzling’ ในการเปลี่ยนโพสจาก InterFaceGAN Source: https://www.youtube.com/watch?v=uoftpl3Bj6w

เมื่อเห็นได้ชัดว่าการสร้างมุมมองที่สม่ำเสมอด้วยการเปลี่ยนแปลงพื้นที่ 潜在 เพียงอย่างเดียวอาจเป็นเรื่องที่ไม่สมจริง จึงมีเอกสารวิจัยที่เพิ่มมากขึ้นซึ่ง รวมข้อมูล 3 มิติจาก CGI เข้ากับกระบวนการทำงานของ GAN เพื่อใช้เป็นข้อจำกัดที่ทำให้เกิดความเสถียรและปกติ

ส่วนประกอบของ CGI อาจแสดงเป็นรูปทรง 3 มิติขั้นกลาง เช่น Skinned Multi-Person Linear Model (SMPL) หรือโดยใช้เทคนิคการอนุมาน 3 มิติในลักษณะที่คล้ายกับ NeRF โดยที่รูปทรงถูกประเมินจากภาพต้นฉบับหรือวิดีโอ

ผลงานใหม่หนึ่งผลที่ออกมาในลักษณะนี้ เผยแพร่ในสัปดาห์นี้ คือ Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis (MVCGAN) ซึ่งเป็นความร่วมมือระหว่าง ReLER, AAII, University of Technology Sydney, DAMO Academy ของ Alibaba Group และ Zhejiang University

การสร้างโพสใบหน้าที่สมจริงและแข็งแกร่งจาก MVCGAN บนภาพที่ได้มาจากชุดข้อมูล CELEBA-HQ Source: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN รวม เครือข่ายรังสีสร้าง (GRAF) ที่สามารถให้ข้อจำกัดทางเรื่องรูปทรงใน GAN ได้ ซึ่งอาจบรรลุความสามารถในการสร้างโพสที่สมจริงที่สุดในบรรดาวิธีการที่คล้ายกัน

การเปรียบเทียบระหว่าง MVCGAN และวิธีการก่อนหน้า GRAF, GIRAFFE และ pi-GAN

อย่างไรก็ตาม ส่วนเสริมของ MVCGAN เผยให้เห็นว่าการได้รับเส้นผมที่มีปริมาตร การวางตำแหน่ง และพฤติกรรมที่สม่ำเสมอเป็นปัญหาที่ไม่สามารถแก้ไขได้ง่ายๆ โดยใช้ข้อจำกัดที่มาจากเรื่องรูปทรง 3 มิติจากภายนอก

จากส่วนเสริมที่ไม่ได้เผยแพร่สู่สาธารณะ ณ เวลานี้ เราจะเห็นว่าการสร้างโพสใบหน้าจาก MVCGAN เป็นการก้าวหน้าที่สำคัญ แต่ความสม่ำเสมอด้านเวลาของเส้นผมยังคงเป็นปัญหา

เนื่องจากกระบวนการทำงาน CGI ‘ตรงไปตรงมา’ ยังคงพบว่าการสร้างเส้นผมที่สม่ำเสมอด้านเวลาเป็นเรื่องที่ท้าทาย จึงไม่มีเหตุผลที่จะเชื่อว่าวิธีการที่ใช้เรื่องรูปทรง 3 มิติแบบดั้งเดิมจะสามารถนำการสร้างเส้นผมที่สม่ำเสมอมาสู่พื้นที่ 潜在 ในระยะเวลาอันใกล้นี้

การทำให้เส้นผมมีความเสถียรด้วย Convolutional Neural Networks

อย่างไรก็ตาม ผลงานวิจัยที่กำลังจะเผยแพร่จากนักวิจัย 3 คนจาก Chalmers Institute of Technology ในสวีเดนอาจนำเสนอความก้าวหน้าเพิ่มเติมในการสร้างเส้นผมด้วยระบบประสาท

ด้านซ้ายเป็นเส้นผมที่ถูกทำให้เสถียรโดย CNN และด้านขวาคือภาพต้นฉบับ Source: https://www.youtube.com/watch?v=AvnJkwCmsT4

ผลงานวิจัยที่มีชื่อว่า การกรองเส้นผมแบบเรียลไทม์ด้วย Convolutional Neural Networks จะเผยแพร่ใน i3D symposium ในต้นเดือนพฤษภาคม

ระบบประกอบด้วยเครือข่ายแบบอัตโนมัติซึ่งสามารถประเมินความละเอียดของเส้นผม รวมถึงการสร้างเงาและพิจารณาความหนาของเส้นผมได้แบบเรียลไทม์ โดยอาศัยตัวอย่างสุ่มจำนวนจำกัดที่สร้างจาก OpenGL geometry

วิธีการนี้จะแสดงตัวอย่างจำนวนจำกัดด้วย ความโปร่งใสแบบสุ่ม แล้วฝึก U-net เพื่อสร้างภาพต้นฉบับขึ้นมาใหม่

ภายใต้ MVCGAN CNN จะกรองตัวอย่างสุ่มของปัจจัยสี แสง สัมผัส ลึก และอัลฟา แล้วนำผลลัพธ์ที่สังเคราะห์มาประกอบกันเป็นภาพเดียว

เครือข่ายถูกฝึกบน PyTorch โดยใช้เวลา 6-12 ชั่วโมงในการบรรลุความก้าวหน้าขึ้นอยู่กับขนาดเครือข่ายและจำนวนคุณลักษณะที่นำเข้า พารามิเตอร์ที่ฝึกแล้ว (น้ำหนัก) จะถูกใช้ในระบบการทำงานแบบเรียลไทม์

ข้อมูลสำหรับการฝึกถูกสร้างโดยการแสดงภาพหลายร้อยภาพสำหรับลักษณะผมตรงและเป็นลอน โดยใช้ระยะห่างและโพสที่สุ่ม รวมถึงสภาพแสงหลากหลาย

ตัวอย่างข้อมูลนำเข้า

ความโปร่งใสของเส้นผมจะถูกเฉลี่ยจากภาพที่แสดงด้วยความโปร่งใสแบบสุ่มที่มีความละเอียดสูงขึ้น ข้อมูลต้นฉบับที่มีความละเอียดสูงจะถูกย่อขนาดลงเพื่อให้เข้ากับข้อจำกัดของเครือข่ายและฮาร์ดแวร์ แล้วขยายขนาดขึ้นอีกครั้งตามกระบวนการทำงานทั่วไปของอัตโนมัติ

การนำไปใช้แบบเรียลไทม์ (ซอฟต์แวร์ ‘สด’ ที่ใช้อัลกอริทึมที่ได้มาจากแบบจำลองที่ฝึกแล้ว) จะใช้การผสมผสานระหว่าง NVIDIA CUDA กับ cuDNN และ OpenGL คุณลักษณะนำเข้าจะถูกโหลดเข้าไปในบัฟเฟอร์สีหลายตัวอย่างของ OpenGL แล้วผลลัพธ์จะถูกส่งต่อไปยังเทนเซอร์ของ cuDNN เพื่อการประมวลผลใน CNN เทนเซอร์เหล่านั้นจะถูกคัดลอกกลับไปเป็นข้อความ ‘สด’ ของ OpenGL เพื่อนำไปใช้ในภาพสุดท้าย

ระบบการทำงานแบบเรียลไทม์ทำงานบน NVIDIA RTX 2080 โดยสร้างภาพที่มีความละเอียด 1024×1024 พิกเซล

เนื่องจากค่าของสีผมถูกแยกออกจากกันในค่าสุดท้ายที่ได้รับจากเครือข่าย การเปลี่ยนสีผมจึงเป็นเรื่องที่ง่ายมาก แม้ว่าผลกระทบเช่นการไล่สีและแถบสีจะยังคงเป็นความท้าทายในอนาคต

ผู้เขียนได้เผยแพร่โค้ดที่ใช้ในผลงานวิจัย ที่ GitLab สามารถดูวิดีโอส่วนเสริมสำหรับ MVCGAN ได้ที่ลิงก์ด้านล่าง

สรุป

การนำทางพื้นที่ 潜在 ของอัตโนมัติหรือ GAN ยังคงคล้ายกับการเดินเรือมากกว่าการขับรถที่มีความแม่นยำ ในช่วงเวลาที่ผ่านมา เราเริ่มเห็นผลลัพธ์ที่น่าเชื่อถือสำหรับการสร้างโพสใบหน้าในแนวทางเช่น NeRF, GANs และเฟรมเวิร์กอัตโนมัติที่ไม่ใช่การสร้างภาพลวงตา (2017)

ความซับซ้อนทางสถาปัตยกรรมของเส้นผมมนุษย์ รวมถึงความจำเป็นในการนำแบบจำลองฟิสิกส์และคุณลักษณะอื่นๆ ที่วิธีการสร้างภาพในปัจจุบันไม่มีให้ แสดงให้เห็นว่าการสร้างเส้นผมไม่น่าจะยังคงเป็นส่วนหนึ่งของการสร้างภาพใบหน้าโดยรวม แต่ต้องใช้เครือข่ายที่มีความซับซ้อนและแยกออกมา – แม้ว่าเครือข่ายเหล่านั้นอาจกลายเป็นส่วนหนึ่งของเฟรมเวิร์กการสร้างภาพใบหน้าที่ซับซ้อนกว่าในอนาคต

เผยแพร่ครั้งแรกเมื่อวันที่ 15 เมษายน 2022