Connect with us

ระบบ AI ที่สามารถสร้างภาพคนให้ดู ‘สวยงาม’ ขึ้น

ปัญญาประดิษฐ์

ระบบ AI ที่สามารถสร้างภาพคนให้ดู ‘สวยงาม’ ขึ้น

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

นักวิจัยจากประเทศจีนได้พัฒนาระบบการเพิ่มคุณภาพภาพโดยใช้ AI ที่สามารถทำให้ภาพคนดู ‘สวยงาม’ ขึ้น โดยอาศัยแนวทางใหม่ในการเรียนรู้แบบเสริมกำลัง

The new approach uses a 'facial beauty prediction network' to iterate through variations on an image based on a number of factors, among which 'lighting' and eye poses may be critical factors. Here the original sources (on the left of each column) are from the EigenGAN system, with the new results to the right of these. Source: https://arxiv.org/pdf/2208.04517.pdf

วิธีการใหม่นี้ใช้ ‘เครือข่ายการทำนายความสวยงามของใบหน้า’ เพื่อสร้างความแปรผันของภาพตามปัจจัยหลายอย่าง ซึ่งรวมถึง ‘แสง’ และท่าทางของดวงตา ซึ่งเป็นปัจจัยสำคัญ ในที่นี้ ภาพต้นฉบับ (ทางด้านซ้ายของแต่ละคอลัมน์) มาจากระบบ EigenGAN และผลลัพธ์ใหม่อยู่ทางด้านขวา Source: https://arxiv.org/pdf/2208.04517.pdf

เทคนิคนี้อาศัยนวัตกรรมที่ค้นพบสำหรับ EigenGAN generator ซึ่งเป็นโครงการของจีนในปี 2021 ที่ได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในการระบุและควบคุมคุณลักษณะเชิงสำเนียงที่หลากหลายภายในพื้นที่ 潜在 ของเครือข่าย Generative Adversarial Networks (GANs)

The 2021 EigenGAN generator was able to individuate high-level concepts such as 'hair color' within the latent space of a generative adversarial network. The new work builds on this innovative instrumentality to deliver a system that can 'beautify' source images, but without changing the recognizable identity – a problem in previous approaches. Source: https://arxiv.org/pdf/2104.12476.pdf

ระบบ EigenGAN generator ในปี 2021 สามารถระบุแนวคิดระดับสูง เช่น ‘สีผม’ ภายในพื้นที่ 潜在 ของเครือข่าย Generative Adversarial Networks ได้ งานใหม่นี้สร้างบนฐานของนวัตกรรมนี้เพื่อนำเสนอระบบที่สามารถ ‘เพิ่มความสวยงาม’ ให้กับภาพต้นฉบับ แต่ไม่เปลี่ยนเอกลักษณ์ที่รู้จัก – ปัญหาที่พบในแนวทางก่อนหน้านี้ Source: https://arxiv.org/pdf/2104.12476.pdf

ระบบนี้ใช้ ‘เครือข่ายการให้คะแนนความสวยงาม’ ที่ได้รับมาจาก SCUT-FBP5500 (SCUT) ซึ่งเป็นชุดข้อมูลมาตรฐานสำหรับการทำนายความสวยงามของใบหน้าในปี 2018 จากมหาวิทยาลัยเทคโนโลยีแห่งภาคใต้ของจีนในกวางเจา

From the 2018 paper 'SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction', which proffered a 'Facial beauty prediction' (FBP) network capable of ranking faces in terms of perceived attractiveness, but which could not actually transform or 'upgrade' faces. Source: https://arxiv.org/pdf/1801.06345.pdf

จากเอกสารในปี 2018 ‘SCUT-FBP5500: ชุดข้อมูลมาตรฐานที่หลากหลายสำหรับการทำนายความสวยงามของใบหน้าแบบหลายรูปแบบ’ ซึ่งนำเสนอ ‘เครือข่ายการทำนายความสวยงามของใบหน้า’ (FBP) ที่สามารถจัดอันดับใบหน้าตามความน่าดึงดูดที่รับรู้ได้ แต่ไม่สามารถเปลี่ยนแปลงหรือ ‘อัพเกรด’ ใบหน้าได้ Source: https://arxiv.org/pdf/1801.06345.pdf

ไม่เหมือนกับงานใหม่นี้ โครงการในปี 2018 ไม่สามารถดำเนินการเปลี่ยนแปลงได้ แต่มีค่าพิจารณาเชิงอัลกอริทึมสำหรับใบหน้า 5,500 ใบ ซึ่งจัดทำโดยผู้ให้ฉลาก 60 คน (แบ่งเป็น 50/50 ระหว่างเพศ) ซึ่งถูกนำมาใช้ในระบบใหม่นี้เป็นตัวแบ่ง (discriminator) ที่มีประสิทธิภาพเพื่อแจ้งการเปลี่ยนแปลงที่อาจเพิ่ม ‘ความน่าดึงดูด’ ของภาพ

น่าสนใจที่ เอกสารใหม่ มีชื่อเรื่องว่า การสร้างใบหน้าที่สวยงามของคนผิวขาวโดยการเรียนรู้แบบเสริมกำลังที่ขับเคลื่อนด้วยความสวยงาม สาเหตุที่ไม่รวมคนผิวสีเข้มในระบบ (และนักวิจัยเองก็เป็นคนจีน) คือเพราะข้อมูลต้นฉบับของ SCUT มีความเอนเอียงไปทางแหล่งที่มาของเอเชีย (4,000 คนเอเชียชาย/หญิงที่แบ่งเท่าๆ กัน และ 1,500 คนผิวขาวชาย/หญิงที่แบ่งเท่าๆ กัน) ทำให้ ‘คนเฉลี่ย’ ในชุดข้อมูลนั้นมีผมสีน้ำตาลและดวงตาสีน้ำตาล

ดังนั้น เพื่อให้สามารถรองรับการเปลี่ยนแปลงสีได้ภายในคนผิวขาวอย่างน้อยหนึ่งคน จึงจำเป็นต้องแยกส่วนประกอบของเอเชียออกจากข้อมูลต้นฉบับ หรือไม่ก็จะต้องมีค่าใช้จ่ายที่มากในการสร้างข้อมูลใหม่เพื่อพัฒนาแนวทางที่อาจไม่ประสบความสำเร็จ นอกจากนี้ การเปลี่ยนแปลงในความเข้าใจเรื่องความสวยงามตามวัฒนธรรมอย่างหลีกเลี่ยงไม่ได้หมายความว่าระบบดังกล่าวจะต้องมีการกำหนดค่าทางภูมิศาสตร์บางระดับเกี่ยวกับสิ่งที่ประกอบเป็น ‘ความน่าดึงดูด’

คุณลักษณะที่เกี่ยวข้อง

เพื่อกำหนดปัจจัยหลักที่ทำให้ภาพคนดู ‘น่าดึงดูด’ นักวิจัยได้ทดสอบผลกระทบของการเปลี่ยนแปลงต่างๆ ต่อภาพ ในแง่ของวิธีการที่การเพิ่มเหล่านั้นเพิ่มการรับรู้ ‘ความสวยงาม’ ของอัลกอริทึม พบว่าหนึ่งในด้านที่มีผลกระทบมากที่สุดต่อคะแนนความสวยงามคือการเปลี่ยนแปลงที่ไม่เกี่ยวข้องกับพันธุกรรม แต่เกี่ยวข้องกับการถ่ายภาพที่ดี

นอกจากแสงแล้ว สิ่งที่มีผลกระทบมากที่สุดต่อคะแนนความสวยงามคือผมหน้า (ซึ่งในกรณีของผู้ชาย อาจเทียบเท่ากับการมีผมที่เต็มที่) ท่าทางของร่างกาย และท่าทางของดวงตา (ที่ที่มีการมองเข้ากับกล้องถ่ายรูปเป็นปัจจัยที่เพิ่มความน่าดึงดูด)

(เกี่ยวกับ ‘สี口紅’ ระบบใหม่ที่สามารถทำงานได้กับทั้งการนำเสนอเพศชายและหญิง ไม่ได้แยกแยะการปรากฏของเพศ แต่ขึ้นอยู่กับระบบตัวแบ่งใหม่นี้เป็น ‘ตัวกรอง’ ในด้านนี้)

วิธีการ

ฟังก์ชันรางวัลในกลไกการเรียนรู้แบบเสริมกำลังของระบบใหม่นี้ได้รับการขับเคลื่อนด้วยการถดถอยแบบง่ายๆ เหนือข้อมูล SCUT ซึ่งผลิตการทำนายความสวยงามของใบหน้า

ระบบฝึกอบรมจะวนซ้ำข้อมูลภาพเข้า (ด้านล่างซ้ายในแผนภาพด้านล่าง) ในตอนแรก โมเดล ResNet18 ที่ได้รับการฝึกอบรมก่อน (ฝึกอบรมบน ImageNet) จะถอดรหัสคุณลักษณะจากภาพที่เหมือนกัน 5 ภาพ (‘y’) ต่อไป การดำเนินการเปลี่ยนแปลงที่เป็นไปได้จะถูกอนุมานจากสถานะที่ซ่อนอยู่ของชั้นเชื่อมต่อเต็ม (GRUCell ในภาพด้านล่าง) และการเปลี่ยนแปลงจะถูกนำไปใช้ ส่งผลให้ได้ภาพที่เปลี่ยนแปลงไป 5 ภาพ ซึ่งจะถูกส่งเข้าไปในเครือข่ายการให้คะแนนความสวยงาม ซึ่งการให้คะแนนจะกำหนดว่าการเปลี่ยนแปลงใดจะถูกพัฒนาและใดจะถูกทิ้ง

ภาพรวมของกระบวนการฝึกอบรมสำหรับระบบใหม่

ภาพรวมของกระบวนการฝึกอบรมสำหรับระบบใหม่

เครือข่ายการให้คะแนนความสวยงามใช้โมดูล Efficient Channel Attention (ECA) ในขณะที่การปรับใช้ EfficientNet-B4 ที่ได้รับการฝึกอบรมก่อนจะถูกใช้ในการถอดรหัสคุณลักษณะ 1,792 คุณลักษณะจากภาพแต่ละภาพ

หลังจากการปรับมาตรฐานผ่านฟังก์ชันการกระตุ้น ReLU คุณลักษณะ 4 มิติจะถูกส่งกลับจากโมดูล ECA ซึ่งจะถูกแบนให้เป็นเวกเตอร์หนึ่งมิติหลังจากการกระตุ้นและการทำการ平均ค่าผ่านการรวมกันแบบปรับเปลี่ยนได้ สุดท้าย ผลลัพธ์จะถูกส่งเข้าไปในเครือข่ายการถดถอย ซึ่งจะส่งคืนคะแนนความสวยงาม

การเปรียบเทียบเชิงคุณภาพของเอาต์พุตจากระบบ ในแถวล่าง เราจะเห็นผลรวมของการเปลี่ยนแปลงที่ถูกกำหนดโดยวิธี EigenGAN และเพิ่มความสวยงาม คะแนน FID ที่เฉลี่ยสำหรับภาพอยู่ทางด้านซ้ายของแถวภาพ (ค่าสูงกว่าคือดีกว่า)

การเปรียบเทียบเชิงคุณภาพของเอาต์พุตจากระบบ ในแถวล่าง เราจะเห็นผลรวมของการเปลี่ยนแปลงที่ถูกกำหนดโดยวิธี EigenGAN และเพิ่มความสวยงาม คะแนน FID ที่เฉลี่ยสำหรับภาพอยู่ทางด้านซ้ายของแถวภาพ (ค่าสูงกว่าคือดีกว่า)

การทดสอบและการศึกษาด้วยผู้ใช้

รูปแบบที่แตกต่างกัน 5 แบบของวิธีการที่เสนอได้รับการประเมินเชิงอัลกอริทึม (ดูภาพด้านบน) โดยมีการกำหนดคะแนน Fréchet inception distance (FID) สำหรับภาพ 1,000 ภาพที่ผ่านระบบ

นักวิจัยสังเกตว่าการปรับปรุงแสงสามารถให้คะแนนความน่าดึงดูดที่ดีกว่าสำหรับบุคคลในภาพมากกว่าการเปลี่ยนแปลงอื่นๆ ที่ชัดเจนกว่า (เช่น การเปลี่ยนแปลงที่เกี่ยวข้องกับการปรากฏของบุคคล)

ในการทดสอบระบบในลักษณะนี้มีข้อจำกัดโดยความแปลกของข้อมูล SCUT ซึ่งไม่มี ‘รอยยิ้มที่สว่าง’ มากนัก และผู้เขียนแย้งว่าสิ่งนี้อาจให้ความสำคัญกับการ ‘ดูเป็นมิตร’ มากเกินไปในข้อมูลเมื่อเทียบกับความชอบที่อาจเป็นของกลุ่มเป้าหมาย (โดยสันนิษฐานว่าเป็นตลาดตะวันตก)

อย่างไรก็ตาม เนื่องจากระบบทั้งหมดขึ้นอยู่กับความคิดเห็นโดยเฉลี่ยของคนเพียง 60 คน (ในเอกสาร EigenGAN) และเนื่องจากคุณภาพที่กำลังศึกษาไม่ใช่เรื่องเชิงประจักษ์ จึงสามารถแย้งได้ว่ากระบวนการนี้มีเสถียรภาพมากกว่าชุดข้อมูล

แม้ว่าจะได้รับการกล่าวถึงอย่างสั้นๆ ในเอกสาร แต่ภาพจาก EigenGAN และรูปแบบที่แตกต่างกัน 5 แบบของระบบใหม่ได้ถูกนำเสนอในการศึกษาด้วยผู้ใช้ (8 ผู้เข้าร่วม) ซึ่งถูกขอให้เลือก ‘ภาพที่ดีที่สุด’ (คำว่า ‘น่าดึงดูด’ ถูกหลีกเลี่ยง)

ด้านบน GUI ที่นำเสนอให้กับกลุ่มศึกษาขนาดเล็ก ด้านล่างคือผลลัพธ์

ด้านบน GUI ที่นำเสนอให้กับกลุ่มศึกษาขนาดเล็ก ด้านล่างคือผลลัพธ์

ผลลัพธ์แสดงให้เห็นว่าเอาต์พุตของระบบใหม่ได้รับการเลือกสูงสุดจากผู้เข้าร่วม (‘MAES’ ในภาพด้านบน)

การไล่ล่าความสวยงาม

ความมีประโยชน์ของระบบดังกล่าวยากที่จะกำหนดไว้ แม้ว่าจะดูเหมือนว่ามี จุดมุ่งหมาย ที่สำคัญ ของ ความพยายาม ใน จีน ที่มุ่งสู่เป้าหมายนี้ ไม่มีการกล่าวถึงในเอกสารใหม่นี้

เอกสาร EigenGAN ก่อนหน้านี้แนะนำว่าระบบการรู้จักความสวยงามของใบหน้าสามารถใช้ได้ในระบบแนะนำการทำความสวยงามใบหน้า การศัลยกรรมความงาม การเพิ่มความสวยงามของใบหน้า หรือการค้นหาภาพตามเนื้อหา

โดยสมมติว่าแนวทางนี้สามารถใช้ได้ในเว็บไซต์หาคู่ โดยผู้ใช้เพื่อ ‘เพิ่มความสวยงาม’ ให้กับภาพโปรไฟล์ของตนเองเป็น ‘ช็อตที่ดี’ เป็นทางเลือกในการใช้ภาพเก่าหรือภาพของคนอื่น

ในทำนองเดียวกัน เว็บไซต์หาคู่เองก็สามารถ ‘จัดอันดับ’ ลูกค้าเพื่อสร้างอันดับและแม้กระทั่ง ‘ระดับการเข้าถึงที่จำกัด’ ได้ แม้ว่าสิ่งนี้จะทำงานได้เฉพาะผ่านการยืนยันตัวตนแบบ liveness เท่านั้น มิฉะนั้น ลูกค้าอาจ ‘เพิ่มความสวยงาม’ ให้กับภาพที่ส่งมาได้ หากแนวทางนี้กลายเป็นที่นิยม

ในด้านโฆษณา ระบบการประเมินความสวยงามที่ขับเคลื่อนด้วยอัลกอริทึมสามารถใช้เลือกเอาต์พุตที่สร้างสรรค์ที่ไม่ถูกเปลี่ยนแปลงซึ่งมีแนวโน้มที่จะดึงดูดกลุ่มเป้าหมาย ในขณะที่ความสามารถในการเพิ่มผลกระทบทาง审美ของภาพใบหน้าโดยไม่ต้องเขียนทับภาพในลักษณะของ deepfakes อาจเพิ่มภาพที่มีประสิทธิภาพอยู่แล้วที่ตั้งใจจะดึงดูดความสนใจจากสาธารณะ

งานใหม่นี้ได้รับการสนับสนุนโดย National Natural Science Foundation of China, โครงการ Open Fund ของ State Key Laboratory of Complex System Management and Control และโครงการ Philosophy and Social Science Research จากกระทรวงศึกษาธิการของจีน รวมถึงผู้สนับสนุนอื่นๆ

 

* การแนะนำหลายอย่างในเอกสาร EigenGAN ชี้ไปที่หนังสือที่มีจำหน่ายในปี 2016 ที่มีชื่อ ‘Computer Models for Facial Beauty Analysis’ มากกว่าแหล่งข้อมูลทางวิชาการ

เผยแพร่ครั้งแรกเมื่อวันที่ 11 สิงหาคม 2022

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai