ปัญญาประดิษฐ์
ระบบ AI ที่สามารถสร้างภาพคนให้ดู ‘สวยงาม’ ขึ้น

นักวิจัยจากประเทศจีนได้พัฒนาระบบการเพิ่มคุณภาพภาพโดยใช้ AI ที่สามารถทำให้ภาพคนดู ‘สวยงาม’ ขึ้น โดยอาศัยแนวทางใหม่ในการเรียนรู้แบบเสริมกำลัง

วิธีการใหม่นี้ใช้ ‘เครือข่ายการทำนายความสวยงามของใบหน้า’ เพื่อสร้างความแปรผันของภาพตามปัจจัยหลายอย่าง ซึ่งรวมถึง ‘แสง’ และท่าทางของดวงตา ซึ่งเป็นปัจจัยสำคัญ ในที่นี้ ภาพต้นฉบับ (ทางด้านซ้ายของแต่ละคอลัมน์) มาจากระบบ EigenGAN และผลลัพธ์ใหม่อยู่ทางด้านขวา Source: https://arxiv.org/pdf/2208.04517.pdf
เทคนิคนี้อาศัยนวัตกรรมที่ค้นพบสำหรับ EigenGAN generator ซึ่งเป็นโครงการของจีนในปี 2021 ที่ได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในการระบุและควบคุมคุณลักษณะเชิงสำเนียงที่หลากหลายภายในพื้นที่ 潜在 ของเครือข่าย Generative Adversarial Networks (GANs)

ระบบ EigenGAN generator ในปี 2021 สามารถระบุแนวคิดระดับสูง เช่น ‘สีผม’ ภายในพื้นที่ 潜在 ของเครือข่าย Generative Adversarial Networks ได้ งานใหม่นี้สร้างบนฐานของนวัตกรรมนี้เพื่อนำเสนอระบบที่สามารถ ‘เพิ่มความสวยงาม’ ให้กับภาพต้นฉบับ แต่ไม่เปลี่ยนเอกลักษณ์ที่รู้จัก – ปัญหาที่พบในแนวทางก่อนหน้านี้ Source: https://arxiv.org/pdf/2104.12476.pdf
ระบบนี้ใช้ ‘เครือข่ายการให้คะแนนความสวยงาม’ ที่ได้รับมาจาก SCUT-FBP5500 (SCUT) ซึ่งเป็นชุดข้อมูลมาตรฐานสำหรับการทำนายความสวยงามของใบหน้าในปี 2018 จากมหาวิทยาลัยเทคโนโลยีแห่งภาคใต้ของจีนในกวางเจา

จากเอกสารในปี 2018 ‘SCUT-FBP5500: ชุดข้อมูลมาตรฐานที่หลากหลายสำหรับการทำนายความสวยงามของใบหน้าแบบหลายรูปแบบ’ ซึ่งนำเสนอ ‘เครือข่ายการทำนายความสวยงามของใบหน้า’ (FBP) ที่สามารถจัดอันดับใบหน้าตามความน่าดึงดูดที่รับรู้ได้ แต่ไม่สามารถเปลี่ยนแปลงหรือ ‘อัพเกรด’ ใบหน้าได้ Source: https://arxiv.org/pdf/1801.06345.pdf
ไม่เหมือนกับงานใหม่นี้ โครงการในปี 2018 ไม่สามารถดำเนินการเปลี่ยนแปลงได้ แต่มีค่าพิจารณาเชิงอัลกอริทึมสำหรับใบหน้า 5,500 ใบ ซึ่งจัดทำโดยผู้ให้ฉลาก 60 คน (แบ่งเป็น 50/50 ระหว่างเพศ) ซึ่งถูกนำมาใช้ในระบบใหม่นี้เป็นตัวแบ่ง (discriminator) ที่มีประสิทธิภาพเพื่อแจ้งการเปลี่ยนแปลงที่อาจเพิ่ม ‘ความน่าดึงดูด’ ของภาพ
น่าสนใจที่ เอกสารใหม่ มีชื่อเรื่องว่า การสร้างใบหน้าที่สวยงามของคนผิวขาวโดยการเรียนรู้แบบเสริมกำลังที่ขับเคลื่อนด้วยความสวยงาม สาเหตุที่ไม่รวมคนผิวสีเข้มในระบบ (และนักวิจัยเองก็เป็นคนจีน) คือเพราะข้อมูลต้นฉบับของ SCUT มีความเอนเอียงไปทางแหล่งที่มาของเอเชีย (4,000 คนเอเชียชาย/หญิงที่แบ่งเท่าๆ กัน และ 1,500 คนผิวขาวชาย/หญิงที่แบ่งเท่าๆ กัน) ทำให้ ‘คนเฉลี่ย’ ในชุดข้อมูลนั้นมีผมสีน้ำตาลและดวงตาสีน้ำตาล
ดังนั้น เพื่อให้สามารถรองรับการเปลี่ยนแปลงสีได้ภายในคนผิวขาวอย่างน้อยหนึ่งคน จึงจำเป็นต้องแยกส่วนประกอบของเอเชียออกจากข้อมูลต้นฉบับ หรือไม่ก็จะต้องมีค่าใช้จ่ายที่มากในการสร้างข้อมูลใหม่เพื่อพัฒนาแนวทางที่อาจไม่ประสบความสำเร็จ นอกจากนี้ การเปลี่ยนแปลงในความเข้าใจเรื่องความสวยงามตามวัฒนธรรมอย่างหลีกเลี่ยงไม่ได้หมายความว่าระบบดังกล่าวจะต้องมีการกำหนดค่าทางภูมิศาสตร์บางระดับเกี่ยวกับสิ่งที่ประกอบเป็น ‘ความน่าดึงดูด’
คุณลักษณะที่เกี่ยวข้อง
เพื่อกำหนดปัจจัยหลักที่ทำให้ภาพคนดู ‘น่าดึงดูด’ นักวิจัยได้ทดสอบผลกระทบของการเปลี่ยนแปลงต่างๆ ต่อภาพ ในแง่ของวิธีการที่การเพิ่มเหล่านั้นเพิ่มการรับรู้ ‘ความสวยงาม’ ของอัลกอริทึม พบว่าหนึ่งในด้านที่มีผลกระทบมากที่สุดต่อคะแนนความสวยงามคือการเปลี่ยนแปลงที่ไม่เกี่ยวข้องกับพันธุกรรม แต่เกี่ยวข้องกับการถ่ายภาพที่ดี

นอกจากแสงแล้ว สิ่งที่มีผลกระทบมากที่สุดต่อคะแนนความสวยงามคือผมหน้า (ซึ่งในกรณีของผู้ชาย อาจเทียบเท่ากับการมีผมที่เต็มที่) ท่าทางของร่างกาย และท่าทางของดวงตา (ที่ที่มีการมองเข้ากับกล้องถ่ายรูปเป็นปัจจัยที่เพิ่มความน่าดึงดูด)
(เกี่ยวกับ ‘สี口紅’ ระบบใหม่ที่สามารถทำงานได้กับทั้งการนำเสนอเพศชายและหญิง ไม่ได้แยกแยะการปรากฏของเพศ แต่ขึ้นอยู่กับระบบตัวแบ่งใหม่นี้เป็น ‘ตัวกรอง’ ในด้านนี้)
วิธีการ
ฟังก์ชันรางวัลในกลไกการเรียนรู้แบบเสริมกำลังของระบบใหม่นี้ได้รับการขับเคลื่อนด้วยการถดถอยแบบง่ายๆ เหนือข้อมูล SCUT ซึ่งผลิตการทำนายความสวยงามของใบหน้า
ระบบฝึกอบรมจะวนซ้ำข้อมูลภาพเข้า (ด้านล่างซ้ายในแผนภาพด้านล่าง) ในตอนแรก โมเดล ResNet18 ที่ได้รับการฝึกอบรมก่อน (ฝึกอบรมบน ImageNet) จะถอดรหัสคุณลักษณะจากภาพที่เหมือนกัน 5 ภาพ (‘y’) ต่อไป การดำเนินการเปลี่ยนแปลงที่เป็นไปได้จะถูกอนุมานจากสถานะที่ซ่อนอยู่ของชั้นเชื่อมต่อเต็ม (GRUCell ในภาพด้านล่าง) และการเปลี่ยนแปลงจะถูกนำไปใช้ ส่งผลให้ได้ภาพที่เปลี่ยนแปลงไป 5 ภาพ ซึ่งจะถูกส่งเข้าไปในเครือข่ายการให้คะแนนความสวยงาม ซึ่งการให้คะแนนจะกำหนดว่าการเปลี่ยนแปลงใดจะถูกพัฒนาและใดจะถูกทิ้ง
เครือข่ายการให้คะแนนความสวยงามใช้โมดูล Efficient Channel Attention (ECA) ในขณะที่การปรับใช้ EfficientNet-B4 ที่ได้รับการฝึกอบรมก่อนจะถูกใช้ในการถอดรหัสคุณลักษณะ 1,792 คุณลักษณะจากภาพแต่ละภาพ
หลังจากการปรับมาตรฐานผ่านฟังก์ชันการกระตุ้น ReLU คุณลักษณะ 4 มิติจะถูกส่งกลับจากโมดูล ECA ซึ่งจะถูกแบนให้เป็นเวกเตอร์หนึ่งมิติหลังจากการกระตุ้นและการทำการ平均ค่าผ่านการรวมกันแบบปรับเปลี่ยนได้ สุดท้าย ผลลัพธ์จะถูกส่งเข้าไปในเครือข่ายการถดถอย ซึ่งจะส่งคืนคะแนนความสวยงาม

การเปรียบเทียบเชิงคุณภาพของเอาต์พุตจากระบบ ในแถวล่าง เราจะเห็นผลรวมของการเปลี่ยนแปลงที่ถูกกำหนดโดยวิธี EigenGAN และเพิ่มความสวยงาม คะแนน FID ที่เฉลี่ยสำหรับภาพอยู่ทางด้านซ้ายของแถวภาพ (ค่าสูงกว่าคือดีกว่า)
การทดสอบและการศึกษาด้วยผู้ใช้
รูปแบบที่แตกต่างกัน 5 แบบของวิธีการที่เสนอได้รับการประเมินเชิงอัลกอริทึม (ดูภาพด้านบน) โดยมีการกำหนดคะแนน Fréchet inception distance (FID) สำหรับภาพ 1,000 ภาพที่ผ่านระบบ
นักวิจัยสังเกตว่าการปรับปรุงแสงสามารถให้คะแนนความน่าดึงดูดที่ดีกว่าสำหรับบุคคลในภาพมากกว่าการเปลี่ยนแปลงอื่นๆ ที่ชัดเจนกว่า (เช่น การเปลี่ยนแปลงที่เกี่ยวข้องกับการปรากฏของบุคคล)
ในการทดสอบระบบในลักษณะนี้มีข้อจำกัดโดยความแปลกของข้อมูล SCUT ซึ่งไม่มี ‘รอยยิ้มที่สว่าง’ มากนัก และผู้เขียนแย้งว่าสิ่งนี้อาจให้ความสำคัญกับการ ‘ดูเป็นมิตร’ มากเกินไปในข้อมูลเมื่อเทียบกับความชอบที่อาจเป็นของกลุ่มเป้าหมาย (โดยสันนิษฐานว่าเป็นตลาดตะวันตก)
อย่างไรก็ตาม เนื่องจากระบบทั้งหมดขึ้นอยู่กับความคิดเห็นโดยเฉลี่ยของคนเพียง 60 คน (ในเอกสาร EigenGAN) และเนื่องจากคุณภาพที่กำลังศึกษาไม่ใช่เรื่องเชิงประจักษ์ จึงสามารถแย้งได้ว่ากระบวนการนี้มีเสถียรภาพมากกว่าชุดข้อมูล
แม้ว่าจะได้รับการกล่าวถึงอย่างสั้นๆ ในเอกสาร แต่ภาพจาก EigenGAN และรูปแบบที่แตกต่างกัน 5 แบบของระบบใหม่ได้ถูกนำเสนอในการศึกษาด้วยผู้ใช้ (8 ผู้เข้าร่วม) ซึ่งถูกขอให้เลือก ‘ภาพที่ดีที่สุด’ (คำว่า ‘น่าดึงดูด’ ถูกหลีกเลี่ยง)

ด้านบน GUI ที่นำเสนอให้กับกลุ่มศึกษาขนาดเล็ก ด้านล่างคือผลลัพธ์
ผลลัพธ์แสดงให้เห็นว่าเอาต์พุตของระบบใหม่ได้รับการเลือกสูงสุดจากผู้เข้าร่วม (‘MAES’ ในภาพด้านบน)
การไล่ล่าความสวยงาม
ความมีประโยชน์ของระบบดังกล่าวยากที่จะกำหนดไว้ แม้ว่าจะดูเหมือนว่ามี จุดมุ่งหมาย ที่สำคัญ ของ ความพยายาม ใน จีน ที่มุ่งสู่เป้าหมายนี้ ไม่มีการกล่าวถึงในเอกสารใหม่นี้
เอกสาร EigenGAN ก่อนหน้านี้แนะนำว่าระบบการรู้จักความสวยงามของใบหน้าสามารถใช้ได้ในระบบแนะนำการทำความสวยงามใบหน้า การศัลยกรรมความงาม การเพิ่มความสวยงามของใบหน้า หรือการค้นหาภาพตามเนื้อหา
โดยสมมติว่าแนวทางนี้สามารถใช้ได้ในเว็บไซต์หาคู่ โดยผู้ใช้เพื่อ ‘เพิ่มความสวยงาม’ ให้กับภาพโปรไฟล์ของตนเองเป็น ‘ช็อตที่ดี’ เป็นทางเลือกในการใช้ภาพเก่าหรือภาพของคนอื่น
ในทำนองเดียวกัน เว็บไซต์หาคู่เองก็สามารถ ‘จัดอันดับ’ ลูกค้าเพื่อสร้างอันดับและแม้กระทั่ง ‘ระดับการเข้าถึงที่จำกัด’ ได้ แม้ว่าสิ่งนี้จะทำงานได้เฉพาะผ่านการยืนยันตัวตนแบบ liveness เท่านั้น มิฉะนั้น ลูกค้าอาจ ‘เพิ่มความสวยงาม’ ให้กับภาพที่ส่งมาได้ หากแนวทางนี้กลายเป็นที่นิยม
ในด้านโฆษณา ระบบการประเมินความสวยงามที่ขับเคลื่อนด้วยอัลกอริทึมสามารถใช้เลือกเอาต์พุตที่สร้างสรรค์ที่ไม่ถูกเปลี่ยนแปลงซึ่งมีแนวโน้มที่จะดึงดูดกลุ่มเป้าหมาย ในขณะที่ความสามารถในการเพิ่มผลกระทบทาง审美ของภาพใบหน้าโดยไม่ต้องเขียนทับภาพในลักษณะของ deepfakes อาจเพิ่มภาพที่มีประสิทธิภาพอยู่แล้วที่ตั้งใจจะดึงดูดความสนใจจากสาธารณะ
งานใหม่นี้ได้รับการสนับสนุนโดย National Natural Science Foundation of China, โครงการ Open Fund ของ State Key Laboratory of Complex System Management and Control และโครงการ Philosophy and Social Science Research จากกระทรวงศึกษาธิการของจีน รวมถึงผู้สนับสนุนอื่นๆ
* การแนะนำหลายอย่างในเอกสาร EigenGAN ชี้ไปที่หนังสือที่มีจำหน่ายในปี 2016 ที่มีชื่อ ‘Computer Models for Facial Beauty Analysis’ มากกว่าแหล่งข้อมูลทางวิชาการ
เผยแพร่ครั้งแรกเมื่อวันที่ 11 สิงหาคม 2022













