มุมมองของ Anderson

การแสวงหาความงามของ AI

Published March 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

ระบบประเมินความงามที่ขับเคลื่อนด้วย AI ใหม่ให้คะแนนความน่าดึงดูดของใบหน้า ในขณะที่ฝึกฝนได้เร็วกว่าโมเดลการเรียนรู้ลึกทั่วไป ซึ่งอาจทำให้การให้คะแนนความงามแบบอัตโนมัติขนาดใหญ่更加เป็นไปได้

การคาดการณ์ความงามของใบหน้า (FBP) เป็นธุรกิจขนาดใหญ่ และเป็นสายการวิจัยที่มีความเข้มแข็ง แม้ว่าจะละเมิดหลักการแทบทุกประการในการ ต่อต้านความเอนเอียง ในการปฏิบัติงาน AI และการเรียนรู้ของเครื่อง และแม้ว่าจะสนับสนุน การทำให้คนเป็นวัตถุและลดความซับซ้อน ในการรับรู้ของอัลกอริทึมเกี่ยวกับผู้หญิง แต่ก็ยังคงดึงดูดความสนใจของอุตสาหกรรมหลายแห่งที่มีมูลค่าหลายพันล้านดอลลาร์ ซึ่งส่วนใหญ่มุ่งเป้าไปที่ผู้หญิง เช่น เครื่องสำอาง การผ่าตัดใบหน้า การถ่ายทอดสด และแฟชั่น เป็นต้น:

ผู้หญิงที่ได้รับการให้คะแนนจาก 1-5 จากงานวิจัย ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source

นอกเหนือจากธุรกิจที่มุ่งเน้นไปที่ผู้หญิงที่เห็นได้ชัดเจนเหล่านี้แล้ว อุตสาหกรรมโฆษณาและอื่นๆ รวมถึงอุตสาหกรรมบันเทิงและการตีพิมพ์ มีส่วนได้ส่วนเสียที่สำคัญในการทำความเข้าใจว่าผู้ชายและผู้หญิงพบว่า ‘น่าดึงดูด’ ในระดับที่แตกต่างกันไปตามวัฒนธรรม

ข้อเท็จจริงที่ว่าการรับรู้ความงามโดยรวมแตกต่างกันไปในแต่ละภูมิภาคหมายความว่าไม่สามารถรับข้อมูลที่สมบูรณ์และใช้ได้ทั่วโลกได้ และวิจัยใหม่จะต้องอยู่ในระดับท้องถิ่นหรือมุ่งเน้นไปที่ ‘วิธีการระดับสูง’ ที่สามารถใช้ได้กับข้อมูลวัฒนธรรมที่หลากหลาย

อินเทอร์เฟซสำหรับระบบประเมินความงามของใบหน้าสำหรับโครงการ SCUT-FBP ปี 2015. Source

บ่อยครั้ง ที่ตั้งไม่ใช่ข้อจำกัดเพียงอย่างเดียว เนื่องจากชุดข้อมูลที่มุ่งเน้นไปที่ความน่าดึงดูดอาจต้องดิ้นรนเพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันระหว่างเพศ หรืออาจได้รับการคัดเลือกโดยมีการใช้งานเฉพาะอย่างในใจ – และสิ่งนี้อาจจำกัดการใช้ของชุดข้อมูลในโดเมนอื่นๆ

ตัวอย่างเช่น ในปี 2025 ฉัน รายงาน เกี่ยวกับการพัฒนาชุดข้อมูลขนาดใหญ่ (100,000+ อัตลักษณ์) เพื่อประเมินความน่าดึงดูดในระหว่างการถ่ายทอดสด ซึ่งมีมาตรฐานที่ต้องตัดแต่งอย่างใกล้ชิดซึ่งอาจต้องมีการปรับเปลี่ยนอย่างมีนัยสำคัญเพื่อใช้ในโครงการที่กว้างขึ้น แม้ว่าจะมีความพยายามอย่างมากในการดำเนินงานก็ตาม

การแสดงภาพใบหน้า

ตามที่เห็นได้จากลิงก์และรูปภาพด้านบน องค์กรวิจัยในเอเชียบ่อยครั้งไม่ได้ดำเนินการภายใต้ข้อจำกัดทางวัฒนธรรมที่เหมือนกันกับฝ่ายตรงข้ามในตะวันตก ซึ่งจะพบว่ามันยากที่จะเผยแพร่ภาพประกอบทางวิทยาศาสตร์ที่ให้คะแนนผู้หญิงตะวันตก 5 คนจากน้อยที่สุดไปจนถึงน่าดึงดูดที่สุด เช่นที่เห็นใน การศึกษานี้

สามารถแย้งได้ว่าในกรณีที่ระบบประเภทนี้ที่มีต้นกำเนิดในเอเชียได้รับการพิสูจน์แล้วว่ามีประสิทธิผลในที่สาธารณะ โดยไม่ต้องกลัวการวิพากษ์วิจารณ์ในท้องถิ่น ส่วนสนใจของตะวันตกสามารถใช้หรือปรับเปลี่ยนการวิจัยนี้เพื่อใช้ในรูปแบบที่เป็นกรรมสิทธิ์และเป็นส่วนตัวได้ ในกรณีนั้น การ ‘ให้คะแนนผู้หญิง’ จะถูกส่งต่อไปยังที่ที่สามารถดำเนินการได้โดยไม่มีการวิพากษ์วิจารณ์

ไม่ว่าจะเป็นเรื่องธรรมดาหรือไม่ว่าระบบที่ไม่ได้รับการเผยแพร่ของตะวันตกมักจะถูกพัฒนานอกการทำงานร่วมกันแบบเปิดและนอกการตรวจสอบของสาธารณะ หรือไม่ ก็สมเหตุสมผลที่จะถือว่าเป้าหมายสุดท้ายมีความสนใจทั่วโลก เนื่องจากมีภาคการทำงานมืออาชีพจำนวนมากที่สามารถหรืออาจได้รับประโยชน์จากการประเมินความน่าดึงดูดที่แม่นยำ

การอยู่รอดของที่แข็งแกร่งที่สุด

อาจดูเหมือนว่าข้อมูลขนาดใหญ่ที่สามารถเก็บข้อมูลได้จากเว็บ เช่น Tik Tok, Instagram และ YouTube จะพิสูจน์เป็นคนกลางที่ดีในการประเมินความงาม โดยการเชื่อมโยงผู้ติดตาม การชอบ และการเข้าชมกับความน่าดึงดูด เนื่องจาก这是ความสัมพันธ์ที่พบบ่อยและ สมเหตุสมผล (แม้ว่าจะมี บางข้อยกเว้น)

ในทำนองเดียวกัน ชุดข้อมูลที่มีอยู่ เช่น ImageNet และ LAION ที่มีนักแสดงและแบบอย่างที่ ‘ขึ้นสู่จุดสูงสุด’ – จะมีคนน่าดึงดูดโดยทั่วไป (แม้ว่าจะมีจุดข้อมูลมากเกินไปของคนเพียงไม่กี่คน) ทำให้กลไกทางวัฒนธรรมทำงานเป็นคนกลางสำหรับความน่าดึงดูด

อย่างไรก็ตาม สิ่งนี้ไม่ได้คำนึงถึง รสนิยมที่เปลี่ยนแปลง ในสิ่งที่คนพบว่าน่าดึงดูดตลอดเวลา (ไม่เพียงแต่ทางภูมิศาสตร์) ดังนั้น ระบบระดับสูงและไม่ขึ้นอยู่กับข้อมูลจึงจำเป็นต้องไม่ใช่ชุดข้อมูลหรือคัดเลือกเฉพาะบุคคลที่จะล้มเหลวในการสะท้อนถึงความชอบที่เปลี่ยนแปลง

ผิวผสม

การเข้าสู่ระบบวิชาการล่าสุดเพื่อแก้ไขความท้าทายเหล่านี้มาจากประเทศจีน โดยที่ การเรียนรู้แบบถ่ายโอน และ ระบบการเรียนรู้แบบกว้าง (BLS) ถูกผสมผสานเพื่อแก้ไขการแลกเปลี่ยนระหว่างความแม่นยำและต้นทุนการคำนวณที่มีมายาวนาน

เครือข่ายประสาทเทียมแบบดั้งเดิมมักจะบรรลุผลลัพธ์ที่แข็งแกร่งเฉพาะเมื่อฝึกฝนหนัก ในขณะที่ระบบที่เบากว่า เช่น BLS ฝึกฝนได้เร็ว แต่ดิ้นรนในการจับรายละเอียดที่เพียงพอ การทำงานใหม่นี้ข้ามช่องว่างนี้โดยใช้แบบจำลองภาพที่ได้รับการฝึกฝนมาแล้วเพื่อแยกคุณลักษณะใบหน้า ซึ่งจากนั้นจะส่งไปยังระบบ BLS ที่เร็วสำหรับการให้คะแนน ทำให้คุณลักษณะสามารถนำกลับมาใช้ใหม่ได้แทนที่จะเรียนรู้จาก零 ในขณะที่ยังคงรักษาความสามารถในการฝึกฝนให้ได้อย่างมีประสิทธิภาพ:

รูปภาพตัวอย่างจากชุดข้อมูล LSAFBD โดยแสดงใบหน้าหญิงที่จัดกลุ่มตามคะแนนความงามที่กำหนดโดยมนุษย์จาก 1 ถึง 5 โดยที่คะแนนได้รับจากผู้เขียนหลายคนและใช้เป็นป้ายกำกับแบบกำกับสำหรับการฝึกอบรมและการประเมินแบบจำลองการคาดการณ์ความงามของใบหน้าในหลายรูปแบบของท่าทาง แสง และลักษณะที่ปรากฏ. Source

การทำงานแรกของสองรูปแบบที่แนะนำในงาน (E-BLS ดูรายละเอียดด้านล่าง) ส่งคุณลักษณะที่แยกออกมาโดยตรงไปยังระบบที่เบา ในขณะที่รูปแบบที่สอง ER-BLS (ดูรายละเอียดด้านล่าง) เพิ่มขั้นตอนกลางระหว่างตัวแยกคุณลักษณะ EfficientNet และ BLS โดยมีเป้าหมายในการปรับปรุงวิธีการเตรียมคุณลักษณะที่แยกออกมาเหล่านั้นก่อนที่จะใช้สำหรับการทำนาย:

สถาปัตยกรรมของแบบจำลอง ER-BLS โดยที่รูปภาพใบหน้าถูกประมวลผลโดยตัวแยกคุณลักษณะ EfficientNet ที่ได้รับการฝึกฝนมาแล้ว จากนั้นจึงถูกทำให้ง่ายขึ้นผ่านชั้นเชื่อมต่อโดยใช้การรวม การปรับมาตราส่วน และการแปลงแบบฟังก์ชันราก (RBF) ผลลัพธ์จะถูกส่งไปยังระบบการเรียนรู้แบบกว้าง (BLS) เพื่อสร้างคะแนนความงามของใบหน้าสุดท้าย.

คุณลักษณะที่แยกออกมาและทำให้ง่ายขึ้นจะถูกส่งไปยังโครงสร้าง BLS ที่ใช้ใน E-BLS โดยที่โหนดคุณลักษณะและโหนดการปรับปรุงจะรวมและแปลงข้อมูลเพื่อสร้างคะแนนความน่าดึงดูดสุดท้าย

วิธีการ

ระบบการเรียนรู้แบบกว้าง (BLS) เป็นตัวเลือกที่เบากว่าเครือข่ายประสาทเทียมแบบดั้งเดิม โดยที่การเรียนรู้จะกระจายไปทั่วชุดของการเชื่อมต่อที่เรียบง่ายมากกว่าการวางซ้อนหลายชั้น และทำให้แบบจำลองสามารถฝึกฝนได้อย่างรวดเร็ว – แต่โดยทั่วไปแล้วจะพลาดรายละเอียดที่ละเอียดของภาพ

รูปแบบแรกของสองรูปแบบที่แนะนำ คือ E-BLS ซึ่งรวมการเรียนรู้แบบถ่ายโอนโดยใช้ EfficientNet กับ BLS โดยการแยกคุณลักษณะภาพที่มีรายละเอียดจากใบหน้า และจากนั้นส่งไปยัง BLS ซึ่งหมายถึงการทำนายสุดท้ายที่หลีกเลี่ยงการฝึกเครือข่ายประสาทเทียมแบบดั้งเดิมทั้งหมดจาก零:

สถาปัตยกรรมของแบบจำลอง E-BLS โดยที่รูปภาพใบหน้าจากชุดข้อมูลเป้าหมาย เช่น SCUT-FBP5500 และ LSAFBD จะถูกส่งผ่านตัวแยกคุณลักษณะ EfficientNet ที่ได้รับการฝึกฝนมาแล้ว ซึ่งพารามิเตอร์ถูกถ่ายโอนจาก ImageNet และถูกตั้งค่าให้ไม่เปลี่ยนแปลง จากนั้นแผนที่คุณลักษณะที่ได้รับจะถูกส่งไปยังระบบการเรียนรู้แบบกว้าง (BLS) โดยที่โหนดคุณลักษณะและโหนดการปรับปรุงจะถูกผสมผสานผ่านน้ำหนักที่สามารถฝึกฝนได้เพื่อสร้างคะแนนความงามของใบหน้าสุดท้าย.

EfficientNet ที่ได้รับการฝึกฝนบน ImageNet-1k และถูกเก็บไว้โดยไม่มีการเปลี่ยนแปลง จะแปลงรูปภาพเข้ามาแต่ละรูปให้เป็นชุดของค่าลักษณะที่มีโครงสร้างซึ่งอธิบายใบหน้าในลักษณะที่มีโครงสร้าง ในขณะที่ BLS จะใช้ค่าเหล่านั้นและประมวลผลผ่านโหนดที่เชื่อมต่อกันอย่างง่ายซึ่งแปลงและรวมข้อมูลก่อนที่จะสร้างคะแนนความน่าดึงดูดสุดท้าย

เนื่องจาก BLS ไม่พึ่งพาโครงสร้างชั้นลึก E-BLS จึงสามารถอัปเดตได้โดยการเพิ่มโหนดมากกว่าการฝึกอบรมระบบทั้งหมดใหม่ ซึ่งทำให้การฝึกอบรมเร็วขึ้นและทำให้ง่ายต่อการปรับปรุงแบบจำลองเมื่อมีข้อมูลใหม่

รูปแบบที่สองของสองรูปแบบที่แนะนำ คือ ER-BLS ซึ่งสร้างบน E-BLS โดยการเพิ่มขั้นตอนการประมวลผลกลางระหว่างตัวแยกคุณลักษณะ EfficientNet และ BLS โดยมีเป้าหมายในการปรับปรุงวิธีการเตรียมคุณลักษณะที่แยกออกมาเหล่านั้นก่อนที่จะใช้สำหรับการทำนาย:

ข้อมูลและทดสอบ

เพื่อทดสอบแนวทางของตน ผู้เขียนใช้ชุดข้อมูล SCUT-FBP5500 ซึ่งเป็นชุดข้อมูลการคาดการณ์ความงามของใบหน้าจากมหาวิทยาลัยจีนใต้ โดยมี 5,500 รูปภาพใบหน้าขนาด 350x350px ที่มีเชื้อชาติ เพศ และอายุที่หลากหลาย:

รูปภาพใบหน้าตัวอย่างจากชุดข้อมูล SCUT-FBP5500 ที่ได้รับการให้คะแนนจาก 1 ถึง 5 โดยผู้เขียนหลายคน

รูปภาพแต่ละรูปได้รับการให้คะแนนด้วยคะแนนความงามโดย 60 อาสาสมัคร ในระดับ 1-5 โดยมีระดับจาก ไม่น่าดึงดูดมาก (1) ถึง น่าดึงดูดมาก (5):

การแบ่งสัดส่วนของรูปภาพตามคะแนนความงาม

ชุดข้อมูลอื่นที่ใช้คือ Large-Scale Asian Female Beauty Dataset (LSAFBD) ซึ่งเป็นชุดข้อมูลที่รวบรวมโดยผู้เขียนเอง:

รูปภาพใบหน้าตัวอย่างจากชุดข้อมูล LSAFBD ที่ได้รับการให้คะแนนจาก 1 ถึง 5

ชุดข้อมูลนี้ประกอบด้วย 80,000 รูปภาพที่ไม่มีการระบุชื่อ โดยมีขนาด 144x144px ที่มีการเปลี่ยนแปลงท่าทางและพื้นหลัง รวมถึงอายุ ซึ่งได้รับการให้คะแนนโดย 75 อาสาสมัครตามเกณฑ์เดียวกันกับชุดข้อมูลก่อนหน้า แต่ในระดับ 0-4:

การแบ่งสัดส่วนของชุดข้อมูล LSAFBD

ชุดข้อมูลแต่ละชุดจะถูกแบ่งออกเป็นส่วนฝึกอบรมและทดสอบในอัตราส่วน 8/20 และใช้ การตรวจสอบข้าม เพื่อทำให้ผลลัพธ์เสถียรระหว่างการวิ่ง

ส่วน BLS จะถูกกำหนดค่าผ่านจำนวนหน้าต่างคุณลักษณะ จำนวนโหนดต่อหน้าต่าง และจำนวนโหนดการปรับปรุง โดยใช้ Hyperopt เพื่อค้นหาการผสมผสานที่มีประสิทธิภาพ

เพื่อตั้งค่าฐานเป็นมาตรฐาน แบบจำลอง BLS ทั่วไปจะถูกฝึกฝนภายใต้การตั้งค่าเดียวกัน หลังจากนั้นจะแนะนำแบบจำลองการเรียนรู้แบบถ่ายโอนหลายรูปแบบ รวมถึง ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet และ Xception – ทั้งหมดได้รับการเริ่มต้นด้วยน้ำหนักจาก ImageNet-1k และฝึกฝนด้วยชั้นสุดท้ายที่ไม่ได้ถูก ปลดล็อก

การฝึกอบรมใช้อัตราการเรียนรู้ที่ 0.001 (ลดเมื่อความก้าวหน้าหยุดชะงัก) และขนาดชุดข้อมูลที่ 16 ทั่ว 50 ช่วงเวลา โดยมีการ ปรับให้เหมาะสม และ การกระตุ้นเส้นตรงแบบเรียงซ้อน (ReLU) ที่ใช้ทั่วถึง

ประสิทธิภาพจะถูกประเมินโดยใช้ความแม่นยำและ สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน พร้อมด้วยเวลาการฝึกอบรมทั้งหมด โดยมีผลลัพธ์เฉลี่ยทั่ว 5 รอบ

ผู้เขียนรายงานการตั้งค่าการฝึกอบรมเป็น CPU Intel-i7 3.6 GHz และ RAM 64GB บน ‘คอมพิวเตอร์ตั้งโต๊ะ’:

การเปรียบเทียบประสิทธิภาพบน SCUT-FBP5500 โดยที่ E-BLS และ ER-BLS บรรลุความแม่นยำที่แข่งขันกับแบบจำลอง CNN ที่ลึก รวมถึง ResNet50, EfficientNetB7, InceptionV3 และ Xception ในขณะที่ต้องใช้เวลาการฝึกอบรมที่น้อยกว่าอย่างมีนัยสำคัญ – เน้นย้ำถึงการเพิ่มประสิทธิภาพของการผสมผสานการเรียนรู้แบบถ่ายโอนกับระบบการเรียนรู้แบบกว้าง.

ผลลัพธ์แสดงให้เห็นว่า E-BLS ปรับปรุงความแม่นยำจาก 65.85% เป็น 73.13% ในขณะที่ ER-BLS บรรลุ 74.69% ซึ่งเกินกว่าแบบจำลองที่เปรียบเทียบทั้งหมด การฝึกอบรมใช้เวลาประมาณ 1,300 วินาที เทียบกับหลายพันถึงมากกว่า 25,000 วินาทีสำหรับ CNN ที่ลึก

สำหรับการทดสอบบน LSAFBD ผลลัพธ์แสดงให้เห็นว่า E-BLS ปรับปรุงความแม่นยำมากกว่า BLS ที่เรียบง่าย ในขณะที่ ER-BLS บรรลุความแม่นยำสูงสุดในบรรดาวิธีการที่เปรียบเทียบ:

ประสิทธิภาพบน LSAFBD โดยที่ ER-BLS และ E-BLS ส่งมอบความแม่นยำที่สูงกว่าแบบจำลองพื้นฐานและแบบจำลองการเรียนรู้แบบถ่ายโอนทั้งหมด ในขณะที่ต้องใช้เวลาการฝึกอบรมเพียงเศษเสี้ยว – บ่งชี้ถึงความได้เปรียบอย่างต่อเนื่องในด้านประสิทธิภาพโดยไม่สูญเสียคุณภาพในการทำนาย.

ทั้งสองรูปแบบยังคงรักษาเวลาการฝึกอบรมที่ต่ำกว่าแบบจำลอง CNN ที่ลึก ซึ่งบ่งชี้ถึงความสมดุลที่มีประสิทธิภาพมากกว่าระหว่างประสิทธิภาพและต้นทุนการคำนวณ

สรุป

นี่คือการเผยแพร่ ‘ย้อนยุค’ เนื่องจากใช้ CNN และอุปกรณ์ฝึกอบรมระดับต่ำสุดที่ฉันพบในงานวิจัยใหม่หลายปี

อย่างไรก็ตาม มันจัดการกับวัตถุประสงค์ที่น่าประหลาดใจและยังคงอยู่ในด้านการมองเห็นของคอมพิวเตอร์ ซึ่งสัมผัสกับประสบการณ์ของมนุษย์และการตีความอย่างมี chủ관 ซึ่งต้องใช้แผนภาพที่สามารถข้ามรสนิยมทางสุนทรียะของช่วงเวลาและให้กระบวนการผลิตที่แท้จริงสำหรับงาน

เผยแพร่ครั้งแรกวันพฤหัสบดี 19 มีนาคม 2026