Trí tuệ nhân tạo
Ước tính Dự đoán Sức Hấp dẫn Khuôn Mặt cho Livestreams

Cho đến nay, Dự đoán Sức Hấp dẫn Khuôn Mặt (FAP) chủ yếu được nghiên cứu trong bối cảnh nghiên cứu tâm lý, trong ngành công nghiệp mỹ phẩm và thẩm mỹ, và trong bối cảnh phẫu thuật thẩm mỹ. Đây là một lĩnh vực nghiên cứu đầy thách thức, vì các tiêu chuẩn về vẻ đẹp có xu hướng là quốc gia chứ không phải toàn cầu.
Điều này có nghĩa là không có tập dữ liệu dựa trên AI hiệu quả nào có thể được áp dụng, vì giá trị trung bình thu được từ việc lấy mẫu khuôn mặt/đánh giá từ tất cả các nền văn hóa sẽ bị thiên vị (trong đó các quốc gia đông dân hơn sẽ có thêm động lực), hoặc không áp dụng được cho bất kỳ nền văn hóa nào (trong đó giá trị trung bình của nhiều chủng tộc/đánh giá sẽ tương đương với không có chủng tộc thực sự).
Thay vào đó, thách thức là phải phát triển các phương pháp và quy trình khái niệm vào đó dữ liệu cụ thể của quốc gia hoặc văn hóa có thể được xử lý, để cho phép phát triển các mô hình FAP hiệu quả cho từng khu vực.
Các trường hợp sử dụng FAP trong nghiên cứu tâm lý và mỹ phẩm khá nhỏ, nếu không muốn nói là cụ thể cho ngành; do đó, hầu hết các tập dữ liệu được tạo ra cho đến nay chỉ chứa dữ liệu hạn chế, hoặc chưa được xuất bản.
Sự sẵn có dễ dàng của các công cụ dự đoán hấp dẫn trực tuyến, chủ yếu nhắm vào khán giả phương Tây, không nhất thiết phải đại diện cho trạng thái hiện tại của FAP, dường như hiện đang bị chi phối bởi nghiên cứu châu Á (chủ yếu là Trung Quốc), và các tập dữ liệu châu Á tương ứng.

Các ví dụ về tập dữ liệu từ bài báo năm 2020 ‘Dự đoán Sức Hấp dẫn Khuôn Mặt Nữ châu Á Sử dụng Mạng Nơ-ron Sâu qua Transfer Learning và Fusion Tính năng Đa kênh’. Nguồn: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Các ứng dụng thương mại rộng hơn cho ước tính vẻ đẹp bao gồm các ứng dụng hẹn hò trực tuyến và các hệ thống trí tuệ nhân tạo sinh để ‘chỉnh sửa’ hình ảnh người thật (vì các ứng dụng như vậy yêu cầu một tiêu chuẩn vẻ đẹp được lượng hóa làm thước đo hiệu quả).
Vẽ Khuôn Mặt
Những người hấp dẫn tiếp tục là một tài sản quý giá trong quảng cáo và xây dựng ảnh hưởng, khiến cho các động lực tài chính trong các lĩnh vực này trở thành một cơ hội rõ ràng để phát triển các tập dữ liệu và khuôn khổ FAP tiên tiến.
Ví dụ, một mô hình AI được đào tạo với dữ liệu thế giới thực để đánh giá và xếp hạng vẻ đẹp khuôn mặt có thể xác định các sự kiện hoặc cá nhân có tiềm năng cao cho tác động quảng cáo. Khả năng này sẽ đặc biệt phù hợp trong các ngữ cảnh phát trực tuyến video, nơi các chỉ số như ‘người theo dõi’ và ‘lượt thích’ hiện chỉ phục vụ như những chỉ số ngầm về khả năng thu hút khán giả của một cá nhân (hoặc thậm chí một loại khuôn mặt).
Đây là một chỉ số bề mặt,当然, và giọng nói, trình bày và quan điểm cũng đóng vai trò quan trọng trong việc thu hút khán giả. Do đó, việc tạo tập dữ liệu FAP đòi hỏi sự giám sát của con người, cũng như khả năng phân biệt hấp dẫn khuôn mặt với ‘hấp dẫn giả’ (trong đó, những người có ảnh hưởng ngoài lĩnh vực như Alex Jones có thể ảnh hưởng đến đường cong FAP trung bình cho một bộ sưu tập được thiết kế chỉ để ước tính vẻ đẹp khuôn mặt).
LiveBeauty
Để giải quyết sự thiếu hụt của các tập dữ liệu FAP, các nhà nghiên cứu từ Trung Quốc đang cung cấp tập dữ liệu FAP lớn đầu tiên, chứa 100.000 hình ảnh khuôn mặt, cùng với 200.000 chú thích của con người về việc ước tính vẻ đẹp khuôn mặt.

Các mẫu từ tập dữ liệu LiveBeauty mới. Nguồn: https://arxiv.org/pdf/2501.02509
Được gọi là LiveBeauty, tập dữ liệu này có 10.000 bản sắc khác nhau, tất cả đều được chụp từ (không xác định) các nền tảng phát trực tuyến trực tiếp vào tháng 3 năm 2024.
Các tác giả cũng trình bày FPEM, một phương pháp FAP đa mô mới. FPEM tích hợp kiến thức khuôn mặt toàn diện và các tính năng thẩm mỹ ngữ nghĩa đa mô qua một Mô-đun Tiền đề Hấp dẫn Cá nhân hóa (PAPM), một Mô-đun Mã hóa Hấp dẫn Đa mô (MAEM) và một Mô-đun Fusion Chéo mô (CMFM).
Bài báo cho rằng FPEM đạt hiệu suất tốt nhất về mặt nhà nước trên tập dữ liệu LiveBeauty mới và các tập dữ liệu FAP khác. Các tác giả lưu ý rằng nghiên cứu này có tiềm năng ứng dụng để nâng cao chất lượng video, đề xuất nội dung và chỉnh sửa khuôn mặt trong phát trực tuyến.
Các tác giả cũng hứa sẽ sớm cung cấp tập dữ liệu – mặc dù phải thừa nhận rằng bất kỳ hạn chế cấp phép nào trong lĩnh vực nguồn có vẻ sẽ được chuyển sang cho đa số các dự án có thể sử dụng công việc.
Bài báo mới có tiêu đề Dự đoán Sức Hấp dẫn Khuôn Mặt trong Phát trực tuyến: Một Tiêu chuẩn Mới và Phương pháp Đa mô, và đến từ mười nhà nghiên cứu trên toàn Tập đoàn Alibaba và Đại học Jiao Tong Thượng Hải.
Phương pháp và Dữ liệu
Từ mỗi buổi phát trực tuyến 10 giờ, các nhà nghiên cứu đã thu thập một hình ảnh mỗi giờ trong ba giờ đầu tiên. Các buổi phát trực tuyến có lượt xem trang cao nhất đã được chọn.
Dữ liệu thu thập được sau đó đã trải qua một số giai đoạn tiền xử lý. Đầu tiên là đo kích thước vùng khuôn mặt, sử dụng mô hình phát hiện FaceBoxes năm 2018 dựa trên CPU để tạo một hộp giới hạn xung quanh các đặc điểm khuôn mặt. Đường ống đảm bảo rằng cạnh ngắn hơn của hộp giới hạn vượt quá 90 pixel, tránh các vùng khuôn mặt nhỏ hoặc không rõ ràng.
Bước thứ hai là phát hiện mờ, được áp dụng cho vùng khuôn mặt bằng cách sử dụng phương sai của toán tử Laplacian trong kênh chiều cao (Y) của hình ảnh khuôn mặt. Phương sai này phải lớn hơn 10, giúp lọc ra các hình ảnh mờ.
Bước thứ ba là ước tính tư thế khuôn mặt, sử dụng mô hình ước tính tư thế 3DDFA-V2 năm 2021:

Các ví dụ từ mô hình ước tính 3DDFA-V2. Nguồn: https://arxiv.org/pdf/2009.09960
Tại đây, quy trình đảm bảo rằng góc pitch của khuôn mặt được cắt xén không lớn hơn 20 độ, và góc yaw không lớn hơn 15 độ, loại trừ các khuôn mặt có tư thế cực đoan.
Bước thứ tư là đánh giá tỷ lệ khuôn mặt, cũng sử dụng khả năng phân đoạn của mô hình 3DDFA-V2, đảm bảo rằng tỷ lệ vùng khuôn mặt cắt xén lớn hơn 60% hình ảnh, loại trừ các hình ảnh mà khuôn mặt không nổi bật. tức là nhỏ trong bức tranh tổng thể.
Cuối cùng, bước thứ năm là loại bỏ nhân vật trùng lặp, sử dụng một mô hình nhận dạng khuôn mặt hiện đại (không được chỉ định), cho các trường hợp mà cùng một bản sắc xuất hiện trong hơn một trong ba hình ảnh thu thập cho video 10 giờ.
Đánh giá và Chú thích của Con người
Hai mươi người chú thích đã được tuyển dụng, bao gồm sáu nam và 14 nữ, phản ánh nhân khẩu học của nền tảng trực tiếp được sử dụng*. Khuôn mặt được hiển thị trên màn hình 6,7 inch của iPhone 14 Pro Max, trong điều kiện phòng thí nghiệm nhất quán.
Đánh giá được chia thành 200 phiên, mỗi phiên sử dụng 50 hình ảnh. Các đối tượng được yêu cầu đánh giá sự hấp dẫn khuôn mặt của các mẫu trên thang điểm 1-5, với thời gian nghỉ năm phút giữa mỗi phiên, và tất cả các đối tượng tham gia vào tất cả các phiên.
Do đó, toàn bộ 10.000 hình ảnh đã được đánh giá trên toàn bộ 20 đối tượng con người, đạt được 200.000 chú thích.
Phân tích và Tiền xử lý
Trước tiên, sàng lọc đối tượng sau màn hình được thực hiện bằng cách sử dụng tỷ lệ ngoại lệ và Hệ số tương quan thứ tự Spearman (SROCC). Các đối tượng mà xếp hạng của họ có SROCC nhỏ hơn 0,75 hoặc tỷ lệ ngoại lệ lớn hơn 2% được coi là không đáng tin cậy và bị loại bỏ, với 20 đối tượng cuối cùng được thu thập..
Một Điểm xếp hạng trung bình (MOS) sau đó được tính toán cho mỗi hình ảnh khuôn mặt, bằng cách tính trung bình các điểm số thu được từ các đối tượng hợp lệ. MOS phục vụ như nhãn hấp dẫn thực sự cho mỗi hình ảnh, và điểm số được tính bằng cách tính trung bình tất cả các điểm số cá nhân từ mỗi đối tượng hợp lệ.
Cuối cùng, phân tích về phân bố MOS cho tất cả các mẫu, cũng như cho mẫu nữ và mẫu nam, cho thấy rằng chúng thể hiện một hình dạng giống Gaussian, phù hợp với phân bố hấp dẫn khuôn mặt trong thế giới thực:

Các ví dụ về phân bố MOS LiveBeauty.
Hầu hết các cá nhân có xu hướng có hấp dẫn khuôn mặt trung bình, với ít cá nhân ở các cực của hấp dẫn rất thấp hoặc rất cao.
Hơn nữa, phân tích về độ lệch và độ nhọn cho thấy rằng các phân bố được đặc trưng bởi đuôi mỏng và tập trung xung quanh điểm trung bình, và hấp dẫn cao hơn phổ biến hơn trong các mẫu nữ trong các video phát trực tuyến trực tiếp được thu thập.
Kiến trúc
Một chiến lược đào tạo hai giai đoạn được sử dụng cho Mô hình Đa mô Nâng cao khuôn mặt (FPEM) và Giai đoạn Fusion Hybrid trong LiveBeauty, chia thành bốn mô-đun: Mô-đun Tiền đề Hấp dẫn Cá nhân hóa (PAPM), Mô-đun Mã hóa Hấp dẫn Đa mô (MAEM), Mô-đun Fusion Chéo mô (CMFM) và Mô-đun Fusion Quyết định (DFM).

Sơ đồ khái niệm cho đường ống đào tạo LiveBeauty.
Mô-đun PAPM lấy một hình ảnh làm đầu vào và trích xuất các tính năng trực quan đa quy mô bằng cách sử dụng Swin Transformer, và cũng trích xuất các tính năng nhận thức khuôn mặt bằng cách sử dụng mô hình FaceNet được đào tạo trước. Các tính năng này sau đó được kết hợp bằng cách sử dụng một khối chú ý chéo để tạo ra một tính năng hấp dẫn được cá nhân hóa.
Cũng trong Giai đoạn Đào tạo Sơ bộ, MAEM sử dụng một hình ảnh và các mô tả văn bản về hấp dẫn, tận dụng CLIP để trích xuất các tính năng thẩm mỹ ngữ nghĩa đa mô.
Các mô tả văn bản được định dạng theo dạng ‘một bức ảnh của một người với {a} hấp dẫn’ (trong đó {a} có thể là xấu, kém, trung bình, tốt hoặc hoàn hảo). Quá trình ước tính sự tương tự cosine giữa các bản nhúng văn bản và trực quan để đến một mức độ xác suất hấp dẫn.
Trong Giai đoạn Fusion Hybrid, CMFM tinh chỉnh các bản nhúng văn bản bằng cách sử dụng tính năng hấp dẫn được cá nhân hóa được tạo bởi PAPM, do đó tạo ra các bản nhúng văn bản được cá nhân hóa. Sau đó, nó sử dụng một chiến lược hồi quy tương tự để thực hiện một dự đoán.
Cuối cùng, DFM kết hợp các dự đoán cá nhân từ PAPM, MAEM và CMFM để tạo ra một điểm hấp dẫn duy nhất, với mục tiêu đạt được một sự đồng thuận vững chắc
Hàm mất mát
Đối với độ đo mất mát, PAPM được đào tạo bằng cách sử dụng mất mát L1, một thước đo sự khác biệt tuyệt đối giữa điểm hấp dẫn dự đoán và điểm hấp dẫn thực sự (điểm chuẩn).
Mô-đun MAEM sử dụng một hàm mất mát phức tạp hơn, kết hợp mất mát điểm (LS) với mất mát xếp hạng hợp nhất (LR). Mất mát xếp hạng (LR) bao gồm mất mát trung thành (LR1) và mất mát xếp hạng hai chiều (LR2).
LR1 so sánh sự hấp dẫn tương đối của các cặp hình ảnh, trong khi LR2 đảm bảo rằng phân bố xác suất dự đoán của các mức độ hấp dẫn có một đỉnh duy nhất và giảm ở cả hai hướng. Cách tiếp cận kết hợp này nhằm tối ưu hóa cả việc điểm số chính xác và việc xếp hạng chính xác của hình ảnh dựa trên hấp dẫn.
CMFM và DFM được đào tạo bằng cách sử dụng mất mát L1 đơn giản.
Thử nghiệm
Trong các thử nghiệm, các nhà nghiên cứu đã so sánh LiveBeauty với chín phương pháp trước đó: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (được giới thiệu trong REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; và EAT.
Các phương pháp cơ sở tuân theo Giao thức Đánh giá Thẩm mỹ Hình ảnh (IAA) cũng được thử nghiệm. Những phương pháp này là ViT-B; ResNeXt-50; và Inception-V3.
Ngoài LiveBeauty, các tập dữ liệu khác được thử nghiệm là SCUT-FBP5000 và MEBeauty. Dưới đây, phân bố MOS của các tập dữ liệu này được so sánh:

Phân bố MOS của các tập dữ liệu chuẩn.
Tương ứng, các tập dữ liệu khách này được chia 60%-40% và 80%-20% cho đào tạo và thử nghiệm, riêng biệt, để duy trì sự nhất quán với các giao thức ban đầu của chúng. LiveBeauty được chia theo tỷ lệ 90%-10%.
Đối với việc khởi tạo mô hình trong MAEM, VT-B/16 và GPT-2 được sử dụng làm mã hóa hình ảnh và văn bản, lần lượt được khởi tạo bằng cách đặt từ CLIP. Đối với PAPM, Swin-T được sử dụng làm mã hóa hình ảnh có thể đào tạo, theo SwinFace.
Bộ tối ưu hóa AdamW được sử dụng, và một lịch trình học học được đặt với làm ấm tuyến tính dưới một kế hoạch giảm cosine . Tỷ lệ học khác nhau trên các giai đoạn đào tạo, nhưng mỗi giai đoạn đều có kích thước batch là 32, trong 50 epoch.

Kết quả từ các thử nghiệm
Kết quả từ các thử nghiệm trên ba tập dữ liệu FAP được hiển thị ở trên. Trong số các kết quả này, bài báo cho biết:
‘Phương pháp đề xuất của chúng tôi đạt vị trí đầu tiên và vượt qua vị trí thứ hai khoảng 0,012, 0,081, 0,021 về giá trị SROCC trên LiveBeauty, MEBeauty và SCUT-FBP5500, điều này chứng tỏ sự vượt trội của phương pháp đề xuất của chúng tôi.
‘[Các] phương pháp IAA kém hơn so với các phương pháp FAP, điều này cho thấy rằng các phương pháp đánh giá thẩm mỹ chung bỏ qua các tính năng khuôn mặt liên quan đến bản chất chủ quan của hấp dẫn khuôn mặt, dẫn đến hiệu suất kém trên các nhiệm vụ FAP.
‘Hiệu suất của tất cả các phương pháp giảm đáng kể trên MEBeauty. Điều này là do các mẫu đào tạo bị hạn chế và khuôn mặt đa dạng về chủng tộc trong MEBeauty, cho thấy sự đa dạng lớn về hấp dẫn khuôn mặt.
‘Tất cả các yếu tố này làm cho việc dự đoán hấp dẫn khuôn mặt trong MEBeauty trở nên thách thức hơn.’
Cân nhắc Đạo đức
Nghiên cứu về hấp dẫn là một việc theo đuổi có khả năng gây chia rẽ, vì trong việc thiết lập các tiêu chuẩn vẻ đẹp được cho là có cơ sở, các hệ thống như vậy sẽ có xu hướng củng cố và duy trì các thiên vị xung quanh tuổi tác, chủng tộc và nhiều phần khác của nghiên cứu tầm nhìn máy tính liên quan đến con người.
Có thể lập luận rằng một hệ thống FAP vốn có định hướng để củng cố và duy trì các quan điểm thiên vị và không đầy đủ về hấp dẫn. Những phán quyết này có thể phát sinh từ việc chú thích do con người dẫn đầu – thường được thực hiện trên các thang đo quá nhỏ để có sự khái quát hóa hiệu quả – hoặc từ việc phân tích các mẫu chú ý trong các môi trường trực tuyến như các nền tảng phát trực tuyến, những môi trường này có thể nói là không công bằng.
* Bài báo đề cập đến miền nguồn không được đặt tên trong cả số ít và số nhiều.
Được xuất bản lần đầu vào thứ Tư, ngày 8 tháng 1 năm 2025












