Connect with us

Sự theo đuổi của Trí tuệ nhân tạo về Sắc đẹp

Góc nhìn Anderson

Sự theo đuổi của Trí tuệ nhân tạo về Sắc đẹp

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Hệ thống đánh giá sắc đẹp dựa trên Trí tuệ nhân tạo mới đánh giá mức độ hấp dẫn của khuôn mặt, trong khi đào tạo nhanh hơn so với các mô hình học sâu điển hình, có thể làm cho việc chấm điểm sắc đẹp tự động lớn trở nên thực tế hơn.

 

Dự đoán Sắc đẹp Khuôn mặt (FBP) là một ngành kinh doanh lớn, và một lĩnh vực nghiên cứu mạnh mẽ. Mặc dù nó vi phạm hầu hết các nguyên tắc cơ bản về đấu tranh với thiên vị trong các thực hành Trí tuệ nhân tạo và học máy, và mặc dù nó hỗ trợ sự khách quan hóa và giảm thiểu trong nhận thức thuật toán của phụ nữ, nó vẫn thu hút sự quan tâm của nhiều ngành công nghiệp đa tỷ đô la, hầu hết đều nhắm trực tiếp vào phụ nữ, như mỹ phẩm, phẫu thuật thẩm mỹ khuôn mặt, truyền hình trực tiếp, và thời trang, trong số những ngành khác:

Phụ nữ được đánh giá từ 1-5, từ bài báo 'Dự đoán Sắc đẹp Khuôn mặt Nữ châu Á Sử dụng Mạng nơ-ron sâu qua Transfer Learning và Fusion Tính năng Đa kênh'. Nguồn - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Phụ nữ được đánh giá từ 1-5, từ bài báo ‘Dự đoán Sắc đẹp Khuôn mặt Nữ châu Á Sử dụng Mạng nơ-ron sâu qua Transfer Learning và Fusion Tính năng Đa kênh’. Nguồn

Beyond những khu vực kinh doanh tập trung vào nữ giới rõ ràng, quảng cáo và nhiều ngành công nghiệp khác, bao gồm giải trí và xuất bản, có những cổ phần đáng kể trong việc hiểu cả nam và nữ tìm thấy ‘hấp dẫn’, cần thiết trên cơ sở văn hóa.

Sự thật rằng nhận thức tổng hợp về sắc đẹp thay đổi trên các khu vực có nghĩa là không có tập dữ liệu toàn cầu áp dụng có thể được thu thập, và rằng nghiên cứu mới phải ở lại địa phương hoặc tập trung vào ‘phương pháp cấp cao’ có thể được áp dụng trên các tập dữ liệu văn hóa đa dạng.

Giao diện của hệ thống đánh giá sắc đẹp khuôn mặt cho dự án SCUT-FBP năm 2015. Nguồn - https://arxiv.org/pdf/1511.02459

Giao diện của hệ thống đánh giá sắc đẹp khuôn mặt cho dự án SCUT-FBP năm 2015. Nguồn

Thường thì, vị trí địa lý không phải là hạn chế duy nhất, vì các tập dữ liệu tập trung vào hấp dẫn có thể gặp khó khăn trong việc cung cấp hiệu quả như nhau trên các giới tính, hoặc có thể đã được thu thập với một ứng dụng cụ thể trong tâm trí – và điều này có thể hạn chế việc thu thập trong các lĩnh vực khác.

Ví dụ, vào năm 2025, tôi báo cáo về sự phát triển của một tập dữ liệu tương đối lớn (100.000+ danh tính) để đánh giá hấp dẫn trong truyền hình trực tiếp, mà các tiêu chuẩn cận cảnh có thể cần thích nghi đáng kể với các dự án rộng lớn hơn, mặc dù nỗ lực khổng lồ đằng sau sáng kiến.

Biểu diễn Khuôn mặt

Như có thể thấy từ các liên kết và hình ảnh trên, các tổ chức nghiên cứu châu Á thường không hoạt động dưới cùng các hạn chế văn hóa như các đối tác phương Tây, những người sẽ gặp khó khăn khi dám xuất bản một minh họa khoa học đánh giá năm phụ nữ phương Tây từ ít hấp dẫn nhất đến hấp dẫn nhất, như chúng ta thấy trong nghiên cứu trên:

Có thể lập luận rằng nơi các hệ thống này được chứng minh là hiệu quả trong công khai, mà không sợ chỉ trích địa phương, các lợi ích phương Tây có thể sử dụng hoặc thích nghi với nghiên cứu như vậy vào các triển khai độc quyền, riêng tư.

Nhiệm vụ ‘đánh giá phụ nữ’ trong kịch bản đó được chuyển giao đến một địa điểm nơi nó có thể được theo đuổi mà không bị chỉ trích.

Dù đó có phải là phổ biến hay các hệ thống tương đương phương Tây ít được công bố có xu hướng được phát triển cách xa sự hợp tác mã nguồn mở và sự giám sát công khai, nó hợp lý khi giả định rằng mục tiêu là của lợi ích toàn cầu, do số lượng lớn các lĩnh vực chuyên nghiệp có thể hoặc có thể được hưởng lợi từ các đánh giá chính xác về hấp dẫn.

Sự sống còn của Người mạnh nhất

Có thể xem rằng các tập dữ liệu có thể thu thập được từ web như Tik Tok, Instagram và YouTube sẽ chứng minh là những người phân xử tuyệt vời về sắc đẹp, bằng cách liên kết người theo dõi, lượt thích và lưu lượng truy cập với hấp dẫn, vì đây là một liên kết hợp lý (mặc dù với một số ngoại lệ).

Tương tự, các tập dữ liệu hiện có – như ImageNet và LAION – có các diễn viên và người mẫu đã ‘lên đến đỉnh’– sẽ thường có các cá nhân hấp dẫn (mặc dù thường với quá nhiều điểm dữ liệu của quá ít người), cho phép các cơ chế văn hóa rộng lớn hơn hoạt động như một đại diện cho hấp dẫn.

Tuy nhiên, điều này không tính đến sự thay đổi trong sở thích về những gì người ta tìm thấy hấp dẫn theo thời gian (không kể địa lý). Do đó, một lần nữa, các hệ thống cấp cao và không phụ thuộc vào dữ liệu là cần thiết, không phải là các tập dữ liệu hoặc thu thập cá nhân và đặc biệt có thể không phản ánh được sự thay đổi trong sở thích.

Làn da Kép

Nghiên cứu học thuật mới nhất để giải quyết những thách thức này đến từ Trung Quốc, nơi học chuyển giaoHệ thống Học rộng (BLS) được kết hợp để giải quyết sự đánh đổi lâu dài giữa độ chính xác và chi phí tính toán.

Các mạng nơ-ron thông thường có xu hướng đạt được kết quả mạnh chỉ với đào tạo nặng, trong khi các hệ thống nhẹ như BLS đào tạo nhanh, nhưng gặp khó khăn trong việc nắm bắt đủ chi tiết. Công việc mới này bắc cầu khoảng cách này bằng cách sử dụng một mô hình thị giác được đào tạo trước để trích xuất các tính năng khuôn mặt, mà sau đó được chuyển đến một hệ thống BLS nhanh để đánh giá, cho phép các tính năng được tái sử dụng thay vì được học từ đầu, trong khi vẫn giữ cho đào tạo hiệu quả:

Hình ảnh mẫu từ tập dữ liệu LSAFBD, hiển thị khuôn mặt nữ được nhóm theo điểm số sắc đẹp được đánh giá bởi con người từ 1 đến 5, nơi các đánh giá được dẫn xuất từ nhiều người chú thích và được sử dụng như nhãn giám sát để đào tạo và đánh giá các mô hình dự đoán sắc đẹp khuôn mặt trên các biến thể về tư thế, ánh sáng và ngoại hình.

Hình ảnh mẫu từ tập dữ liệu LSAFBD, hiển thị khuôn mặt nữ được nhóm theo điểm số sắc đẹp được đánh giá bởi con người từ 1 đến 5. Đánh giá được thu được từ nhiều người chú thích, và được sử dụng như nhãn giám sát để đào tạo và đánh giá các mô hình dự đoán sắc đẹp khuôn mặt trên các biến thể về tư thế, ánh sáng và ngoại hình. Nguồn

Biến thể đầu tiên được giới thiệu trong công việc (E-BLS, xem dưới), cho ăn trực tiếp các tính năng trích xuất vào hệ thống nhẹ, trong khi biến thể thứ hai, ER-BLS (cũng xem dưới), thêm một bước trung gian đơn giản mà tiêu chuẩn hóa và tinh chỉnh các tính năng đó trước khi đánh giá, giúp cải thiện sự nhất quán mà không làm chậm quá trình.

Các thử nghiệm được thực hiện bởi các tác giả chứng minh, họ tuyên bố, rằng phương pháp của họ vượt trội so với từng phương pháp riêng lẻ, và với các phương pháp cạnh tranh khác.

Bài báo mới có tiêu đề Dự đoán Sắc đẹp Khuôn mặt kết hợp Học chuyển giao và Hệ thống Học rộng, và đến từ sáu nhà nghiên cứu tại Đại học Wuyi, Jiangmen.

Phương pháp

<Hệ thống Học rộng được đề cập trước là một sự thay thế nhẹ cho các mạng nơ-ron sâu, đó là bỏ qua việc xếp chồng nhiều lớp, và thay vào đó lan truyền việc học trên một tập hợp rộng lớn các kết nối đơn giản, cho phép các mô hình đào tạo nhanh – nhưng thường với chi phí bỏ lỡ các chi tiết trực quan tinh tế.

Biến thể đầu tiên, E-BLS, kết hợp EfficientNet dựa trên học chuyển giao với BLS, trích xuất các tính năng trực quan chi tiết từ một khuôn mặt, và sau đó chuyển chúng đến BLS, bao gồm một dự đoán cuối cùng mà tránh được nhu cầu đào tạo một mạng nơ-ron sâu đầy đủ từ đầu:

Sơ đồ kiến trúc cho mô hình E-BLS, hiển thị cách các hình ảnh khuôn mặt từ các tập dữ liệu mục tiêu như SCUT-FBP5500 và LSAFBD được chuyển qua một bộ trích xuất tính năng EfficientNet được đào tạo trước, mà các tham số được chuyển từ ImageNet và giữ cố định, trước khi các bản đồ tính năng kết quả được cho vào một Hệ thống Học rộng (BLS), nơi các nút tính năng và các nút tăng cường được kết hợp thông qua các trọng số có thể đào tạo để tạo ra điểm số sắc đẹp khuôn mặt cuối cùng.

Sơ đồ kiến trúc cho mô hình E-BLS.

EfficientNet, được đào tạo trước trên ImageNet-1k, và chủ yếu được giữ không đổi, chuyển đổi mỗi hình ảnh đầu vào thành một tập hợp紧凑 của các giá trị tính năng mô tả khuôn mặt theo cách có cấu trúc, trong khi BLS lấy các giá trị đó và xử lý chúng thông qua một mạng lưới của các nút đơn giản, kết nối ngẫu nhiên mà biến đổi và kết hợp thông tin, trước khi tạo ra điểm số hấp dẫn cuối cùng.

Vì BLS không dựa vào các cấu trúc lớp sâu, E-BLS có thể được cập nhật bằng cách thêm nhiều nút thay vì đào tạo lại toàn bộ hệ thống,. Điều này giữ cho đào tạo nhanh, và làm cho nó dễ dàng hơn để cải thiện mô hình khi dữ liệu mới được giới thiệu.

Biến thể thứ hai, ER-BLS, xây dựng trên E-BLS bằng cách chèn một giai đoạn xử lý trung gian bổ sung giữa bộ trích xuất tính năng EfficientNet và BLS, với mục tiêu cải thiện cách các tính năng trích xuất được chuẩn bị trước khi được sử dụng để dự đoán:

Kiến trúc của mô hình ER-BLS, nơi các hình ảnh khuôn mặt được xử lý bởi một bộ trích xuất tính năng EfficientNet được đào tạo trước, sau đó được tinh chỉnh thông qua một lớp kết nối sử dụng pooling, chuẩn hóa và biến đổi hàm cơ sở radial (RBF). Đầu ra sau đó được chuyển đến Hệ thống Học rộng (BLS), để tạo ra điểm số sắc đẹp khuôn mặt cuối cùng.

Kiến trúc của mô hình ER-BLS.

Thay vì gửi các tính năng EfficientNet thô trực tiếp vào BLS, ER-BLS trước tiên chuyển chúng qua một lớp tinh chỉnh mà tiêu chuẩn hóa và biến đổi dữ liệu, giúp giảm nhiễu, và làm cho các tính năng trở nên nhất quán hơn trên các hình ảnh khác nhau. Bước này được thiết kế để cải thiện cách hệ thống tổng quát hóa, đặc biệt là khi khuôn mặt thay đổi về ánh sáng, tư thế, hoặc các điều kiện trực quan khác có thể giới thiệu sự không ổn định vào các dự đoán.

Các tính năng tinh chỉnh sau đó được cho vào cùng cấu trúc BLS được sử dụng trong E-BLS, nơi các nút tính năng và các nút tăng cường biến đổi và kết hợp thông tin để tạo ra điểm số hấp dẫn cuối cùng.

Dữ liệu và Thử nghiệm

Để kiểm tra phương pháp của họ, các tác giả đã tận dụng tập dữ liệu SCUT-FBP5500, một tập dữ liệu dự đoán sắc đẹp khuôn mặt từ Đại học Nam Trung Quốc, chứa 5.500 hình ảnh khuôn mặt trước với kích thước 350x350px, có các chủng tộc, giới tính và độ tuổi đa dạng:

Hình ảnh mẫu từ tập dữ liệu SCUT-FBP5500, được đánh giá từ ít hấp dẫn nhất (1) đến hấp dẫn nhất (5).

Hình ảnh mẫu từ tập dữ liệu SCUT-FBP5500, được đánh giá từ ít hấp dẫn nhất (1) đến hấp dẫn nhất (5).

Mỗi hình ảnh được đánh giá với một điểm số sắc đẹp bởi 60 tình nguyện viên, trên thang điểm từ 1 đến 5, từ rất không hấp dẫn (1) đến rất hấp dẫn (5):

Sự phân chia tỷ lệ của hình ảnh theo đánh giá sắc đẹp.

Sự phân chia tỷ lệ của hình ảnh theo đánh giá sắc đẹp.

Tập dữ liệu khác được sử dụng là Tập dữ liệu Sắc đẹp Nữ châu Á quy mô lớn (LSAFBD) do các tác giả tự thu thập.

Hình ảnh mẫu từ tập dữ liệu LSAFBD, được đánh giá từ ít hấp dẫn nhất (1) đến hấp dẫn nhất (5).

Hình ảnh mẫu từ tập dữ liệu LSAFBD, được đánh giá từ ít hấp dẫn nhất (1) đến hấp dẫn nhất (5).

Tập dữ liệu này bao gồm 80.000 hình ảnh không được gắn nhãn với độ phân giải 144x144px, với các biến thể về tư thế và nền, cũng như độ tuổi. Những hình ảnh này được đánh giá bởi 75 tình nguyện viên cho cùng tiêu chí như tập dữ liệu trước, lần này trên thang điểm từ 0 đến 4:

Sự phân chia cho tập dữ liệu LSAFBD.

Sự phân chia cho tập dữ liệu LSAFBD.

Mỗi tập dữ liệu được chia thành các đoạn đào tạo và kiểm tra với tỷ lệ 8/20, và kiểm tra chéo được sử dụng để ổn định kết quả trên các lần chạy. Thành phần BLS được cấu hình thông qua số lượng cửa sổ tính năng; số lượng nút mỗi cửa sổ; và số lượng nút tăng cường, với Hyperopt được sử dụng để tìm kiếm các kết hợp hiệu quả.

Để thiết lập một điểm chuẩn, một mô hình BLS tiêu chuẩn được đào tạo trong cùng một thiết lập, sau đó một loạt các mô hình học chuyển giao được giới thiệu, bao gồm ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet, và Xception – tất cả được khởi tạo với trọng số ImageNet-1k, và được đào tạo với các lớp cuối cùng không bị đóng băng.

Đào tạo sử dụng tốc độ học là 0,001 (giảm khi tiến bộ bị đình trệ), và kích thước batch là 16, trên 50 kỳ, với điều chỉnhhoạt hóa tuyến tính chỉnh sửa (ReLU) được áp dụng trên toàn bộ.

Hiệu suất được đánh giá sử dụng độ chính xác và hệ số tương quan Pearson, cùng với thời gian đào tạo tổng thể, với kết quả được trung bình trên năm lần chạy.

Các tác giả báo cáo thiết lập đào tạo như một CPU Intel-i7 3,6 GHz và 64GB RAM trên một ‘máy tính để bàn’:

So sánh hiệu suất trên SCUT-FBP5500, nơi E-BLS và ER-BLS đạt được độ chính xác cạnh tranh với các mô hình CNN sâu bao gồm ResNet50, EfficientNetB7, InceptionV3 và Xception, trong khi yêu cầu ít thời gian đào tạo đáng kể – nhấn mạnh lợi ích hiệu quả của việc kết hợp học chuyển giao với Hệ thống Học rộng.

So sánh hiệu suất trên SCUT-FBP5500, nơi E-BLS và ER-BLS đạt được độ chính xác cạnh tranh với các mô hình CNN sâu bao gồm ResNet50, EfficientNetB7, InceptionV3 và Xception, trong khi yêu cầu ít thời gian đào tạo đáng kể – nhấn mạnh lợi ích hiệu quả của việc kết hợp học chuyển giao với Hệ thống Học rộng.

Kết quả chỉ ra rằng E-BLS cải thiện độ chính xác từ 65,85% lên 73,13%, trong khi ER-BLS đạt 74,69%, vượt qua tất cả các mô hình được so sánh. Thời gian đào tạo vẫn còn thấp hơn đáng kể so với các CNN sâu, ở khoảng 1.300 giây, so với vài nghìn đến hơn 25.000 giây.

Đối với các thử nghiệm trên LSAFBD, kết quả cho thấy E-BLS cải thiện độ chính xác so với BLS thông thường, trong khi ER-BLS đạt được độ chính xác cao nhất trong tất cả các phương pháp được so sánh:

Hiệu suất trên LSAFBD, nơi ER-BLS và E-BLS cung cấp độ chính xác cao hơn tất cả các mô hình cơ sở và học chuyển giao trong khi chỉ yêu cầu một phần nhỏ thời gian đào tạo của chúng, chỉ ra một lợi thế nhất quán về hiệu quả mà không hy sinh chất lượng dự đoán.

Hiệu suất trên LSAFBD, nơi ER-BLS và E-BLS cung cấp độ chính xác cao hơn tất cả các mô hình cơ sở và học chuyển giao trong khi chỉ yêu cầu một phần nhỏ thời gian đào tạo của chúng, chỉ ra một lợi thế nhất quán về hiệu quả mà không hy sinh chất lượng dự đoán.

Cả hai biến thể đều duy trì thời gian đào tạo thấp hơn đáng kể so với các mô hình CNN sâu, chỉ ra một sự cân bằng hiệu quả hơn giữa hiệu suất và chi phí tính toán.

Kết luận

Đây là một ấn phẩm hơi ‘lạc hậu’, như được chứng minh bởi việc sử dụng các phương pháp yêu thích trước đây như CNN, và bởi thiết bị đào tạo cấp thấp nhất mà tôi đã gặp trong một bài báo mới trong nhiều năm.

Tuy nhiên, nó giải quyết một mục tiêu khá ‘lạc hậu’; một mục tiêu mà chạm vào kinh nghiệm con người và giải thích chủ quan, và đòi hỏi một lược đồ có thể vượt qua các xu hướng thẩm mỹ của thời điểm, và có thể cung cấp một đường ống dự đoán sắc đẹp khuôn mặt thực sự mạnh mẽ.

 

Được xuất bản lần đầu vào thứ Năm, ngày 19 tháng 3 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]