Góc nhìn Anderson

Công cụ AI loại bỏ trang điểm để ngăn chặn việc trẻ vị thành niên vượt qua kiểm tra tuổi

Published July 18, 2025

Updated April 26, 2026

Martin Anderson

Flux, SDXL, Photoshop Neural filters, Firefly, Krita et al.

Hình ảnh của mỹ phẩm trên khuôn mặt cho phép người dùng vị thành niên, chủ yếu là các cô gái, lọt qua các kiểm tra tuổi dựa trên ảnh tự chụp trên các nền tảng như ứng dụng hẹn hò và trang web thương mại điện tử. Một công cụ AI mới giải quyết lỗ hổng này bằng cách sử dụng mô hình phân biệt được đào tạo để xóa trang điểm trong khi vẫn giữ nguyên danh tính, khiến việc đánh lừa các hệ thống tự động trở nên khó khăn hơn.

Việc sử dụng các dịch vụ xác thực tuổi dựa trên ảnh tự chụp của bên thứ ba đang gia tăng, không chỉ vì một động lực toàn cầu hướng tới xác thực tuổi trực tuyến.

Ví dụ, trong chế độ thực thi mới mà Đạo luật An toàn Trực tuyến của Vương quốc Anh hiện quy định, xác thực tuổi có thể được thực hiện bởi nhiều dịch vụ của bên thứ ba, sử dụng các phương pháp có thể, bao gồm cả xác thực tuổi trực quan, nơi AI được sử dụng để dự đoán tuổi của người dùng (thường từ hình ảnh camera di động trực tiếp). Các dịch vụ sử dụng các phương pháp của loại này bao gồm Ondato, TrustStamp và Yoti.

Tuy nhiên, ước tính tuổi không phải là không thể sai, và sự quyết tâm truyền thống của thanh thiếu niên để dự đoán các quyền của tuổi trưởng thành có nghĩa là những người trẻ đã phát triển một loạt các phương pháp hiệu quả để tham gia vào các trang web hẹn hò, diễn đàn và các môi trường khác cấm nhóm tuổi của họ.

Một trong những phương pháp này, thường được sử dụng nhất bởi nữ*, là bằng cách trang điểm – một chiến thuật được biết đến là đánh lừa các hệ thống ước tính tuổi tự động, thường đánh giá cao tuổi của những người trẻ và đánh giá thấp tuổi của những người lớn tuổi.

Không Chỉ Là Cô Gái

Trước khi phản đối việc xem trang điểm là ‘tập trung vào nữ’, chúng ta phải lưu ý rằng sự hiện diện của mỹ phẩm trên khuôn mặt của bất kỳ ai là một chỉ số không đáng tin cậy về giới tính:

Trong bài báo ‘Tác động của Mỹ phẩm trên các Thuật toán Xác thực Giới tính và Tuổi tự động’ các nhà nghiên cứu tại Mỹ đã phát hiện ra rằng các hệ thống xác thực giới tính bị đánh lừa bởi trang điểm chuyển đổi giới tính. Nguồn: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

Vào năm 2024, 72% người tiêu dùng nam giới tại Mỹ trong độ tuổi từ 18-24 được ước tính đã kết hợp trang điểm vào thói quen chăm sóc của họ – mặc dù hầu hết sử dụng sản phẩm mỹ phẩm để tăng cường vẻ ngoài của làn da khỏe mạnh, chứ không phải để tham gia vào các bộ trang điểm phức tạp ^† mascara / son môi thường được liên kết với thẩm mỹ của phụ nữ.

Vì vậy, chúng ta không thể giúp nhưng phải đối xử với tài liệu được nghiên cứu trong bài viết này theo hướng của kịch bản phổ biến nhất được khám phá trong nghiên cứu mới – đó là các cô gái vị thành niên sử dụng trang điểm để phá vỡ các hệ thống xác thực tuổi tự động trực quan.

Loại bỏ Trang điểm Hiệu quả – Cách của AI

Nghiên cứu được đề cập ở trên đến từ ba người đóng góp tại Đại học New York, dưới dạng bài báo mới DiffClean: Loại bỏ Trang điểm Dựa trên Sự khuếch tán để Ước tính Tuổi Chính xác.

Mục tiêu của dự án là đạt được một phương pháp AI để loại bỏ hình ảnh của trang điểm từ hình ảnh (có thể bao gồm cả hình ảnh video), để có được một ý tưởng tốt hơn về tuổi thực sự của người đứng sau lớp trang điểm.

Từ bài báo mới, một ví dụ về việc loại bỏ trang điểm. Nguồn: https://arxiv.org/pdf/2507.13292

Từ bài báo mới, một ví dụ về việc loại bỏ trang điểm có thể thay đổi đáng kể dự đoán tuổi. Nguồn: https://arxiv.org/pdf/2507.13292

Một trong những thách thức trong việc phát triển hệ thống như vậy là sự nhạy cảm tiềm ẩn xung quanh việc thu thập hoặc tạo ra hình ảnh của các cô gái vị thành niên mặc trang điểm trưởng thành. Cuối cùng, các nhà nghiên cứu đã sử dụng một hệ thống mạng đối lập生成 (GAN) của bên thứ ba gọi là EleGANt để áp dụng các phong cách trang điểm một cách nhân tạo, một kỹ thuật đã chứng minh rất hiệu quả:

Hệ thống EleGANt của Đại học Tsinghua năm 2022 sử dụng Mạng đối lập生成 (GAN) để áp dụng mỹ phẩm một cách chân thực lên các bức ảnh nguồn. Nguồn: https://arxiv.org/pdf/2207.09840

Với sự giúp đỡ của dữ liệu tổng hợp thu được theo cách này, và với sự hỗ trợ của một loạt các dự án và tập dữ liệu phụ, các tác giả đã có thể vượt qua các phương pháp hiện tại trong ước tính tuổi khi đối mặt với trang điểm “hiển hiện” hoặc “đáng chú ý”.

Bài báo tuyên bố:

‘DiffClean [loại bỏ] dấu vết trang điểm bằng cách sử dụng mô hình khuếch tán hướng dẫn bằng văn bản để chống lại các cuộc tấn công trang điểm. [Nó] cải thiện ước tính tuổi (độ chính xác của tuổi vị thành niên so với người lớn tăng 4,8%) và xác thực khuôn mặt (TMR tăng 8,9% tại FMR = 0,01%) so với các phương pháp so sánh trên hình ảnh trang điểm được mô phỏng kỹ thuật số và thực tế.’

Hãy cùng xem họ thực hiện nhiệm vụ này như thế nào.

Phương pháp

Để tránh thu thập hình ảnh thực của các cô gái vị thành niên mặc trang điểm, các tác giả đã sử dụng EleGANt để áp dụng mỹ phẩm tổng hợp lên hình ảnh từ tập dữ liệu UTKFace, tạo ra các cặp trước và sau cho quá trình đào tạo.

Ví dụ từ tập dữ liệu UTKFace. Nguồn: https://susanqq.github.io/UTKFace/

DiffClean sau đó được đào tạo để đảo ngược sự chuyển đổi này. Vì các thuật toán ước tính tuổi sai lầm nhất khi đối phó với các nhóm tuổi trẻ, các nhà nghiên cứu đã tìm thấy cần thiết để phát triển một phân loại tuổi đại diện được tinh chỉnh trên các tuổi mục tiêu (10-19 tuổi). Để làm điều này, họ đã sử dụng kiến trúc SSRNet được đào tạo trên UTKFace, với tổn thất L1 có trọng số.

Một phiên bản đơn giản của mô hình khuếch tán OpenAI năm 2021 cung cấp nền tảng cho sự chuyển đổi, với các tác giả giữ lại kiến trúc cốt lõi, nhưng sửa đổi nó với các đầu chú ý bổ sung ở các độ phân giải khác nhau, các lớp sâu hơn và các khối BigGAN để cải thiện các giai đoạn lấy mẫu lên và xuống.

Kiểm soát hướng được giới thiệu bằng cách sử dụng CLIP prompts: cụ thể, khuôn mặt với trang điểm và khuôn mặt không trang điểm, để mô hình học cách di chuyển theo hướng ngữ nghĩa mong muốn, cho phép loại bỏ trang điểm mà không ảnh hưởng đến chi tiết khuôn mặt, tín hiệu tuổi hoặc danh tính.

Trang điểm tổng hợp được áp dụng bằng EleGANt. Mỗi bộ ba hiển thị hình ảnh UTKFace ban đầu (bên trái), phong cách trang điểm tham chiếu (giữa) và kết quả sau khi chuyển đổi phong cách (bên phải). Việc chuyển đổi trang điểm như vậy rất phổ biến trong tài liệu về thị giác máy tính, và tính năng này cũng có sẵn trong các bộ lọc thần kinh của Adobe Photoshop, có thể áp dụng trang điểm từ hình ảnh tham chiếu lên hình ảnh đích.

Bốn hàm mất chính hàm mất hướng dẫn việc loại bỏ trang điểm mà không ảnh hưởng đến danh tính khuôn mặt hoặc tín hiệu tuổi. Ngoài mất CLIP dựa trên đã đề cập, danh tính được bảo tồn bằng cách sử dụng một cặp ArcFace có trọng số từ thư viện InsightFace – mất mát đo lường sự tương似 giữa khuôn mặt được tạo và cả hình ảnh sạch ban đầu và hình ảnh “được trang điểm”, đảm bảo rằng chủ thể vẫn nhất quán về mặt trực quan trước và sau khi loại bỏ trang điểm.

Thứ ba, mất LPIPS (Độ đo tương似 về nhận thức được học) sử dụng khoảng cách L1 để thực thi tính hiện thực ở cấp độ pixel và giữ lại vẻ ngoài chung của hình ảnh ban đầu sau khi loại bỏ trang điểm.

Cuối cùng, tuổi được giám sát bằng cách sử dụng SSRNet được tinh chỉnh trên tập dữ liệu UTKFace, với mô hình sử dụng mất L1 được làm mịn (với các hình phạt nặng hơn cho các lỗi trong phạm vi tuổi từ 10-29, nơi phân loại sai xảy ra thường xuyên nhất). Một biến thể của mô hình thay thế mất mát này bằng cách sử dụng lời nhắc tuổi CLIP, nhắc mô hình khớp với vẻ ngoài của một tuổi cụ thể.

Để ước tính tuổi tại thời điểm suy luận (ngược lại với việc sử dụng SSRNet tại thời điểm đào tạo), khuôn khổ MiVOLO năm 2023 được sử dụng.

Dữ liệu và Kiểm tra

Đào tạo SSRNet trên UTKFace sử dụng tập dữ liệu đào tạo gồm 15.364 hình ảnh, so với tập kiểm tra gồm 6.701 hình ảnh. 20.000 hình ảnh ban đầu được lọc để loại bỏ bất kỳ ai trên 70 tuổi, và sau đó chia 70:30.

Theo phương pháp trước đó được thiết lập bởi dự án DiffAM năm 2023, đào tạo sau đó được tiến hành trong hai giai đoạn, với phiên đầu tiên sử dụng 300 hình ảnh trang điểm thế giới thực (lần này là 200/100 chia giữa đào tạo và xác thực) từ tập dữ liệu MT của BeautyGAN.

Mô hình sau đó được tinh chỉnh thêm bằng cách sử dụng 300 hình ảnh UTKFace bổ sung, được tăng cường bằng trang điểm tổng hợp thông qua EleGANt. Điều này tạo ra một tập đào tạo cuối cùng gồm 600 ví dụ, được ghép nối trên năm phong cách tham chiếu từ BeautyGAN. Vì việc loại bỏ trang điểm liên quan đến việc ánh xạ nhiều phong cách trang điểm đến một khuôn mặt sạch duy nhất, đào tạo tập trung vào tổng quát hóa rộng rãi hơn là bao phủ mọi biến thể mỹ phẩm có thể.

Hiệu suất được đánh giá trên cả hình ảnh tổng hợp và hình ảnh thế giới thực. Kiểm tra tổng hợp sử dụng 2.556 hình ảnh từ tập dữ liệu Flickr-Faces-HQ, lấy mẫu đều trên chín nhóm tuổi dưới 70, và được sửa đổi bằng EleGANt.

Tổng quát hóa được đánh giá bằng cách sử dụng 3.000 hình ảnh từ BeautyFace và 355 từ LADN, cả hai đều chứa trang điểm thực sự.

Ví dụ từ tập dữ liệu BeautyFace, thể hiện việc phân đoạn ngữ nghĩa xác định các khu vực bề mặt khuôn mặt bị ảnh hưởng. Nguồn: https://li-chongyi.github.io/BeautyREC_files/

Độ đo và Thực hiện

Để đánh giá, các tác giả sử dụng Sai số tuyệt đối trung bình (MAE) giữa giá trị tuổi thực (hình ảnh thực với tuổi thực được thiết lập) và giá trị tuổi dự đoán, nơi kết quả thấp hơn là tốt hơn; độ chính xác của nhóm tuổi được sử dụng để đánh giá xem tuổi dự đoán có nằm trong các nhóm chính xác hay không (trong trường hợp đó, kết quả thấp hơn là tốt hơn); độ chính xác của việc phân loại vị thành niên / người lớn được sử dụng để đánh giá việc xác định chính xác những người từ 18 tuổi trở lên (trong trường hợp đó, kết quả cao hơn là tốt hơn).

Ngoài ra, mặc dù nó không tập trung vào chủ đề cụ thể đang được thảo luận, các tác giả cũng báo cáo các chỉ số xác thực danh tính dưới dạng Tỷ lệ trùng khớp thực (TMR) và Tỷ lệ trùng khớp sai (FMR), cũng như báo cáo thêm về các giá trị Đường cong nhận dạng của máy thu (ROC).

SSRNet được tinh chỉnh trên hình ảnh 64x64px bằng cách sử dụng kích thước lô là 50 dưới bộ tối ưu hóa Adam với sự suy giảm trọng lượng là 1e−4, cũng như một lịch trình giảm dần cosine, và tốc độ học là 1e−3 trong 200 epoch, với dừng sớm.

Bằng cách tương phản, mô块 DiffClean nhận được hình ảnh đầu vào 256x256px và được tinh chỉnh trong năm epoch bằng cách sử dụng Adam, với tốc độ học thô hơn là 4e−3. Việc lấy mẫu sử dụng 40 bước đảo ngược DDIM và 6 bước tiến DDIM. Tất cả đào tạo được thực hiện trên một GPU NVIDIA A100 duy nhất (cho dù có 40GB hay 80GB VRAM không được chỉ định).

Các hệ thống đối thủ được kiểm tra là CLIP2Protect và DiffAM đã đề cập trước đó. Các tác giả đã sử dụng các phong cách trang điểm “mặt nạ” trong công việc, vì điều này đã được lưu ý trong CLIP2Protect là đạt được tỷ lệ thành công cao hơn (dường như cho phép một con đường cơ hội cho những người tìm cách đánh bại cách tiếp cận này – nhưng đó là một vấn đề cho một thời điểm khác).

Để sao chép DiffAM như một đường cơ sở, mô hình được đào tạo trước từ BeautyGAN đã được tinh chỉnh trên tập dữ liệu MT. Đối với việc chuyển đổi trang điểm đối lập, điểm kiểm tra từ DiffAM đã được sử dụng với các tham số mặc định cho mô hình đích, hình ảnh tham chiếu và danh tính.

Hiệu suất của DiffClean so với các đường cơ sở trên các nhiệm vụ ước tính tuổi, sử dụng MiVOLO. Các chỉ số được báo cáo là Độ chính xác phân loại vị thành niên / người lớn, độ chính xác của nhóm tuổi và sai số tuyệt đối trung bình (MAE). DiffClean với mất mát tuổi CLIP đạt được kết quả tốt nhất trên tất cả các chỉ số.

Trong số những kết quả này, các tác giả tuyên bố:

‘Phương pháp của chúng tôi DIFFCLEAN vượt qua cả hai đường cơ sở, CLIP2Protect và DiffAM, và có thể thành công trong việc khôi phục các tín hiệu tuổi bị gián đoạn do trang điểm bằng cách giảm MAE (đến 5,71) và cải thiện độ chính xác dự đoán nhóm tuổi tổng thể (đến 37%).

‘Mục tiêu của chúng tôi tập trung vào các nhóm tuổi vị thành niên, và kết quả cho thấy chúng tôi đạt được phân loại tuổi vị thành niên so với người lớn vượt trội với 88,6%.’

Kết quả loại bỏ trang điểm từ các phương pháp cơ sở và đề xuất. Cột trái nhất hiển thị hình ảnh nguồn, cột tiếp theo hiển thị đầu ra từ CLIP2Protect và DiffAM. Cột thứ ba hiển thị kết quả từ DiffClean thông qua SSRNet và mất mát tuổi dựa trên CLIP. Các tác giả cho rằng DiffClean loại bỏ trang điểm hiệu quả hơn, tránh sự biến dạng tính năng được thấy trong CLIP2Protect và các mỹ phẩm dư còn lại được DiffAM bỏ qua.

Các tác giả lưu ý thêm rằng trang điểm không có tác dụng đồng đều lên tuổi nhìn thấy, mà có thể tăng, giảm hoặc không thay đổi tuổi nhìn thấy của một khuôn mặt. Do đó, DiffClean không áp dụng một “giảm tuổi chung” cho tuổi dự đoán, mà thay vào đó cố gắng khôi phục các tín hiệu tuổi thực bằng cách loại bỏ dấu vết trang điểm:

Ví dụ về việc loại bỏ trang điểm từ các tập dữ liệu CelebA-HQ và CACD. Mỗi cột hiển thị một cặp hình ảnh trước (bên trái) và sau (bên phải) khi loại bỏ trang điểm. Trong cột đầu tiên, tuổi dự đoán giảm sau khi loại bỏ trang điểm; trong cột thứ hai, nó vẫn không thay đổi; và trong cột thứ ba, nó tăng lên.

Để kiểm tra xem DiffClean hoạt động tốt như thế nào trên dữ liệu mới, nó đã được chạy trên các tập dữ liệu BeautyFace và LADN, chứa trang điểm thực nhưng không có hình ảnh ghép của cùng một đối tượng mà không có mỹ phẩm. Các dự đoán tuổi trước và sau khi loại bỏ trang điểm đã được so sánh để đánh giá xem DiffClean giảm thiểu sự biến dạng do trang điểm như thế nào:

Kết quả loại bỏ trang điểm trên hình ảnh thế giới thực từ tập dữ liệu LADN (cặp trái) và BeautyFace (cặp phải). DiffClean giảm tuổi dự đoán bằng cách loại bỏ mỹ phẩm, thu hẹp khoảng cách giữa tuổi nhìn thấy và tuổi thực. Các số trắng hiển thị tuổi dự đoán trước và sau khi xử lý.

Kết quả cho thấy DiffClean nhất quán thu hẹp khoảng cách giữa tuổi nhìn thấy và tuổi thực. Trên cả hai tập dữ liệu, nó giảm sai số quá cao và quá thấp khoảng ba năm trung bình, cho thấy hệ thống tổng quát hóa tốt cho các phong cách trang điểm thực tế.

Kết luận

Điều thú vị, và có lẽ là không thể tránh khỏi, rằng trang điểm “hiển hiện” sẽ được sử dụng một cách đối lập. Vì các cô gái trưởng thành ở các tốc độ khác nhau, nhưng trưởng thành nhất quán nhanh hơn như một nhóm, việc xác định ranh giới giữa trạng thái vị thành niên và người lớn nữ có thể là một trong những nhiệm vụ tham vọng nhất mà cảnh quan nghiên cứu đã đặt ra.

Tuy nhiên, thời gian và dữ liệu cuối cùng có thể xác định các dấu hiệu tuổi liên quan đến tuổi một cách nhất quán mà có thể được sử dụng để neo các hệ thống xác thực tuổi trực quan.

* Vì chủ đề này mời gọi ngôn ngữ bị cáo buộc, và vì ‘cô gái’ là một thuật ngữ loại trừ (trong khi ‘phụ nữ và cô gái’, thuật ngữ được chấp nhận hiện tại cho người có giới tính nữ, không phải là một mô tả chính xác trong trường hợp này), tôi đã mặc định ‘nữ’ là một sự thỏa hiệp tốt nhất mà tôi có thể nghĩ ra – mặc dù nó không nắm bắt tất cả các sắc thái dân số, vì điều đó tôi xin lỗi.

^† Trong bài viết này, tôi sử dụng ‘hiển hiện’ để chỉ trang điểm được thiết kế để được nhìn thấy và công nhận là trang điểm, chẳng hạn như mascara, eyeliner, blush và foundation, trái ngược với các ứng dụng mỹ phẩm che giấu và ‘lén lút’ khác.

Được xuất bản lần đầu vào Thứ Sáu, ngày 18 tháng 7 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]