Góc nhìn Anderson
Công Cụ AI Loại Bỏ Trang Điểm Để Ngăn Chặn Người Dưới Tuổi Bypass Kiểm Tra Tuổi

Hình ảnh của mỹ phẩm trên khuôn mặt đang cho phép người dùng dưới tuổi, chủ yếu là các cô gái, lọt qua các kiểm tra tuổi dựa trên ảnh tự chụp trên các nền tảng như ứng dụng hẹn hò và trang web thương mại điện tử. Một công cụ AI mới đang giải quyết lỗ hổng này, sử dụng một mô hình phân biệt được đào tạo để xóa trang điểm trong khi vẫn giữ nguyên danh tính, khiến cho người dưới tuổi khó khăn hơn trong việc đánh lừa các hệ thống tự động.
Sự sử dụng của các dịch vụ xác thực tuổi dựa trên ảnh tự chụp của bên thứ ba đang tăng lên, không chỉ vì của một động lực toàn cầu hướng tới xác thực tuổi dựa trên trực tuyến.
Ví dụ, trong chế độ thực thi mới mà Đạo luật An toàn Trực tuyến của Vương quốc Anh hiện quy định, xác thực tuổi có thể được thực hiện bởi một loạt các dịch vụ của bên thứ ba, sử dụng các phương pháp khác nhau, bao gồm cả xác thực tuổi dựa trên hình ảnh, nơi AI được sử dụng để dự đoán tuổi của người dùng (thường từ hình ảnh camera di động trực tiếp). Các dịch vụ sử dụng các phương pháp này bao gồm Ondato, TrustStamp và Yoti.
Tuy nhiên, việc ước tính tuổi không phải là không thể sai lầm, và sự quyết tâm truyền thống của thanh thiếu niên trong việc dự đoán các quyền của tuổi trưởng thành có nghĩa là những người trẻ đã phát triển một loạt các phương pháp hiệu quả để vào các trang web hẹn hò, diễn đàn và các môi trường khác cấm nhóm tuổi của họ.
Một trong những phương pháp này, thường được sử dụng nhất bởi phụ nữ*, là bằng cách trang điểm – một chiến thuật được biết đến để đánh lừa các hệ thống ước tính tuổi tự động, thường overestimate tuổi của những người trẻ và underestimate tuổi của những người lớn tuổi.
Không Chỉ Là Cô Gái
Trước khi phản đối việc coi trang điểm là “định hướng nữ”, chúng ta phải lưu ý rằng sự hiện diện của mỹ phẩm trên khuôn mặt của bất kỳ ai là một chỉ số rất không đáng tin cậy về giới tính:

Trong bài báo ‘Tác động của mỹ phẩm trên khuôn mặt đối với các thuật toán ước tính tuổi và giới tính tự động’ các nhà nghiên cứu tại Mỹ đã phát hiện ra rằng các hệ thống xác thực giới tính bị đánh lừa bởi trang điểm thay đổi giới tính. Nguồn: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
Vào năm 2024, 72% người tiêu dùng nam giới tại Mỹ trong độ tuổi từ 18-24 được ước tính đã kết hợp trang điểm vào thói quen chăm sóc cá nhân của họ – mặc dù hầu hết sử dụng sản phẩm mỹ phẩm để tăng cường vẻ ngoài của làn da khỏe mạnh, chứ không phải để tận hưởng các loại mỹ phẩm “biểu diễn” như mascara, son môi và phấn nền thường liên quan đến vẻ ngoài của phụ nữ.
Vì vậy, chúng ta không thể giúp nhưng phải đối xử với tài liệu được nghiên cứu trong bài viết này theo hướng của kịch bản phổ biến nhất được khám phá trong nghiên cứu mới – đó là việc các cô gái vị thành niên sử dụng trang điểm để đánh lừa các hệ thống xác thực tuổi tự động.
Loại Bỏ Trang Điểm Hiệu Quả – Phương Pháp AI
Nghiên cứu được đề cập ở trên đến từ ba người đóng góp tại Đại học New York, dưới dạng bài báo mới DiffClean: Loại Bỏ Trang Điểm Dựa Trên Sự Khác Biệt Để Ước Tính Tuổi Chính Xác.
Mục tiêu của dự án là đạt được một phương pháp AI để loại bỏ sự xuất hiện của trang điểm từ hình ảnh (có thể bao gồm cả hình ảnh video), để có được một ý tưởng tốt hơn về tuổi thực sự của người đứng sau lớp trang điểm.

Từ bài báo mới, một ví dụ về cách loại bỏ trang điểm có thể thay đổi đáng kể dự đoán tuổi. Nguồn: https://arxiv.org/pdf/2507.13292
Một trong những thách thức trong việc phát triển hệ thống như vậy là sự nhạy cảm tiềm tàng xung quanh việc thu thập hoặc tạo ra hình ảnh của các cô gái vị thành niên đang trang điểm. Cuối cùng, các nhà nghiên cứu đã sử dụng một hệ thống mạng đối nghịch生成 (GAN) của bên thứ ba gọi là EleGANt để áp dụng các phong cách trang điểm một cách nhân tạo, một kỹ thuật đã chứng minh rất hiệu quả:

Hệ thống EleGANt của Đại học Tsinghua năm 2022 sử dụng Mạng Đối Nghịch để áp dụng mỹ phẩm một cách chân thực lên các bức ảnh nguồn. Nguồn: https://arxiv.org/pdf/2207.09840
Với sự trợ giúp của dữ liệu tổng hợp thu được theo cách này, và với sự giúp đỡ của một loạt các dự án và tập dữ liệu phụ, các tác giả đã có thể vượt qua các phương pháp hiện tại trong việc ước tính tuổi khi đối mặt với trang điểm “biểu diễn” hoặc “nhận biết được”.
Bài báo cho biết:
‘DiffClean [loại bỏ] dấu vết trang điểm bằng cách sử dụng một mô hình khuếch tán được hướng dẫn bởi văn bản để bảo vệ chống lại các cuộc tấn công bằng trang điểm. [Nó] cải thiện việc ước tính tuổi (chính xác giữa người vị thành niên và người trưởng thành tăng 4,8%) và xác thực khuôn mặt (TMR tăng 8,9% tại FMR=0,01%) so với các phương pháp đối chiếu trên các hình ảnh được mô phỏng và thực tế có trang điểm.’
Hãy cùng xem họ thực hiện nhiệm vụ này như thế nào.
Phương Pháp
Để tránh thu thập hình ảnh thực tế của các cô gái vị thành niên đang trang điểm, các tác giả đã sử dụng EleGANt để áp dụng trang điểm tổng hợp lên các hình ảnh lấy từ tập dữ liệu UTKFace, tạo ra các cặp trước và sau cho quá trình đào tạo.

Ví dụ từ tập dữ liệu UTKFace. Nguồn: https://susanqq.github.io/UTKFace/
DiffClean sau đó được đào tạo để đảo ngược sự chuyển đổi này. Vì các thuật toán ước tính tuổi thường sai lầm nhất khi xử lý các nhóm tuổi trẻ, các nhà nghiên cứu thấy cần thiết phải phát triển một bộ phân loại tuổi proxy được tinh chỉnh trên các tuổi mục tiêu (10-19 tuổi). Để làm điều này, họ sử dụng kiến trúc SSRNet được đào tạo trên UTKFace, với mất L1 có trọng số.
Một phiên bản đơn giản của mô hình khuếch tán OpenAI năm 2021 cung cấp nền tảng cho sự chuyển đổi, với các tác giả giữ lại kiến trúc cốt lõi, nhưng sửa đổi nó với các đầu chú ý bổ sung ở các độ phân giải khác nhau, các lớp sâu hơn và khối BigGAN để cải thiện các giai đoạn lấy mẫu lên và xuống.
Kiểm soát hướng được giới thiệu bằng cách sử dụng CLIP prompts: cụ thể, khuôn mặt với trang điểm và khuôn mặt không trang điểm, để mô hình học cách di chuyển theo hướng ngữ nghĩa mong muốn, cho phép trang điểm được loại bỏ mà không ảnh hưởng đến chi tiết khuôn mặt, các tín hiệu tuổi hoặc danh tính.

Trang điểm tổng hợp được áp dụng bằng EleGANt. Mỗi bộ ba hiển thị hình ảnh UTKFace ban đầu (trái), phong cách trang điểm tham chiếu (giữa) và kết quả sau khi chuyển đổi phong cách (phải). Việc chuyển đổi trang điểm như vậy rất phổ biến trong văn học về thị giác máy tính, và tính năng này cũng có sẵn trong các bộ lọc thần kinh của Adobe Photoshop, có thể áp dụng trang điểm từ hình ảnh tham chiếu lên hình ảnh mục tiêu.
Bốn hàm mất chính hướng dẫn việc loại bỏ trang điểm mà không ảnh hưởng đến danh tính khuôn mặt hoặc tín hiệu tuổi. Ngoài mất CLIP dựa trên đã đề cập, danh tính được bảo tồn bằng cách sử dụng một cặp mất ArcFace có trọng số từ thư viện InsightFace – mất này đo lường sự tương tự giữa khuôn mặt được tạo và cả hình ảnh gốc sạch và phiên bản “trang điểm”, đảm bảo rằng chủ thể vẫn nhất quán về mặt trực quan trước và sau khi loại bỏ trang điểm.
Thứ ba, mất LPIPS sử dụng khoảng cách L1 để áp dụng tính thực tế ở cấp độ pixel, và giữ lại tổng thể hình ảnh gốc sau khi loại bỏ trang điểm.
Cuối cùng, tuổi được giám sát bằng cách sử dụng SSRNet tinh chỉnh trên tập dữ liệu UTKFace, với mô hình sử dụng mất L1 mịn (với các hình phạt nặng hơn cho các lỗi trong phạm vi tuổi từ 10-29, nơi phân loại sai xảy ra thường xuyên nhất). Một biến thể của mô hình thay thế mất này bằng một CLIP dựa trên tuổi, nhắc mô hình khớp với vẻ ngoài của một tuổi cụ thể.
Để ước tính tuổi tại thời điểm suy luận (ngược với việc sử dụng SSRNet tại thời điểm đào tạo), khuôn khổ MiVOLO năm 2023 được sử dụng.
Dữ Liệu và Kiểm Tra
Đào tạo SSRNet trên UTKFace sử dụng tập dữ liệu đào tạo gồm 15.364 hình ảnh, so với tập kiểm tra gồm 6.701 hình ảnh. 20.000 hình ảnh ban đầu được lọc để loại bỏ bất kỳ ai trên 70 tuổi, và sau đó được chia 70:30.
Theo phương pháp trước đó được thiết lập bởi dự án DiffAM năm 2023, đào tạo sau đó được tiến hành trong hai giai đoạn, với phiên đầu tiên sử dụng 300 hình ảnh trang điểm trong thế giới thực (lần này là 200/100 chia giữa đào tạo và xác thực) từ tập dữ liệu MT của BeautyGAN.
Mô hình sau đó được tinh chỉnh thêm bằng cách sử dụng 300 hình ảnh UTKFace bổ sung, được tăng cường bằng trang điểm tổng hợp thông qua EleGANt. Điều này tạo ra một tập dữ liệu đào tạo cuối cùng gồm 600 ví dụ, được ghép nối trên năm phong cách tham chiếu từ BeautyGAN. Vì việc loại bỏ trang điểm liên quan đến việc ánh xạ nhiều phong cách trang điểm thành một khuôn mặt sạch duy nhất, đào tạo tập trung vào tổng quát hóa rộng rãi hơn là bao phủ mọi biến thể mỹ phẩm có thể.
Hiệu suất được đánh giá trên cả hình ảnh tổng hợp và hình ảnh thế giới thực. Kiểm tra tổng hợp sử dụng 2.556 hình ảnh từ tập dữ liệu Flickr-Faces-HQ (FFHQ), được lấy mẫu đều trên chín nhóm tuổi dưới 70, và được sửa đổi bằng EleGANt.
Tổng quát hóa được đánh giá bằng cách sử dụng 3.000 hình ảnh từ BeautyFace và 355 từ LADN, cả hai đều chứa trang điểm thực.

Ví dụ từ tập dữ liệu BeautyFace, thể hiện phân đoạn ngữ nghĩa xác định các khu vực khác nhau trên bề mặt khuôn mặt. Nguồn: https://li-chongyi.github.io/BeautyREC_files/
Độ Đo và Triển Khai
Để đo lường, các tác giả sử dụng Sai Sốolut tuyệt đối trung bình (MAE) giữa tuổi thực (hình ảnh thực với tuổi được xác định) và các giá trị tuổi dự đoán, nơi kết quả thấp hơn là tốt hơn; chính xác nhóm tuổi được sử dụng để đánh giá xem tuổi dự đoán có nằm trong các nhóm đúng hay không (trong trường hợp này, kết quả thấp hơn là tốt hơn); độ chính xác nhỏ / người lớn được sử dụng để đánh giá việc xác định chính xác những người 18+ (trong trường hợp này, kết quả cao hơn là tốt hơn).
Bên cạnh đó, mặc dù không tập trung vào chủ đề cụ thể này, các tác giả cũng báo cáo các chỉ số xác thực danh tính dưới dạng Tỷ Lệ Khớp (TMR) và Tỷ Lệ Không Khớp (FMR), cùng với việc báo cáo thêm các giá trị Đường Cong Receiver (ROC) liên quan.
SSRNet được tinh chỉnh trên hình ảnh 64×64px bằng cách sử dụng kích thước batch là 50 dưới bộ tối ưu hóa Adam với sự suy giảm trọng lượng là 1e−4, cũng như một lịch trình annealing cosine, và tốc độ học là 1e−3 trong 200 epoch, với dừng sớm.
Ngược lại, mô块 DiffClean nhận đầu vào hình ảnh 256×256px, và được tinh chỉnh trong năm epoch bằng cách sử dụng Adam, với tốc độ học thô hơn là 4e−3. Việc lấy mẫu sử dụng 40 bước đảo ngược DDIM, và 6 bước tiến DDIM. Tất cả quá trình đào tạo được thực hiện trên một card đồ họa NVIDIA A100 (dù là 40GB hay 80GB VRAM không được chỉ định).
Các hệ thống đối chiếu được kiểm tra bao gồm CLIP2Protect và DiffAM đã đề cập trước đó. Các tác giả sử dụng phong cách trang điểm “mặt nạ” trong công việc, vì nó đã được lưu ý trong CLIP2Protect là đạt được tỷ lệ thành công cao hơn (có thể cho phép một con đường cơ hội cho những người muốn đánh bại phương pháp này – nhưng đó là một vấn đề cho một thời điểm khác).
Để tái tạo DiffAM như một đường cơ sở, mô hình được đào tạo trước từ BeautyGAN được tinh chỉnh trên tập dữ liệu MT. Đối với chuyển đổi trang điểm đối nghịch, điểm kiểm tra từ DiffAM được sử dụng với các tham số mặc định cho mô hình đích, hình ảnh tham chiếu và danh tính.

Hiệu suất của DiffClean so với các đường cơ sở trên các nhiệm vụ ước tính tuổi, sử dụng MiVOLO. Các chỉ số được báo cáo là Độ Chính Xác Phân Loại Người Lớn / Người Nhỏ, Chính Xác Nhóm Tuổi và Sai Sốolut tuyệt đối trung bình (MAE). DiffClean với mất tuổi CLIP đạt được kết quả tốt nhất trên tất cả các chỉ số.
Trong số những kết quả này, các tác giả tuyên bố:
‘Phương pháp DIFFCLEAN của chúng tôi vượt trội so với cả hai đường cơ sở, CLIP2Protect và DiffAM, và có thể khôi phục thành công các tín hiệu tuổi bị gián đoạn do trang điểm bằng cách giảm MAE (đến 5,71) và cải thiện độ chính xác dự đoán nhóm tuổi (đến 37%). ‘
‘Mục tiêu của chúng tôi tập trung vào các nhóm tuổi nhỏ, và kết quả chỉ ra rằng chúng tôi đạt được phân loại tuổi người lớn / người nhỏ vượt trội với 88,6%.’

Kết quả loại bỏ trang điểm từ các phương pháp cơ sở và đề xuất. Cột trái nhất hiển thị hình ảnh nguồn, cột tiếp theo hiển thị đầu ra từ CLIP2Protect và DiffAM. Cột thứ ba hiển thị kết quả từ DiffClean thông qua SSRNet và mất tuổi dựa trên CLIP. Các tác giả cho rằng DiffClean loại bỏ trang điểm hiệu quả hơn, tránh sự biến dạng tính năng thấy trong CLIP2Protect và mỹ phẩm còn lại bị bỏ lỡ bởi DiffAM.
Các tác giả lưu ý thêm rằng trang điểm không có tác động đồng đều lên tuổi nhìn thấy, nhưng có thể tăng, giảm hoặc không thay đổi tuổi nhìn thấy của một khuôn mặt. Do đó, DiffClean không áp dụng một “giảm tuổi” chung chung, mà thay vào đó cố gắng khôi phục các tín hiệu tuổi ban đầu bằng cách loại bỏ dấu vết trang điểm:

Ví dụ về loại bỏ trang điểm từ các tập dữ liệu CelebA-HQ và CACD. Mỗi cột hiển thị một cặp hình ảnh trước (trái) và sau (phải) khi loại bỏ trang điểm. Trong cột đầu tiên, tuổi dự đoán giảm sau khi loại bỏ trang điểm; trong cột thứ hai, nó vẫn không đổi; và trong cột thứ ba, nó tăng lên.
Để kiểm tra hiệu suất của DiffClean trên dữ liệu mới, nó đã được chạy trên các tập dữ liệu BeautyFace và LADN, chứa trang điểm thực, nhưng không có hình ảnh ghép của cùng một đối tượng mà không có trang điểm. Dự đoán tuổi trước và sau khi loại bỏ trang điểm được so sánh để đánh giá hiệu quả của DiffClean trong việc giảm thiểu sự biến dạng do trang điểm gây ra:

Kết quả loại bỏ trang điểm trên hình ảnh thực từ các tập dữ liệu LADN (cặp trái) và BeautyFace (cặp phải). DiffClean giảm tuổi dự đoán bằng cách loại bỏ mỹ phẩm, thu hẹp khoảng cách giữa tuổi nhìn thấy và tuổi thực. Số trắng hiển thị tuổi ước tính trước và sau khi xử lý.
Kết quả cho thấy DiffClean liên tục thu hẹp khoảng cách giữa tuổi nhìn thấy và tuổi thực. Trên cả hai tập dữ liệu, nó giảm sai số overestimate và underestimate trung bình khoảng ba năm, cho thấy hệ thống tổng quát hóa tốt trên các phong cách trang điểm trong thế giới thực.
Kết Luận
Thật thú vị, và có lẽ là không thể tránh khỏi, rằng trang điểm “biểu diễn” sẽ được sử dụng theo cách đối nghịch. Vì các cô gái trưởng thành ở các tốc độ khác nhau, nhưng trưởng thành nhất quán nhanh hơn như một nhóm, việc xác định ranh giới giữa trạng thái vị thành niên và người lớn nữ có thể là một trong những nhiệm vụ tham vọng nhất mà lĩnh vực nghiên cứu đã đặt ra cho mình.
Mặc dù vậy, thời gian và dữ liệu cuối cùng có thể xác định các dấu hiệu tuổi liên quan đến tuổi mà có thể được sử dụng để neo các hệ thống xác thực tuổi trực quan.
* Vì chủ đề này mời gọi ngôn ngữ đầy cảm xúc, và vì ‘cô gái’ là một từ loại trừ (trong khi ‘phụ nữ và cô gái’, thuật ngữ được chấp nhận hiện tại cho người có giới tính nữ, không phải là một mô tả chính xác trong trường hợp này), tôi đã chọn ‘nữ’ là sự thỏa hiệp tốt nhất mà tôi có thể nghĩ ra – mặc dù nó không nắm bắt được tất cả các sắc thái nhân khẩu học, vì những điều đó tôi xin lỗi.
† Trong bài viết này, tôi sử dụng ‘biểu diễn’ để chỉ trang điểm được thiết kế để được nhìn thấy và công nhận là trang điểm, chẳng hạn như mascara, eyeliner, phấn hồng và nền, trái ngược với các loại kem che giấu và các ứng dụng mỹ phẩm ‘lén lút’ khác.
Được xuất bản lần đầu vào Thứ Sáu, ngày 18 tháng 7 năm 2025












