인공지능
얼굴 매력도 예측을 위한 라이브 스트림에 대한 추정

지금까지 얼굴 매력도 예측(Facial Attractiveness Prediction, FAP)은 주로 심리학 연구, 미용 및 화장품 산업, 그리고 성형외과 분야에서 연구되어 왔다. 이는 미의 기준이 국가별로 다르기 때문에 어려운 연구 분야이다.
이것은 단일의 효과적인 AI 기반 데이터셋이 존재하지 않는다는 것을 의미한다. 모든 문화에서 얼굴과 평가를 샘플링하여 얻은 평균값은 매우 편향될 것이며, 더 많은 인구를 가진 국가가 추가적인 트랙션을 얻을 것이다. 그렇지 않으면, 실제로 존재하는 문화와는 관련이 없을 것이다.
대신, 도전은 국가 또는 문화별 데이터를 처리할 수 있는 개념적 방법론과 워크플로우를 개발하는 것이다. 이를 통해 각 지역에 효과적인 FAP 모델을 개발할 수 있다.
미용과 심리학 연구를 위한 FAP의 사용 사례는 매우 제한적이거나 산업별로 구분된다. 따라서 지금까지 수집된 대부분의 데이터셋은 제한된 데이터만을 포함하거나 전혀 공개되지 않았다.
온라인 매력도 예측기의 쉬운 가용성, 주로 서양 관객을 대상으로 하는 것은, 현재 중국 연구(주로 중국)에 의해 지배되는 FAP의 최신 상태를 반드시 대표하지 않는다. 또한 해당하는 동아시아 데이터셋도 있다.

Dataset examples from the 2020 paper ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
미용 평가를 위한 더 넓은 상업적 용途에는 온라인 데이트 앱과, 실제 사람들의 아바타 이미지의 품질을 높이기 위한 생성적 AI 시스템이 포함된다. 이러한 애플리케이션은 효과적인 지표로써 미의 표준이 필요하다.
얼굴 그리기
매력적인 개인은 광고와 영향력 구축에서 여전히 귀중한 자산이다. 이러한 분야에서 금전적 인센티브는 상태-of-the-아트 FAP 데이터셋과 프레임워크를 발전시키는 기회이다.
예를 들어, 실제 데이터로 훈련된 AI 모델은 광고에 영향을 미치는 고유의 이벤트나 개인을 식별할 수 있다. 이러한 기능은 라이브 비디오 스트리밍 컨텍스트에서 특히 관련이 있다. 여기서 ‘팔로워’와 ‘좋아요’와 같은 지표는 현재 개인의 매력도나 얼굴 유형의 능력을 암시적으로 나타낸다.
이것은 표면적인 지표이며, 목소리, 프레젠테이션, 관점도 관객을 모으는 데 중요한 역할을 한다. 따라서 FAP 데이터셋의 큐레이션에는 인간의 감시와 얼굴 매력도와 외모 매력도를 구별하는 능력이 필요하다.
LiveBeauty
FAP 데이터셋의 부족을 해결하기 위해, 중국의 연구자들은 최초의 대규모 FAP 데이터셋을 제공한다. 이는 100,000개의 얼굴 이미지와 200,000개의 인간 평가를 포함한다.

Samples from the new LiveBeauty dataset. Source: https://arxiv.org/pdf/2501.02509
이 데이터셋은 LiveBeauty라고 불리며, 10,000개의 다른 身份를 포함한다. 모두 2024년 3월에 라이브 스트리밍 플랫폼에서 캡처되었다.
저자들은 또한 FPEM이라는 새로운 다중 모드 FAP 방법을 제시한다. FPEM은 홀리스틱 얼굴 전처리 지식과 다중 모드 미적 의미 특징을 통합한다.
방법과 데이터
10시간 방송에서, 연구자들은 첫 3시간 동안 1시간마다 1개의 이미지를 수집했다. 페이지 조회수가 가장 높은 방송을 선택했다.
수집된 데이터는 여러 전처리 단계를 거쳤다. 첫 번째 단계는 얼굴 영역 크기 측정이다. 이는 2018년 CPU 기반 FaceBoxes 탐지 모델을 사용하여 얼굴 특징을圍繞하는 바운딩 박스를 생성한다.
두 번째 단계는 블러 감지이다. 이는 얼굴 영역에 Laplacian 연산자를 적용하여 수행한다.
세 번째 단계는 얼굴 姿勢 추정이다. 이는 2021년 3DDFA-V2 姿勢 추정 모델을 사용한다.
인간 평가와 주석
20명의 주석자가 모집되었다. 얼굴은 6.7인치 화면의 iPhone 14 Pro Max에 표시되었다.
평가는 200회로 나누어졌으며, 각 회에는 50개의 이미지가 사용되었다. 주제자들은 샘플의 얼굴 매력도를 1-5의 점수로 평가했다.
분석과 전처리
첫 번째 단계는 주제자 평가의 아웃라이어 비율과 Spearman의 순위 상관 계수를 계산하는 것이다.
두 번째 단계는 평균 의견 점수(Mean Opinion Score, MOS)를 계산하는 것이다. 이는 각 얼굴 이미지에 대한 유효한 주제자의 점수를 평균하여 계산한다.
아키텍처
FPEM은 4개의 모듈로 구성된다: 개인화된 매력도 전처리 모듈(PAPM), 다중 모드 매력도 인코더 모듈(MAEM), 크로스 모달 퓨전 모듈(CMFM), 그리고 결정 퓨전 모듈(DFM).
손실 함수
PAPM은 L1 손실 함수를 사용한다. MAEM은 더 복잡한 손실 함수를 사용한다.
테스트
연구자들은 LiveBeauty를 9개의 이전 접근 방식과 비교했다.

Results from tests
윤리적 고려
미의 기준을 설정하는 시스템은 편향과 차별을 강화할 수 있다.
이 시스템은 인간 주도 주석이나 온라인 환경에서 주목 패턴을 분석하여 편향된 관점을 강화할 수 있다.
* 본 논문은匿名 도메인에 대해 단수와 복수 형태를 모두 사용한다.
최초로 2025년 1월 8일에 게시되었다.












