감시

'저하된' 합성 얼굴은 얼굴 이미지 인식을 개선하는 데 도움이 될 수 있습니다.

게재

2 년 전

2022 년 8 월 1 일

미시간 주립 대학의 연구원들은 합성 얼굴이 딥페이크 장면에서 벗어나 세상에 좋은 일을 할 수 있는 방법을 고안했습니다. 이미지 인식 시스템이 더욱 정확해지도록 지원하는 것입니다.

그들이 고안한 새로운 제어 가능한 얼굴 합성 모듈(CFSM)은 유명인의 인기 있는 오픈 소스 데이터 세트에 사용되는 균일한 고품질 이미지에 의존하지 않고 실제 비디오 감시 영상 스타일로 얼굴을 재생성할 수 있습니다. 인식 정확도에 영향을 미칠 수 있는 안면 흐림, 저해상도, 센서 노이즈 등 순정 CCTV 시스템의 결점과 단점을 모두 반영하지 않습니다.

제어 가능한 얼굴 합성 모듈(CFSM)의 개념적 아키텍처. 출처: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM은 딥페이크 시스템의 목표인 머리 포즈, 표정 또는 기타 모든 일반적인 특성을 진정으로 시뮬레이션하기 위한 것이 아니라 다음을 사용하여 대상 인식 시스템의 스타일로 다양한 대체 보기를 생성하기 위한 것입니다. 스타일 이전.

이 시스템은 대상 시스템의 스타일 도메인을 모방하고 그 안의 '편심' 범위와 해상도에 따라 출력을 조정하도록 설계되었습니다. 사용 사례에는 비용으로 인해 업그레이드할 가능성이 없지만 한때 최첨단이었던 출력 품질이 좋지 않아 현재 차세대 안면 인식 기술에 거의 기여할 수 없는 레거시 시스템이 포함됩니다.

연구원들은 시스템을 테스트하면서 이러한 종류의 잡음이 많고 낮은 등급의 데이터를 처리해야 하는 이미지 인식 시스템의 최첨단 기술에서 눈에 띄는 이점을 얻었다는 것을 발견했습니다.

대상 시스템의 한계에 적응하도록 안면 인식 모델을 교육합니다. 출처: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

그들은 또한 프로세스의 유용한 부산물을 발견했습니다. 대상 데이터 세트를 이제 특성화하고 서로 비교할 수 있으므로 향후 다양한 CCTV 시스템에 대한 맞춤형 데이터 세트의 비교, 벤치마킹 및 생성이 더 쉬워집니다.

또한 이 방법을 기존 데이터 세트에 적용하여 수행할 수 있습니다. 사실상 도메인 적응 얼굴 인식 시스템에 더 적합하게 만듭니다.

XNUMXD덴탈의 새 용지 제목이 제약 없는 얼굴 인식을 위한 제어 가능하고 유도된 얼굴 합성, 미국 국가정보국(ODNI)이 부분적으로 지원합니다. 이아르파), MSU 컴퓨터 과학 및 엔지니어링 부서의 연구원 XNUMX명이 제공합니다.

주요 콘텐츠

저품질 얼굴 인식(LQFR)은 주목할만한 연구 분야 지난 몇 년 동안. 시민 및 지방자치단체는 복원력이 있고 오래 지속될 수 있는 비디오 감시 시스템을 구축했기 때문에(문제에 주기적으로 자원을 재할당하기를 원하지 않음) 많은 '레거시' 감시 네트워크가 데이터로서의 적응성 측면에서 기술적 부채의 희생자가 되었습니다. 머신러닝 소스.

다양한 역사적 및 최신 비디오 감시 시스템에서 다양한 수준의 안면 해상도. 출처: https://arxiv.org/pdf/1805.11519.pdf

운 좋게도 이것은 확산 모델 및 기타 노이즈 기반 모델이 이례적으로 잘 적응된 작업입니다. 최근 몇 년간 가장 인기 있고 효과적인 이미지 합성 시스템은 업 스케일링 이는 신경 압축 기술(비트맵 데이터 대신 신경 데이터로 이미지와 동영상을 저장하는 방법)에도 절대적으로 필요합니다.

안면 인식의 과제 중 하나는 최소한의 인식으로 최대한의 정확도를 얻는 것입니다. 풍모 가장 작고 가장 가능성이 낮은 저해상도 이미지에서 추출할 수 있습니다. 이 제약 조건은 낮은 해상도에서 얼굴을 식별(또는 생성)할 수 있는 것이 유용할 뿐만 아니라 어떤 방식으로든 훈련 중인 모델의 새로운 잠재 공간을 통과할 수 있는 이미지 크기에 대한 기술적 제한 때문에 존재합니다. VRAM은 로컬 GPU에서 사용할 수 있습니다.

이러한 의미에서 '특징'이라는 용어는 혼란스럽습니다. 이러한 특징은 공원 벤치의 데이터세트에서도 얻을 수 있기 때문입니다. 컴퓨터 비전 부문에서 '기능'은 다음을 의미합니다. 구별되는 특성 이미지에서 얻은 – 어떤 이미지, 그것이 교회의 윤곽이든, 산이든, 또는 얼굴 마사지 얼굴 데이터셋의 특징

컴퓨터 비전 알고리즘은 이제 이미지와 비디오 영상을 업스케일링하는 데 능숙하므로 저해상도 또는 그렇지 않으면 저하된 레거시 감시 자료를 '강화'하기 위해 다양한 방법이 제안되었습니다. 법적 목적을 위해 그러한 증강을 사용하십시오., 범죄 수사와 관련하여 특정인을 현장에 배치하는 것과 같은

오인의 가능성 외에도 가끔 모인 헤드라인, 낮은 수준의 특징을 입력하는 안면 인식 시스템은 해당 수준의 해상도와 명쾌함. 또한 이러한 변환은 실제로 비용이 많이 들고 반복되는 질문 잠재적인 타당성과 합법성에 관한 것입니다.

더 많은 '다운-앳-힐' 유명인의 필요성

얼굴 인식 시스템이 기능(예: 기계 학습 기능 사람의 기존 시스템의 출력에서 '고해상도' 아이덴티티와 타협할 수 없는(대체 불가능한) 기존 비디오 감시 프레임워크에서 사용할 수 있는 저하된 이미지 간의 관계를 더 잘 이해함으로써

여기서 문제는 표준 중 하나입니다. MS-Celeb-1M 및 웹페이스260M (여러 가지 중에서) 에 래치 연구자가 최신 기술 상태에 대한 점진적 또는 주요 진행 상황을 측정할 수 있는 일관된 벤치마크를 제공하기 때문입니다.

Microsoft의 인기 있는 MS-Celeb1m 데이터 세트의 예입니다. 출처: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

그러나 저자는 이러한 데이터 세트에서 훈련된 안면 인식(FR) 알고리즘이 많은 구형 감시 시스템 출력의 시각적 '도메인'에 적합하지 않은 자료라고 주장합니다.

논문 상태*:

'[최첨단](SoTA) FR 모델은 도메인 이동 문제, 즉 얻은 대규모 훈련 데이터 세트(반제약)로 인해 실제 감시 이미지(제약 없음)에서 잘 작동하지 않습니다. 웹 크롤링된 유명인 얼굴을 통해 내재된 센서 노이즈, 저해상도, 모션 블러, 난기류 효과 등과 같은 실제 변형이 부족합니다.

'예를 들어, 1:1 검증 정확도는 SoTA 모델 중 하나 무제한에 IJB-S 데이터 세트는 반제약보다 약 30% 낮습니다. LFW.

'이러한 성능 격차에 대한 잠재적 해결책은 대규모의 제한되지 않은 얼굴 데이터 세트를 조합하는 것입니다. 그러나 수만 명의 주제로 이러한 교육 데이터 세트를 구성하는 것은 높은 수동 레이블 지정 비용으로 엄청나게 어렵습니다.'

이 백서는 과거 또는 저비용 감시 시스템의 다양한 유형의 출력을 '일치'하려고 시도한 이전의 다양한 방법을 자세히 설명하지만 이러한 방법은 '맹목적인' 증강을 다루었다는 점에 유의하십시오. 대조적으로 CFSM은 훈련 중에 대상 시스템의 실제 출력으로부터 직접적인 피드백을 받고 해당 도메인을 모방하기 위해 스타일 전송을 통해 스스로 적응합니다.

컴퓨터 비전 커뮤니티를 지배하는 소수의 데이터 세트에 익숙한 여배우 Natalie Portman은 실제 대상 모델 도메인의 피드백을 기반으로 스타일 일치 도메인 적응을 수행하는 CFSM의 이 예에서 ID 중 하나를 특징으로 합니다.

저자가 설계한 아키텍처는 Fast Gradient Sign Method(FGSM) 대상 시스템의 실제 출력에서 얻은 스타일과 특성을 개별화하고 '가져오기' 합니다. 이미지 생성에 사용되는 파이프라인의 일부는 이후에 개선되고 훈련을 통해 대상 시스템에 더욱 충실해집니다. 대상 시스템의 저차원 스타일 공간으로부터의 이 피드백은 본질적으로 저수준이며 가장 광범위하게 파생된 시각적 설명자에 해당합니다.

저자는 다음과 같이 논평합니다.

'FR 모델의 피드백을 통해 합성된 이미지는 FR 성능에 더 유리하며, 이를 통해 훈련된 FR 모델의 일반화 기능이 크게 향상되었습니다.'

테스트

연구원들은 MSU 자체의 선행 연구 시스템을 테스트하기 위한 템플릿으로 사용합니다. 동일한 실험 프로토콜을 기반으로 웹 트롤링된 유명인 사진으로만 구성된 MS-Celeb-1m을 레이블이 지정된 교육 데이터 세트로 사용했습니다. 공정성을 위해 1개의 클래스를 특징으로 하는 2만 개의 이미지가 포함된 MS3.9M-V85,700도 포함했습니다.

대상 데이터는 WiderFace 데이터셋, 홍콩 중문 대학교 출신. 이것은 어려운 상황에서 얼굴 감지 작업을 위해 설계된 특히 다양한 이미지 세트입니다. 이 세트에서 70,000개의 이미지가 사용되었습니다.

평가를 위해 시스템은 XNUMX가지 얼굴 인식 벤치마크에 대해 테스트되었습니다. IJB-B, IJB-C, IJB-S및 타이니페이스.

CFSM은 10e-1의 (매우 낮은) 학습률에서 Adam 옵티마이저에서 0.4 배치 크기로 125,000회 반복하는 약 32만 개의 이미지인 MS-Celeb-1m의 훈련 데이터의 ~4%로 훈련되었습니다.

대상 안면인식 모델은 수정 교육 중에 ArcFace 손실 기능이 활성화된 백본용 ResNet-50의. 또한 절제 및 비교 연습으로 CFSM을 사용하여 모델을 훈련했습니다(아래 결과 표에서 'ArcFace'로 표시됨).

CFSM에 대한 기본 테스트의 결과. 숫자가 높을수록 좋습니다.

저자는 기본 결과에 대해 다음과 같이 언급합니다.

'ArcFace 모델은 얼굴 식별 및 확인 작업 모두에서 모든 기준선을 능가하고 새로운 SoTA 성능을 달성합니다.'

레거시 또는 사양이 낮은 감시 시스템의 다양한 특성에서 도메인을 추출하는 기능을 통해 작성자는 이러한 프레임워크 간의 분포 유사성을 비교 및 평가하고 후속 작업에서 활용할 수 있는 시각적 스타일 측면에서 각 시스템을 제시할 수 있습니다. .

다양한 데이터 세트의 예는 스타일에서 명확한 차이를 나타냅니다.

저자는 추가로 그들의 시스템이 지금까지 연구 및 비전 커뮤니티에서 해결해야 할 문제로만 여겨졌던 일부 기술을 가치 있게 사용할 수 있다고 언급합니다.

'[CFSM]은 적대적 조작이 공격자를 넘어 비전 작업에서 인식 정확도를 높이는 역할을 할 수 있음을 보여줍니다. 한편, 레이블 또는 예측 변수에 구애받지 않는 방식으로 스타일 차이를 캡처하는 학습된 스타일 기반을 기반으로 데이터 세트 유사성 메트릭을 정의합니다.

'우리는 우리의 연구가 제한되지 않은 FR을 위한 제어 가능한 안내 얼굴 합성 모델의 힘을 제시하고 데이터 세트 차이에 대한 이해를 제공한다고 믿습니다.'

* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.

1년 2022월 XNUMX일에 처음 게시되었습니다.

관련 주제 :이미지 합성 연구 감시

다음 위로

AI가 보안 카메라의 기능을 강화하고 있습니다

놓치지 마세요.

엔지니어, AI 철도 무단 침입 감지 도구 개발

마틴 앤더슨

머신러닝, 인공지능, 빅데이터 분야의 작가입니다.
개인 사이트: martinanderson.ai
연락처 : [이메일 보호]
트위터: @manders_ai

Unite.AI

'저하된' 합성 얼굴은 얼굴 이미지 인식을 개선하는 데 도움이 될 수 있습니다.

감시

'저하된' 합성 얼굴은 얼굴 이미지 인식을 개선하는 데 도움이 될 수 있습니다.

차례

주요 콘텐츠

더 많은 '다운-앳-힐' 유명인의 필요성

테스트

최근 게시물

Unite.AI

'저하된' 합성 얼굴은 얼굴 이미지 인식을 개선하는 데 도움이 될 수 있습니다.

차례

주요 콘텐츠

더 많은 '다운-앳-힐' 유명인의 필요성

테스트

너는 좋아할지도 모른다.

최근 게시물