Anderson’un Açısı

‘Bozuk’ Sentetik Yüzler Yüz Tanıma Sistemlerini Geliştirmeye Yardımcı Olabilir

Yayınlandı 1 Ağustos 2022

Güncellendi 23 Mayıs 2026

Yazan

Martin Anderson

Araştırmacılar, Michigan Eyalet Üniversitesi’nden, sentetik yüzlerin derin sahtecilik sahnesinden bir mola verip dünyaya iyi bir şey yapmak için bir yol buldular – yüz tanıma sistemlerinin daha doğru olmasını sağlayarak.

Onlar tarafından tasarlanan yeni kontrollü yüz sentez modülü (CFSM), gerçek dünya video gözetim footage tarzında yüzleri yeniden oluşturmak için yeteneklidir, popüler açık kaynaklı veri setlerinde kullanılan daha yüksek kaliteli görseller yerine.

Kontrollü Yüz Sentez Modülü (CFSM) için kavramsal mimari. Kaynak: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM, özellikle baş pozisyonlarını, ifadeleri veya diğer özelliklerini gerçek bir şekilde simüle etmek için tasarlanmamıştır, ancak hedef tanıma sistemine yönelik alternatif görüntüler oluşturmak için stil transferi kullanır.

Sistem, hedef sistemin stil alanını taklit etmek ve çıktısını o sistemin çözünürlüğü ve “eksantriklik” aralığına göre uyarlamak için tasarlanmıştır. Kullanım durumu, muhtemelen maliyet nedeniyle yükseltilmeyecek olan eski sistemleri içerir, ancak yeni yüz tanıma teknolojilerine katkıda bulunabilirler.

Sistem test edilirken, araştırmacılar, bu tür gürültülü ve düşük kaliteli veriyle uğraşan yüz tanıma sistemlerinde önemli kazanımlar elde edildiğini buldular.

Yüz tanıma modellerini hedef sistemlerin sınırlamalarına adapte etmek için eğitim. Kaynak: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Araştırmacılar, ayrıca, sürecin faydalı bir yan ürününü buldular – hedef veri setlerinin şimdi karakterize edilebileceğini ve birbirleriyle karşılaştırılabilmesini, çeşitli CCTV sistemleri için özel veri setleri oluşturmayı kolaylaştırdı.

Ek olarak, yöntem mevcut veri setlerine uygulanabilir, de facto alan uyarlama gerçekleştirir ve onları yüz tanıma sistemleri için daha uygun hale getirir.

Yeni makale, Kontrollü ve Rehberli Yüz Sentezi için Kısıtlamasız Yüz Tanıma başlığını taşır, kısmen US Office of the Director of National Intelligence (ODNI, IARPA tarafından desteklenmektedir ve MSU’daki dört araştırmacının eseridir.

Öne Çıkan İçerik

Düşük kaliteli yüz tanıma (LQFR), son birkaç yıldır önemli bir araştırma alanı haline gelmiştir. Çünkü belediye ve belediyeler, video gözetim sistemlerini dayanıklı ve uzun süreli olarak inşa etmek istedikleri için, birçok “miras” gözetim ağı, teknik borçlarının bir kurbanı haline gelmiştir.

Farklı tarihlerde ve daha yakın tarihli video gözetim sistemlerinde yüz çözünürlüğü seviyeleri. Kaynak: https://arxiv.org/pdf/1805.11519.pdf

Şanslıyız ki, bu, difüzyon modelleri ve diğer gürültü tabanlı modellerin çözmesi için özellikle uygun bir görevdir. Son yıllarda en popüler ve etkili görüntü sentez sistemlerinin çoğu, pipeline’ın bir parçası olarak düşük çözünürlüklü görüntülerin upscale edilmesini gerçekleştirir.

Yüz tanıma sorunlarının bir parçası, mümkün olan en az sayıda özellik ile en küçük ve en az vaat edilen düşük çözünürlüklü görüntülerden maksimum doğruluk elde etmektir. Bu kısıtlama, sadece düşük çözünürlüklü bir yüzü tanımlamak veya oluşturmak için faydalı olmasından değil, aynı zamanda modelin eğitildiği yerel GPU’da mevcut olan VRAM’ın boyutuna ilişkin teknik sınırlamalardan da kaynaklanmaktadır.

Bu sentido, “özellik” terimi yanıltıcıdır, çünkü bu özellikler bir park bankından da elde edilebilir. Bilgisayarlı görme sektöründe, “özellikler” ayırıcı özellikler anlamına gelir – herhangi bir görüntüden elde edilen özellikler, bir kilisenin hatları, bir dağ veya bir yüz veri setindeki yüz özelliklerinin dağılımı.

Yüz tanıma algoritmaları artık görüntüleri ve video kayıtlarını geliştirmek için çeşitli yöntemler önerilmiştir, böylece bunları yasal amaçlar için kullanmak mümkün olabilir.

Ayrıca, yanlış tanımlama olasılığı, bazen başlıkları topladı, teoride, bir kişiyi tanımlamak için düşük çözünürlüklü görüntüleri hiper-çözünürlüğe veya başka bir şekilde dönüştürmek gerekli değildir, çünkü yüz tanıma sistemi düşük seviyeli özelliklere odaklanmalıdır ve bu düzeyde çözünürlüğe ihtiyaç duymaz. Ayrıca, bu tür dönüşümler uygulamada pahalıdır ve tekrarlanan sorular ortaya çıkarır.

Daha Fazla ‘Perişan’ Ünlülere İhtiyaç Var

Bir yüz tanıma sisteminin, miras sistemlerin çıktısı olarak mevcut olan bozulmuş görüntülerden özellikler (yani, insan özelliklerinin makine öğrenimi özelliklerini) türetebilmesi daha faydalı olurdu.

Sorun, standartlar sorunudur: ortak web toplama veri setleri gibi MS-Celeb-1M ve WebFace260M (diğerleri arasında), araştırmacılar tarafından, araştırmacıların mevcut durumun state of the art’a karşı ilerlemesini ölçebilecekleri tutarlı benchmark’lar sundukları için benimsenmiştir.

Microsoft’un popüler MS-Celeb1m veri setinden örnekler. Kaynak: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Yazarlar, yüz tanıma (FR) algoritmalarının bu veri setlerinde eğitildiğini, ancak birçok eski gözetim sisteminin görsel “alanlarına” uygun malzemeler olmadığını savunuyorlar.

Makalede denir*:

‘[Durumun en iyisi] (SoTA) FR modelleri, gerçek dünya gözetim görüntülerinde (kısıtlamasız) iyi çalışmıyor, çünkü web tarayıcıları ile elde edilen büyük ölçekli eğitim veri setleri (yarı kısıtlı), vahşi varyasyonlar, içsel sensör gürültüsü, düşük çözünürlük, hareket bulanıklığı, türbülans etkisi vb. gibi varyasyonlardan yoksundur.

‘Örneğin, 1:1 doğrulama doğruluğu, bir SoTA model tarafından kısıtlamasız IJB-S veri setinde, yarı kısıtlı LFW‘ye göre yaklaşık %30 daha düşüktür.

‘Bu performans açığını kapatmak için olası bir çözüm, büyük ölçekli kısıtlamasız yüz veri setini oluşturmaktır. Ancak, böyle bir eğitim veri setini on binlerce konu ile yüksek manuel etiketleme maliyeti ile inşa etmek imkansızdır.’

Yazarlar, daha önce, tarihi veya düşük maliyetli gözetim sistemlerinin çıktılarını “uydurmak” için çeşitli yöntemlerin denendiğini, ancak bu yöntemlerin “kör” iyileştirmelerle uğraştığını belirtiyorlar. Buna karşılık, CFSM, eğitim sırasında hedef sistemden doğrudan geri bildirim alır ve stil transferi yoluyla o alanın taklit edilmesini sağlar.

Hedef modelin alanından geri bildirim dựaılı stile uyumlu alan adaptasyonu gerçekleştiren CFSM’de yer alan kimliklerin örnekleri.

Yazarlar tarafından tasarlanan mimari, Fast Gradient Sign Method (FGSM) kullanarak hedef sistemden elde edilen stilleri ve özellikleri bireyselleştirmek ve “ithal etmek” için kullanılır. Görüntü oluşturma bölümü, eğitimle birlikte hedef sistemine daha da sadık hale gelir. Hedef sisteminden alınan geri bildirim, düşük boyutlu stil uzayından gelir ve en geniş türetilen görsel açıklamalara karşılık gelir.

Yazarlar yorumluyor:

‘Yüz tanıma modelinden alınan geri bildirimle, sentezlenen görüntüler, yüz tanıma performansına daha faydalı olur ve önemli ölçüde geliştirilmiş genellemeye yol açar.’

Testler

Araştırmacılar, MSU’nun önceki çalışmasını, sistemlerini test etmek için bir şablon olarak kullandılar. Aynı deneysel protokollere dayanarak, yalnızca web taraması yapılan ünlü fotoğraflarından oluşan etiketli eğitim veri seti olarak MS-Celeb-1m’i kullandılar. Adalet için, 3.9 milyon görüntüye sahip 85.700 sınıfı içeren MS1M-V2’yi de dahil ettiler.

Hedef veri, Çin Hong Kong Üniversitesi’nden WiderFace veri setiydi. Bu, zorlu durumlar için yüz tespit görevleri için tasarlanmış özellikle çeşitli bir görüntü kümesidir. Bu kümeden 70.000 görüntü kullanıldı.

Değerlendirme için, sistem, dört yüz tanıma benchmark’ına karşı test edildi: IJB-B, IJB-C, IJB-S ve TinyFace.

CFSM, yaklaşık 0,4 milyon görüntüden oluşan MS-Celeb-1m’in %10’undan oluşan eğitim verisi ile 32 parti boyutunda 125.000 iterasyon için Adam optimizatörü ile çok düşük 1e-4 öğrenme hızında eğitildi.

Kullanılan hedef yüz tanıma modeli, bir modifikasyon ResNet-50 için omurga olarak kullanmıştır ve eğitim sırasında ArcFace kaybı fonksiyonu etkinleştirilmiştir. Ek olarak, bir model CFSM ile bir ablasyon ve karşılaştırmalı egzersiz olarak eğitildi (sonuç tablosunda “ArcFace” olarak işaretlendi).

CFSM için birincil test sonuçları. Daha yüksek numaralar daha iyidir.

Yazarlar, birincil sonuçlar hakkında yorumluyor:

‘ArcFace modeli, hem yüz kimlik doğrulama hem de doğrulama görevlerinde tüm benchmark’ları geride bırakıyor ve yeni bir durumun en iyisi (SoTA) performansını gerçekleştiriyor.’

Hedef sistemlerin çeşitli özelliklerinden alanları çıkarma yeteneği, yazarlara bu çerçevelerin dağılım benzerliğini değerlendirmeyi ve her sistemi bir görsel stil olarak sunmayı da sağlar.

Farklı veri setlerinden örnekler, açık stil farklılıkları sergiliyor.

Yazarlar ayrıca, sistemlerinin, şimdiye kadar yalnızca sorun olarak görülen bazı teknolojilerden yararlanabileceğini belirtiyorlar:

‘[CFSM], saldırgan manipülasyonun, yalnızca bir saldırgan olarak değil, aynı zamanda görme görevlerinde tanıma doğruluğunu artırmak için hizmet edebileceğini gösteriyor. Ayrıca, öğrenilen stil tabanlarına dayalı bir veri seti benzerlik ölçütü tanımlıyoruz, bu da etiket veya predictor bağımsız bir şekilde stil farklılıklarını yakalar.’

‘İnanıyoruz ki, araştırmamız, kısıtlamasız yüz tanıma için kontrollü ve rehberli yüz sentez modelinin gücünü sundu ve veri seti farklılıklarına ilişkin bir anlayış sağladı.’

* Yazarların satır içi alıntılarını hyperlink’e dönüştürmem.

İlk olarak 1 Ağustos 2022’de yayınlandı.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

‘Bozuk’ Sentetik Yüzler Yüz Tanıma Sistemlerini Geliştirmeye Yardımcı Olabilir

Öne Çıkan İçerik

Daha Fazla ‘Perişan’ Ünlülere İhtiyaç Var

Testler

You may like