Andersons Blickwinkel

“Degradierte” synthetische Gesichter könnten die Gesichtserkennung verbessern

mm

Forscher der Michigan State University haben eine Methode entwickelt, um synthetische Gesichter für die Gesichtserkennung zu nutzen, anstatt sie nur für Deepfakes zu verwenden.

Das neue modulare Gesichtssynthesemodul (CFSM) kann Gesichter im Stil von Überwachungsvideos regenerieren, anstatt auf höherwertigen Bildern aus offenen Quellcode-Datensätzen von Celebritäten zu vertrauen, die nicht alle Fehler und Schwächen von echten Überwachungssystemen widerspiegeln, wie z.B. Gesichtsunscharfe, niedrige Auflösung und Sensorrauschen – Faktoren, die die Erkennungsgenauigkeit beeinflussen können.

Konzeptionelle Architektur für das Controllable Face Synthesis Module (CFSM). Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Konzeptionelle Architektur für das Controllable Face Synthesis Module (CFSM). Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM soll nicht speziell authentische Kopfhaltungen, Ausdrücke oder andere übliche Merkmale simulieren, die das Ziel von Deepfake-Systemen sind, sondern eine Reihe von alternativen Ansichten im Stil des Ziel-Erkennungssystems erzeugen, unter Verwendung von Stilübertragung.

Das System ist designed, um den Stilbereich des Ziel-Systems zu imitieren und seine Ausgabe entsprechend der Auflösung und des Bereichs von “Eccentricities” anzupassen. Der Anwendungsfall umfasst Legacy-Systeme, die aufgrund der Kosten nicht aktualisiert werden, aber derzeit wenig zur neuen Generation von Gesichtserkennungstechnologien beitragen, aufgrund der schlechten Qualität der Ausgabe, die einst führend war.

Bei der Testung des Systems fanden die Forscher heraus, dass es bemerkenswerte Fortschritte im Bereich der Bilderkennungssysteme erzielte, die mit dieser Art von verrauschten und niedrigwertigen Daten umgehen müssen.

Trainieren der Gesichtserkennungsmodelle, um sich an die Einschränkungen der Ziel-Systeme anzupassen. Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Trainieren der Gesichtserkennungsmodelle, um sich an die Einschränkungen der Ziel-Systeme anzupassen. Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Sie fanden auch einen nützlichen Nebeneffekt des Prozesses – dass die Ziel-Datensätze jetzt charakterisiert und miteinander verglichen werden können, was das Vergleichen, Benchmarken und Erstellen von maßgeschneiderten Datensätzen für verschiedene Überwachungssysteme in der Zukunft erleichtert.

Weiterhin kann die Methode auf bestehende Datensätze angewendet werden, um de facto Domänenanpassung durchzuführen und sie für Gesichtserkennungssysteme geeigneter zu machen.

Die neue Studie trägt den Titel Controllable and Guided Face Synthesis for Unconstrained Face Recognition, wird teilweise von der US-Regierung unterstützt und stammt von vier Forschern der Abteilung für Informatik und Ingenieurwesen der MSU.

Featured Content

Die Erkennung von Gesichtern in niedriger Qualität (LQFR) ist in den letzten Jahren zu einem bedeutenden Forschungsgebiet geworden. Da staatliche und kommunale Behörden Überwachungssysteme so konzipiert haben, dass sie widerstandsfähig und langfristig sind (ohne regelmäßig Ressourcen für das Problem zu bereitstellen), sind viele “Legacy”-Überwachungsnetzwerke Opfer von technischer Schulden geworden, was ihre Anpassungsfähigkeit als Datenquellen für maschinelles Lernen betrifft.

Unterschiedliche Auflösungen von Gesichtern über verschiedene historische und neuere Überwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdf

Unterschiedliche Auflösungen von Gesichtern über verschiedene historische und neuere Überwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdf

Glücklicherweise ist dies eine Aufgabe, die Diffusionsmodelle und andere rauschbasierte Modelle ungewöhnlich gut lösen können. Viele der beliebtesten und effektivsten Bildsynthesesysteme der letzten Jahre führen Auflösungserhöhung von Bildern mit niedriger Auflösung als Teil ihrer Pipeline durch, während dies auch absolut notwendig für neurale Komprimierungstechniken ist (Methoden, um Bilder und Filme als neurale Daten anstelle von Bitmap-Daten zu speichern).

Teil der Herausforderung der Gesichtserkennung ist es, die maximale mögliche Genauigkeit aus der minimal möglichen Anzahl von Merkmalen zu erzielen, die aus den kleinsten und wenigsten vielversprechenden Bildern mit niedriger Auflösung extrahiert werden können. Diese Einschränkung besteht nicht nur darin, dass es nützlich ist, ein Gesicht bei niedriger Auflösung identifizieren oder erstellen zu können, sondern auch aufgrund technischer Einschränkungen der Größe von Bildern, die durch den latenten Raum eines Modells passieren können, das auf einem lokalen GPU trainiert wird.

In diesem Sinne ist der Begriff “Merkmale” verwirrend, da solche Merkmale auch aus einem Datensatz von Parkbänken extrahiert werden können. Im Bereich der Computer-Vision bezieht sich “Merkmale” auf die unterscheidbaren Merkmale, die aus Bildern extrahiert werden – beliebige Bilder, sei es die Linienführung einer Kirche, ein Berg oder die Anordnung von Gesichts-Merkmalen in einem Gesichtsdatensatz.

Da Computer-Vision-Algorithmen jetzt in der Lage sind, Bilder und Videosequenzen aufzulösen, wurden verschiedene Methoden vorgeschlagen, um Bildmaterial mit niedriger Auflösung oder anderen Degradationen zu “verbessern”, um es möglicherweise für rechtliche Zwecke wie die Platzierung einer bestimmten Person an einem Tatort im Rahmen einer Ermittlung zu verwenden.

Abgesehen von der Möglichkeit der Falschidentifizierung, die gelegentlich Schlagzeilen gemacht hat, sollte es im Prinzip nicht notwendig sein, Bildmaterial mit niedriger Auflösung aufzulösen oder umzuwandeln, um eine positive Identifizierung einer Person vorzunehmen, da ein Gesichtserkennungssystem, das auf niedrigstufige Merkmale abzielt, nicht diese Auflösung und Klarheit benötigen sollte. Weiterhin sind solche Umwandlungen im Praxisbetrieb teuer und werfen zusätzliche, wiederkehrende Fragen über ihre mögliche Gültigkeit und Rechtmäßigkeit auf.

Die Notwendigkeit von mehr “heruntergekommenen” Celebritäten

Es wäre nützlicher, wenn ein Gesichtserkennungssystem Merkmale (d.h. maschinelle Lernmerkmale von menschlichen Merkmalen) aus der Ausgabe von Legacy-Systemen wie sie sind extrahieren könnte, indem es die Beziehung zwischen “hochauflösender” Identität und den degradierten Bildern, die in unbeugsamen (und oft unersetzlichen) bestehenden Überwachungsframeworks verfügbar sind, besser versteht.

Das Problem hier ist eines der Standards: Gemeinsame Web-gesammelte Datensätze wie MS-Celeb-1M und WebFace260M (unter anderen) wurden von der Forschungsgemeinschaft übernommen, da sie konsistente Benchmarks bieten, gegen die Forscher ihre Fortschritte messen können.

Beispiele aus Microsofts beliebtem MS-Celeb1m-Datensatz. Quelle: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Beispiele aus Microsofts beliebtem MS-Celeb1m-Datensatz. Quelle: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Die Autoren argumentieren jedoch, dass Gesichtserkennungsalgorithmen (FR), die auf diesen Datensätzen trainiert werden, nicht geeignet sind für die visuellen “Domänen” der Ausgabe von vielen älteren Überwachungssystemen.

Die Studie besagt*:

‘[State-of-the-art] (SoTA) FR-Modelle funktionieren nicht gut auf realen Überwachungsbildern (unconstrained) aufgrund des Domänenverschiebungsproblems, d.h. die großen Trainingsdatensätze (semi-constrained), die über Web-Crawling von Celebritäts-Gesichtern gewonnen werden, fehlen in-the-wild-Variationen, wie inhärenter Sensorrauschen, niedriger Auflösung, Bewegungsunschärfe, Turbulenzeffekt usw.

‘Zum Beispiel ist die 1:1-Verifizierungsrate, die von einem der SoTA-Modelle auf unconstrained IJB-S-Datensatz, etwa 30% niedriger als auf semi-constrained LFW.

‘Ein möglicher Ausweg aus dieser Leistungslücke ist es, einen großen, unkonstruierten Gesichtsdatensatz zu erstellen. Es ist jedoch prohibitiv schwierig, einen solchen Trainingsdatensatz mit Zehntausenden von Subjekten zu erstellen, da die manuelle Beschriftung sehr teuer ist.’

Die Studie erinnert an verschiedene vorherige Methoden, die versucht haben, die verschiedenen Arten von Ausgaben von historischen oder kostengünstigen Überwachungssystemen zu “matchen”, aber beachten, dass diese “blinde” Augmentierungen durchgeführt haben. Im Gegensatz dazu erhält CFSM direktes Feedback von der realen Ausgabe des Ziel-Systems während des Trainings und passt sich über Stilübertragung an, um diesen Bereich zu imitieren.

Die Schauspielerin Natalie Portman, die nicht unbekannt in der Handvoll von Datensätzen ist, die die Computer-Vision-Gemeinschaft dominieren, ist in diesem Beispiel von CFSM zu sehen, das eine stilübereinstimmende Domänenanpassung auf der Grundlage des Feedbacks von der Domäne des tatsächlichen Ziel-Modells durchführt.

Die Schauspielerin Natalie Portman, die nicht unbekannt in der Handvoll von Datensätzen ist, die die Computer-Vision-Gemeinschaft dominieren, ist in diesem Beispiel von CFSM zu sehen, das eine stilübereinstimmende Domänenanpassung auf der Grundlage des Feedbacks von der Domäne des tatsächlichen Ziel-Modells durchführt.

Die von den Autoren entworfene Architektur nutzt die Fast Gradient Sign Method (FGSM) zur Individualisierung und “Import” der erhaltenen Stile und Merkmale aus der tatsächlichen Ausgabe des Ziel-Systems. Der Teil der Pipeline, der der Bildgenerierung gewidmet ist, wird anschließend verbessert und wird mit dem Training treuer zum Ziel-System.

Die Autoren kommentieren:

‘Mit dem Feedback vom FR-Modell sind die synthetisierten Bilder nützlicher für die FR-Leistung, was zu einer signifikant verbesserten Generalisierungsfähigkeit der FR-Modelle führt, die mit ihnen trainiert werden.’

Tests

Die Forscher verwendeten MSUs eigene vorherige Arbeit als Vorlage für die Testung ihres Systems. Basierend auf den gleichen experimentellen Protokollen verwendeten sie MS-Celeb-1m, das ausschließlich aus Web-gesammelten Celebritätsfotografien besteht, als beschriftetes Trainingsdatensatz. Um Fairness zu gewährleisten, fügten sie auch MS1M-V2 hinzu, das 3,9 Millionen Bilder mit 85.700 Klassen enthält.

Die Ziel-Daten waren der WiderFace-Datensatz der chinesischen Universität von Hongkong. Dies ist ein besonders vielfältiger Satz von Bildern, der für Gesichtserkennungsaufgaben in herausfordernden Situationen konzipiert ist. 70.000 Bilder aus diesem Satz wurden verwendet.

Bei der Bewertung wurde das System gegen vier Gesichtserkennungsbenchmarks getestet: IJB-B, IJB-C, IJB-S und TinyFace.

CFSM wurde mit etwa 10% der Trainingsdaten von MS-Celeb-1m trainiert, etwa 0,4 Millionen Bilder, für 125.000 Iterationen bei einer Batch-Größe von 32 unter dem Adam-Optimizer bei einer sehr niedrigen Lernrate von 1e-4.

Das Ziel-Gesichtserkennungsmodell verwendete eine Modifizierung von ResNet-50 als Backbone, mit der ArcFace-Verlustfunktion aktiviert während des Trainings. Zusätzlich wurde ein Modell mit CFSM als Ablation und Vergleichsübung trainiert (als “ArcFace” in der Ergebnistabelle unten bezeichnet).

Ergebnisse der primären Tests für CFSM. Höhere Zahlen sind besser.

Ergebnisse der primären Tests für CFSM. Höhere Zahlen sind besser.

Die Autoren kommentieren die primären Ergebnisse:

‘Das ArcFace-Modell übertrifft alle Basismodelle in beiden Gesichtsidentifizierungs- und Verifizierungsaufgaben und erreicht eine neue Spitzenleistung.’

Die Fähigkeit, Domänen aus den verschiedenen Merkmalen von Legacy- oder unterausgestatteten Überwachungssystemen zu extrahieren, ermöglicht es den Autoren auch, die Verteilungsähnlichkeit zwischen diesen Frameworks zu vergleichen und zu bewerten und jedes System in Bezug auf einen visuellen Stil darzustellen, der in zukünftigen Arbeiten genutzt werden könnte.

Beispiele aus verschiedenen Datensätzen zeigen deutliche Unterschiede im Stil.

Beispiele aus verschiedenen Datensätzen zeigen deutliche Unterschiede im Stil.

Die Autoren bemerken zusätzlich, dass ihr System einige Technologien nutzen könnte, die bisher nur als Probleme für die Forschungs- und Vision-Gemeinschaft angesehen wurden:

‘[CFSM] zeigt, dass feindliche Manipulation über das bloße Angreifen hinausgehen und die Erkennungsgenauigkeit in Bilderkennungsaufgaben erhöhen kann. Gleichzeitig definieren wir einen Datensatz-Ähnlichkeitsmaßstab auf der Grundlage der gelernten Stilbasen, der die Stilunterschiede in einer label- oder predictor-agnostischen Weise erfasst.’

‘Wir glauben, dass unsere Forschung die Macht eines kontrollierbaren und geführten Gesichtssynthesemodells für unbeschränkte Gesichtserkennung gezeigt hat und ein Verständnis für Datensatzunterschiede bietet.’

 

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am 1. August 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.