Kunstmatige intelligentie
Dieptegeneeskundige informatie kan deepfakes in real-time ontmaskeren

Nieuw onderzoek uit Italië heeft ontdekt dat dieptegeneeskundige informatie die uit afbeeldingen wordt verkregen, een nuttig hulpmiddel kan zijn om deepfakes te detecteren – zelfs in real-time.
Terwijl de meerderheid van het onderzoek naar deepfake-detectie in de afgelopen vijf jaar zich heeft gericht op artifact-identificatie (die kan worden geminimaliseerd door verbeterde technieken, of verward kan worden met slechte video-codec-compressie), omgevingsverlichting, biometrische kenmerken, temporele verstoring, en zelfs menselijke intuïtie, is de nieuwe studie de eerste die suggereert dat dieptegeneeskundige informatie een waardevolle sleutel kan zijn voor deepfake-inhoud.

Voorbeelden van afgeleide dieptekaarten, en het verschil in perceptuele dieptegeneeskundige informatie tussen echte en valse afbeeldingen. Bron: https://arxiv.org/pdf/2208.11074.pdf
Kritisch is dat detectieframeworks die zijn ontwikkeld voor de nieuwe studie zeer goed werken op een lichtgewicht netwerk zoals Xception, en acceptabel goed op MobileNet, en het nieuwe artikel erkent dat de lage latentie van inferentie die wordt aangeboden door dergelijke netwerken, real-time deepfake-detectie mogelijk kan maken tegen de nieuwe trend van live deepfake-fraude, zoals geïllustreerd door de recente aanval op Binance.
Grotere economie in inferentietijd kan worden bereikt omdat het systeem geen volledige kleurenafbeeldingen nodig heeft om het verschil tussen valse en echte dieptekaarten te bepalen, maar kan werken met alleen grijswaardenafbeeldingen van de dieptegeneeskundige informatie.
De auteurs verklaren: ‘Dit resultaat suggereert dat diepte in dit geval een meer relevante bijdrage levert aan classificatie dan kleurartefacten.’
De bevindingen vormen onderdeel van een nieuwe golf van deepfake-detectieonderzoek gericht tegen real-time faciale synthese-systemen zoals DeepFaceLive – een locus van inspanning die de afgelopen 3-4 maanden aanzienlijk is toegenomen, in de nasleep van de waarschuwing van de FBI in maart over het risico van real-time video- en audio-deepfakes.
Het artikel heet DepthFake: een dieptegebaseerde strategie voor het detecteren van Deepfake-video’s, en komt van vijf onderzoekers aan de Sapienza Universiteit van Rome.
Randgevallen
Tijdens de training geven auto-encoder-gebaseerde deepfake-modellen prioriteit aan de innerlijke gebieden van het gezicht, zoals ogen, neus en mond. In de meeste gevallen, over open source-distributies zoals DeepFaceLab en FaceSwap (beide geforkt van de originele 2017 Reddit-code vóór verwijdering), worden de buitenste trekken van het gezicht niet goed gedefinieerd totdat een zeer late fase in de training, en zijn onwaarschijnlijk om de kwaliteit van synthese in het innerlijke gezichtsgebied te evenaren.

Uit een eerdere studie zien we een visualisatie van ‘saliency-kaarten’ van het gezicht. Bron: https://arxiv.org/pdf/2203.01318.pdf
Normaal gesproken is dit niet belangrijk, omdat onze neiging om eerst op de ogen te focussen en prioriteit te geven, ‘naar buiten’ op afnemende niveaus van aandacht betekent dat we onwaarschijnlijk worden verstoord door deze dalingen in perifere kwaliteit – vooral als we het hebben over live met de persoon die een andere identiteit nabootst, wat sociale conventies en verwerkingsbeperkingen activeert die niet aanwezig zijn wanneer we ‘gerenderde’ deepfake-beelden evalueren.
Echter, het gebrek aan detail of nauwkeurigheid in de getroffen randgebieden van een deepfaked gezicht kan algoritme worden gedetecteerd. In maart werd een systeem dat is gericht op het perifere gezichtsgebied aangekondigd. Echter, omdat het een bovengemiddelde hoeveelheid trainingsgegevens vereist, is het alleen bedoeld voor beroemdheden die waarschijnlijk voorkomen in populaire faciale datasets (zoals ImageNet) die een bewezen trackrecord hebben in huidige computerzicht- en deepfake-detectietechnieken.
In plaats daarvan kan het nieuwe systeem, getiteld DepthFake, generisch werken, zelfs op obscure of onbekende identiteiten, door de kwaliteit van geschatte dieptekaartinformatie in echte en valse video-inhoud te onderscheiden.
Diep gaan
Dieptekaartinformatie wordt steeds vaker ingebakken in smartphones, inclusief AI-geassisteerde stereo-implementaties die vooral nuttig zijn voor computerzichtstudies. In de nieuwe studie hebben de auteurs het FaceDepth-model van de National University of Ireland gebruikt, een convolutioneel encoder/decoder-netwerk dat efficiënt dieptekaarten kan schatten uit enkele bronafbeeldingen.
Vervolgens extracteert de pijplijn voor het nieuwe kader van de Italiaanse onderzoekers een 224×224 pixel-patch van het onderwerp uit zowel de originele RGB-afbeelding als de afgeleide dieptekaart. Kritisch is dat dit proces de belangrijkste inhoud kan kopiëren zonder deze te herschalen; dit is belangrijk, omdat grootte-standaard herschaling algoritmes de kwaliteit van de gerichte gebieden nadelig zullen beïnvloeden.
Met behulp van deze informatie, van zowel echte als deepfaked bronnen, hebben de onderzoekers vervolgens een convolutioneel neuronaal netwerk (CNN) getraind dat in staat is om echte van valse instanties te onderscheiden, op basis van de verschillen tussen de perceptuele kwaliteit van de respectieve dieptekaarten.
Het FaceDepth-model is getraind op realistische en synthetische gegevens met een hybride functie die meer detail biedt aan de buitenste randen van het gezicht, waardoor het goed geschikt is voor DepthFake. Het gebruikt een MobileNet-exemplaar als functie-extractor en werd getraind met 480×640 invoerbeelden die 240×320 dieptekaarten produceren. Elke dieptekaart vertegenwoordigt een kwart van de vier invoerkanalen die worden gebruikt in het nieuwe project van de discriminator.
De dieptekaart wordt automatisch ingebed in de originele RGB-afbeelding om het type RGBD-afbeelding te bieden, vol met dieptegeneeskundige informatie, dat moderne smartphone-camera’s kunnen uitvoeren.
Training
Het model is getraind op een Xception-netwerk dat al is voorgeprogrammeerd op ImageNet, hoewel de architectuur enige aanpassing nodig had om de extra dieptegeneeskundige informatie te accommoderen terwijl de correcte initialisatie van gewichten werd behouden.
Bovendien was een mismatch in waardebereiken tussen de dieptegeneeskundige informatie en wat het netwerk verwacht noodzakelijk, zodat de onderzoekers de waarden hebben genormaliseerd tot 0-255.
Tijdens de training werd alleen flipping en rotatie toegepast. In veel gevallen zouden verschillende andere visuele perturbaties aan het model worden gepresenteerd om robuuste inferentie te ontwikkelen, maar de noodzaak om de beperkte en zeer kwetsbare randdieptekaartinformatie in de bronfoto’s te behouden, dwong de onderzoekers om een vereenvoudigd regime aan te nemen.
Het systeem werd ook getraind op eenvoudige 2-kanaals grijswaarden, om te bepalen hoe complex de bronafbeeldingen moesten zijn om een werkbaar algoritme te verkrijgen.
De training vond plaats via de TensorFlow API op een NVIDIA GTX 1080 met 8GB VRAM, met de ADAMAX-optimizer, voor 25 epochs, bij een batchgrootte van 32. De invoeresolutie was vastgesteld op 224×224 tijdens het bijsnijden, en gezichtsdetectie en -extractie werden uitgevoerd met de dlib C++-bibliotheek.
Resultaten
De nauwkeurigheid van de resultaten werd getest tegen Deepfake, Face2Face, FaceSwap, Neural Texture, en de volledige dataset met RGB- en RGBD-invoer, met het FaceForensic++-kader.

Resultaten op nauwkeurigheid over vier deepfake-methoden, en tegen de hele ongesplitte dataset. De resultaten zijn gesplitst tussen analyse van bron-RGB-afbeeldingen, en dezelfde afbeeldingen met een ingebedde geschatte dieptekaart. De beste resultaten zijn in het vet gedrukt, met percentagecijfers eronder die de mate aangeven waarin de dieptekaartinformatie het resultaat verbetert.
In alle gevallen verbetert de dieptekanaal de prestaties van het model over alle configuraties. Xception behaalt de beste resultaten, met de behendige MobileNet net achter. Hierover merken de auteurs op:
‘[Het] is interessant om op te merken dat de MobileNet enigszins inferieur is aan de Xception en de diepere ResNet50 overtreft. Dit is een opmerkelijk resultaat wanneer men de doelstelling van het reduceren van inferentietijden voor real-time toepassingen in overweging neemt. Hoewel dit niet de hoofdbijdrage van dit werk is, beschouwen we het nog steeds als een bemoedigend resultaat voor toekomstige ontwikkelingen.’
De onderzoekers merken ook een consistente voorsprong van RGBD- en 2-kanaals grijswaardeninvoer op RGB- en rechte grijswaardeninvoer, waarbij wordt opgemerkt dat de grijswaardenconversies van diepteaanname, die computationeel zeer goedkoop zijn, het model in staat stellen om verbeterde resultaten te behalen met zeer beperkte lokale middelen, waardoor de toekomstige ontwikkeling van real-time deepfake-detectie op basis van dieptegeneeskundige informatie wordt gefaciliteerd.
Eerst gepubliceerd op 24 augustus 2022.












