stomp Deepfake-opsporing gebaseer op oorspronklike menslike biometriese eienskappe - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Deepfake-opsporing gebaseer op oorspronklike menslike biometriese eienskappe

mm
Opgedateer on
Beelde vervaardig deur deepfakers by die DeepFaceLab Discord Channel
Beelde vervaardig deur deepfakers by die DeepFaceLab Discord Channel

'n Nuwe referaat van navorsers in Italië en Duitsland stel 'n metode voor om vervalste video's op te spoor wat gebaseer is op biometriese gesig- en stemgedrag, eerder as artefakte wat geskep is deur gesigsintesestelsels, duur watermerkoplossings of ander meer onhandelbare benaderings.

Die raamwerk vereis 'n insette van 10 of meer uiteenlopende, nie-vals video's van die onderwerp. Dit hoef egter nie spesifiek opgelei, heropgelei of aangevul te word op per-geval-video's nie, aangesien die geïnkorporeerde model reeds die waarskynlike vektorafstande tussen regte en vals video's op 'n wyd toepaslike wyse onttrek het.

Kontrastiewe leer onderlê die benadering van POI-Forensics. Vektore wat op 'n per-geval basis van bronmateriaal afgelei is, word vergelyk met dieselfde vektore in 'n potensiële vals video, met fasette en eienskappe wat uit beide video- en oudiokomponente van die potensieel vervalste beeldmateriaal getrek word. Bron: https://arxiv.org/pdf/2204.03083.pdf

Kontrastiewe leer onderlê die benadering van POI-Forensics. Vektore wat op 'n per-geval basis van bronmateriaal afgelei is, word vergelyk met dieselfde vektore in 'n potensiële vals video, met fasette en eienskappe wat uit beide video- en oudiokomponente van die potensieel vervalste beeldmateriaal getrek word. Bron: https://arxiv.org/pdf/2204.03083.pdf

Getiteld POI-Forensiese, die benadering maak staat op beweging en oudio-aanwysings wat uniek is aan die werklike individu wat diepvervals word.

Alhoewel so 'n stelsel heeltemal outomatiese, 'vooraf-weergegee' stawingsraamwerke vir bekendes, politici, YouTube-beïnvloeders en ander mense vir wie 'n groot hoeveelheid videomateriaal geredelik beskikbaar is kan toelaat, kan dit ook aangepas word in 'n raamwerk waar gewone slagoffers van diepvervalste tegnologieë kan moontlik 'n platform hê om die onegtheid van aanvalle teen hulle te bewys.

Visualisasies van onttrekte kenmerke van egte en vervalste video's oor vier vakke in POI-Forensics, via die t-SNE-raamwerk.

Visualisasies van onttrekte kenmerke van egte en vervalste video's oor vier onderwerpe in POI-Forensics, via die t-SNE-raamwerk.

Die skrywers beweer dat POI-Forensics 'n nuwe stand van die kuns in dieepfake opsporing bereik. Oor 'n verskeidenheid algemene datastelle in hierdie veld, word gerapporteer dat die raamwerk 'n verbetering in AUC-tellings van 3%, 10% en 7% behaal vir onderskeidelik hoë kwaliteit, lae gehalte en 'aangevalle' video's. Die navorsers belowe om vry te stel die kode kort.

POI-Forensics se prestasie teen mededingende SOTA-raamwerke pDFDC, DeepFakeTIMIT, FakeAVCelebV2 en KoDF. Opleiding in elke geval is uitgevoer op FaceForensics++, ID-Reveal en die outeurs se metode op VoxCeleb2. Resultate sluit video's van hoë en lae gehalte in.

POI-Forensics se prestasie teen mededingende SOTA-raamwerke pDFDC, DeepFakeTIMIT, FakeAVCelebV2, en KoDF. Opleiding in elke geval is uitgevoer op FaceForensics ++ en die skrywers se eie ID-onthul op VoxCeleb2. Resultate sluit video's van hoë en lae gehalte in.

Die skrywers sê:

'Opleiding word uitsluitlik op regte praatgesigvideo's uitgevoer, dus is die detektor nie afhanklik van enige spesifieke manipulasiemetode nie en lewer die hoogste veralgemeningsvermoë. Daarbenewens kan ons metode beide enkelmodaliteit (oudio-slegs, slegs video) en multi-modaliteit (klank-video) aanvalle opspoor, en is sterk teen lae kwaliteit of korrupte video's deur slegs op hoëvlak semantiese kenmerke te bou .'

Die nuwe papier, wat elemente van sommige van die skrywers se visie-gebaseerde insluit ID-onthul projek van 2021, is getitel Oudio-visuele persoon-van-belang DeepFake Detection, en is 'n gesamentlike poging tussen die Universiteit van Federico II in Napels en die Tegniese Universiteit van München.

Die Deepfake Arms Race

Om 'n opsporingstelsel van hierdie aard te verslaan, sal diepvals en menslike sintesestelsels die vermoë vereis om ten minste visuele en oudio-biometriese leidrade vanaf die beoogde teiken van die sintese te simuleer - tegnologie wat baie jare weg is en waarskynlik in die bestek van duur en eie geslote stelsels wat deur VFX-maatskappye ontwikkel is, wat die voordeel sal hê van die samewerking en deelname van die beoogde teikens (of hul boedels, in die geval van simulasie van afgestorwe mense).

Die skrywers se vorige benadering, ID-Reveal, het geheel en al op visuele inligting gekonsentreer. Bron: https://arxiv.org/pdf/2012.02512.pdf

Die skrywers se vorige benadering, ID-Reveal, het geheel en al op visuele inligting gekonsentreer. Bron: https://arxiv.org/pdf/2012.02512.pdf

Suksesvolle en gewilde deepfake metodes soos gesig ruil en DeepFaceLab/Leef het tans geen kapasiteit om sulke korrelige biometriese benaderings te skep nie, en vertrou op sy beste op talent nabootsers aan wie die vervalste identiteit afgedwing word, en baie meer algemeen op gepaste in-die-wilde beeldmateriaal van 'soortgelyke' mense. Die struktuur van die kern 2017-kode, wat min modulariteit het en wat die stroomopbron vir DFL en FaceSwap bly, maak ook nie die byvoeging van hierdie soort funksionaliteit haalbaar nie.

Hierdie twee dominante deepfake-pakkette is gebaseer op outo-enkodeerders. Alternatiewe menslike sintesemetodes kan 'n Generative Adversarial Network (GAN) of Neural Radiance Field (NeRF) benadering tot die herskepping van menslike identiteit; maar albei hierdie navorsingslyne het jare se werk wat voorlê, selfs om ten volle fotorealistiese menslike video te produseer.

Met die uitsondering van oudio (vervalste stemme), is biometriese simulasie baie ver onder die lys van uitdagings wat menslike beeldsintese in die gesig staar. In elk geval, die weergee van die timbre en ander kwaliteite van die menslike stem weergee nie sy eksentrisiteite en 'vertel', of die manier waarop die werklike subjek semantiese konstruksie gebruik nie. Daarom los selfs die perfeksie van AI-gegenereerde stemsimulasie nie die potensiële firewall van biometriese egtheid op nie.

By Arxiv alleen is verskeie diepvalse opsporingstrategieë en innovasies elke week vrygestel word. Onlangse benaderings het gehang Stem-Gesig Homogeniteit, Plaaslike Binêre Patroon Histogram (FF-LBPH), menslike persepsie van oudio-deepfakes, gesigsgrense te ontleed, verantwoording vir video-agteruitgang, en 'Forensiese ballistiek' – onder vele ander.

istogram-analise is een van die nuutste tegnieke wat aangebied word om dieepfake-opsporing te verbeter. Bron: https://arxiv.org/pdf/2203.09928.pdf

Gesegmenteerde histogramanalise is een van die nuutste tegnieke wat aangebied word om dieepfake-opsporing te verbeter. Bron: https://arxiv.org/pdf/2203.09928.pdf

Benadering, data en argitektuur

POI-Forensics neem 'n multi-modale benadering tot identiteitsverifikasie, en gebruik sagte biometrie gebaseer op visuele en oudio-aanwysings. Die raamwerk beskik oor aparte oudio- en videonetwerke, wat uiteindelik kenmerkende vektordata aflei wat vergelyk kan word met dieselfde onttrekte kenmerke in 'n potensiële diepvals video wat bestudeer word.

Die argitektuur van POI-Forensics.

Die konseptuele argitektuur van POI-Forensics.

Beide afsonderlike (klank of video) en samesmeltingsanalise kan op teikensnitte uitgevoer word, wat uiteindelik by 'n POI-ooreenkoms-indeks uitkom. Die kontrastiewe verliesfunksie wat gebruik word, is gebaseer op 'n 2021 akademiese samewerking tussen Google Research, Boston University, Snap Inc., en MIT.

Die basisdatastel is op 'n per-identiteit basis verdeel. 4608 identiteite is vir opleiding gebruik, met 512 oor vir validering. Die 500 identiteite wat in FakeAVCelebV2 ('n toetskandidaat, sien hieronder) gebruik is, is uitgesluit om nie-gepolariseerde resultate te verkry.

Die twee netwerke is opgelei vir 12 tydperke teen 'n buitengewone groot bondelgrootte van 2304 groepe per epog, met elke bondel bestaan ​​uit 8×8 videosegmente – 8 segmente vir 8 verskillende identiteite. Die Adam optimizer is gebruik met ontkoppelde gewigsverval teen 'n leertempo van 10-4, en 'n gewigsverlies van 0.01.

Toets en resultate

Die diepvals datastelle wat vir die projek getoets is, was die voorskou DeepFake Detection Challenge-datastel, wat gesigswisselings oor 68 onderwerpe bevat, waaruit 44 identiteite gekies is wat meer as nege verwante video's het, altesaam 920 regte video's en 2925 vals video's; DeepFake-TIMIT, 'n GAN-gebaseerde datastel met 320 video's van 32 onderwerpe, altesaam 290 regte video's en 580 vals video's van minstens vier sekondes se duur; FakeAVCelebV2, bestaande uit 500 regte video's van Voxceleb2, en ongeveer 20,000 XNUMX vals video's uit verskeie datastelle, waarby vals gekloonde oudio gevoeg is met SV2TTS vir verenigbaarheid; en KoDF, 'n Koreaanse diepvals datastel met 403 identiteite wat deur FaceSwap, DeepFaceLab en FSGAN, sowel as drie eerste orde bewegingsmodelle (FOMM).

Laasgenoemde beskik ook oor oudio-gedrewe gesigsintese ATFHP, en uitvoer vanaf Wav2Lip, met die skrywers wat 'n afgeleide datastel gebruik wat 276 regte video's en 544 vals video's bevat.

Metrieke wat gebruik word, het area onder die ontvanger se bedryfskenmerkkurwe ingesluit (AOK), en 'n benaderde 10% 'vals alarmtempo', wat problematies sou wees in raamwerke wat vals data inkorporeer en oplei, maar watter kommer uit die weg geruim word deur die feit dat POI-Forensics slegs egte videomateriaal as sy insette neem.

Die metodes is getoets aan die Seferbekov deepfake detector, wat die eerste plek in die Kaggle Deepfake Detection behaal het Uitdaging; FTCN (Fully Temporal Convolution Network), 'n samewerking tussen China se Xiamen Universiteit en Microsoft Research Asia; LipForensics, 'n gesamentlike 2021-werk tussen Imperial College London en Facebook; en ID-onthul, 'n vorige projek van verskeie van die nuwe koerant se navorsers, wat 'n oudio-aspek weglaat, en wat 3D Morphable Models gebruik in kombinasie met 'n teenstrydige speletjie-scenario om vals uitset op te spoor.

In resultate (sien vroeëre tabel hierbo), het POI-Forensics die verwysingsleier Seferbekov met 2.5% in AUC en 1.5% in terme van akkuraatheid gevaar. Prestasie was meer mededingend bo ander datastelle by HQ.

Die nuwe benadering het egter 'n noemenswaardige voorsprong getoon bo alle mededingende verwysingsmetodes vir video's van lae gehalte, wat steeds die waarskynlikste scenario waarin diepvals geneig is om toevallige kykers te flous, gebaseer op 'regte wêreld' kontekste.

Die skrywers beweer:

'Inderdaad, in hierdie uitdagende scenario, bly slegs identiteitsgebaseerde benaderings goeie prestasie lewer, aangesien hulle staatmaak op hoëvlak semantiese kenmerke, redelik sterk teen beeldgestremdhede.'

As in ag geneem word dat PIO-Forensics slegs regte video as bronmateriaal gebruik, word die prestasie waarskynlik vergroot, en stel dit voor dat die gebruik van die inheemse biometriese eienskappe van potensiële diepvals-slagoffers 'n waardevolle pad vorentoe is om die 'artefakkoue oorlog' tussen diepvals sagteware en diepvals-opsporing te ontsnap. oplossings.

In 'n finale toets het die navorsers teenstrydige geraas by die insette gevoeg, 'n metode wat klassifiseerders betroubaar kan flous. Die nou eerbiedwaardige vinnige gradiënt teken metode blyk steeds besonder doeltreffend in hierdie verband.

Voorspelbaar het teenstrydige aanvalstrategieë die sukseskoers oor alle metodes en datastelle laat daal, met AUC wat in inkremente gedaal het tussen 10% tot 38%. Slegs POI-Forensics, en die skrywers se vroeëre metode ID-Reveal was egter in staat om redelike werkverrigting onder hierdie aanvalscenario te handhaaf, wat daarop dui dat die hoëvlakkenmerke wat met sagte biometrie geassosieer word, buitengewoon bestand is teen ontduiking van diepvervalsing.

Die outeurs concludeer:

'Oor die algemeen glo ons ons metode is 'n eerste stapsteen; in die besonder, die gebruik van hoër-vlak semantiese kenmerke is 'n belowende toekomstige weg vir toekomstige navorsing. Boonop kan die multimodale analise verder verryk word deur meer inligting van ander domeine soos tekstuele data in te sluit.'

 

Eerste gepubliseer 8 April 2022.