stomp Diepte-inligting kan diepvals in reële tyd onthul - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Diepte-inligting kan diepvals in reële tyd onthul

mm
Opgedateer on

Nuwe navorsing van Italië het bevind dat diepte-inligting verkry uit beelde 'n nuttige hulpmiddel kan wees om diepvals op te spoor - selfs intyds.

Terwyl die meeste navorsing oor diepvalsopsporing die afgelope vyf jaar op gekonsentreer is artefak identifikasie (wat versag kan word deur verbeterde tegnieke, of verwar kan word met swak video-kodek-kompressie), omgewingsbeligting, biometriese eienskappe, tydelike ontwrigting, En selfs menslike instink, is die nuwe studie die eerste wat daarop dui dat diepte-inligting 'n waardevolle syfer vir diepvalse inhoud kan wees.

Voorbeelde van afgeleide dieptekaarte, en die verskil in perseptuele diepte-inligting tussen werklike en vals beelde. Bron: https://arxiv.org/pdf/2208.11074.pdf

Voorbeelde van afgeleide dieptekaarte, en die verskil in perseptuele diepte-inligting tussen werklike en vals beelde. Bron: https://arxiv.org/pdf/2208.11074.pdf

Kritiek, opsporingsraamwerke wat vir die nuwe studie ontwikkel is, werk baie goed op 'n liggewig netwerk soos Xception, en aanvaarbaar goed aan MobileNet, en die nuwe koerant erken dat die lae latensie van afleiding wat deur sulke netwerke aangebied word, intydse diepvalsopsporing moontlik kan maak teen die nuwe neiging tot lewendige diepvalsbedrog, geïllustreer deur die onlangse aanval op Binance.

Groter ekonomie in afleidingstyd kan bereik word omdat die stelsel nie volkleurbeelde nodig het om die verskil tussen vals en werklike dieptekaarte te bepaal nie, maar verbasend doeltreffend uitsluitlik op grysskaalbeelde van die diepte-inligting kan werk.

Die skrywers sê: 'Hierdie resultaat dui daarop dat diepte in hierdie geval 'n meer relevante bydrae tot klassifikasie as kleurartefakte bydra.'

Die bevindinge verteenwoordig deel van 'n nuwe golf van diepvalsopsporingsnavorsing wat gerig is teen intydse gesigsintesestelsels soos DeepFaceLive – 'n lokus van pogings wat veral die afgelope 3-4 maande versnel het, in die nasleep van die FBI se waarskuwing in Maart oor die risiko van intydse video- en oudio-deepfakes.

Die papier is getiteld DepthFake: 'n diepte-gebaseerde strategie om Deepfake-video's op te spoor, en kom van vyf navorsers aan die Sapienza Universiteit van Rome.

Randgevalle

Tydens opleiding prioritiseer outo-enkodeerder-gebaseerde diepvals modelle die binnestreke van die gesig, soos oë, neus en mond. In die meeste gevalle, oor oopbronverspreidings soos DeepFaceLab en gesig ruil (Albei gevurk van die oorspronklike 2017 Reddit kode voor die verwydering daarvan), word die buitenste lyne van die gesig nie goed gedefinieer tot 'n baie laat stadium in opleiding nie, en sal waarskynlik nie ooreenstem met die kwaliteit van sintese in die binneste gesigsarea nie.

Uit 'n vorige studie sien ons 'n visualisering van 'saliency-kaarte' van die gesig. Bron: https://arxiv.org/pdf/2203.01318.pdf

Uit 'n vorige studie sien ons 'n visualisering van 'saliency-kaarte' van die gesig. Bron: https://arxiv.org/pdf/2203.01318.pdf

Normaalweg is dit nie belangrik nie, aangesien ons neiging om eerste op oë te fokus en te prioritiseer, 'na buite' teen dalende vlakke van aandag beteken dat ons waarskynlik nie versteur sal word deur hierdie druppels in perifere kwaliteit nie – veral as ons regstreeks met die mense praat. persoon wat 'n ander identiteit namaak, wat sosiale konvensies veroorsaak en verwerkingsbeperkings nie teenwoordig wanneer ons 'weergegee' diepvals beeldmateriaal evalueer nie.

Die gebrek aan detail of akkuraatheid in die geaffekteerde margestreke van 'n diepvervalste gesig kan egter algoritmies opgespoor word. In Maart, 'n stelsel wat sleutels op die perifere gesig area was aangekondig. Aangesien dit egter 'n bogemiddelde hoeveelheid opleidingsdata benodig, is dit slegs bedoel vir bekendes wat waarskynlik in gewilde gesigdatastelle (soos ImageNet) verskyn wat herkoms het in huidige rekenaarvisie en diepvals-opsporingstegnieke.

In plaas daarvan, die nuwe stelsel, getiteld DepthFake, kan generies funksioneer, selfs op obskure of onbekende identiteite, deur die kwaliteit van geskatte dieptekaartinligting in regte en vals video-inhoud te onderskei.

Gaan Diep

Dieptekaartinligting word toenemend in slimfone gebak, insluitend KI-gesteunde stereo-implementerings wat veral nuttig is vir rekenaarvisiestudies. In die nuwe studie het die skrywers die FaceDepth-model van die Nasionale Universiteit van Ierland gebruik, 'n konvolusionele enkodeerder/dekodeerdernetwerk wat dieptekaarte doeltreffend van enkelbronbeelde kan skat.

Die FaceDepth-model in aksie. Bron: https://tinyurl.com/3ctcazma

Die FaceDepth-model in aksie. Bron: https://tinyurl.com/3ctcazma

Vervolgens onttrek die pyplyn vir die Italiaanse navorsers se nuwe raamwerk 'n 224 × 224 pixel-vlek van die onderwerp se gesig uit beide die oorspronklike RGB-beeld en die afgeleide dieptekaart. Krities, dit laat die proses toe om oor kerninhoud te kopieer sonder om die grootte daarvan te verander; dit is belangrik, aangesien algoritmes vir groottestandaardveranderingsgrootte die kwaliteit van die geteikende areas nadelig sal beïnvloed.

Met behulp van hierdie inligting, uit beide werklike en diepvervalste bronne, het die navorsers toe 'n konvollusionele neurale netwerk (CNN) opgelei wat in staat is om werklike van vervalste gevalle te onderskei, gebaseer op die verskille tussen die perseptuele kwaliteit van die onderskeie dieptekaarte.

Konseptuele pyplyn vir DepthFake.

Konseptuele pyplyn vir DepthFake.

Die FaceDepth-model is opgelei op realistiese en sintetiese data met behulp van 'n hibriede funksie wat groter detail by die buitenste marges van die gesig bied, wat dit goed geskik maak vir die DepthFake. Dit gebruik 'n MobileNet-instansie as 'n kenmerk-uittreksel, en is opgelei met 480×640-invoerbeelde wat 240×320-dieptekaarte uitstuur. Elke dieptekaart verteenwoordig 'n kwart van die vier insetkanale wat in die nuwe projek se diskrimineerder gebruik word.

Die dieptekaart word outomaties in die oorspronklike RGB-beeld ingebed om die soort RGBD-beeld, propvol diepte-inligting, te verskaf wat moderne slimfoonkameras kan uitvoer.

opleiding

Die model is opgelei op 'n Xception-netwerk wat reeds vooraf op ImageNet opgelei is, hoewel die argitektuur 'n mate van aanpassing nodig gehad het om die bykomende diepte-inligting te akkommodeer terwyl die korrekte initialisering van gewigte gehandhaaf word.

Boonop het 'n wanverhouding in waarde tussen die diepte-inligting en wat die netwerk verwag, genoodsaak dat die navorsers die waardes na 0-255 genormaliseer het.

Tydens opleiding is slegs flippen en rotasie toegepas. In baie gevalle sou verskeie ander visuele versteurings aan die model voorgehou word ten einde robuuste afleiding te ontwikkel, maar die noodsaaklikheid om die beperkte en baie brose randdieptekaartinligting in die bronfoto's te bewaar, het die navorsers gedwing om 'n pare-down regime aan te neem.

Die stelsel is addisioneel opgelei op eenvoudige 2-kanaal-grysskaal, om te bepaal hoe kompleks die bronbeelde moes wees om 'n werkbare algoritme te verkry.

Opleiding het plaasgevind via die TensorFlow API op 'n NVIDIA GTX 1080 met 8 GB VRAM, met behulp van die ADAMAX optimizer, vir 25 tydperke, teen 'n bondelgrootte van 32. Invoerresolusie is vasgestel op 224×224 tydens sny, en gesigbespeuring en onttrekking was bereik met die dlib C++ biblioteek.

Results

Akkuraatheid van resultate is getoets teen Deepfake, Face2Face, FaceSwap, Neurale tekstuur, en die volledige datastel met RGB- en RGBD-insette, met behulp van die FaceForensic++ raamwerk.

Resultate oor akkuraatheid oor vier diepvalsmetodes, en teen die hele onverdeelde datastel. Die resultate word verdeel tussen ontleding van bron RGB-beelde, en dieselfde beelde met 'n ingebedde afgeleide dieptekaart. Beste resultate is in vetdruk, met persentasiesyfers onderaan wat aantoon in watter mate die dieptekaartinligting die uitkoms verbeter.

Resultate oor akkuraatheid oor vier diepvalsmetodes, en teen die hele onverdeelde datastel. Die resultate word verdeel tussen ontleding van bron RGB-beelde, en dieselfde beelde met 'n ingebedde afgeleide dieptekaart. Beste resultate is in vetdruk, met persentasiesyfers onderaan wat aantoon in watter mate die dieptekaartinligting die uitkoms verbeter.

In alle gevalle verbeter die dieptekanaal die model se werkverrigting oor alle konfigurasies. Xception behaal die beste resultate, met die flinke MobileNet naby. Hieroor lewer die skrywers kommentaar:

'[Dit] is interessant om daarop te let dat die MobileNet effens minderwaardig is as die Xception en beter as die dieper ResNet50 presteer. Dit is 'n noemenswaardige resultaat wanneer die doelwit oorweeg word om afleidingstye vir intydse toepassings te verminder. Alhoewel dit nie die hoofbydrae van hierdie werk is nie, beskou ons dit steeds as 'n bemoedigende resultaat vir toekomstige ontwikkelings.'

Die navorsers merk ook op 'n konsekwente voordeel van RGBD en 2-kanaal-grysskaal-invoer bo RGB en reguit grysskaal-invoer, en neem waar dat die grysskaal-omskakelings van diepte-afleidings, wat berekeningsgewys baie goedkoop is, die model toelaat om verbeterde resultate te verkry met baie beperkte plaaslike hulpbronne, fasiliteer die toekomstige ontwikkeling van intydse deepfake-opsporing gebaseer op diepte-inligting.

 

Eerste gepubliseer 24 Augustus 2022.