škrbina Raziskovalci identificirajo odporno lastnost Deepfake, ki bi lahko pomagala pri dolgoročnem odkrivanju - Unite.AI
Povežite se z nami

Umetna inteligenca

Raziskovalci identificirajo odporno lastnost Deepfake, ki bi lahko pomagala pri dolgoročnem odkrivanju

mm
Posodobljeno on

Odkar so se leta 2018 začele pojavljati najzgodnejše rešitve za odkrivanje globokih ponaredkov, si sektor računalniškega vida in varnostnih raziskav prizadeva opredeliti bistvena lastnost videoposnetkov deepfake – signalov, ki bi se lahko izkazali za odporne na izboljšave v priljubljenih tehnologijah za sintezo obraza (kot so paketi deepfake na osnovi samodejnega kodiranja, kot sta DeepFaceLab in FaceSwap, ter uporaba Generativne adversarne mreže poustvariti, simulirati ali spremeniti človeške obraze).

Številne 'tele', kot npr pomanjkanje utripanja, so postale odvečne zaradi izboljšav globokih ponaredkov, medtem ko je potencialna uporaba tehnik digitalne provenience (kot je Adobejev Pobuda za pristnost vsebine) – vključno s pristopi blockchain in digitalni vodni žig potencialnih izvornih fotografij – bodisi zahteva obsežne in drage spremembe obstoječega telesa izvornih slik, ki so na voljo na internetu, ali pa bi bilo potrebno opazno sodelovanje med državami in vladami, da bi ustvarili sisteme nadzora in avtentikacije.

Zato bi bilo zelo koristno, če bi v slikovnih in video vsebinah, ki prikazujejo spremenjene, izmišljene ali zamenjane identitete obraze, lahko razbrali resnično temeljno in odporno lastnost; značilnost, ki bi jo lahko sklepali neposredno iz ponarejenih videoposnetkov, brez obsežnega preverjanja, zgoščevanje kriptografskega sredstva, preverjanje konteksta, vrednotenje verodostojnosti, rutine odkrivanja, osredotočene na artefakte, ali drugi obremenjujoči pristopi k odkrivanju globokih ponaredkov.

Deepfakes v okvirju

Novo raziskovalno sodelovanje med Kitajsko in Avstralijo verjame, da je našlo ta "sveti gral" v obliki motnje pravilnosti.

Avtorji so zasnovali metodo primerjave prostorske celovitosti in časovne kontinuitete resničnih videoposnetkov s tistimi, ki vsebujejo globoko ponarejeno vsebino, in ugotovili, da kakršna koli globoko ponarejena interferenca poruši pravilnost slike, pa čeprav neopazno.

To je delno zato, ker postopek deepfake razdeli ciljni video na okvirje in uporabi učinek usposobljenega modela deepfake v vsak (nadomeščen) okvir. Priljubljene distribucije deepfake delujejo na enak način kot animatorji, v tem pogledu posvečajo več pozornosti avtentičnosti vsakega okvirja kot prispevku vsakega okvirja k splošni prostorski celovitosti in časovni kontinuiteti videa.

Iz prispevka: A) Razlike med vrstami podatkov. Tukaj vidimo, da motnje p-fake spremenijo prostorsko-časovno kvaliteto slike na enak način kot deepfake, ne da bi nadomestile identiteto. B) Analiza hrupa treh vrst podatkov, ki prikazuje, kako p-fake posnema motnjo deepfake. C) Časovna vizualizacija treh vrst podatkov, pri čemer resnični podatki kažejo večjo celovitost v nihanju. D) vizualizacija T-SNE ekstrahiranih funkcij za pravi, lažni in p-ponarejeni video. Vir: https://arxiv.org/pdf/2207.10402.pdf

Iz prispevka: A) Razlike med vrstami podatkov. Tukaj vidimo, da motnje p-fake spremenijo prostorsko-časovno kvaliteto slike na enak način kot deepfake, ne da bi nadomestile identiteto. B) Analiza hrupa treh vrst podatkov, ki prikazuje, kako p-fake posnema motnje deepfake. C) Časovna vizualizacija treh vrst podatkov, pri čemer resnični podatki kažejo večjo celovitost v nihanju. D) to T-SNE vizualizacija ekstrahiranih funkcij za pravi, ponarejeni in ponarejeni video. Vir: https://arxiv.org/pdf/2207.10402.pdf

To ni način, na katerega video kodek obravnava vrsto sličic, ko se ustvarja ali obdeluje izvirni posnetek. Da bi prihranili pri velikosti datoteke ali naredili videoposnetek primeren za pretakanje, video kodek zavrže ogromno informacij. Tudi pri nastavitvah najvišje kakovosti bo kodek dodelil ključni okvirji (spremenljivka, ki jo lahko nastavi uporabnik) – celotne, praktično nestisnjene slike, ki se pojavljajo v vnaprej določenem intervalu v videu.

Vmesni okvirji med ključnimi okvirji so do neke mere ocenjeni kot različica okvirjev in bodo znova uporabite čim več informacij iz sosednjih ključnih okvirjev, namesto da bi bili samostojni popolni okvirji.

Na levi strani je v stisnjenem videoposnetku shranjen celoten ključni okvir ali 'i-frame', na račun velikosti datoteke; na desni vmesni 'delta okvir' ponovno uporabi kateri koli ustrezni del s podatki bolj bogatega ključnega okvira. Vir: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

Na levi strani je v stisnjenem videoposnetku shranjen celoten ključni okvir ali 'i-frame', na račun velikosti datoteke; na desni vmesni 'delta okvir' ponovno uporabi kateri koli ustrezni del s podatki bolj bogatega ključnega okvira. Vir: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

Na ta način blok (ki vsebuje x število sličic, odvisno od nastavitev ključnih sličic) je verjetno najmanjša enota, ki se upošteva v tipičnem stisnjenem videoposnetku, in ne kateri koli posamezni okvir. Tudi sam ključni okvir, znan kot an i-okvir, je del te enote.

V smislu tradicionalne risane animacije kodek izvaja vrsto vmes, s ključnimi okvirji, ki delujejo kot drogovi za vmesne, izpeljane okvirje, znane kot delta okvirji.

Nasprotno pa globoko ponarejeno prekrivanje posveča ogromno pozornosti in sredstev vsakemu posameznemu okvirju, ne da bi upošteval širši kontekst okvirja in ne da bi upošteval način, na katerega stiskanje in kodiranje na osnovi blokov vplivata na značilnosti 'pristnega' videa.

Podrobnejši pogled na diskontinuiteto med časovno kakovostjo pristnega videoposnetka (levo) in istim videoposnetkom, ko ga zmotijo ​​globoke ponaredke (desno).

Podrobnejši pogled na diskontinuiteto med časovno kakovostjo pristnega videoposnetka (levo) in istim videoposnetkom, ko ga zmotijo ​​globoke ponaredke (desno).

Čeprav nekateri boljši ponarejevalci globine uporabljajo obsežno naknadno obdelavo v paketih, kot je After Effects, in čeprav ima distribucija DeepFaceLab nekaj domače zmogljivosti za uporabo postopkov 'mešanja', kot je zameglitev gibanja, taka spretnost ne vpliva na neskladje prostorske in časovne kakovosti med pristnimi in globoko ponarejenimi videoposnetki.

O nov papir je naslovljen Odkrivanje Deepfake z ustvarjanjem motenj prostorsko-časovne pravilnosti, prihaja pa od raziskovalcev na Univerzi Tsinghua, Oddelku za tehnologijo računalniškega vida (VIS) pri Baidu Inc. in Univerzi v Melbournu

'Lažni' lažni videoposnetki

Raziskovalci, ki stojijo za člankom, so vključili funkcionalnost raziskave v modul plug-and-play, imenovan Pseudo-fake Generator (Generator P-fake), ki resnične videoposnetke pretvori v faux-deepfake videoposnetke tako, da jih vznemiri na enak način, kot to počne dejanski postopek deepfake, brez dejanskega izvajanja operacij deepfake.

Testi kažejo, da je modul mogoče dodati vsem obstoječim sistemom za odkrivanje globokih ponaredkov s praktično ničelnimi stroški virov in da opazno izboljša njihovo delovanje.

Odkritje bi lahko pomagalo odpraviti enega od drugih kamnov spotike pri raziskavah odkrivanja globokih ponaredkov: pomanjkanje verodostojnih in posodobljenih naborov podatkov. Ker je ustvarjanje deepfake zapleten in dolgotrajen proces, je skupnost v zadnjih petih letih razvila številne podatkovne nize deepfake, od katerih so mnogi precej zastareli.

Z izolacijo motenj pravilnosti kot agnostičnega signala deepfake za spremenjene videoposnetke post facto, nova metoda omogoča ustvarjanje neomejenih vzorcev in videoposnetkov nabora podatkov, ki so ključnega pomena za ta vidik globokih ponaredkov.

Pregled bloka STE, kjer se časovna konvolucija po kanalih uporablja kot spodbuda za ustvarjanje prostorsko-časovno izboljšanih kodiranj, kar ima za posledico enak podpis, kot ga bo dal celo zelo prepričljiv deepfake. S to metodo je mogoče ustvariti lažne videoposnetke, ki imajo enake značilnosti podpisa kot kateri koli spremenjeni videoposnetek v slogu deepfake in ki niso odvisni od posebnih distribucij ali nestanovitnih vidikov, kot so vedenje funkcij ali algoritemski artefakti.

Pregled bloka STE, kjer se časovna konvolucija po kanalih uporablja kot spodbuda za ustvarjanje prostorsko-časovno izboljšanih kodiranj, kar ima za posledico enak podpis, kot ga bo dal celo zelo prepričljiv deepfake. S to metodo je mogoče ustvariti lažne videoposnetke, ki imajo enake značilnosti podpisa kot kateri koli spremenjeni videoposnetek v slogu deepfake in ki niso odvisni od posebnih distribucij ali nestanovitnih vidikov, kot so vedenje funkcij ali algoritemski artefakti.

Testi

Raziskovalci so izvedli poskuse na šestih opazovanih nizih podatkov, uporabljenih v raziskavah odkrivanja globokih ponaredkov: FaceForensics ++ (FF++); WildDeepFake; Predogled Deepfake Detection Challenge (DFDCP); Celeb-DF; Deepfake Detection (DFD); in Preklopnik obraza (FSh).

Za FF++ so raziskovalci usposobili svoj model na izvirnem naboru podatkov in preizkusili vsakega od štirih podmnožic posebej. Brez uporabe materiala deepfake pri usposabljanju je nova metoda lahko presegla najsodobnejše rezultate.

Metoda je prav tako zavzela vodilni položaj v primerjavi s stisnjenim naborom podatkov FF++ C23, ki ponuja primere, ki vsebujejo vrsto artefaktov stiskanja, ki so verodostojni v okoljih gledanja deepfake v resničnem svetu.

Avtorji komentirajo:

„Zmogljivosti znotraj FF++ potrjujejo izvedljivost naše glavne ideje, medtem ko posplošljivost ostaja glavna težava obstoječih metod za odkrivanje globokih ponaredkov, saj zmogljivost ni zagotovljena pri testiranju na globokih ponaredkih, ustvarjenih z nevidnimi tehnikami.

'Razmislite še o resničnosti oboroževalne tekme med detektorji in ponarejevalci, posplošljivost je pomembno merilo za merjenje učinkovitosti metode odkrivanja v resničnem svetu.'

Čeprav so raziskovalci izvedli številne podteste (za podrobnosti glejte prispevek) glede "robustnosti" in spreminjanja vrst vhodnih videoposnetkov (tj. resnični, lažni, ponarejeni itd.), so najbolj zanimivi rezultati iz testa za delovanje med nabori podatkov.

Za to so avtorji usposobili svoj model na prej omenjeni različici FF++ c23 v 'resničnem svetu' in to preizkusili na štirih naborih podatkov, pri čemer so po navedbah avtorjev dosegli vrhunsko zmogljivost pri vseh.

Rezultati izziva med nabori podatkov. Prispevek ugotavlja, da SBI uporablja podoben pristop kot avtorji, medtem ko raziskovalci trdijo, da p-fake kaže boljšo učinkovitost pri motnjah prostorsko-časovne pravilnosti.

Rezultati izziva med nabori podatkov. Prispevek ugotavlja, da SBI uporablja podoben pristop kot avtorji, medtem ko raziskovalci trdijo, da p-fake kaže boljšo učinkovitost pri motnjah prostorsko-časovne pravilnosti.

Članek navaja:

„Na najzahtevnejšem Deepwildu naša metoda presega metodo SOTA za približno 10 odstotnih točk v smislu AUC%. Menimo, da je to posledica velike raznolikosti globokih ponaredkov v Deepwildu, zaradi česar druge metode ne uspejo dobro posplošiti videnih globokih ponaredkov.'

Meritve, uporabljene za preskuse, so bile ocena natančnosti (ACC), površina pod krivuljo delovanja sprejemnika (AUC) in enaka stopnja napak (EER).

Protinapadi?

Čeprav mediji označujejo napetost med razvijalci deepfake in raziskovalci odkrivanja deepfake v smislu tehnološke vojne, je mogoče trditi, da prvi preprosto poskušajo narediti bolj prepričljive rezultate in da je povečana težava pri odkrivanju globokih ponaredkov posredni stranski produkt teh prizadevanj.

Ali bodo razvijalci poskušali odpraviti to na novo odkrito pomanjkljivost, je morda odvisno od tega, ali menijo, da je mogoče motnjo pravilnosti v videoposnetku deepfake s prostim očesom zaznati kot znak nepristnosti in da je zato ta metrika vredna obravnavanje s povsem kvalitativnega vidika.

Čeprav je minilo pet let, odkar so se prvi deepfaki pojavili na spletu, je deepfaking še vedno razmeroma nova tehnologija in skupnost je verjetno bolj obsedena s podrobnostmi in ločljivostjo kot s pravilnim kontekstom ali ujemanjem s podpisi stisnjenega videa, kar oboje zahteva določeno ' degradacija« proizvodnje – prav tisto, proti čemur se trenutno bori celotna skupnost deepfake.

Če se splošno soglasje izkaže, da je motnja pravilnosti nastajajoča značilnost, ki ne vpliva na kakovost, morda ne bo nobenega truda, da bi jo nadomestili – tudi če lahko "izničiti" z nekaterimi postopki naknadne obdelave ali znotraj arhitekture, kar še zdaleč ni jasno.

 

Prvič objavljeno 22. julija 2022.