stubbur Vísindamenn bera kennsl á seigur eiginleika djúpfalsa sem gætu aðstoðað við langtímauppgötvun - Unite.AI
Tengja við okkur

Artificial Intelligence

Vísindamenn bera kennsl á seigur eiginleiki djúpfalsa sem gæti aðstoðað við langtímauppgötvun

mm
Uppfært on

Frá því að fyrstu djúpfölsuðu uppgötvunarlausnirnar fóru að koma fram árið 2018 hefur tölvusjón- og öryggisrannsóknargeirinn reynt að skilgreina ómissandi eiginleiki af djúpfölsuðum myndböndum – merki sem gætu reynst ónæm fyrir endurbótum á vinsælum andlitsmyndunartækni (svo sem sjálfkóðunar-undirstaða djúpfalsa pakka eins og DeepFaceLab og FaceSwap, og notkun á Generative andstæðingur net að endurskapa, líkja eftir eða breyta mannlegum andlitum).

Margir „segir“, eins og skortur á að blikka, voru óþarfar með endurbótum á djúpfalsunum, en hugsanleg notkun á stafrænum upprunaaðferðum (eins og Adobe-leiddu Frumkvæði um áreiðanleika efnis) – þar á meðal blockchain nálganir og stafræn vatnsmerki mögulegra heimildamynda – annaðhvort krefjast víðtækra og dýrra breytinga á tiltækum upprunamyndum á netinu, eða annars þyrfti athyglisvert samstarf þjóða og ríkisstjórna til að búa til eftirlits- og auðkenningarkerfi.

Þess vegna væri það mjög gagnlegt ef hægt væri að greina raunverulegan grundvallar og seigur eiginleiki í mynd- og myndbandaefni sem sýnir breytt, fundin upp eða skipt um mannleg andlit; eiginleiki sem hægt er að álykta beint af fölsuðum myndböndum, án þess að sannprófa í stórum stíl, dulmálseignahashing, samhengisathugun, trúverðugleikamat, greiningaraðferðir sem miðast við gripi eða aðrar íþyngjandi aðferðir við uppgötvun djúpfalsa.

Deepfakes in the Frame

Nýtt rannsóknarsamstarf milli Kína og Ástralíu telur að það hafi fundið þennan „heilaga gral“, í formi truflun á reglusemi.

Höfundarnir hafa fundið upp aðferð til að bera saman staðbundna heilleika og tímabundna samfellu raunverulegra myndbanda á móti þeim sem innihalda djúpfalsað efni og hafa komist að því að hvers kyns djúpfölsuð truflun truflar reglusemi myndarinnar, hversu ómerkjanlega sem hún er.

Þetta er að hluta til vegna þess að djúpfölsunarferlið brýtur markmyndbandið niður í ramma og beitir áhrifum þjálfaðs djúpfölsunar líkans í hvern (skiptan) ramma. Vinsælar djúpfalsaðar dreifingar virka á sama hátt og hreyfimyndir, að þessu leyti, og gefa meiri athygli að áreiðanleika hvers ramma en framlagi hvers ramma til heildar staðbundinnar heilleika og tímabundinnar samfellu myndbandsins.

Úr blaðinu: A) Mismunur á tegundum gagna. Hér sjáum við að truflanir p-fake breyta rúm- og tímalegum gæðum myndarinnar á sama hátt og djúpfals gerir, án þess að koma í staðinn fyrir sjálfsmynd. B) Hávaðagreining á þremur tegundum gagna, sem sýnir hvernig p-falsa líkir eftir djúpfalsa truflun. C) Tímabundin sjónmynd af þremur gerðum gagna, með raunverulegum gögnum sem sýna meiri heilleika í sveiflum. D) T-SNE sjónmynd af útdregnum eiginleikum fyrir raunverulegt, falsað og p-falsað myndband. Heimild: https://arxiv.org/pdf/2207.10402.pdf

Úr blaðinu: A) Mismunur á tegundum gagna. Hér sjáum við að truflanir p-fake breyta rúm- og tímalegum gæðum myndarinnar á sama hátt og djúpfals gerir, án þess að koma í staðinn fyrir sjálfsmynd. B) Hávaðagreining á þremur tegundum gagna, sem sýnir hvernig p-fals líkir eftir djúpfalsa truflun. C) Tímabundin sjónmynd af þremur gerðum gagna, með raunverulegum gögnum sem sýna meiri heilleika í sveiflum. D) the T-SNE sjónmynd af útdrættum eiginleikum fyrir raunverulegt, falsað og p-falsað myndband. Heimild: https://arxiv.org/pdf/2207.10402.pdf

Þetta er ekki leiðin sem myndbandsmerkjamál meðhöndlar röð ramma þegar verið er að gera eða vinna upprunalega upptöku. Til að spara á skráarstærð eða gera myndband sem hentar fyrir streymi, er gríðarlegu magni upplýsinga hent af myndbandsmerkjanum. Jafnvel við hágæða stillingar mun merkjamálið úthluta lykilrammar (breyta sem notandinn getur stillt) – heilar, nánast óþjappaðar myndir sem eiga sér stað með fyrirfram ákveðnu millibili í myndbandinu.

Millivefsrammar á milli lykilramma eru að vissu marki metnir sem afbrigði af rammanum og munu endurnýta eins mikið af upplýsingum og mögulegt er frá aðliggjandi lykilrömmum, frekar en að vera heilir rammar í sjálfu sér.

Vinstra megin er heill lykilrammi, eða 'i-frame', geymdur í þjappaða myndbandinu, á einhvern kostnað af skráarstærð; hægra megin endurnotar „delta ramma“ millivefsramma hvaða hluta sem er í gagnaríkari lykilrammanum. Heimild: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

Vinstra megin er heill lykilrammi, eða 'i-frame', geymdur í þjappaða myndbandinu, á einhvern kostnað af skráarstærð; hægra megin endurnotar „delta ramma“ millivefsramma hvaða hluta sem er í gagnaríkari lykilrammanum. Heimild: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

Á þennan hátt, loka (inniheldur x fjölda ramma, allt eftir stillingum lykilramma) er að öllum líkindum minnsta einingin sem er tekin til greina í dæmigerðu þjöppuðu myndbandi, frekar en hverjum einstökum ramma. Jafnvel lykilramminn sjálfur, þekktur sem i-frame, er hluti af þeirri einingu.

Hvað varðar hefðbundna teiknimyndamynd, er merkjamál að framkvæma tegund af þar á milli, þar sem lykilrammar starfa sem tjaldstöng fyrir millivef, afleidd ramma, þekkt sem delta ramma.

Aftur á móti veitir djúpfölsuð yfirlagning gríðarlega athygli og fjármagni til hvers einstaks ramma, án þess að taka tillit til víðara samhengis rammans, og án þess að gera ráð fyrir því hvernig þjöppun og blokkbundin kóðun hefur áhrif á eiginleika „ekta“ myndbands.

Skoðaðu nánar ósamfelluna milli tímalegra gæða ekta myndbands (vinstri) og sama myndbands þegar það er truflað af djúpum fölsunum (hægri).

Skoðaðu nánar ósamfelluna milli tímalegra gæða ekta myndbands (vinstri) og sama myndbands þegar það er truflað af djúpum fölsunum (hægri).

Þó sumir af betri deepfakers noti umfangsmikla eftirvinnslu, í pökkum eins og After Effects, og þó að DeepFaceLab dreifingin hafi nokkur innfæddur getu til að beita „blanda“ verklagsreglum eins og hreyfiþoku, hefur slík handbragð ekki áhrif á misræmi staðbundinna og tímalegra gæða milli ósvikinna og djúpfalsaðra myndbanda.

The nýtt blað er titill Uppgötvun djúpfalsa með því að búa til truflun á tímabundinni reglu, og kemur frá vísindamönnum við Tsinghua háskólann, deild tölvusjóntækni (VIS) við Baidu Inc., og háskólann í Melbourne

„Fölsuð“ fölsuð myndbönd

Rannsakendur á bak við greinina hafa fellt virkni rannsóknarinnar inn í plug-and-play einingu sem heitir Pseudo-fake Generator (P-falsa rafall), sem umbreytir raunverulegum myndböndum í gervi-djúpfölsuð myndbönd, með því að trufla þau á sama hátt og raunverulegt djúpfalsferli gerir, án þess að framkvæma neinar djúpfölsunaraðgerðir.

Próf benda til þess að hægt sé að bæta einingunni við öll núverandi djúpfölsunarskynjunarkerfi með nánast engum tilföngskostnaði og að það bætir sérstaklega afköst þeirra.

Uppgötvunin gæti hjálpað til við að takast á við einn af öðrum ásteytingarsteinum í rannsóknum á djúpfalsskynjun: skortur á ekta og uppfærðum gagnasöfnum. Þar sem djúpfölsuð kynslóð er vandað og tímafrekt ferli hefur samfélagið þróað fjölda djúpfalsagagnasetta á síðustu fimm árum, sem mörg hver eru frekar úrelt.

Með því að einangra truflun á reglulegu millibili sem djúpfalsk-agnostic merki fyrir breytt myndbönd eftir á, nýja aðferðin gerir það mögulegt að búa til endalaus sýnishorn og gagnasafnsmyndbönd sem koma inn á þennan flöt djúpfalsa.

Yfirlit yfir STE-reitinn, þar sem rás-vitur tímabundinn snúningur er notaður sem hvati til að búa til tímabundin kóðun, sem leiðir til sömu undirskriftar og jafnvel mjög sannfærandi djúpfalsun mun gefa af sér. Með þessari aðferð er hægt að búa til „fölsuð“ fölsuð myndbönd sem bera sömu einkenniseiginleika og öll breytt myndskeið í djúpfölsun og sem eru ekki háð ákveðnum dreifingum eða sveiflukenndum þáttum eins og hegðun eiginleika eða reiknirit.

Yfirlit yfir STE-reitinn, þar sem rás-vitur tímabundinn snúningur er notaður sem hvati til að búa til tímabundin kóðun, sem leiðir til sömu undirskriftar og jafnvel mjög sannfærandi djúpfalsun mun gefa af sér. Með þessari aðferð er hægt að búa til „fölsuð“ fölsuð myndbönd sem bera sömu einkenniseiginleika og öll breytt myndskeið í djúpfölsun og sem eru ekki háð ákveðnum dreifingum eða sveiflukenndum þáttum eins og hegðun eiginleika eða reiknirit.

Próf

Rannsakendur gerðu tilraunir á sex þekktum gagnasöfnum sem notuð voru í rannsóknum á djúpfalsskynjun: FaceForensics ++ (FF++); WildDeepFake; Forskoðun Deepfake Detection Challenge (DFDCP); Celeb-DF; Deepfake uppgötvun (DFD); og Face Shifter (FSh).

Fyrir FF++ þjálfuðu rannsakendur líkanið sitt á upprunalegu gagnasafninu og prófuðu hvert af fjórum undirmengunum sérstaklega. Án þess að nota eitthvað djúpgert efni í þjálfun gat nýja aðferðin farið fram úr nýjustu niðurstöðum.

Aðferðin tók einnig pólitík þegar hún var borin saman við FF++ C23 þjappað gagnasafn, sem gefur dæmi sem sýna þá tegund af samþjöppunargripum sem eru trúverðugir í raunverulegu djúpfölsuðu útsýnisumhverfi.

Höfundar gera athugasemd:

„Frammistaða innan FF++ staðfestir hagkvæmni meginhugmyndar okkar, á meðan alhæfing er enn stórt vandamál núverandi djúpfölsunaruppgötvunaraðferða, þar sem frammistaðan er ekki tryggð þegar prófað er á djúpfalsa sem myndast með óséðum aðferðum.

„Líttu nánar á raunveruleika vopnakapphlaupsins milli skynjara og falsara, alhæfni er mikilvæg viðmiðun til að mæla árangur greiningaraðferðar í hinum raunverulega heimi.“

Þrátt fyrir að rannsakendur hafi framkvæmt fjölda undirprófa (sjá grein fyrir nánari upplýsingar) um „styrkleika“ og mismunandi gerðir inntaks myndbanda (þ.e. raunverulegt, rangt, p-falsað osfrv.), þá eru áhugaverðustu niðurstöðurnar úr prófinu fyrir árangur krossgagnasetts.

Til þess þjálfuðu höfundar líkan sitt á fyrrnefndri „raunverulega“ c23 útgáfu af FF++ og prófuðu þetta á móti fjórum gagnasöfnum og fengu, að sögn höfundanna, yfirburða frammistöðu í þeim öllum.

Niðurstöður úr áskorun um krossgagnasett. Blaðið bendir á að SBI notar svipaða nálgun og höfundar sjálfir, en vísindamenn halda því fram, að p-falsa sýnir betri frammistöðu fyrir truflun á tímabundinni reglulegu röskun.

Niðurstöður úr áskorun um krossgagnasett. Blaðið bendir á að SBI notar svipaða nálgun og höfundar sjálfir, en vísindamenn halda því fram, að p-falsa sýnir betri frammistöðu fyrir truflun á tímabundinni reglulegu röskun.

Í blaðinu segir:

„Á mest krefjandi Deepwild er aðferðin okkar betri en SOTA aðferðin um 10 prósentustig miðað við AUC%. Við teljum að þetta sé vegna mikils fjölbreytileika djúpfalsa í Deepwild, sem gerir það að verkum að aðrar aðferðir mistekst að alhæfa vel út frá djúpum fölsunum.'

Mælingar sem notaðar voru fyrir prófin voru nákvæmnistig (ACC), Area Under the Receiver Operating Characteristic Curve (AUC) og Equal Error Rate (EER).

Gagnárásir?

Þó að fjölmiðlar einkenni spennuna á milli djúpfalsa verktaki og djúpfalsa uppgötvunarfræðinga hvað varðar tæknistríð, það má deila um að hinir fyrrnefndu séu einfaldlega að reyna að skila sannfærandi framleiðsla og að auknar erfiðleikar við djúpfalsskynjun sé fylgifiskur þessarar viðleitni.

Hvort forritarar munu reyna að taka á þessum nýlega uppljóstraða annmarka fer kannski eftir því hvort þeim finnst að truflun á reglusemi sé hægt að líta á í djúpfölsuðu myndbandi með berum augum sem merki um óáreiðanleika og þess vegna sé þessi mælikvarði þess virði. fjallar eingöngu út frá eigindlegu sjónarhorni.

Þrátt fyrir að fimm ár séu liðin frá því að fyrstu djúpfalsarnir fóru á netið er djúpfalsun enn tiltölulega ný tækni og samfélagið er að öllum líkindum heltekið af smáatriðum og upplausn en réttu samhengi, eða samsvörun við undirskrift þjappaðs myndbands, sem hvort tveggja krefst ákveðins „ hnignun framleiðslunnar - einmitt það sem allt djúpfalsasamfélagið er að berjast gegn um þessar mundir.

Ef almenn samstaða þar reynist vera um að truflun á reglusemi sé ný undirskrift sem hefur ekki áhrif á gæði, gæti ekki verið reynt að bæta fyrir það – jafnvel þótt það getur vera „hætt við“ með einhverjum eftirvinnslu eða verklagsreglum í arkitektúr, sem er langt frá því að vera ljóst.

 

Fyrst birt 22. júlí 2022.