Kontakt med oss

Andersons vinkel

Mindre dypfalsk kan vĂŠre den stĂžrre trusselen

mm
Bilder i offentlig domene + Flux.1 Kontext Pro og Adobe Firefly

Konversasjonsbaserte AI-verktÞy som ChatGPT og Google Gemini brukes nÄ til Ä lage deepfakes som ikke bytter ansikter, men som pÄ mer subtile mÄter kan omskrive hele historien i et bilde. Ved Ä endre bevegelser, rekvisitter og bakgrunner lurer disse redigeringene bÄde AI-detektorer og mennesker, noe som Þker innsatsen for Ä oppdage hva som er ekte pÄ nettet.

 

I dagens klima, spesielt i kjþlvannet av viktig lovgivning som f.eks. TA DET NED mange av oss forbinder deepfakes og AI-drevet identitetssyntese med ikke-samtykkende AI-porno og politisk manipulasjon – generelt sett, brutto forvrengninger av sannheten.

Dette akklimatiserer oss til Ä forvente at AI-manipulerte bilder alltid vil satse pÄ innhold med hÞy innsats, der kvaliteten pÄ gjengivelsen og manipuleringen av kontekst kan lykkes med Ä oppnÄ et troverdighetskupp, i hvert fall pÄ kort sikt.

Historisk sett har imidlertid langt mer subtile endringer ofte hatt en mer uhyggelig og varig effekt – slik som det toppmoderne fotografiske trikset som tillot Stalin Ă„ fjern de som hadde falt i unĂ„de fra fotografiene, slik det ble satirisert i George Orwells roman Nitten Åttifire, hvor hovedpersonen Winston Smith tilbringer dagene sine med Ă„ omskrive historien og fĂ„ bilder laget, Ăždelagt og «endret».

I det fĂžlgende eksemplet er problemet med sekund Bildet er at vi «ikke vet hva vi ikke vet» – at den tidligere sjefen for Stalins hemmelige politi, Nikolai Jezhov, pleide Ă„ okkupere plassen der det nĂ„ bare er en sikkerhetsbarriere:

NÄ ser du ham, nÄ er han ... damp. Fotografisk manipulasjon fra Stalin-tiden fjerner et vanÊret partimedlem fra historien. Kilde: Offentlig eiendom, via https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

NÄ ser du ham, nÄ er han ... damp. Fotografisk manipulasjon fra Stalin-tiden fjerner et vanÊret partimedlem fra historien. Kilde: Offentlig eiendom, via https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Denne typen strÞmninger, som ofte gjentas, vedvarer pÄ mange mÄter; ikke bare kulturelt, men ogsÄ innen selve datasyn, som utleder trender fra statistisk dominerende temaer og motiver i treningsdatasett. For Ä gi et eksempel, det faktum at smarttelefoner har senket barrieren for Ä komme inn, og massivt senket kostnadene for fotografering, betyr at ikonografien deres har blitt uunngÄelig assosiert med mange abstrakte konsepter, selv nÄr dette ikke er passende.

Hvis konvensjonell deepfaking kan oppfattes som en «overgrepshandling», er skadelige og vedvarende mindre endringer i audiovisuelle medier mer beslektet med «gaslighting». I tillegg gjÞr evnen til at denne typen deepfaking gÄr ubemerket hen den vanskelig Ä identifisere via toppmoderne deepfake-deteksjonssystemer (som ser etter grove endringer). Denne tilnÊrmingen er mer beslektet med vann som sliter bort stein over en lengre periode, enn en stein som er rettet mot et hode.

MultiFakeVerse

Forskere fra Australia har forsÞkt Ä gjÞre noe med mangelen pÄ oppmerksomhet rundt «subtil» deepfaking i litteraturen, ved Ä kuratere et betydelig nytt datasett med personsentriske bildemanipulasjoner som endrer kontekst, fÞlelser og fortelling uten Ä endre subjektets kjerneidentitet:

Utvalgte eksempler fra den nye samlingen, ekte/falske par, med noen endringer som er mer subtile enn andre. Legg for eksempel merke til tapet av autoritet for den asiatiske kvinnen, nederst til hÞyre, ettersom legens stetoskop fjernes av AI. Samtidig har erstatningen av legens blokk med utklippstavlen ingen Äpenbar semantisk vinkel. Kilde: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Utvalgte eksempler fra den nye kolleksjonen, ekte/falske par, med noen endringer som er mer subtile enn andre. Legg for eksempel merke til tapet av autoritet for den asiatiske kvinnen, nederst til hÞyre, ettersom legestetoskopet hennes fjernes av AI. Samtidig har erstatningen av legeblokken for utklippstavlen ingen Äpenbar semantisk vinkling.Kilde: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Tittelen MultiFakeVerse, samlingen bestÄr av 845,826 XNUMX bilder generert via visjonssprÄkmodeller (VLM-er), som kan tilgjengelig pÄ nettet og lastet ned, med tillatelse.

Forfatterne sier:

«Denne VLM-drevne tilnÊrmingen muliggjÞr semantiske, kontekstbevisste endringer som Ä modifisere handlinger, scener og interaksjoner mellom mennesker og objekter, i stedet for syntetiske eller lavnivÄidentitetsbytter og regionspesifikke redigeringer som er vanlige i eksisterende datasett.»

«VÄre eksperimenter viser at nÄvÊrende toppmoderne modeller for deepfake-deteksjon og menneskelige observatÞrer sliter med Ä oppdage disse subtile, men meningsfulle manipulasjonene.»

Forskerne testet bÄde mennesker og ledende systemer for deepfake-deteksjon pÄ sitt nye datasett for Ä se hvor godt disse subtile manipulasjonene kunne identifiseres. Menneskelige deltakere slet, og klassifiserte bilder korrekt som ekte eller falske bare i omtrent 62 % av tilfellene, og hadde enda stÞrre problemer med Ä finne ut hvilke deler av bildet som hadde blitt endret.

Eksisterende deepfake-detektorer, som hovedsakelig ble trent pÄ mer Äpenbare datasett med ansiktsbytte eller inpainting, presterte ogsÄ dÄrlig, og klarte ofte ikke Ä registrere at det hadde skjedd noen manipulasjon. Selv etter finjustering PÄ MultiFakeVerse holdt deteksjonsratene seg lave, noe som avslÞrer hvor dÄrlig nÄvÊrende systemer hÄndterer disse subtile, narrativdrevne redigeringene.

Ocuco nytt papir har tittelen Multivers gjennom Deepfakes: MultiFakeVerse-datasettet av personsentriske visuelle og konseptuelle manipulasjoner, og kommer fra fem forskere ved Monash University i Melbourne og Curtin University i Perth. Kode og relaterte data er publisert pÄ GitHub, i tillegg til Hugging Face-vertskapet som ble nevnt tidligere.

Metode

MultiFakeVerse-datasettet ble bygget fra fire sett med bilder fra den virkelige verden som viser mennesker i ulike situasjoner: EMOTISK; PISC, RØRog BILDE 2.0Forskerne produserte 86,952 758,041 manipulerte versjoner med utgangspunkt i XNUMX XNUMX originalbilder.

Ocuco Gemini-2.0-Flash og ChatGPT-4o Rammeverk ble brukt til Ă„ foreslĂ„ seks minimale redigeringer for hvert bilde – redigeringer designet for Ă„ subtilt endre hvordan den mest fremtredende personen i bildet ville bli oppfattet av en betrakter.

Modellene ble instruert til Ä generere modifikasjoner som ville fÄ motivet til Ä se ut som naive, stolt, angrende, uerfareneller nonchalant, eller for Ä justere et faktisk element i scenen. Sammen med hver redigering produserte modellene ogsÄ en refererende uttrykk for Ä tydelig identifisere mÄlet for modifikasjonen, og sikre at den pÄfÞlgende redigeringsprosessen kan gjÞre endringer pÄ riktig person eller objekt i hvert bilde.

Forfatterne presiserer:

Merk at refererende uttrykk er et mye utforsket domene i samfunnet, som betyr en frase som kan tydeliggjÞre mÄlet i et bilde, f.eks. for et bilde som viser to menn som sitter pÄ et skrivebord, den ene snakker i telefonen og den andre ser gjennom dokumenter, ville et passende refererende uttrykk for sistnevnte vÊre mannen til venstre som holder et ark».

NÄr redigeringene var definert, ble selve bildemanipuleringen utfÞrt ved Ä be visuelle sprÄkmodeller om Ä bruke de spesifiserte endringene mens resten av scenen forble intakt. Forskerne testet tre systemer for denne oppgaven: GPT-bilde-1; Gemini-2.0-Flash-bildegenerering, Og ICEdit.

Etter Ä ha generert tjueto tusen eksempelbilder, fremsto Gemini-2.0-Flash som den mest konsistente metoden, og produserte redigeringer som blandet seg naturlig inn i scenen uten Ä introdusere synlige artefakter; ICEdit produserte ofte mer Äpenbare forfalskninger, med merkbare feil i de endrede omrÄdene; og GPT-Image-1 pÄvirket av og til utilsiktede deler av bildet, delvis pÄ grunn av dens samsvar med faste utdatasideforhold.

Bildeanalyse

Hvert manipulerte bilde ble sammenlignet med originalen for Ä bestemme hvor mye av bildet som var endret. Forskjellene pÄ pikselnivÄ mellom de to versjonene ble beregnet, med liten tilfeldig stÞy filtrert ut for Ä fokusere pÄ meningsfulle redigeringer. I noen bilder ble bare smÄ omrÄder pÄvirket; i andre, opptil Ätti prosent av scenen ble modifisert.

For Ä evaluere hvor mye betydningen av hvert bilde endret seg i lys av disse endringene, ble det generert bildetekster for bÄde det originale og det manipulerte bildet ved hjelp av DelGPT-4V visjon-sprÄkmodell.

Disse tekstingene ble deretter konvertert til innebygde elementer ved hjelp av Langklipp, noe som muliggjorde en sammenligning av hvor mye innholdet hadde avviket mellom versjonene. De sterkeste semantiske endringene ble sett i tilfeller der objekter nÊr eller direkte involverte personen hadde blitt endret, siden disse smÄ justeringene kunne endre hvordan bildet ble tolket betydelig.

Gemini-2.0-Flash ble deretter brukt til Ä klassifisere typen av manipulasjon som ble brukt pÄ hvert bilde, basert pÄ hvor og hvordan redigeringene ble gjort. Manipulasjonene ble gruppert i tre kategorier: personnivÄ redigeringer involverte endringer i motivets ansiktsuttrykk, positur, blikk, klÊr eller andre personlige trekk; objektnivÄ redigeringer pÄvirket elementer knyttet til personen, for eksempel gjenstander de holdt eller samhandlet med i forgrunnen; og scenenivÄ redigeringer involverte bakgrunnselementer eller bredere aspekter ved omgivelsene som ikke direkte involverte personen.

Genereringsprosessen for MultiFakeVerse-datasettet starter med ekte bilder, der visjonssprÄklige modeller foreslÄr narrative redigeringer rettet mot personer, objekter eller scener. Disse instruksjonene brukes deretter av bilderedigeringsmodeller. Det hÞyre panelet viser andelen manipulasjoner pÄ personnivÄ, objektnivÄ og scenenivÄ pÄ tvers av datasettet. Kilde: https://arxiv.org/pdf/2506.00868

Genereringsprosessen for MultiFakeVerse-datasettet starter med ekte bilder, der visjonssprÄklige modeller foreslÄr narrative redigeringer rettet mot personer, objekter eller scener. Disse instruksjonene brukes deretter av bilderedigeringsmodeller. Det hÞyre panelet viser andelen manipulasjoner pÄ personnivÄ, objektnivÄ og scenenivÄ pÄ tvers av datasettet. Kilde: https://arxiv.org/pdf/2506.00868

Siden individuelle bilder kunne inneholde flere typer redigeringer samtidig, ble fordelingen av disse kategoriene kartlagt pÄ tvers av datasettet. Omtrent en tredjedel av redigeringene var kun rettet mot personen, omtrent en femtedel pÄvirket bare scenen, og rundt en sjettedel var begrenset til objekter.

Vurdering av perseptuell innvirkning

Gemini-2.0-Flash ble brukt til Ä vurdere hvordan manipulasjonene kunne endre seerens oppfatning pÄ tvers av seks omrÄder: fÞlelser, personlig identitet, makt dynamikk, scenefortelling, hensikten med manipulasjonog etiske hensyn.

Til fÞlelser, ble redigeringene ofte beskrevet med begreper som gledelig, engasjerendeeller tilnÊrmet, noe som tyder pÄ endringer i hvordan subjektene ble emosjonelt innrammet. I narrative termer brukes ord som profesjonell or forskjellig indikerte endringer i den implisitte historien eller settingen:

Gemini-2.0-Flash ble bedt om Ä evaluere hvordan hver manipulasjon pÄvirket seks aspekter av seerens oppfatning. Venstre: eksempel pÄ promptstruktur som veileder modellens vurdering. HÞyre: ordskyer som oppsummerer endringer i fÞlelser, identitet, scenefortelling, intensjon, maktdynamikk og etiske bekymringer pÄ tvers av datasettet.

Gemini-2.0-Flash ble bedt om Ä evaluere hvordan hver manipulasjon pÄvirket seks aspekter av seerens oppfatning. Venstre: eksempel pÄ promptstruktur som veileder modellens vurdering. HÞyre: ordskyer som oppsummerer endringer i fÞlelser, identitet, scenefortelling, intensjon, maktdynamikk og etiske bekymringer pÄ tvers av datasettet.

Beskrivelser av identitetsskifter inkluderte begreper som yngre, lekenog sÄrbare, som viser hvordan smÄ endringer kunne pÄvirke hvordan enkeltpersoner ble oppfattet. Intensjonen bak mange redigeringer ble merket som overbevisende, villedendeeller estetiskSelv om de fleste redigeringene ble vurdert til Ä reise kun milde etiske bekymringer, ble en liten andel sett pÄ som Ä ha moderate eller alvorlige etiske implikasjoner.

Eksempler fra MultiFakeVerse som viser hvordan smÄ redigeringer endrer seerens oppfatning. Gule bokser fremhever de endrede omrÄdene, med tilhÞrende analyse av endringer i fÞlelser, identitet, narrativ og etiske bekymringer.

Eksempler fra MultiFakeVerse som viser hvordan smÄ redigeringer endrer seerens oppfatning. Gule bokser fremhever de endrede omrÄdene, med tilhÞrende analyse av endringer i fÞlelser, identitet, narrativ og etiske bekymringer.

Metrics

Den visuelle kvaliteten til MultiFakeVerse-samlingen ble evaluert ved hjelp av tre standardmÄlinger: Topp signal-til-stÞy-forhold (PSNR); Strukturell likhetsindeks (SSIM); og Fréchet Begynnelsesavstand (FID):

Bildekvalitetspoeng for MultiFakeVerse mÄlt med PSNR, SSIM og FID.

Bildekvalitetspoeng for MultiFakeVerse mÄlt med PSNR, SSIM og FID.

SSIM-poengsummen pÄ 0.5774 gjenspeiler en moderat grad av likhet, i samsvar med mÄlet om Ä bevare mesteparten av bildet samtidig som man bruker mÄlrettede redigeringer; FID-poengsummen pÄ 3.30 antyder at de genererte bildene opprettholder hÞy kvalitet og mangfold; og en PSNR-verdi pÄ 66.30 desibel indikerer at bildene beholder god visuell gjengivelse etter manipulasjon.

Brukerstudie

En brukerstudie ble gjennomfĂžrt for Ă„ se hvor godt folk kunne oppdage de subtile forfalskningene i MultiFakeVerse. Atten deltakere ble vist femti bilder, jevnt fordelt mellom ekte og manipulerte eksempler som dekket en rekke redigeringstyper. Hver person ble bedt om Ă„ klassifisere om bildet var ekte eller falskt, og, hvis falskt, Ă„ identifisere hvilken type manipulasjon som hadde blitt brukt.

Den totale nĂžyaktigheten for Ă„ avgjĂžre om bildene var ekte eller falske var 61.67 prosent, noe som betyr at deltakerne feilklassifiserte bilder i mer enn en tredjedel av tilfellene.

Forfatterne sier:

Ved analyse av menneskelige prediksjoner av manipulasjonsnivÄer for de falske bildene ble det gjennomsnittlige skjÊringspunktet over forening mellom de predikerte og faktiske manipulasjonsnivÄene funnet Ä vÊre 24.96 %.

«Dette viser at det ikke er trivielt for menneskelige observatÞrer Ä identifisere omrÄdene med manipulasjoner i datasettet vÄrt.»

Å bygge MultiFakeVerse-datasettet krevde omfattende beregningsressurser: for Ă„ generere redigeringsinstruksjoner ble det gjort over 845,000 1000 API-kall til Gemini- og GPT-modeller, og disse oppgavene kostet rundt $2,867; Ă„ produsere Gemini-baserte bilder kostet omtrent $1; og Ă„ generere bilder ved hjelp av GPT-Image-200 kostet omtrent $6000. ICEdit-bilder ble opprettet lokalt pĂ„ en NVIDIA AXNUMX GPU, og oppgaven ble fullfĂžrt pĂ„ omtrent tjuefire timer.

Tester

FĂžr testene ble datasettet Divided i trenings-, validerings- og testsett ved fĂžrst Ă„ velge 70 % av de virkelige bildene for trening, 10 prosent for validering og 20 prosent for testing. De manipulerte bildene som ble generert fra hvert virkelige bilde ble tilordnet det samme settet som den tilsvarende originalen.

Ytterligere eksempler pÄ reelt (venstre) og endret (hÞyre) innhold fra datasettet.

Ytterligere eksempler pÄ reelt (venstre) og endret (hÞyre) innhold fra datasettet.

Ytelsen til Ä oppdage forfalskninger ble mÄlt ved hjelp av nÞyaktighet pÄ bildenivÄ (om systemet korrekt klassifiserer hele bildet som ekte eller falskt) og F1 scorerFor Ä lokalisere manipulerte omrÄder ble evalueringen brukt OmrÄde under kurven (AUC), F1-poengsummer og kryss over fagforening (IoU).

MultiFakeVerse-datasettet ble brukt mot ledende deepfake-deteksjonssystemer pÄ hele testsettet, med de konkurrerende rammeverkene som CnnSpot; AntifakePrompt; TruFor; og det visjonssprÄkbaserte AIDSHver modell ble fÞrst evaluert i nullskudd modus, ved Ä bruke den opprinnelige forhÄndstrente vekter uten ytterligere justering.

To modeller, CnnSpot og SIDA, ble deretter finjustert pÄ MultiFakeVerse-treningsdata for Ä vurdere om omtrening forbedret ytelsen.

Resultater av dypfalskedeteksjon pÄ MultiFakeVerse under nullpunkts- og finjusteringsforhold. Tall i parentes viser endringer etter finjustering.

Resultater av dypfalskedeteksjon pÄ MultiFakeVerse under nullpunkts- og finjusteringsforhold. Tall i parentes viser endringer etter finjustering.

Av disse resultatene sier forfatterne:

«Modellene som ble trent pÄ tidligere forfalskninger basert pÄ inpainting, sliter med Ä identifisere vÄre VLM-redigeringsbaserte forfalskninger, spesielt CNNSpot har en tendens til Ä klassifisere nesten alle bildene som ekte. AntifakePrompt har den beste ytelsen ved null skudd med 66.87 % gjennomsnittlig klassemessig nÞyaktighet og 55.55 % F1-poengsum.»

«Etter finjustering av togsettet vÄrt observerer vi en ytelsesforbedring i bÄde CNNSpot og SIDA-13B, der CNNSpot overgÄr SIDA-13B bÄde nÄr det gjelder gjennomsnittlig klassevis nÞyaktighet (med 1.92 %) og F1-score (med 1.97 %).»

SIDA-13B ble evaluert pÄ MultiFakeVerse for Ä mÄle hvor presist den kunne lokalisere de manipulerte omrÄdene i hvert bilde. Modellen ble testet bÄde i nullbildemodus og etter finjustering pÄ datasettet.

I sin opprinnelige tilstand nÄdde den en intersection-over-union-score pÄ 13.10, en F1-score pÄ 19.92 og en AUC pÄ 14.06, noe som gjenspeiler svak lokaliseringsytelse.

Etter finjustering forbedret poengsummene seg til 24.74 for IoU, 39.40 for F1 og 37.53 for AUC. Selv med ekstra trening hadde modellen imidlertid fortsatt problemer med Ä finne nÞyaktig hvor endringene hadde blitt gjort, noe som understreker hvor vanskelig det kan vÊre Ä oppdage denne typen smÄ, mÄlrettede endringer.

Konklusjon

Den nye studien avdekker en blind flekk i bÄde menneskelig og maskinell oppfatning: mens mye av den offentlige debatten rundt deepfakes har fokusert pÄ identitetsbytter som har fÄtt overskrifter, er disse mer stille «narrative endringene» vanskeligere Ä oppdage og potensielt mer korroderende pÄ lang sikt.

Etter hvert som systemer som ChatGPT og Gemini tar en mer aktiv rolle i Ä generere denne typen innhold, og ettersom vi selv i Þkende grad delta Ved Ä endre virkeligheten til vÄre egne fotostrÞmmer, kan deteksjonsmodeller som er avhengige av Ä oppdage grove manipulasjoner tilby utilstrekkelig forsvar.

Det MultiFakeVerse demonstrerer er ikke at deteksjonen har mislyktes, men at i det minste deler av problemet kan vÊre i ferd med Ä endre seg til en vanskeligere og langsommere form: en form der smÄ visuelle lÞgner hoper seg opp ubemerket.

 

FĂžrst publisert torsdag 5. juni 2025

Forfatter pÄ maskinlÊring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai