Anslut dig till vårt nätverk!

Andersons vinkel

Självverifierande bilder genom enkel JPEG-komprimering

mm
Källa: https://www.pexels.com/photo/woman-in-gray-tank-top-showing-distress-3812745/

Oron för riskerna med manipulerade bilder har dykt upp regelbundet i forskningen under de senaste åren, särskilt i ljuset av en ny ökning av AI-baserad ramar för bildredigering kan ändra befintliga bilder, snarare än att skapa dem direkt.

De flesta av de föreslagna detekteringssystem som adresserar denna typ av innehåll faller i ett av två läger: det första är vattenmärkning - a reservtillvägagångssätt inbyggd i ramverket för bildsäkerhet som nu främjas av Coalition for Content Provenance and Authenticity (C2PA).

C2PA-vattenmärkningsproceduren är en reserv, om bildinnehållet skulle separeras från det ursprungliga och pågående manifestet. Källa: https://www.imatag.com/blog/enhancing-content-integrity-c2pa-invisible-watermarking

C2PA-vattenmärkningsproceduren är en reservlösning om bildinnehållet skulle separeras från sitt ursprungliga och pågående proveniens-"manifest". Källa: https://www.imatag.com/blog/enhancing-content-integrity-c2pa-invisible-watermarking

Dessa ”hemliga signaler” måste därefter vara robusta mot de automatiska omkodnings-/optimeringsprocedurer som ofta sker när en bild överförs via sociala nätverk och över portaler och plattformar – men de är ofta inte motståndskraftiga mot den typ av förlustbringande omkodning som tillämpas genom JPEG-komprimering (och trots konkurrens från pretendenter som t.ex webp, JPEG-formatet används fortfarande för en uppskattning 74.5 % av alla webbplatsbilder).

Det andra tillvägagångssättet är att göra bilder manipuleringsuppenbara, som från början föreslagen i 2013 års tidning Bildintegritetsautentiseringsschema baserat på fixpunktsteori. Istället för att förlita sig på vattenstämplar eller digitala signaturer använde denna metod en matematisk transformation som kallas Gaussisk konvolution och dekonvolution (GCD) för att skjuta bilder mot ett stabilt tillstånd som skulle gå sönder om de ändrades.

En manipuleringslokalisering resulterar i en fast punktbild med ett PSNR på 59.7802 dB. Vita rektanglar indikerar de regioner som utsatts för attacker. Panel A (vänster) visar de tillämpade ändringarna, inklusive lokaliserat brus, filtrering och kopieringsbaserade attacker. Panel B (höger) visar motsvarande detekteringsutgång och markerar de manipulerade områdena som identifierats av autentiseringsprocessen. Källa: https://arxiv.org/pdf/1308.0679

Från artikeln 'Image Integrity Authentication Scheme Based On Fixed Point Theory': resultat från manipuleringslokalisering med en fixpunktsbild med ett maximalt signal-brusförhållande (PSNR) på 59.7802 dB. Vita rektanglar indikerar de områden som utsatts för attacker. Panel A (vänster) visar de tillämpade modifieringarna, inklusive lokaliserat brus, filtrering och kopieringsbaserade attacker. Panel B (höger) visar motsvarande detekteringsutgång och markerar de manipulerade områden som identifierats av autentiseringsprocessen. Källa: https://arxiv.org/pdf/1308.0679

Konceptet är kanske lättast att förstå i samband med att reparera en ömtålig spetsduk: oavsett hur fint hantverket som används för att lappa filigranen, kommer den reparerade delen oundvikligen att kunna urskiljas.

Denna typ av transformation, när den tillämpas upprepade gånger på en gråskalebild, skjuter den gradvis mot ett tillstånd där transformationen tillämpas igen ger ingen ytterligare förändring.

Denna stabila version av bilden kallas en fixpunkt. Fasta punkter är sällsynta och mycket känsliga för förändringar – varje liten modifiering av en bild med fast punkt kommer nästan säkert att bryta dess fixerad status, vilket gör det enkelt att upptäcka manipulering.

As vanligt med sådana tillvägagångssätt, kan artefakterna från JPEG-komprimering hota schemats integritet:

Till vänster ser vi en vattenstämpel som appliceras på ansiktet på den ikoniska "Lenna"-bilden (Lena), som är tydlig under normal komprimering. Till höger, med 90 % JPEG-komprimering, kan vi se att skillnaden mellan den upplevda vattenstämpeln och tillväxten av JPEG-brus minskar. Efter flera återsparningar, eller vid de högsta komprimeringsinställningarna, möter majoriteten av vattenmärkningsscheman problem med JPEG-komprimeringsartefakter. Källa: https://arxiv.org/pdf/2106.14150

Till vänster ser vi en vattenstämpel applicerad på framsidan av den ikoniska "Lenna"-bilden, vilken är tydlig under normal komprimering. Till höger, med 90 % JPEG-komprimering, kan vi se att skillnaden mellan den upplevda vattenstämpeln och tillväxten av JPEG-brus minskar. Efter flera omsparningar, eller vid de högsta komprimeringsinställningarna, stöter majoriteten av vattenstämpelscheman på problem med JPEG-komprimeringsartefakter. Källa: https://arxiv.org/pdf/2106.14150

Tänk om istället JPEG-komprimeringsartefakter faktiskt kunde användas som det centrala sättet att få en fast punkt? I ett sådant fall skulle det inte finnas något behov av extra bult-on-system, eftersom samma mekanism som vanligtvis orsakar problem för vattenmärkning och manipuleringsdetektering istället skulle utgöra grunden för själva manipuleringsdetekteringsramverket.

JPEG-komprimering som säkerhetsbaslinje

Ett sådant system läggs fram i en nytt papper från två forskare vid University of Buffalo vid State University of New York. Betitlad Förbättringssäker bild med JPEG-fixpunkter, det nya erbjudandet bygger vidare på verket från 2013 och relaterade verk genom att officiellt formulera dess centrala principer för första gången, samt genom att på ett sinnrikt sätt utnyttja JPEG-komprimering som en metod för att potentiellt producera en "självautentiserings" bild.

Författarna utökar:

"Studien avslöjar att en bild blir oförändrad efter att ha genomgått flera omgångar av samma JPEG-komprimerings- och dekomprimeringsprocess.

"Med andra ord, om en enda cykel av JPEG-komprimering och dekomprimering betraktas som en transformation av bilden, kallad en JPEG-transformation, så uppvisar denna transformation egenskapen att ha fasta punkter, dvs. bilder som förblir oförändrade när JPEG-transformationen tillämpas."

Från den nya tidningen, en illustration av JPEG-fixpunktskonvergens. I den översta raden ser vi en exempelbild som genomgår upprepad JPEG-komprimering, där varje iteration visar antalet och platsen för ändrade pixlar; på den nedre raden plottas det pixelmässiga L2-avståndet mellan på varandra följande iterationer över olika inställningar för komprimeringskvalitet. Ironiskt nog finns ingen bättre upplösning på denna bild tillgänglig. Källa: https://arxiv.org/pdf/2504.17594

Från den nya tidningen, en illustration av JPEG-fixpunktskonvergens. I den översta raden ser vi en exempelbild som genomgår upprepad JPEG-komprimering, där varje iteration visar antalet och platsen för ändrade pixlar; på den nedre raden plottas det pixelmässiga L2-avståndet mellan på varandra följande iterationer över olika inställningar för komprimeringskvalitet. Ironiskt nog finns ingen bättre upplösning på denna bild tillgänglig. Källa: https://arxiv.org/pdf/2504.17594

Istället för att introducera externa transformationer eller vattenstämplar, definierar det nya papperet själva JPEG-processen som ett dynamiskt system. I den här modellen flyttar varje komprimerings- och dekompressionscykel bilden mot en fast punkt. Författarna bevisar att, efter ett ändligt antal iterationer, någon bild antingen når eller närmar sig ett tillstånd där ytterligare komprimering inte kommer att ge någon förändring.

Forskarna konstaterar*:

"Alla ändringar av bilden kommer att orsaka avvikelser från JPEG-fixpunkterna, vilket kan upptäckas som förändringar i JPEG-blocken efter en enda omgång av JPEG-komprimering och -dekomprimering...

"De föreslagna manipulationssäkra bilderna baserade på JPEG-fixpunkter har två fördelar. För det första eliminerar manipuleringssäkra bilder behovet av extern lagring av verifierbara funktioner, som krävs av bildfingeravtryck [system], eller inbäddning av dolda spår, som i metoder för bildvattenmärkning. Bilden i sig fungerar som dess bevis på äkthet, vilket gör schemat i sig självklart.

"För det andra, eftersom JPEG är ett allmänt använt format och ofta det sista steget i bildbehandlingspipelinen, är den föreslagna metoden motståndskraftig mot JPEG-operationer. Detta står i kontrast till originalet [tillvägagångssätt] som kan förlora integritetsspår på grund av JPEG.

Artikelns viktigaste insikt är att JPEG-konvergens inte bara är en biprodukt av dess design utan ett matematiskt oundvikligt resultat av dess operationer. Den diskreta cosinustransformationen, kvantiseringen, avrundningen och trunkeringen bildar tillsammans en transformation som (under rätt förhållanden) leder till en förutsägbar uppsättning fixpunkter.

Schema för JPEG-komprimering/dekomprimeringsprocessen formulerat för det nya arbetet.

Schema för JPEG-komprimering/dekomprimeringsprocessen formulerat för det nya arbetet.

Till skillnad från vattenmärkning kräver denna metod ingen inbäddad signal. Den enda referensen är bildens egen konsistens under ytterligare komprimering. Om rekomprimering inte ger någon förändring antas bilden vara äkta. Om den gör det, indikeras manipulering av avvikelsen.

Tester

Författarna validerade detta beteende med hjälp av en miljon slumpmässigt genererade åtta gånger åtta fläckar av åtta-bitars gråskalebilddata. Genom att applicera upprepad JPEG-komprimering och dekompression på dessa syntetiska lappar, observerade de att konvergens till en fast punkt sker inom ett ändligt antal steg. Denna process övervakades genom att mäta pixelvis L2 avstånd mellan på varandra följande iterationer, där skillnaderna minskar tills plåstren stabiliserats.

L2-skillnad mellan på varandra följande iterationer för en miljon 8×8-lappar, mätt under varierande JPEG-komprimeringskvaliteter. Varje process börjar med en enda JPEG-komprimerad patch och spårar minskningen av skillnaden över upprepade komprimeringar.

L2-skillnad mellan på varandra följande iterationer för en miljon 8×8-lappar, mätt under varierande JPEG-komprimeringskvaliteter. Varje process börjar med en enda JPEG-komprimerad patch och spårar minskningen av skillnaden över upprepade komprimeringar.

För att utvärdera manipuleringsdetektering konstruerade författarna manipuleringssäkra JPEG-bilder och tillämpade fyra typer av attacker: salt och peppar buller; kopiera-flytta operationer; skarvning från externa källor; Och dubbel JPEG-komprimering med en annan kvantiseringstabell.

Exempel på RGB-bilder med fixpunkt med detektering och lokalisering av manipulering, inklusive de fyra störningsmetoderna som används av författarna. På den nedre raden kan vi se att varje störningsstil förråder sig själv, i förhållande till den genererade fixpunktsbilden.

Exempel på RGB-bilder med fixpunkt med detektering och lokalisering av manipulering, inklusive de fyra störningsmetoderna som används av författarna. På den nedre raden kan vi se att varje störningsstil förråder sig själv, i förhållande till den genererade fixpunktsbilden.

Efter manipulering komprimerades bilderna igen med originalet kvantisering matris. Avvikelser från den fasta punkten upptäcktes genom att identifiera bildblock som uppvisade skillnader från noll efter återkomprimering, vilket möjliggör både detektering och lokalisering av manipulerade områden.

Eftersom metoden helt och hållet är baserad på standard JPEG-operationer fungerar fixpunktsbilder alldeles utmärkt med vanliga JPEG-visare och -redigerare; men författarna noterar att om bilden komprimeras om på en annan kvalitetsnivå kan den förlora sin fixpunktsstatus, vilket kan bryta autentiseringen och måste hanteras försiktigt i verklig användning.

Även om detta inte bara är ett verktyg för att analysera JPEG-utdata, tillför det inte mycket komplexitet. I princip skulle det kunna läggas in i befintliga arbetsflöden med minimal kostnad eller störning.

Artikeln medger att en sofistikerad motståndare kan försöka skapa förändringar som bevarar statusen som en fast punkt; men forskarna hävdar att sådana ansträngningar sannolikt skulle introducera synliga artefakter, vilket undergräver attacken.

Även om författarna inte hävdar att fastpunkts-JPEG-filer skulle kunna ersätta bredare härkomstsystem som C2PA, föreslår de att fastpunktsmetoder skulle kunna komplettera externa metadataramverk genom att erbjuda ett ytterligare lager av manipuleringsbevis som kvarstår även när metadata tas bort eller förloras.

Slutsats

JPEG-fixpunktsmetoden erbjuder ett enkelt och fristående alternativ till konventionella autentiseringssystem, som inte kräver inbäddade metadata, vattenstämplar eller externa referensfiler, och istället härleds autenticitet direkt från det förutsägbara beteendet i komprimeringsprocessen.

På så sätt återvinner metoden JPEG-komprimering – en frekvent källa till dataförsämring – som en mekanism för integritetsverifiering. I detta avseende är det nya dokumentet ett av de mest innovativa och uppfinningsrika tillvägagångssätten till problemet som jag har stött på under de senaste åren.

Det nya arbetet pekar på en förskjutning bort från skiktade tillägg för säkerhet, och mot tillvägagångssätt som bygger på själva medias inbyggda egenskaper. När manipulationsmetoderna blir mer sofistikerade kan tekniker som testar bildens egen inre struktur börja spela större roll.

Vidare introducerar många alternativa system som föreslagits för att ta itu med detta problem betydande friktion genom att kräva förändringar av sedan länge etablerade bildbehandlingsarbetsflöden – av vilka några har fungerat tillförlitligt i år, eller till och med årtionden, och som skulle kräva en mycket starkare motivering för omverktyg.

 

* Min konvertering av författarnas inline-citat till hyperlänkar.

Publicerad första gången fredagen den 25 april 2025

Skribent på maskininlärning, domänspecialist på mänsklig bildsyntes. Tidigare chef för forskningsinnehåll på Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai