Andersons vinkel

Gendannelse af det, som din kamera optog, før AI ændrede det

mm
AI-generated image (GPT-2). A photographer examines an open DSLR as a stream of colorful fantasy creatures and glowing imagery bursts out, while he reacts with focused, subdued surprise in a studio setting.

Hvordan kan du beskytte autenticiteten af et råt fotografi fra AI-indgreb, når det allerede er blevet automatisk kørt igennem AI inden i kameraet? Ny forskning søger at genskabe ‘sand’ sensor-data – også med AI!

 

Stigningen i autenticiteten af AI-billeder i det sidste år eller så har ført til, at mange grupper og enkeltpersoner har rejst sig imod den efterfølgende erosion af tillid til fotografi.

I samme periode har Coalition for Content Provenance and Authenticity (C2PA) forsøgt at udvikle en semi-kryptografisk standard, der tilføjer metadata-baseret proveniensinformation til et billede, fra det øjeblik det bliver fanget af et understøttet kamera eller enhed, i håb om at afsløre enhver efterfølgende brug af generativ AI på disse ‘originale’ billeder:

Schema over proveniens i C2PA-systemet, hvor metadata skrevet ved fangetidspunktet kan tilføjes som en dagbog, der tillader almindelige justeringer som lysstyrke og kontrast, men optager større justeringer, så et kraftigt AI-ændret billede vil vise sig som sådan i mediekanaler, der understøtter dette system. Kilde - https://spec.c2pa.org/specifications/specifications/1.2/specs/

Schema over proveniens i C2PA-systemet, hvor metadata skrevet ved fangetidspunktet kan tilføjes som en dagbog, der tillader almindelige justeringer som lysstyrke og kontrast, men optager større justeringer, så et kraftigt AI-ændret billede vil vise sig som sådan i mediekanaler, der understøtter dette system. Kilde

Adoptionen af standarden har ikke været så udbredt som koalitionen havde håbet, og i øjeblikket kun 14 kameras understøtter indbygget aftrykning af autenticitetsinformationen.

Hvad der er interessant ved C2PA’s idé om at give et billede en ‘pas’ så snart det kommer til verden, er, at det på det tidspunkt kan være for sent – fordi kamerafabrikanter nu rutinemæssigt indbygger AI-behandling i selv skabelsen af billedet:

Fra 2024-papiret 'Advocating Pixel-Level Authentication of Camera-Captured Images': en illustration af, hvordan moderne kamera-pipelines introducerer hallucineret indhold ved fangetidspunktet og hvordan pixel-niveau-autentificerings-metadata afslører det. I (A) bliver et smartphone-sensorbillede behandlet af ISP, hvor AI-moduler kan opfinde detaljer under digital zoom eller eksponeringskorrektion, og producerer realistiske billeder med fejl som f.eks. mislæste nummerplade-cifre. I (B) bliver en autentificeringsmaske indlejret som metadata og senere lagt over for at afsløre ikke-autentiske områder, og tillader brugere at skelne mellem originaldata og AI-ændrede pixler. Kilde – https://ieeexplore.ieee.org/ielx7/6287639/10380310/10478521.pdf?tp=&arnumber=10478521&isnumber=10380310&ref=aHR0cHM6Ly9zY2hvbGFyLmdvb2dsZS5jb20ucHkv

Fra 2024-papiret ‘Advocating Pixel-Level Authentication of Camera-Captured Images’: en illustration af, hvordan moderne kamera-pipelines introducerer hallucineret indhold ved fangetidspunktet og hvordan pixel-niveau-autentificerings-metadata afslører det. I (A) bliver et smartphone-sensorbillede behandlet af ISP, hvor AI-moduler kan opfinde detaljer under digital zoom eller eksponeringskorrektion, og producerer realistiske billeder med fejl som f.eks. mislæste nummerplade-cifre. I (B) bliver en autentificeringsmaske indlejret som metadata og senere lagt over for at afsløre ikke-autentiske områder, og tillader brugere at skelne mellem originaldata og AI-ændrede pixler. Kilde

I virkeligheden kan denne AI-‘indgreb’ i fanget af rådata fra kameraets sensor muligvis endda blive det dominerende proces.

Dette slags efterbehandling er ikke det samme som den nuværende trend for at ændre billeder i kameraet, hvor en telefon-app eller en kamera-app tillader brugeren at omoverveje et billede i ro og mag, før det er downloadet fra enheden.

Snarere sker behandlingen i en ‘sort boks’-rutine i kameraets Image Signal Processor (ISP), normalt i en proprietær runtime, der ikke eksponerer eller gør rå sensor-data tilgængeligt (og overvej, at den såkaldte ‘rene’ kamera-RAW-format ikke er så ‘ren’).

Derfor, når du kan se billedet overhovedet, kan det være blevet udsat for AI-baserede forbedringer som f.eks. lav-lys-forbedring, opskalering eller endda måne-erstatning.

I mange tilfælde kan dette føre til ukorrekte rekonstruktioner, f.eks. af tekst, der muligvis kan ugyldiggøre brugen af sådant et billede som bevis, da et sandt ‘råt’ billede ikke ville være tilgængeligt:

Fra det nye papir - et råt sensorbillede bliver behandlet af en GenAI-aktiveret ISP for at producere en slut-sRGB-udgang, der ser klarere ud, men kan indeholde hallucinerede detaljer, som vist i nummerplade-eksemplet, hvor karaktererne er forkert antaget under digital zoom. Den sande scene, der ikke er tilgængelig i praksis, adskiller sig fra både det AI-forbedrede udgang og det mellemlege autentiske billede før hallucinationen. Den foreslåede tilgang muliggør genskabelse af dette for-hallucinationsbillede, og genskaber, hvad kameraoptikken oprindeligt optog, før AI-baserede forbedringer ændrede indholdet. Kilde - https://arxiv.org/pdf/2604.21879

Fra det nye papir – et råt sensorbillede bliver behandlet af en GenAI-aktiveret ISP for at producere en slut-sRGB-udgang, der ser klarere ud, men kan indeholde hallucinerede detaljer, som vist i nummerplade-eksemplet, hvor karaktererne er forkert antaget under digital zoom. Den sande scene, der ikke er tilgængelig i praksis, adskiller sig fra både det AI-forbedrede udgang og det mellemlege autentiske billede før hallucinationen. Den foreslåede tilgang muliggør genskabelse af dette for-hallucinationsbillede, og genskaber, hvad kameraoptikken oprindeligt optog, før AI-baserede forbedringer ændrede indholdet. Kilde

De ovenstående eksempler kommer fra et nyt forskningspapir, der tilbyder en løsning på ‘native AI-fotografier’, ved hjælp af alternative AI-processer til at rekonstruere det anslåede rå og uforfalskede billede fra det behandlede billede.

Forfatterne skriver:

‘Når AI-modeller trænes med generative eller perceptuelle tab, er de tilbøjelige til at hallucinere indhold, og kan muligvis ændre billedets [betydning]. Implikationen er, at billeder, der direkte udgår fra kameraet, kan indeholde “falsk” indhold, især i smartphone-kameraer, hvor AI-ISP-moduler ser en øget adoption.

‘Brugen af GenAI i kamera-hardware markerer en paradigm-skift i, hvordan vi ser på kamera-billeder, og udfordrer den traditionelle forensiske opfattelse af kamera-optagne billeder som intrinsic tillidværdige.’

Det nye arbejde bruger en meget let encoder og MLP-decoder, der kan indlejres i billedet med en vægtstraf på kun 180kb. Målet er udviklingen af kodningssystemer, der er hurtige nok til at genskabe det originale billede i realtid.

Fra det nye papir: GenAI-baseret super-resolution inden for kameraets ISP kan subtilt ændre ansigtsudtryk, skifte udseende eller opfattet identitet gennem ændringer i blik og mundform. Lav-lys-forbedring kan ligeså ændre billedindhold, og påvirke fortolkningen, selvom den forbedrer billedkvaliteten. I QR-kode-eksemplet gør forbedringen billedet mere tiltalende, men gør koden ulæselig. Metoden muliggør genskabelse af det autentiske billede før hallucinationerne, og genskaber originale ansigtsdetaljer og en scannbar QR-kode.

Fra det nye papir: GenAI-baseret super-resolution inden for kameraets ISP kan subtilt ændre ansigtsudtryk, skifte udseende eller opfattet identitet gennem ændringer i blik og mundform. Lav-lys-forbedring kan ligeså ændre billedindhold, og påvirke fortolkningen, selvom den forbedrer billedkvaliteten. I QR-kode-eksemplet gør forbedringen billedet mere tiltalende, men gør koden ulæselig. Metoden muliggør genskabelse af det autentiske billede før hallucinationerne, og genskaber originale ansigtsdetaljer og en scannbar QR-kode.

Alternativt kunne kamerafabrikanterne give brugerne adgang til de virkelig uomullede sensor-dumps; men dette synes sandsynligt at blive begrænset til meget højendekameraer. I den mobile og forbruger-orienterede verden er det desværre sandsynligt, at adgang til ikke-behandlede billeder vil blive betragtet som en ‘niche’- eller marginal interesse.

Medens forbruger-kameraer altid har anvendt en vis grad af efterbehandling, før udviklingen af edge-AI, var de algoritmer, der blev anvendt, minimalt ‘fortolkningsfulde’, og ikke sandsynligt at ændre billedindholdet på samme måde, som nuværende AI-metoder kan.

Interessant nok, når man overvejer, hvor meget Samsungs ‘måne-erstatningspolitik’ var udsat for offentlig kritik for nogle år siden, er Samsungs AI-center i Toronto en af deltagerne i det nye arbejde, der har titlen Addressing Image Authenticity When Cameras Use Generative AI, og er ledt af bidrag fra fem forskere fra University of Toronto.

Metode

Forfatterne bruger den eneste anden projekt, der synes at have direkte adresseret problemet med perturbation-by-design: 2024-papiret Advocating Pixel-Level Authentication of Camera-Captured Images, der foreslog en ‘binær autentificeringsmaske’, der afgrænsede områder, der var ændret af kameraets AI-processer:

Længst til højre, viser 2024-papirets 'autentificeringsmaske' områder af himlen, der er påvirket af AI-'glattende'-processer i et kamera.

Højre, viser 2024-papirets ‘autentificeringsmaske’ områder af himlen, der er påvirket af AI-‘glattende’-processer i et kamera.

Men systemet tilbød ingen metode til at genskabe et ‘sandt’ billede, hvilket det nye arbejde adresserer, mens det anerkender en skyld til den tidligere udgave.

Formålet med det nye arbejde er at enable brugere til at genskabe et billede, der er så tæt på, som muligt, på det, der faktisk ramte sensoren, før behandlingen fandt sted:

Oversigt over den foreslåede metode. I (A), ved fangetidspunktet, bliver ISP-udgangsbilledet, der indeholder hallucinationer, passeret gennem en frosset forudtrænet encoder, og dets latente funktioner kombineres med rumlige koordinater og fødes ind i en MLP, der opererer per pixel for at forudsige det ikke-hallucinerede billede, med træning guidet af et tab mod det autentiske billede. Encoder- og MLP-vægtene gemmes derefter som metadata sammen med billedet. I (B), ved inference, bliver disse vægte hentet fra metadata og brugt med encoder og MLP til at rekonstruere det ikke-hallucinerede billede.

Oversigt over den foreslåede metode. I (A), ved fangetidspunktet, bliver ISP-udgangsbilledet, der indeholder hallucinationer, passeret gennem en frosset forudtrænet encoder, og dets latente funktioner kombineres med rumlige koordinater og fødes ind i en MLP, der opererer per pixel for at forudsige det ikke-hallucinerede billede, med træning guidet af et tab mod det autentiske billede. Encoder- og MLP-vægtene gemmes derefter som metadata sammen med billedet. I (B), ved inference, bliver disse vægte hentet fra metadata og brugt med encoder og MLP til at rekonstruere det ikke-hallucinerede billede.

Ved fangetidspunktet, i den nye metode, bliver det behandlede billede passeret gennem en frosset encoder, der konverterer det til en kompakt latent repræsentation. Herefter kombineres de relevante rumlige koordinater med disse funktioner og fødes ind i en letvægts-MLP, der opererer på en per-pixel-basis, for at forudsige det originale billedindhold – lærer, effektivt, at trække hallucinerede elementer fra, gennem en rekonstruktions-tab, mod autentiske mål.

Encoder og decoder er forudtrænet på parrede autentiske og hallucinerede billeder, derefter hurtigt fine-tuned for hvert fanget billede, med deres vægte gemt som metadata sammen med billedet selv, og tilføjer kun en lille størrelses-overhead.

Ved visningstidspunktet bliver disse gemte vægte hentet og genbrugt til at køre den samme encoder og MLP, og enable genskabelse af et billede, der næsten approximerer, hvad kamera-sensoren oprindeligt optog, uden at introducere nyt syntetisk indhold.

Data og Tests

Forfatterne testede den nye metode ved hjælp af to af de mest almindeligt implementerede ISP-efterbehandlingsopgaver: super-resolution (SR, herunder for zoomeområder); og lav-lys-fotografering.

For den generelle (‘naturlige billed’) SR-sektion af testene, var mange eksempler på tekst inkluderet i data, da ISP SR-rutiner er kendt for at have ændret tekst (f.eks. nummerplade-cifre, men se eksempler tidligere i artiklen). Da tekst-forvrængning er et diskret problem i sig selv, blev dette behandlet som en undergruppe af SR-testene, med dedikeret data.

Den ovenstående encoder blev trænet for hver af de to modaliteter, der blev testet, og hver blev valgt ud fra, hvilken AI-ISP-modul der sandsynligvis ville blive aktiveret under fanget.

Forfatterne brugte DIV2K-datasettet til super-resolutionstræning, drevet af den populære RealESRGAN-netværk. I overensstemmelse med den ovenstående 2024-arbejde om ISP-indgreb, genererede forskerne parrede data med upåvirkede og hallucinerede indhold.

For tekst-SR-sektionen brugte forfatterne 2023-MARCONet-tekst-SR-modellen:

Fra 2023-MARCONet-papiret, eksempler på virkelige lav-resolution og tilsvarende opskalerede tekster. Kilde - https://arxiv.org/pdf/2303.14726

Fra 2023-MARCONet-papiret, eksempler på virkelige lav-resolution og tilsvarende opskalerede tekster. Kilde

Til at generere parrede data i dette tilfælde, kørte forskerne ikke-hallucinerede billeder gennem MARCONet. To tusinde billeder blev genereret fra projektets oprindelige kode, med 200 sat til side til validering, sammen med yderligere 200 til test.

For lav-lys-testerne blev LOw-Light-datasettet (LOL) fra en kinesisk papir fra 2018 antaget:

Fra 2018-kinesisk LOL-dataset, bracketed eksempler på de samme billeder ved forskellige eksponeringer og niveauer af mørke og forringelse. Kilde - https://arxiv.org/pdf/1808.04560

Fra 2018-kinesisk LOL-dataset, bracketed eksempler på de samme billeder ved forskellige eksponeringer og niveauer af mørke og forringelse. Kilde

Rivaliserende rammer

For at evaluere metoden blev sammenligninger lavet med tre bestemte baseline-træningsforløb under matchede betingelser. Først blev SIREN og NeRF forudtrænet på parrede autentiske og hallucinerede billeder og derefter finjusteret ved fangetidspunktet for samme varighed som den foreslåede tilgang, og tilbød en direkte sammenligning med NeRF.

Anden, en MLP med en lært kodning baseret på hashgrid-metoden fra Instant-NGP blev brugt, med hash-tabel-poster og MLP samtidigt optimiseret.

Indlejring-størrelsen og netværkskapaciteten blev matchet til mål-encoder og MLP, med eksperimenter, der dækkede både per-billede-optimering fra scratch og forudtræning fulgt af finjustering.

Tredje, en blind billed-til-billede-oversættelses-baseline blev implementeret ved hjælp af en 64MB NAFNet-model, trænet som et pixel-til-pixel regression-system uden adgang til metadata.

I træning blev Adam-optimeringsalgoritmen brugt over PyTorch, både for forudtræning og finjustering. Encoder og MLP blev trænet i 50.000 epoch med en batch-størrelse på 32, med modalitet-specifikke encodere trænet for hver opgave (f.eks. SR, tekst-SR, lav-lys).

Finjustering fandt sted i omkring tre sekunder på en NVIDIA V100-GPU med 32GB VRAM. Forfatterne bemærker, at selvom on-device-optimering er det målrettede miljø og scenario, var det ikke realistisk at implementere dette for alle rammer, og derfor blev alle tests udført i et desktop-miljø:

Ydelses-sammenligning mod metadata-assisterede MLP-baserede baseline, herunder SIREN, NeRF og hash-grid-metoden, samt blind genskabelse ved hjælp af NAFNet. Resultaterne rapporteres som PSNR i decibel over tre opgaver: naturlig billed-super-resolution på DIV2K; tekst-super-resolution på MARCONet; og lav-lys-forbedring på LOL, med den foreslåede metode, der opnår de højeste score i hver sag.

Ydelses-sammenligning mod metadata-assisterede MLP-baserede baseline, herunder SIREN, NeRF og hash-grid-metoden, samt blind genskabelse ved hjælp af NAFNet. Resultaterne rapporteres som PSNR i decibel over tre opgaver: naturlig billed-super-resolution på DIV2K; tekst-super-resolution på MARCONet; og lav-lys-forbedring på LOL, med forfatternes metode, der opnår de højeste score i hver sag.

For MLP-baserede tilgange afhang ydelsen stærkt af input-repræsentationen, hvor modeller, der kun var trænet med rumlige koordinater, kæmpede under forudtræning og ikke kunne forbedre sig under den begrænsede finjusteringsfase. Tilføjelse af farveinformation førte til stærkere resultater.

Blind genskabelse ved hjælp af NAFNet fungerede godt på DIV2K, hvor afbildningen fra degraderet til rent billede var relativt stabil, men brød sammen på MARCONet og LOL, hvor der fandtes multiple plausible rekonstruktioner, og modellen manglede den nødvendige information til at løse denne tvetydighed.

Dette efekt var mest udtalt i lav-lys-forbedring, hvor den oprindelige lysstyrke i scenen ikke kunne pålideligt afledes fra det behandlede billede alene.

Forfatterne skriver:

‘[I] de syntetiske MARCONet-data, mapper billeder med forskellige blur-styrker til det samme hallucinerede billede. Det kan ses fra resultaterne, at vores foreslåede metode overgår konkurrenterne over alle dataset.

I ovenstående sammenligning kan vi se, hvor godt forskellige metoder fungerer afhængigt af, hvor lang tid de får til at køre, når et billede bliver taget. At træne en model fra scratch for hvert billede kan producere stærke resultater, som set med SIREN, NeRF og hash-grid – men dette tager for lang tid til at være praktisk inden for et kamera.

I stedet gør forfatternes metode det meste af arbejdet på forhånd, med en hurtig tilpasning ved fangetidspunktet, og tillader det at levere bedre resultater inden for stramme tidsbegrænsninger (3, 5 eller ti sekunder).

Ydelses-sammenligning mod metadata-assisterede MLP-baserede baseline, herunder SIREN, NeRF og hash-grid-metoden, samt blind genskabelse ved hjælp af NAFNet. Resultaterne rapporteres som PSNR i decibel over tre opgaver: naturlig billed-super-resolution på DIV2K; tekst-super-resolution på MARCONet; og lav-lys-forbedring på LOL, med den foreslåede metode, der opnår de højeste score i hver sag.

Ydelses-sammenligning mod metadata-assisterede MLP-baserede baseline, herunder SIREN, NeRF og hash-grid-metoden, samt blind genskabelse ved hjælp af NAFNet. Resultaterne rapporteres som PSNR i decibel over tre opgaver: naturlig billed-super-resolution på DIV2K; tekst-super-resolution på MARCONet; og lav-lys-forbedring på LOL, med den foreslåede metode, der opnår de højeste score i hver sag. Se venligst kildepapiret for (lidt) bedre opløsning.

Ovenfor vises kvalitative resultater på DIV2K, hvor forbedringsmetoder introducerede synlige hallucinationer. En GAN-baseret super-resolution-model ændrede øjnefarve, og blind genskabelse kæmpede med at rekonstruere det originale billede. NeRF og hash-grid producerede artefakter i strukturerede områder som f.eks. vinduer og tekst, mens den foreslåede metode bedre matchede det autentiske billede.

Til sidst, i figuren ovenfor, ser vi resultater på LOL-datasettet, med lysstyrke skaleret for visualisering.

Blind genskabelse kunne ikke løse den ukendte lysstyrke-skala, mens den foreslåede metode bedre genskabte teksturer og genskabte ændrede karakterer, som f.eks. korrektion af en ‘1’ tilbage til ‘i’, uden at tilføje artefakter.

Konklusion

Det er sandsynligvis ikke diskutabelt, eller har aldrig været diskutabelt, at ‘kameraet lyver aldrig’. Hver beslutning om, hvad der skal fotograferes og hvornår, samt hvordan det skal præsenteres og kontekstualiseres, er i virkeligheden en politisk eller social beslutning.

Even de ældste metoder til efterbehandling, såsom dodging og burning (langt om længe overført til Photoshop-værktøjer), er højst subjektive handlinger af kunstnerisk beslutning og præference.

Men det er ingen grund til at give op på målet om ‘objektive’ billedfangninger; og det synes rimeligt, at den gennemsnitlige forbruger bør have adgang til de ‘umassede’ rå sensor-dumps af de billeder, de tager, hvis de ønsker det; eller at de i det mindste bør have mulighed for at begrænse ISP-efterbehandling til ikke-AI-algoritmer, som de måske foretrækker.

 

Først udgivet fredag, 24. april 2026

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.