Kunstig intelligens

Disney Research Tilbyder Forbedret Billedekompression Basert På AI – Men Den Kan Hallucinere Detaljer

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Disney’s forskningsafdeling tilbyder en ny metode til kompression af billeder, der udnytter den åbne kilde Stable Diffusion V1.2-model til at producere mere realistiske billeder ved lavere bitrate end konkurrerende metoder.

The Disney kompressionsmetode sammenlignet med tidligere tilgange. Forfatterne hævder, at de har forbedret genskabelse af detaljer, samtidig med at de tilbyder en model, der ikke kræver hundredtusinder af dollars i træning, og som opererer hurtigere end den nærmeste tilsvarende konkurrerende metode. Kilde: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den Disney-kompressionsmetode sammenlignet med tidligere tilgange. Forfatterne hævder, at de har forbedret genskabelse af detaljer, samtidig med at de tilbyder en model, der ikke kræver hundredtusinder af dollars i træning, og som opererer hurtigere end den nærmeste tilsvarende konkurrerende metode. Kilde: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den nye metode (defineret som en ‘codec’ trods dens øgede kompleksitet i forhold til traditionelle codecs som JPEG og AV1) kan operere over enhver Latent Diffusion Model (LDM). I kvantitative tests overgår den tidligere metoder i terms of nøjagtighed og detaljer, og kræver betydeligt mindre træning og beregningsomkostninger.

Den centrale indsigt i det nye arbejde er, at kvantiseringsfejl (en central proces i alle billedekompressionsmetoder) er lignende med støj (en central proces i diffusionsmodeller).

Derfor kan et ‘traditionelt’ kvantiseret billede behandles som en støjfuld version af det originale billede og bruges i en LDM’s støjdæmpningsproces i stedet for tilfældig støj, for at genskabe billedet ved en målbitrate.

Yderligere sammenligninger af den nye Disney-metode (markeret med grøn), i modsætning til rivaliserende metoder.

Forfatterne hævder:

‘[Vi] formulerer fjernelsen af kvantiseringsfejl som en støjdæmpningsopgave, ved at bruge diffusion til at genskabe tabt information i den overførte billede-latent. Vores metode tillader os at udføre mindre end 10% af den fulde diffusionsgenereringsproces og kræver ingen arkitektoniske ændringer i diffusionsmodellen, hvilket ermöglicer brugen af grundlæggende modeller som en stærk prior uden yderligere finjustering af backbone.

‘Vores foreslåede codec overgår tidligere metoder i kvantitative realisme-målinger, og vi verificerer, at vores rekonstruktioner er kvalitativt foretrukket af slutbrugere, selv når andre metoder bruger dobbelt så mange bits som vores metode.’

Men, i fællesskab med andre projekter, der søger at udnytte kompressionskapaciteten af diffusionsmodeller, kan outputtet hallucinere detaljer. I modsætning hertil vil tabte metoder som JPEG producere tydeligt forvrængede eller oversmoothede områder af detaljer, som kan genkendes som kompressionsbegrænsninger af den almindelige bruger.

I stedet kan Disney’s codec ændre detaljer fra kontekst, der ikke var til stede i kildebilledet, på grund af den grove natur af Variational Autoencoder (VAE) brugt i typiske modeller trænet på hyperskala-data.

‘Lignende med andre generative tilgange, kan vores metode forkaste visse billedefunktioner, mens den syntheserer lignende information på modtagerens side. I bestemte tilfælde kan dette dog resultere i ukorrekt rekonstruktion, såsom at bøje rette linjer eller forvrænge grænserne for små objekter. ‘

‘Disse er velkendte problemer med grundlæggende modellen, vi bygger på, som kan tilskrives den relativt lave funktiondimension af dets VAE.’

Selvom dette har visse implikationer for kunstneriske fremstillinger og sandheden af almindelige fotografier, kan det have en mere kritisk indvirkning i tilfælde, hvor små detaljer udgør væsentlig information, såsom bevis for retssager, data til ansigtsgenkendelse, scanninger til Optisk Tekstgenkendelse (OCR) og en lang række andre mulige anvendelsesområder, i tilfælde af, at en codec med denne kapacitet bliver populær.

Ved dette spæde stadium af fremskridtet i AI-forbedret billedekompression er alle disse mulige scenarier langt ude i fremtiden. Men, billedegemme er en hyperskala global udfordring, der berører spørgsmål omkring data gemme, streaming og elforbrug, samt andre bekymringer. Derfor kan AI-baseret kompression tilbyde en fristende afvejning mellem nøjagtighed og logistik.

Historien viser, at de bedste codecs ikke altid vinder den bredeste brugerbase, når spørgsmål som licensering og markedsovertagelse af proprietære formater er faktorer i adoptionen.

Disney har eksperimenteret med maskinel læring som en kompressionsmetode i lang tid. I 2020 var en af forskerne på det nye papir involveret i et VAE-baseret projekt til forbedret videokompression.

Det nye Disney-papir blev opdateret i begyndelsen af oktober. I dag udgav virksomheden en tilhørende YouTube-video. Projektet har titlen Lossy Image Compression with Foundation Diffusion Models og kommer fra fire forskere på ETH Zürich (tilknyttet Disney’s AI-baserede projekter) og Disney Research. Forskerne tilbyder også en supplerende papir.

Metode

Den nye metode bruger en VAE til at kode et billede ind i dets komprimerede latent repræsentation. Ved dette stadium består inputbilledet af afledte funktioner – lavniveaudata-baserede repræsentationer. Den latente indlejring kvantiseres herefter tilbage til en bitstrøm og tilbage til pixel-rum.

Dette kvantiserede billede bruges herefter som en skabelon for støjen, der normalt sætter en diffusionsbaseret billede, med en varierende antal støjdæmpningstrin (hvor der ofte er en afvejning mellem øgede støjdæmpningstrin og større nøjagtighed vs. lavere latency og højere effektivitet).

Schema for den nye Disney-kompressionsmetode.

Både kvantiseringsparametrene og det totale antal støjdæmpningstrin kan kontrolleres under det nye system, gennem træningen af et neuralt netværk, der forudsiger de relevante variabler i forhold til disse aspekter af kodning. Denne proces kaldes adaptiv kvantiserings, og Disney-systemet bruger Entroformer-rammen som entropimodellen, der driver proceduren.

Forfatterne siger:

‘Intuitivt lærer vores metode at forkaste information (gennem kvantiserings-transformationen), der kan syntheseres under diffusionsprocessen. Fordi fejl, der introduceres under kvantiseringsprocessen, er lignende med at tilføje [støj] og diffusionsmodeller er funktionelt støjdæmpningsmodeller, kan de bruges til at fjerne kvantiseringsstøjen, der introduceres under kodning.’

Stable Diffusion V2.1 er diffusionsrygningen for systemet, valgt fordi hele koden og basis vægte er offentligt tilgængelige. Men forfatterne understreger, at deres schema er anvendeligt på en bredere række modeller.

Afgørende for økonomien i processen er tidssteg-forudsigelse, som vurderer det optimale antal støjdæmpningstrin – en balancering mellem effektivitet og ydelse.

Tidssteg-forudsigelser, med det optimale antal støjdæmpningstrin markeret med rød ramme. Se venligst kilde-PDF for nøjagtig opløsning.

Mængden af støj i den latente indlejring skal tages i betragtning, når der foretages en forudsigelse for det bedste antal støjdæmpningstrin.

Data og tests

Modellen blev trænet på Vimeo-90k-datasettet. Billederne blev tilfældigt beskåret til 256x256px for hver epoch (dvs. hver fuldstændig indtagelse af det raffinerede dataset af modellens træningsarkitektur).

Modellen blev optimeret for 300.000 trin ved en læringsrate på 1e-4. Dette er det mest almindelige blandt computer vision-projekter og også det laveste og mest finmasket generelt praktisk værdi, som en kompromis mellem bred generalisering af datasettets begreber og træk og en kapacitet til reproduktion af fine detaljer.

Forfatterne kommenterer på nogle af de logistiske overvejelser for et økonomisk, men effektivt system*:

‘Under træning er det forbudt dyrt at backpropagere gradienten gennem multiple gennemløb af diffusionsmodellen, da den kører under DDIM-sampling. Derfor udfører vi kun ét DDIM-sampling-iteration og bruger dette direkte som den fuldstændigt støjdæmpede [data].’

Datasettet, der blev brugt til at teste systemet, var Kodak; CLIC2022; og COCO 30k. Datasettet blev forarbejdet i overensstemmelse med metoden, der er beskrevet i 2023 Google tilbud Multi-Realism Image Compression with a Conditional Generator.

Målinger, der blev brugt, var Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Multiscale Structural Similarity Index (MS-SSIM); og Fréchet Inception Distance (FID).

Rivaliserende tidligere rammer, der blev testet, var inddelt mellem ældre systemer, der brugte Generative Adversarial Networks (GANs), og mere nylige tilbud baseret på diffusionsmodeller. GAN-systemerne, der blev testet, var High-Fidelity Generative Image Compression (HiFiC); og ILLM (som tilbyder nogle forbedringer over HiFiC).

Diffusionsbaserede systemer var Lossy Image Compression with Conditional Diffusion Models (CDC) og High-Fidelity Image Compression with Score-based Generative Models (HFD).

Kvantitative resultater mod tidligere rammer over forskellige dataset.

For de kvantitative resultater (visualiseret ovenfor) siger forskerne:

‘Vores metode sætter en ny standard for realisme af genskabte billeder, overgår alle baseline i FID-bitrate-kurver. I nogle forvrængningsmålinger (navnlig LPIPS og MS-SSIM) overgår vi alle diffusionsbaserede codecs, mens vi forbliver konkurrencedygtige med de højeste generative codecs. ‘

‘Som forventet lider vores metode og andre generative metoder, når de måles i PSNR, da vi favoriserer perceptuelt behagelige rekonstruktioner i stedet for nøjagtig replikation af detaljer.’

For brugerstudiet blev en to-alternativ-tvangsvalg (2AFC)-metode brugt i en turneringskontekst, hvor de foretrukne billeder ville gå videre til senere runder. Studiet brugte Elo-ratingsystemet, der oprindeligt blev udviklet til skakturneringer.

Derfor ville deltagerne se og vælge det bedste af to præsenterede 512x512px-billeder over de forskellige generative metoder. En yderligere eksperiment blev udført, hvor alle billedesammenligninger fra samme bruger blev vurderet via en Monte Carlo-simulation over 10.000 iterationer, med median-scoren præsenteret i resultaterne.

Estimerede Elo-ratings for brugerstudiet, med Elo-turneringer for hver sammenligning (venstre) og også for hver deltager, med højere værdier bedre.

Her kommenterer forfatterne:

‘Som kan ses i Elo-scorene, overgår vores metode betydeligt alle andre, selv i sammenligning med CDC, som bruger i gennemsnit dobbelt så mange bits som vores metode. Dette forbliver sandt, uanset Elo-turneringsstrategi brugt.’

I det oprindelige papir, samt i supplerende PDF, tilbyder forfatterne yderligere visuelle sammenligninger, hvoraf en er vist tidligere i denne artikel. Men, på grund af granulariteten af forskellen mellem prøverne, henviser vi læseren til kilde-PDF, så disse resultater kan vurderes retfærdigt.

Papiret slutter med at bemærke, at deres foreslåede metode opererer to gange så hurtigt som den rivaliserende CDC (3,49 vs 6,87 sekunder, henholdsvis). Det observerer også, at ILLM kan behandle et billede inden for 0,27 sekunder, men at dette system kræver betydelige træningsomkostninger.

Konklusion

ETH/Disney-forskerne er klare om, i papirets konklusion, potentielle muligheder for deres system til at generere falske detaljer. Men, ingen af eksemplerne, der er tilbudt i materialet, fokuserer på dette problem.

I alt fællesskab er dette problem ikke begrænset til den nye Disney-tilgang, men er en uundgåelig biflod af at bruge diffusionsmodeller – en opfindelig og fortolkningsfuld arkitektur – til at komprimere billeder.

Interessant nok producerede to andre forskere fra ETH Zurich for blot fem dage siden et papir med titlen Conditional Hallucinations for Image Compression, som undersøger muligheden for en ‘optimal niveau af hallucination’ i AI-baserede kompressionssystemer.

Forfatterne der gør et tilfælde for, at hallucinationer er ønskelige, hvor domænet er generisk (og, kan man sige, ‘harmløst’) nok:

‘For tekstur-lignende indhold, såsom græs, følehår og stenmure, er det vigtigere at generere pixels, der realistisk matcher en given tekstur, end at genskabe præcise pixelværdier; generering af enhver prøve fra teksturens distribution er generelt tilstrækkeligt.’

Således gør dette andet papir et tilfælde for, at kompression bør være optimalt ‘kreativ’ og repræsentativ, i stedet for at genskabe så nøjagtigt som muligt de centrale træk og linjer af det originale ukomprimerede billede.

Man undrer sig over, hvad den fotografiske og kreative fællesskab ville mene om denne ret radikale omdefinering af ‘kompression’.

*Min konvertering af forfatternes inline-citationer til hyperlinks.

Først udgivet onsdag, 30. oktober 2024