Artificiell intelligens

Disney Research Erbjuder Förbättrad AI-baserad Bildkomprimering – Men Den Kan Hallucinera Detaljer

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Disney’s forskningsavdelning erbjuder en ny metod för att komprimera bilder, med hjälp av den öppna källkoden Stable Diffusion V1.2-modellen för att producera mer realistiska bilder vid lägre bitrate än konkurrerande metoder.

The Disney compression method compared to prior approaches. The authors claim improved recovery of detail, while offering a model that does not require hundreds of thousands of dollars of training, and which operates faster than the nearest equivalent competing method. Source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den Disney-komprimeringsmetoden jämförs med tidigare tillvägagångssätt. Författarna hävdar att de har förbättrat återhämtningen av detaljer, samtidigt som de erbjuder en modell som inte kräver hundratusentals dollar i utbildning och som fungerar snabbare än den närmaste jämförbara konkurrerande metoden. Källa: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den nya metoden (definierad som en ‘codec’ trots dess ökade komplexitet i jämförelse med traditionella codecs som JPEG och AV1) kan fungera över någon Latent Diffusion Model (LDM). I kvantitativa tester överträffar den tidigare metoder när det gäller noggrannhet och detaljer, och kräver betydligt mindre utbildning och beräkningskostnad.

Den viktigaste insikten i det nya arbetet är att kvantisering fel (en central process i all bildkomprimering) är liknande brus (en central process i diffusionsmodeller).

Därför kan en “traditionellt” kvantiserad bild behandlas som en bullrig version av den ursprungliga bilden, och användas i en LDM:s brusreduceringsprocess istället för slumpmässigt brus, för att rekonstruera bilden vid en målbitrast.

Ytterligare jämförelser av den nya Disney-metoden (markerad i grönt), i kontrast till rivaliserande tillvägagångssätt.

Författarna hävdar:

‘[Vi] formulerar borttagandet av kvantiseringfel som en brusreduceringsuppgift, med hjälp av diffusionsmodeller för att återhämta förlorad information i den överförda bildens latenta representation. Vår metod möjliggör att vi kan utföra mindre än 10 % av den fullständiga diffusionsgenereringsprocessen och kräver inga arkitekturförändringar i diffusionsmodellen, vilket möjliggör användning av grundmodeller som en stark prior utan ytterligare finjustering av backbone.

‘Vår föreslagna codec överträffar tidigare metoder i kvantitativa realistiska mått, och vi verifierar att våra rekonstruktioner kvalitativt föredras av slutanvändare, även när andra metoder använder dubbelt så många bitar.’

Men, i likhet med andra projekt som syftar till att utnyttja komprimeringsförmågan hos diffusionsmodeller, kan utmatningen hallucinera detaljer. Till skillnad från förlorade metoder som JPEG kommer Disney’s codec att ändra detaljer från sammanhang som inte fanns i källbilden, på grund av den grova naturen hos Variational Autoencoder (VAE) som används i typiska modeller som tränats på hyperskaledata.

‘Liknande andra generativa tillvägagångssätt kan vår metod kasta bort vissa bildfunktioner medan den syntetiserar liknande information på mottagarsidan. I specifika fall kan detta dock resultera i felaktig rekonstruktion, såsom böjning av raka linjer eller förvrängning av små objekts gränser.

‘Dessa är välkända problem med den grundmodell vi bygger på, som kan tillskrivas den relativt låga funktionella dimensionen hos dess VAE.’

Medan detta har vissa implikationer för konstnärliga framställningar och sanningsenligheten hos vardagliga fotografier, kan det ha en mer kritisk inverkan i fall där små detaljer utgör väsentlig information, såsom bevis för rättegångar, data för ansiktsigenkänning, skannrar för optisk teckenigenkänning (OCR) och en mängd andra möjliga användningsfall, i händelse av att en codec med denna förmåga blir allmänt använd.

På denna tidiga utvecklingsstadium för AI-förbättrad bildkomprimering är alla dessa möjliga scenarier långt in i framtiden. Men bildlagring är en global utmaning i hyperskala, som berör frågor kring datalagring, strömning och elförbrukning, förutom andra problem. Därför kan AI-baserad komprimering erbjuda en frestande avvägning mellan noggrannhet och logistik. Historien visar att de bästa codec inte alltid vinner den bredaste användarbasen, när frågor som licensiering och marknadsövertagande av proprietära format är faktorer i antagandet.

Disney har experimenterat med maskinlärning som en komprimeringsmett sedan länge. År 2020 var en av forskarna i den nya artikeln inblandadad i ett VAE-baserat projekt för förbättrad videokomprimering.

Den nya Disney-artikeln uppdaterades i början av oktober. Idag släppte företaget en tillhörande YouTube-video. Projektet heter Förlorad Bildkomprimering med Grunddiffusionsmodeller, och kommer från fyra forskare vid ETH Zürich (associerade med Disney’s AI-baserade projekt) och Disney Research. Forskarna erbjuder också en supplemementär artikel.

Metod

Den nya metoden använder en VAE för att koda en bild till dess komprimerade latenta representation. Vid detta stadium består indata-bilden av härledda funktioner – lågnivå, vektorbaserade representationer. Den latenta inbäddningen kvantiseras sedan tillbaka till en bitström, och tillbaka till pixlrum.

Denna kvantiserade bild används sedan som en mall för det brus som vanligtvis såddar en diffusionsbaserad bild, med ett varierande antal brusreduceringssteg (där det ofta finns en avvägning mellan ökade brusreduceringssteg och större noggrannhet, kontra lägre latens och högre effektivitet).

Schema för den nya Disney-komprimeringsmetoden.

Både kvantiseringparametrarna och det totala antalet brusreduceringssteg kan kontrolleras under det nya systemet, genom utbildning av ett neuronnät som förutsäger de relevanta variablerna relaterade till dessa aspekter av kodning. Denna process kallas adaptiv kvantisering, och Disney-systemet använder Entroformer-ramverket som entropimodellen som driver förfarandet.

Författarna hävdar:

‘Intuitivt lär sig vår metod att kasta bort information (genom kvantiseringstransformationen) som kan syntetiseras under diffusionsprocessen. Eftersom fel som introduceras under kvantisering är liknande att lägga till [brus] och diffusionsmodeller är funktionellt brusreduceringsmodeller, kan de användas för att ta bort kvantiseringsbruset som introduceras under kodning.’

Stable Diffusion V2.1 är diffusionsryggraden för systemet, vald eftersom hela koden och bas vikter är offentligt tillgängliga. Men författarna betonar att deras schema är tillämpligt på ett större antal modeller.

Avgörande för processens ekonomi är tidsstegsförutsägelse, som utvärderar det optimala antalet brusreduceringssteg – en balansgång mellan effektivitet och prestanda.

Tidsstegsförutsägelser, med det optimala antalet brusreduceringssteg indikerat med röd ram. Vänligen se käll-PDF för korrekt upplösning.

Mängden brus i den latenta inbäddningen måste beaktas när man gör en förutsägelse för det bästa antalet brusreduceringssteg.

Data och tester

Modellen tränades på Vimeo-90k-datasetet. Bilderna slumpmässigt beskars till 256x256px för varje epoch (dvs. varje fullständig inmatning av det raffinerade datasetet av modellträningsarkitekturen).

Modellen optimerades för 300 000 steg med en inlärningshastighet på 1e-4. Detta är det vanligaste bland datorseende-projekt, och också det lägsta och mest finmaskiga generellt praktiska värdet, som en kompromiss mellan bred generalisering av datasetets koncept och egenskaper, och en förmåga att reproducera fina detaljer.

Författarna kommenterar några av de logistiska övervägandena för ett ekonomiskt men effektivt system*:

‘Under utbildning är det förbjudande dyrt att backpropagera gradienten genom flera pass av diffusionsmodellen som den körs under DDIM-sampling. Därför utför vi endast en DDIM-samplingiteration och använder direkt [detta] som den fullständigt brusreducerade [data].’

Dataset som användes för att testa systemet var Kodak; CLIC2022; och COCO 30k. Datasetet förbehandlades enligt metodiken som beskrivs i 2023 Google erbjudande Multi-Realism Image Compression with a Conditional Generator.

Mått som användes var Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Multiscale Structural Similarity Index (MS-SSIM); och Fréchet Inception Distance (FID).

Rivaliserande tidigare ramverk som testades delades mellan äldre system som använde Generative Adversarial Networks (GANs), och mer nyliga erbjudanden baserade kring diffusionsmodeller. GAN-systemen som testades var High-Fidelity Generative Image Compression (HiFiC); och ILLM (som erbjuder vissa förbättringar av HiFiC).

Diffusionsbaserade systemen var Förlorad Bildkomprimering med Villkorsdiffusionsmodeller (CDC) och Högkvalitets Bildkomprimering med Poängbaserade Generativa Modeller (HFD).

Kvantitativa resultat mot tidigare ramverk över olika dataset.

För de kvantitativa resultaten (visualiserade ovan) hävdar forskarna:

‘Vår metod sätter en ny standard för realismen i rekonstruerade bilder, och överträffar alla baslinjer i FID-bitrate-kurvor. I vissa distorsionsmått (specifikt LPIPS och MS-SSIM) överträffar vi alla diffusionsbaserade codecs medan vi förblir konkurrenskraftiga med de högst presterande generativa codec.

‘Som förväntat lider vår metod och andra generativa metoder när de mäts i PSNR eftersom vi föredrar perceptuellt tilltalande rekonstruktioner istället för exakt replikering av detaljer.’

För användarstudien användes en två-alternativ-tvångsväljande (2AFC) metod, i en turneringskontext där de föredragna bilderna gick vidare till senare omgångar. Studien använde Elo-betygssystemet som ursprungligen utvecklats för schackturneringar.

Därför visade och valde deltagarna den bästa av två presenterade 512x512px-bilder över de olika generativa metoderna. Ett ytterligare experiment genomfördes där alla bildjämförelser från samma användare utvärderades via en Monte Carlo-simulering under 10 000 iterationer, med medianpoängen presenterad i resultaten.

Uppskattade Elo-betyg för användarstudien, med Elo-turneringar för varje jämförelse (vänster) och också för varje deltagare, med högre värden bättre.

Här kommenterar författarna:

‘Som kan ses i Elo-poängen överträffar vår metod betydligt alla andra, även jämfört med CDC, som använder i genomsnitt dubbelt så många bitar som vår metod. Detta förblir sant oavsett Elo-turneringsstrategi som används.’

I den ursprungliga artikeln, samt i supplemementär-PDF, tillhandahåller författarna ytterligare visuella jämförelser, en av vilka visas tidigare i den här artikeln. Men på grund av skillnadernas finhet mellan proverna hänvisar vi läsaren till käll-PDF, så att dessa resultat kan bedömas rättvist.

Artikeln avslutas med att notera att den föreslagna metoden fungerar dubbelt så snabbt som den rivaliserande CDC (3,49 vs 6,87 sekunder). Den observerar också att ILLM kan bearbeta en bild inom 0,27 sekunder, men att detta system kräver betungande utbildning.

Slutsats

ETH/Disney-forskarna är tydliga, i artikeln, om potentialen för deras system att generera falska detaljer. Men ingen av proverna som erbjuds i materialet fokuserar på detta problem.

I alla fall är detta problem inte begränsat till den nya Disney-metoden, utan är en oundviklig biprodukt av att använda diffusionsmodeller – en uppfinningsrik och tolkande arkitektur – för att komprimera bilder.

Intressant nog producerade för bara fem dagar sedan två andra forskare från ETH Zurich en artikel med titeln VillkorsHallucinationer för Bildkomprimering, som undersöker möjligheten till en “optimal nivå av hallucination” i AI-baserade kompressionssystem.

Författarna där gör ett fall för önskvärdheten av hallucinationer där domänen är generisk (och, förmodligen, “ofarlig”) nog:

‘För texture-liknande innehåll, såsom gräs, fräknar och stenmurar, är det viktigare att generera pixlar som realistiskt matchar en given texture än att rekonstruera exakta pixelvärden; att generera vilket prov som helst från texturens distribution är allmänt tillräckligt.’

Således gör den andra artikeln ett fall för att komprimering bör vara optimalt “kreativ” och representativ, snarare än att återskapa så exakt som möjligt de ursprungliga, oförändrade bildens kärnegenskaper och linjament.

Man undrar vad den fotografiska och kreativa gemenskapen skulle tycka om denna ganska radikala omdefiniering av “komprimering”.