Kunstig intelligens

Disney Research Tilbyr Forbedret Bildekomprimering Basert På AI – Men Den Kan Hallusinere Detaljer

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Disney’s forskningsavdeling tilbyr en ny metode for å komprimere bilder, ved å bruke den åpne kildekoden Stable Diffusion V1.2-modellen til å produsere mer realistiske bilder ved lavere biterater enn konkurrerende metoder.

The Disney komprimeringsmetoden sammenlignet med tidligere tilnærminger. Forfatterne hevder forbedret gjenopprettelse av detaljer, samtidig som de tilbyr en modell som ikke krever hundre tusen dollar i trening, og som opererer raskere enn den nærmeste ekvivalente konkurrerende metoden. Kilde: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den Disney komprimeringsmetoden sammenlignet med tidligere tilnærminger. Forfatterne hevder forbedret gjenopprettelse av detaljer, samtidig som de tilbyr en modell som ikke krever hundre tusen dollar i trening, og som opererer raskere enn den nærmeste ekvivalente konkurrerende metoden. Kilde: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Den nye tilnærmingen (definert som en ‘kodek’ til tross for dens økte kompleksitet i sammenligning med tradisjonelle kodeker som JPEG og AV1) kan operere over enhver Latent Diffusion Model (LDM). I kvantitative tester, overgår den tidligere metoder i nøyaktighet og detaljer, og krever betydelig mindre trening og beregningskostnader.

Den viktigste innsikten i det nye arbeidet er at kvantisering feil (en sentral prosess i all bildekomprimering) er lignende til støy (en sentral prosess i diffusjonsmodeller).

Derfor kan et “tradisjonelt” kvantisert bilde behandles som en støyforurenset versjon av det opprinnelige bildet, og brukes i en LDMs støyfjerningsprosess i stedet for tilfeldig støy, for å rekonstruere bildet ved en målbiterate.

Ytterligere sammenligninger av den nye Disney-metoden (høydet i grønt), i kontrast til rivaliserende tilnærminger.

Forfatterne hevder:

‘[Vi] formulerer fjerningen av kvantisering feil som en støyfjerningsoppgave, ved å bruke diffusjon til å gjenopprette tapte informasjon i den overførte bilde latent. Vår tilnærming tillater oss å utføre mindre enn 10% av den fullstendige diffusjonsgenereringsprosessen og krever ingen arkitektoniske endringer i diffusjonsmodellen, som muliggjør bruk av grunnmodeller som en sterk prior uten ekstra finjustering av ryggsøylene.

‘Vår foreslåtte kodek overgår tidligere metoder i kvantitative realisme-mål, og vi verifiserer at våre rekonstruksjoner er kvalitativt foretrukket av sluttbrukere, selv når andre metoder bruker dobbelt så mange biter som vår metode.’

Men, i likhet med andre prosjekter som søker å utnytte komprimeringskapasiteten til diffusjonsmodeller, kan utdata hallusinere detaljer. I motsetning til dette, vil tapende metoder som JPEG produsere tydelig forvrengede eller overglattete områder av detaljer, som kan gjenkjennes som komprimeringsbegrensninger av den vanlige tilskueren.

I stedet kan Disney’s kodek endre detaljer fra kontekst som ikke var der i kildebildet, på grunn av den grove naturen til Variational Autoencoder (VAE) som brukes i typiske modeller trent på hyperskala data.

‘Lignende til andre generative tilnærminger, kan vår metode forkaste visse bildeegenskaper mens den syntetiserer lignende informasjon på mottakerens side. I bestemte tilfeller kan dette imidlertid føre til uriktige rekonstruksjoner, som å bøye rette linjer eller forvrengning av små objekters grenser.

‘Disse er velkjente problemer med grunnmodellen vi bygger på, som kan tilskrives den relativt lave egenskapsdimensjonen til dens VAE.’

Mens dette har noen implikasjoner for kunstneriske fremstillinger og troverdigheten av vanlige fotografier, kan det ha en mer kritisk innvirkning i tilfeller hvor små detaljer utgjør essensiell informasjon, som bevis for rettssaker, data for ansiktsgjenkjenning, skanninger for optisk tegngjenkjenning (OCR) og en rekke andre mulige bruksområder, i det tilfelle en kodek med denne kapasiteten blir populær.

På dette spede stadiet i fremdriften av AI-forbedret bildekomprimering, er alle disse mulige scenariene langt i fremtiden. Men, bildelagring er en hyperskala global utfordring, som berører spørsmål rundt datalagring, strømming og strømforbruk, samt andre bekymringer. Derfor kan AI-basert komprimering tilby en fristende avveining mellom nøyaktighet og logistikk. Historien viser at de beste kodekene ikke alltid vinner den største brukerbasen, når det gjelder faktorer som lisensiering og markedstilstedning av proprietære formater.

Disney har eksperimentert med maskinlæring som en komprimeringsmetode i lang tid. I 2020 var en av forskerne på det nye papiret involvert i et VAE-basert prosjekt for forbedret videokomprimering.

Det nye Disney-papiret ble oppdatert i begynnelsen av oktober. I dag lanserte selskapet en tilhørende YouTube-video. Prosjektet har tittelen Tapende Bildekomprimering med Grunnmodeller for Diffusjon, og kommer fra fire forskere ved ETH Zürich (tilknyttet Disney’s AI-baserte prosjekter) og Disney Research. Forskerne tilbyr også en supplerende papir.

Metode

Den nye metoden bruker en VAE til å kode et bilde inn i sin komprimerte latente representasjon. På dette stadiet består innputtbildet av avledede egenskaper – lavnivå vektorbaserte representasjoner. Den latente innkapslingen kvantiseres deretter tilbake til en bitstrøm, og tilbake til pikselrom.

Dette kvantiserte bildet brukes deretter som en mal for støyen som vanligvis såer en diffusjonsbasert bilde, med en varierende antall støyfjerningssteg (hvor det ofte er en avveining mellom økte støyfjerningssteg og større nøyaktighet, versus lavere latency og høyere effisiens).

Schema for den nye Disney-komprimeringsmetoden.

Både kvantiseringparameterne og det totale antallet støyfjerningssteg kan kontrolleres under det nye systemet, gjennom trening av et neuralt nettverk som forutsier de relevante variablene relatert til disse aspektene av koding. Denne prosessen kalles adaptiv kvantisering, og Disney-systemet bruker Entroformer-rammeverket som entropimodellen som driver prosessen.

Forfatterne uttaler:

‘Intuitivt lærer vår metode å forkaste informasjon (gjennom kvantiseringstransformasjonen) som kan syntetiseres under diffusjonsprosessen. Fordi feil introdusert under kvantisering er lignende til å legge til støy og diffusjonsmodeller er funksjonelt støyfjerningsmodeller, kan de brukes til å fjerne kvantiseringsstøyen introdusert under koding.’

Stable Diffusion V2.1 er diffusjonsryggsøylene for systemet, valgt fordi hele koden og basis vektene er offentlig tilgjengelige. Men forfatterne understreker at deres schema er anvendelig på en rekke modeller.

Pivotalt for økonomien i prosessen er tidsstegsprediksjon, som vurderer det optimale antallet støyfjerningssteg – en balanseakt mellom effisiens og ytelse.

Tidsstegsprediksjoner, med det optimale antallet støyfjerningssteg indikert med rød ramme. Vennligst se kilde-PDF for nøyaktig oppløsning.

Mengden støy i den latente innkapslingen må vurderes når man gjør en prediksjon for det beste antallet støyfjerningssteg.

Data og tester

Modellen ble trent på Vimeo-90k-datasettet. Bildene ble tilfeldig beskåret til 256x256px for hver epoch (dvs. hver fullstendig innhausting av det raffinerte datasettet av modelltreningssarkitekturen).

Modellen ble optimalisert for 300 000 steg ved en læringshastighet på 1e-4. Dette er det vanligste blant datavisjonsprosjekter, og også det laveste og mest finmålte generelt praktiske verdien, som en kompromiss mellom bred generalisering av datasettets konsepter og trekk, og en kapasitet for reproduksjon av fine detaljer.

Forfatterne kommenterer noen av de logistiske overveielser for et økonomisk, men effektivt system*:

‘Under trening, er det forbudt dyrt å backpropagere gradienten gjennom flere gjennomløp av diffusjonsmodellen som den kjører under DDIM-sampling. Derfor utfører vi bare ett DDIM-sampling-iterasjon og bruker dette direkte som fullstendig avstøyfet data.’

Datasettene som ble brukt til å teste systemet var Kodak; CLIC2022; og COCO 30k. Datasettet ble forhåndsbearbeidet i henhold til metodologien som er beskrevet i 2023 Google tilbud Multi-Realisme Bildekomprimering med en Betinget Generator.

Målene som ble brukt var Peak Signal-til-Støy-Forhold (PSNR); Lært Perseptuell Likhet-Mål (LPIPS); Multi-Skala Strukturell Likhet-Indeks (MS-SSIM); og Fréchet-Inception-Avstand (FID).

Rivaliserende tidligere rammer som ble testet, ble delt mellom eldre systemer som brukte Generative Adversarial Networks (GANs), og nyere tilbud basert rundt diffusjonsmodeller. GAN-systemene som ble testet var High-Fidelity Generative Image Compression (HiFiC); og ILLM (som tilbyr noen forbedringer på HiFiC).

Diffusjonsbaserte systemene var Tapende Bildekomprimering med Betingediffusjonsmodeller (CDC) og High-Fidelity Bildekomprimering med Score-basert Generative Modeller (HFD).

Kvantitative resultater mot tidligere rammer over ulike datasett.

For de kvantitative resultater (visualisert ovenfor), uttaler forskerne:

‘Vår metode setter en ny standard for realisme i rekonstruerte bilder, og overgår alle baselinjer i FID-biterate-kurver. I noen forvrengningsmål (navnlig LPIPS og MS-SSIM), overgår vi alle diffusjonsbaserte kodeker, mens vi forblir konkurrerende med de høyest-performende generative kodekene.

‘Som forventet, lider vår metode og andre generative metoder når de måles i PSNR, da vi favoriserer perseptuelt behagelige rekonstruksjoner i stedet for nøyaktig replikasjon av detaljer.’

For brukerstudien, ble en to-alternativ-tvangsvalg (2AFC) metode brukt, i en turneringskontekst hvor de favoriserte bildene ville gå videre til senere runder. Studien brukte Elo-ratingsystemet som opprinnelig ble utviklet for sjakkturneringer.

Derfor ville deltakerne se og velge det beste av to presenterte 512x512px-bilder over ulike generative metoder. En ekstra eksperiment ble utført hvor alle bilde-sammenligninger fra samme bruker ble evaluert, via en Monte Carlo-simulering over 10 000 iterasjoner, med median-scoren presentert i resultater.

Estimerte Elo-ratings for brukerstudien, med Elo-turneringer for hver sammenligning (venstre) og også for hver deltaker, med høyere verdier bedre.

Her kommenterer forfatterne:

‘Som kan ses i Elo-poengene, overgår vår metode betydelig alle andre, selv sammenlignet med CDC, som bruker i gjennomsnitt dobbelt så mange biter som vår metode. Dette forblir sant uavhengig av Elo-turneringsstrategi brukt.’

I det opprinnelige papiret, samt i supplerende PDF, tilbyr forfatterne ytterligere visuelle sammenligninger, en av dem er vist tidligere i denne artikkelen. Men, på grunn av granulariteten i forskjellene mellom eksemplene, henviser vi leseren til kilde-PDF, så disse resultater kan bedømmes rettferdig.

Papiret konkluderer med å bemerke at deres foreslåtte metode opererer dobbelt så raskt som den rivaliserende CDC (3,49 vs 6,87 sekunder, henholdsvis). Det observerer også at ILLM kan prosessere et bilde innen 0,27 sekunder, men at dette systemet krever tung trening.

Konklusjon

ETH/Disney-forskerne er klare, ved papirets konklusjon, om potensialet for deres system til å generere falske detaljer. Men, ingen av eksemplene som er tilbudt i materialet berører dette spørsmålet.

I all rettferdighet, er dette problemet ikke begrenset til den nye Disney-tilnærmingen, men er en uunngåelig bifaktor av å bruke diffusjonsmodeller – en oppfinnsom og tolkende arkitektur – til å komprimere bilder.

Interessant nok, bare fem dager siden produserte to andre forskere fra ETH Zurich en artikkel med tittelen Betingede Hallusinasjoner for Bildekomprimering, som undersøker muligheten for en “optimal nivå av hallusinering” i AI-basert komprimeringssystemer.

Forfatterne der gjør et tilfelle for ønskeligheten av hallusineringer hvor domenet er generisk (og, argumenterbart, “harmløs”) nok:

‘For tekstur-lignende innhold, som gress, flekker og steinvegger, er det viktigere å generere piksler som realistisk matcher en gitt tekstur, enn å rekonstruere nøyaktige pikselverdier; å generere noen sample fra distribusjonen av en tekstur er generelt tilstrekkelig.’

Dermed gjør dette andre papiret et tilfelle for at komprimering bør være optimalt “kreativ” og representativ, i stedet for å rekonstruere så nøyaktig som mulig de grunnleggende trekkene og linjene til det opprinnelige, ukomprimerte bildet.

En lurer på hva det fotografiske og kreative samfunnet ville mene om denne ganske radikale omdefineringen av “komprimering”.