Andersonův úhel

Disney Research nabízí vylepšenou AI-založenou kompresi obrazů – ale může halucinovat detaily

Publikováno 30. října 2024

Aktualizováno 20. května 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Výzkumná divize Disney nabízí novou metodu komprese obrazů, využívající otevřený zdroj Stable Diffusion V1.2 modelu k produkci více realistických obrazů při nižších bitratech než konkurenční metody.

Metoda komprese Disney ve srovnání s předchozími přístupy. Autoři tvrdí, že jejich metoda nabízí lepší obnovu detailů a nepotřebuje stovky tisíc dolarů na trénink a je rychlejší než nejbližší konkurenční metoda. Zdroj: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Nová metoda (definovaná jako “kodek” navzdory své vyšší složitosti ve srovnání s tradičními kodeky, jako je JPEG a AV1) může fungovat na libovolném Latent Diffusion Model (LDM). V kvantitativních testech tato metoda překonává předchozí metody z hlediska přesnosti a detailů a vyžaduje podstatně méně tréninku a výpočetního nákladu.

Klíčovým poznatkem nové práce je, že quantizační chyba (centrální proces ve všech technikách komprese obrazů) je podobná šumu (centrálnímu procesu v difuzních modelech).

Proto lze “tradičně” kvantizovaný obraz považovat za šumovou verzi původního obrazu a použít v procesu denoisingu LDM místo náhodného šumu, aby se obraz rekonstruoval na cílovém bitrate.

Další srovnání nové metody Disney (zvýrazněné zeleně) v porovnání s konkurenčními přístupy.

Autoři tvrdí:

‘[My] formuluji odstranění kvantizační chyby jako úkol denoisingu, pomocí difuze k obnovení ztracených informací v přenášeném obrazu latent. Naše metoda umožňuje nám provést méně než 10 % plného procesu difuze a nevyžaduje žádné architektonické změny v difuzním modelu, což umožňuje použití základních modelů jako silného předchozího znalostního modelu bez dalšího jemného ladění základy.

‘Naše navrhovaná metoda překonává předchozí metody z hlediska kvantitativních realistických metrik a verifikujeme, že naše rekonstrukce jsou kvalitativně preferovány konečnými uživateli, i když ostatní metody používají dvakrát vyšší bitrate.’

Nicméně, stejně jako u jiných projektů, které se snaží využít kompresní schopnosti difuzních modelů, může výstup halucinovat detaily. Na rozdíl od toho, ztrátové metody, jako je JPEG, produkují jasně zkreslené nebo přesytnuté oblasti detailů, které lze rozpoznat jako omezení komprese běžným divákem.

Místo toho může kodek Disney měnit detaily z kontextu, který nebyl ve zdrojovém obraze, kvůli hrubé povaze Variational Autoencoder (VAE) používaného v typických modelech trénovaných na hyperscale datech.

‘Podobně jako u jiných generativních přístupů, naše metoda může zanedbat určité obrazové rysy, zatímco syntetizuje podobné informace na straně příjemce. V určitých případech však může to vést k nesprávné rekonstrukci, jako je ohýbání přímých linií nebo deformace hranice malých objektů.

‘Tyto jsou známé problémy základního modelu, na kterém jsme postavili, které lze připsat relativně nízké dimenzi jeho VAE.’

Zatímco to má některé důsledky pro umělecká zobrazení a věrohodnost běžných fotografií, mohlo by to mít větší dopad v případech, kdy malé detaily tvoří podstatné informace, jako je důkaz pro soudní případy, data pro rozpoznávání obličeje, skeny pro optické rozpoznávání znaků (OCR) a širokou škálu dalších možných použití, v případě popularizace kodeku s touto schopností.

V této rané fázi pokroku AI-založené komprese obrazů jsou všechny tyto možné scénáře daleko v budoucnosti. Nicméně, úložiště obrazů je globální výzvou hyperscale, která se dotýká otázek kolem úložiště dat, streamování a spotřeby elektřiny, kromě dalších problémů. Proto by AI-založená komprese mohla nabídnout lákavý kompromis mezi přesností a logistikou. Historie ukazuje, že nejlepší kodeky ne vždy vyhrávají nejširší uživatelskou základnu, když se jedná o otázky, jako je licencování a trh s proprietárními formáty.

Disney experimentuje s strojovým učením jako kompresní metodou po dlouhou dobu. V roce 2020 byl jeden z výzkumníků na nové práci zapojen do projektu založeného na VAE pro vylepšenou kompresi videa.

Nová práce Disney byla aktualizována na začátku října. Dnes společnost vydala doprovodné video na YouTube. Projekt se jmenuje Ztrátová komprese obrazů s difuzními modely a pochází od čtyř výzkumníků z ETH Zürich (spojených s projekty Disney založenými na AI) a Disney Research. Výzkumníci také nabízejí doprovodný dokument.

Metoda

Nová metoda používá VAE k zakódování obrazu do jeho komprimované latentní reprezentace. V této fázi se vstupní obraz skládá z odvozených rysů – nízkoúrovňových vektorových reprezentací. Latentní vložené jsou pak kvantizovány zpět do bitstreamu a zpět do pixelového prostoru.

Tento kvantizovaný obraz se pak používá jako šablona pro šum, který obvykle inicializuje difuzní obraz, s proměnlivým počtem kroků denoisingu (kde je často kompromis mezi zvýšeným počtem kroků denoisingu a vyšší přesností vs. nižší latencí a vyšší efektivitou).

Schéma pro novou metodu komprese Disney.

Oba kvantizační parametry a celkový počet kroků denoisingu lze řídit v novém systému prostřednictvím tréninku neuronové sítě, která předpovídá relevantní proměnné související s těmito aspekty kódování. Tento proces se nazývá adaptivní kvantizace, a systém Disney používá Entroformer framework jako entropický model, který pohání postup.

Autoři uvádějí:

‘Intuitivně, naše metoda se učí zanedbat informace (prostřednictvím transformace kvantizace), které lze syntetizovat během procesu difuze. Protože chyby zavedené během kvantizace jsou podobné přidání [šumu] a difuzní modely jsou funkčně modely denoisingu, lze je použít k odstranění kvantizačního šumu, který je zaveden během kódování.’

Stable Diffusion V2.1 je difuzní základem pro systém, zvolený proto, že celý kód a základní váhy jsou veřejně dostupné. Nicméně, autoři zdůrazňují, že jejich schéma je aplikovatelné na širší řadu modelů.

Klíčovým aspektem ekonomiky procesu je předpověď timestepu, která vyhodnocuje optimální počet kroků denoisingu – rovnováhu mezi efektivitou a výkonem.

Předpovědi timestepu, s optimálním počtem kroků denoisingu označeným červeným rámečkem. Prosím, odkážete se na zdroj PDF pro přesné rozlišení.

Množství šumu v latentním vložením potřebuje být zvaženo při předpovědi nejlepšího počtu kroků denoisingu.

Data a testy

Model byl trénován na Vimeo-90k datasetu. Obrázky byly náhodně ořezány na 256x256px pro každou epochu (tj. každou kompletní injekci rafinovaného datasetu do architektury modelu).

Model byl optimalizován pro 300 000 kroků při learning rate 1e-4. To je nejčastější v počítačových vizích projektech a také nejnižší a nejpodrobnější obecně praktická hodnota, jako kompromis mezi širokou generalizací konceptů a rysů datasetu a kapacitou pro reprodukci jemných detailů.

Autoři komentují některé logistické úvahy pro ekonomicky efektivní systém*:

‘Během tréninku je prohibitivně drahé backpropagovat gradient přes více průchodů difuzního modelu, jak je běžné u DDIM samplingu. Proto provedeme pouze jeden DDIM sampling iteraci a přímo použijeme [to] jako plně denoizovaný [data].’

Datasety použité pro testování systému byly Kodak; CLIC2022; a COCO 30k. Dataset byl předzpracován podle metodiky uvedené v nabídce Google z roku 2023 Multi-Realism Image Compression with a Conditional Generator.

Metriky použité byly Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Multiscale Structural Similarity Index (MS-SSIM); a Fréchet Inception Distance (FID).

Konkurenční předchozí rámce testované byly rozděleny mezi starší systémy, které používaly Generative Adversarial Networks (GANs), a novější nabídky založené kolem difuzních modelů. GAN systémy testované byly High-Fidelity Generative Image Compression (HiFiC); a ILLM (který nabízí některé vylepšení HiFiC).

Difuzní založené systémy byly Ztrátová komprese obrazů s podmíněnými difuzními modely (CDC) a High-Fidelity Image Compression with Score-based Generative Models (HFD).

Kvantitativní výsledky proti předchozím rámcům na různých datasetech.

Pro kvantitativní výsledky (zobrazené výše) výzkumníci uvádějí:

‘Naše metoda nastavuje nový stav umění v realistických rekonstrukcích obrazů, překonávající všechny baseline v FID-bitrate křivkách. V některých distorčních metrikách (konkrétně LPIPS a MS-SSIM) překonáváme všechny difuzní kodeky, zatímco zůstáváme konkurenceschopní s nejvyššími generativními kodeky.

‘Jak bylo očekáváno, naše metoda a ostatní generativní metody trpí, když jsou měřeny v PSNR, protože dáváme přednost percepčně příjemným rekonstrukcím místo přesné replikace detailů.’

Pro uživatelskou studii byla použita metoda dvou alternativních voleb (2AFC), v turnajovém kontextu, kde upřednostněné obrázky by pokračovaly do pozdějších kol. Studie použila Elo rating systém původně vyvinutý pro šachové turnaje.

Protože účastníci viděli a vybrali nejlepší ze dvou prezentovaných 512x512px obrázků napříč různými generativními metodami. Další experiment byl proveden, ve kterém všechny srovnání obrázků ze stejného uživatele byly vyhodnoceny prostřednictvím Monte Carlo simulace přes 10 000 iterací, s mediánem skóre prezentovaným ve výsledcích.

Odhadované Elo hodnocení pro uživatelskou studii, s Elo turnaji pro každé srovnání (vlevo) a také pro každého účastníka, s vyššími hodnotami lepšími.

Zde autoři komentují:

‘Jak je vidět z Elo skóre, naše metoda významně překonává všechny ostatní, i ve srovnání s CDC, které používá v průměru dvojnásobek bitů naší metody. To platí nezávisle na Elo turnajové strategii.’

V původním dokumentu, stejně jako v doprovodném PDF, autoři poskytují další vizuální srovnání, z nichž jedno je zobrazeno výše v tomto článku. Nicméně, kvůli jemnosti rozdílů mezi vzorky, odkazujeme čtenáře na zdroj PDF, aby mohli tyto výsledky posoudit spravedlivě.

Dokument uzavírá tím, že navrhovaná metoda funguje dvakrát rychleji než konkurenční CDC (3,49 vs 6,87 sekund). Také poznamenává, že ILLM může zpracovat obraz během 0,27 sekund, ale že tento systém vyžaduje náročné trénink.

Závěr

Výzkumníci z ETH/Disney jsou jasně uvedeni v závěru dokumentu o potenciálu jejich systému generovat falešné detaily. Nicméně, žádný z ukázek nabízených v materiálu se nezaměřuje na tento problém.

Ve všech případech je tato otázka omezena nejen na novou metodu Disney, ale je nevyhnutelným vedlejším účinkem použití difuzních modelů – vynálezu a interpretativního architektury – pro kompresi obrazů.

Zajímavě, pouze před pěti dny dva další výzkumníci z ETH Zurich vydali dokument nazvaný Podmíněné halucinace pro kompresi obrazů, který zkoumá možnost “optimálního stupně halucinace” v systémech komprese obrazů založených na AI.

Autoři tam uvádějí případ pro žádoucí halucinace, kde je doména dostatečně obecná (a “neškodná”):

‘Pro texturové obsah, jako je tráva, pihy a kamenné zdi, generování pixelů, které realisticky odpovídají dané textuře, je důležitější než přesná rekonstrukce pixelových hodnot; generování libovolného vzorku z distribuce textury je obecně dostatečné.’

Takže tento druhý dokument uvádí případ pro kompresi, aby byla optimálně “kreativní” a reprezentativní, spíše než přesně rekonstruovat původní nekomprimovaný obraz.

Jedná se o docela radikální předefinici “kompresi”.

Je zajímavé, co by si fotografická a kreativní komunita myslela o této poměrně radikální předefinici “kompresi”.

*Můj převod inline citací autorů na odkazy.

První publikováno ve středu, 30. října 2024

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Disney Research nabízí vylepšenou AI-založenou kompresi obrazů – ale může halucinovat detaily

Metoda

Data a testy

Závěr

You may like