Umělá inteligence
Výzkum společnosti Disney nabízí vylepšenou kompresi obrazu založenou na umělé inteligenci – ale může způsobit halucinace detailů

Oddělení výzkumu společnosti Disney nabízí novou metodu komprese obrázků, která využívá model Stable Diffusion V1.2 s otevřeným zdrojovým kódem k vytváření realističtějších obrázků při nižších přenosových rychlostech než konkurenční metody.

Metoda komprese Disney ve srovnání s předchozími přístupy. Autoři prohlašují vylepšenou obnovu detailů a zároveň nabízejí model, který nevyžaduje stovky tisíc dolarů školení a který funguje rychleji než nejbližší ekvivalentní konkurenční metoda. Zdroj: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
Nový přístup (definovaný jako „kodek“ navzdory jeho zvýšené složitosti ve srovnání s tradičními kodeky, jako je např JPEG si AV1) může fungovat nad jakýmkoliv Model latentní difúze (LDM). V kvantitativních testech překonává dřívější metody, pokud jde o přesnost a podrobnosti, a vyžaduje výrazně nižší náklady na školení a výpočty.
Klíčovým poznatkem nového díla je to kvantování chyba (a centrální proces ve všech kompresích obrázků) je podobný hluk (a centrální proces v difúzních modelech).
Proto lze s „tradičně“ kvantovaným obrazem zacházet jako se zašuměnou verzí původního obrazu a použít jej v procesu odšumování LDM namísto náhodného šumu, aby se obraz rekonstruoval při cílové přenosové rychlosti.

Další srovnání nové metody Disney (zvýrazněno zeleně), na rozdíl od konkurenčních přístupů.
Autoři tvrdí:
„[My] formulujeme odstranění kvantizační chyby jako úkol odšumování pomocí difúze k obnovení ztracených informací v přeneseném latentním obrazu. Náš přístup nám umožňuje provádět méně než 10 % celého procesu generování difúze a nevyžaduje žádné architektonické změny modelu difúze, což umožňuje použití základových modelů jako silného předchůdce bez dalšího jemného ladění páteře.
"Náš navrhovaný kodek překonává předchozí metody v metrikách kvantitativního realismu a ověřujeme, že naše rekonstrukce jsou kvalitativně preferovány koncovými uživateli, i když jiné metody používají dvojnásobnou přenosovou rychlost."
Nicméně, stejně jako u jiných projektů, které se snaží využít kompresní schopnosti difúzních modelů, výstup může halucinovat podrobnosti. Naproti tomu ztrátové metody, jako je JPEG, vytvoří jasně zkreslené nebo příliš vyhlazené oblasti detailů, které může příležitostný divák rozpoznat jako omezení komprese.
Místo toho může Disneyho kodek změnit detaily z kontextu, který ve zdrojovém obrázku nebyl, kvůli hrubé povaze Variační automatický kodér (VAE) používané v typických modelech trénovaných na datech hyperscale.
„Podobně jako u jiných generativních přístupů může naše metoda vyřadit určité obrazové rysy a přitom syntetizovat podobné informace na straně přijímače. Ve specifických případech to však může vést k nepřesné rekonstrukci, jako je ohýbání rovných čar nebo deformace hranice malých objektů.
"Toto jsou dobře známé problémy základního modelu, na kterém stavíme, což lze přičíst relativně nízkému rozměru vlastností jeho VAE."
I když to má určité důsledky pro umělecká zobrazení a věrohodnost příležitostných fotografií, mohlo by to mít kritičtější dopad v případech, kdy malé detaily tvoří zásadní informace, jako jsou důkazy pro soudní případy, data pro rozpoznávání obličeje, skeny pro optické rozpoznávání znaků (OCR ), a širokou škálu dalších možných případů použití, v případě popularizace kodeku s touto schopností.
V této rodící se fázi pokroku komprese obrazu vylepšené AI jsou všechny tyto možné scénáře daleko v budoucnosti. Ukládání obrázků je však celosvětovou výzvou v hyperškálovém měřítku, která se kromě jiných problémů týká i otázek týkajících se ukládání dat, streamování a spotřeby elektřiny. Komprese založená na umělé inteligenci by proto mohla nabídnout lákavý kompromis mezi přesností a logistikou. Historie ukazuje, že nejlepší kodeky ne vždy vyhrát nejširší uživatelskou základnu, když problémy jako licencování a zachycení trhu proprietárními formáty jsou faktory při přijetí.
Disney již delší dobu experimentuje se strojovým učením jako kompresní metodou. V roce 2020 se jeden z výzkumníků na novém článku podílel na a Projekt založený na VAE pro lepší kompresi videa.
Nový Disney papír byl aktualizován na začátku října. Dnes společnost vydala doprovodné video na YouTube, projekt je s názvem Ztrátová komprese obrazu s modely základové difúze, a pochází od čtyř výzkumných pracovníků z ETH Zürich (spojené s projekty Disney založenými na AI) a Disney Research. Výzkumníci také nabízejí a doplňkový papír.
Metoda
Nová metoda využívá VAE ke kódování obrazu do jeho komprimovaného obrazu latentní reprezentace. V této fázi se vstupní obraz skládá z odvozeného funkce – vektorově založené reprezentace na nízké úrovni. Latentní vložení je pak kvantováno zpět do bitového toku a zpět do pixelového prostoru.
Tento kvantovaný obrázek se pak použije jako šablona pro šum, který obvykle zasévá obraz založený na difúzi, s různým počtem kroků odšumování (přičemž často dochází ke kompromisu mezi zvýšenými kroky odšumování a větší přesností vs. nižší latencí a vyšší účinnost).

Schéma pro novou metodu komprese Disney.
Jak kvantizační parametry, tak celkový počet kroků odšumování lze v novém systému řídit pomocí trénování neuronové sítě, která předpovídá relevantní proměnné související s těmito aspekty kódování. Tento proces se nazývá adaptivní kvantovánía systém Disney používá Entroformer rámec jako entropický model, který pohání proceduru.
Autoři uvádějí:
„Naše metoda se intuitivně učí odstraňovat informace (prostřednictvím kvantizační transformace), které lze syntetizovat během procesu difúze. Protože chyby zavedené během kvantizace jsou podobné přidání [šumu] a modely difúze jsou funkčně odšumující modely, lze je použít k odstranění kvantizačního šumu zavedeného během kódování.'
Stabilní difúze V2.1 je difúzní páteř systému, zvolená kvůli úplnosti kódu a základny závaží jsou veřejně dostupné. Autoři však zdůrazňují, že jejich schéma je použitelné pro širší počet modelů.
Stěžejní pro ekonomiku procesu je předpověď časového kroku, která vyhodnocuje optimální počet kroků odšumování – balancování mezi účinností a výkonem.

Předpovědi časového kroku s optimálním počtem kroků odšumování označeným červeným okrajem. Přesné rozlišení najdete ve zdrojovém PDF.
Množství šumu v latentním vložení je třeba vzít v úvahu při vytváření predikce pro nejlepší počet kroků pro odstranění šumu.
Data a testy
Model byl trénován na Vimeo - 90 tis datový soubor. Obrázky byly pro každý náhodně oříznuty na 256 x 256 pixelů epocha (tj. každé úplné přijetí zpřesněné datové sady trénovací architekturou modelu).
Model byl optimalizován pro 300,000 XNUMX kroků za minutu rychlost učení z 1e-4. Toto je nejběžnější mezi projekty počítačového vidění a také nejnižší a nejjemnější obecně proveditelná hodnota jako kompromis mezi širokým zobecněním pojmů a vlastností datové sady a schopností reprodukovat jemné detaily.
Autoři se vyjadřují k některým logistickým úvahám o ekonomickém a přitom efektivním systému*:
„Během tréninku je neúměrně drahé zpětně šířit gradient více průchody difúzního modelu, když běží během ZTLUMIT odběr vzorků. Proto provádíme pouze jednu iteraci vzorkování DDIM a přímo používáme [toto] jako plně odšumovaná [data].“
Datasety použité pro testování systému byly Fotoaparát značky kodak; CLIC2022A COCO 30 tis. Soubor dat byl předzpracován podle metodiky uvedené v Google 2023 nabídka Multirealistická komprese obrazu s podmíněným generátorem.
Použité metriky byly Špičkový poměr signálu k šumu (PSNR); Naučené metriky vjemové podobnosti (LPIPS); Vícestupňový index strukturní podobnosti (MS-SSIM); a Fréchet počáteční vzdálenost (FID).
Konkurenční předchozí testované rámce byly rozděleny mezi starší systémy, které používaly generativní adversariální sítě (GAN), a novější nabídky založené na difúzních modelech. Testované systémy GAN byly Vysoce věrná generativní komprese obrazu (HiFiC); a ILLM (který nabízí některá vylepšení na HiFiC).
Byly to systémy založené na difuzi Ztrátová komprese obrazu s modely podmíněné difúze (CDC) a Vysoce věrná komprese obrazu s generativními modely založenými na skóre (HFD).

Kvantitativní výsledky proti předchozím rámcům v různých souborech dat.
Pro kvantitativní výsledky (vizualizované výše) výzkumníci uvádějí:
„Naše metoda nastavuje nový stav techniky v realismu rekonstruovaných snímků, překonávající všechny základní linie v křivkách FID-bitrate. V některých metrikách zkreslení (jmenovitě LPIPS a MS-SSIM) překonáváme všechny kodeky založené na šíření a zároveň zůstáváme konkurenceschopní s nejvýkonnějšími generativními kodeky.
"Jak se očekávalo, naše metoda a další generativní metody trpí při měření v PSNR, protože upřednostňujeme vjemově příjemné rekonstrukce namísto přesné replikace detailů."
Pro uživatelskou studii byla použita metoda dvou alternativních vynucených voleb (2AFC) v kontextu turnaje, kde by oblíbené obrázky postoupily do pozdějších kol. Studie použila elo systém hodnocení původně vyvinutý pro šachové turnaje.
Účastníci by si proto prohlédli a vybrali nejlepší ze dvou prezentovaných obrázků 512x512px napříč různými generativními metodami. Byl proveden další experiment, ve kterém všechno byla vyhodnocena srovnání obrázků od stejného uživatele prostřednictvím a Simulace Monte Carlo více než 10,0000 XNUMX iterací se středním skóre uvedeným ve výsledcích.

Odhadovaná hodnocení Elo pro uživatelskou studii, která obsahuje turnaje Elo pro každé srovnání (vlevo) a také pro každého účastníka, přičemž vyšší hodnoty jsou lepší.
Zde komentují autoři:
„Jak je vidět na skóre Elo, naše metoda výrazně překonává všechny ostatní, dokonce i ve srovnání s CDC, která používá v průměru dvojnásobek bitů naší metody. To platí bez ohledu na použitou turnajovou strategii Elo.'
V původním dokumentu, stejně jako doplňkové PDF, autoři poskytují další vizuální srovnání, z nichž jedno je uvedeno dříve v tomto článku. Vzhledem ke zrnitosti rozdílů mezi vzorky však odkazujeme čtenáře na zdrojové PDF, aby bylo možné tyto výsledky spravedlivě posoudit.
V závěru práce uvádí, že navrhovaná metoda funguje dvakrát rychleji než konkurenční CDC (3.49 vs 6.87 sekundy). Rovněž poznamenává, že ILLM dokáže zpracovat obraz během 0.27 sekundy, ale že tento systém vyžaduje zatěžující školení.
Proč investovat do čističky vzduchu?
Výzkumníci ETH/Disney mají v závěru článku jasno o potenciálu jejich systému vytvářet falešné detaily. Žádný ze vzorků nabízených v materiálu se však touto problematikou nezabývá.
Upřímně řečeno, tento problém není omezen na nový přístup Disney, ale je nevyhnutelným vedlejším efektem používání modelů difúze – vynalézavé a interpretační architektury – ke komprimaci obrazů.
Je zajímavé, že teprve před pěti dny dva další výzkumníci z ETH Zurich vyrobili a papír název Podmíněné halucinace pro kompresi obrazu, která zkoumá možnost „optimální úrovně halucinací“ v kompresních systémech založených na umělé inteligenci.
Autoři zde argumentují vhodností halucinací, kde je doména dostatečně generická (a pravděpodobně „neškodná“):
„Pro obsah podobný texturám, jako je tráva, pihy a kamenné zdi, je generování pixelů, které realisticky odpovídají dané struktuře, důležitější než rekonstruování přesných hodnot pixelů; generování jakéhokoli vzorku z distribuce textury je obecně dostačující.“
Tento druhý článek tedy podporuje to, aby byla komprese optimálně „kreativní“ a reprezentativní, spíše než aby co nejpřesněji znovu vytvořila základní rysy a linie původního nekomprimovaného obrázku.
Člověk by se divil, co by fotografická a kreativní komunita udělala s touto poměrně radikální redefinicí „komprese“.
*Můj převod inline citací autorů na hypertextové odkazy.
Poprvé zveřejněno ve středu 30. října 2024