Spojte se s námi

Umělá inteligence

Použití komprese JPEG ke zlepšení tréninku neuronové sítě

mm

Zveřejněno

 on

Obrázek vygenerovaný umělou inteligencí pomocí ChatGPTY-4o s výzvou „Vytvořte prosím panoramatický fotorealistický obrázek západu slunce na šířku, kde se pravá polovina obrázku postupně zaplní ošklivými artefakty JPEG“

Nový výzkumný dokument z Kanady navrhl rámec, který záměrně zavádí kompresi JPEG do tréninkového schématu neuronové sítě a dokáže dosáhnout lepších výsledků – a lepší odolnosti vůči nepřátelským útokům.

To je poměrně radikální myšlenka, protože současná obecná moudrost je, že artefakty JPEG, které jsou optimalizovány pro lidské prohlížení, a nikoli pro strojové učení, mají obecně škodlivý účinek na neuronové sítě trénované na datech JPEG.

Příklad rozdílu v jasnosti mezi obrázky JPEG komprimovanými při různých hodnotách ztráty (vyšší ztráta umožňuje menší velikost souboru na úkor ohraničení a pruhů napříč barevnými přechody, mezi jinými typy artefaktů). Zdroj: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Příklad rozdílu v jasnosti mezi obrázky JPEG komprimovanými při různých hodnotách ztráty (vyšší ztráta umožňuje menší velikost souboru na úkor ohraničení a pruhů napříč barevnými přechody, mimo jiné typy artefaktů). Zdroj: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Zpráva z roku 2022 z University of Maryland a Facebook AI tvrdí že komprese JPEG „způsobuje výrazné snížení výkonu“ při trénování neuronových sítí, a to navzdory předchozí práce tvrdí, že neuronové sítě jsou relativně odolné vůči artefaktům komprese obrazu.

Rok před tím se v literatuře objevil nový směr myšlenky: že komprese JPEG by mohla skutečně využít pro lepší výsledky v modelovém tréninku.

Ačkoli autoři tohoto článku byli schopni získat lepší výsledky při trénování obrázků JPEG různé úrovně kvality, model, který navrhli, byl tak složitý a zatěžující, že nebyl proveditelný. Kromě toho systém používá výchozí nastavení optimalizace JPEG (kvantování) se ukázal jako překážka účinnosti tréninku.

Pozdější projekt (2023 Komprese kompatibilní s JPEG pro DNN Vision) experimentoval se systémem, který získal o něco lepší výsledky z tréninkových obrázků komprimovaných JPEG s použitím a zmrazené model hluboké neuronové sítě (DNN). Zmrazování částí modelu během trénování však má tendenci snižovat všestrannost modelu a také jeho širší odolnost vůči novým datům.

JPEG-DL

Místo toho nová práceS názvem Hluboké učení inspirované JPEG, nabízí mnohem jednodušší architekturu, kterou lze dokonce vnutit stávajícím modelům.

Vědci z University of Waterloo tvrdí:

„Výsledky ukazují, že JPEG-DL výrazně a trvale překonává standardní DL napříč různými architekturami DNN se zanedbatelným nárůstem složitosti modelu.

Konkrétně JPEG-DL zlepšuje přesnost klasifikace až o 20.9 % u některých jemnozrnných klasifikačních dat, přičemž do potrubí DL přidává pouze 128 trénovatelných parametrů. Kromě toho je nadřazenost JPEG-DL nad standardním DL dále demonstrována zvýšenou odolností naučených modelů a zmenšenou velikostí souborů vstupních obrázků.'

Autoři tvrdí, že optimální úroveň kvality komprese JPEG může pomoci neuronové síti rozlišit centrální objekt/y obrázku. V níže uvedeném příkladu vidíme základní výsledky (vlevo) mísící ptáka s pozadím, když jsou funkce získávány neuronovou sítí. Naproti tomu JPEG-DL (vpravo) se daří rozlišit a vymezit předmět fotografie.

Testy proti základním metodám pro JPEG-DL. Zdroj: https://arxiv.org/pdf/2410.07081

Testy proti základním metodám pro JPEG-DL. Zdroj: https://arxiv.org/pdf/2410.07081

"Tento fenomén," vysvětlují, „V článku [2021] nazvané „komprese pomáhá“ je odůvodněno skutečností, že komprese může odstranit šum a rušivé prvky pozadí, a tím zvýraznit hlavní objekt v obrázku, což DNN pomáhá lépe předpovídat.“

Metoda

JPEG-DL zavádí diferenciační měkký kvantizér, která nahrazuje operaci nediferencovatelné kvantizace ve standardní rutině optimalizace JPEG.

To umožňuje na základě gradientu optimalizace obrázků. To není možné v konvenčním kódování JPEG, které používá a jednotný kvantizér s operací zaokrouhlení, která se blíží nejbližšímu koeficientu.

Diferenciabilita schématu JPEG-DL umožňuje společnou optimalizaci parametrů trénovacího modelu i kvantizace JPEG (úroveň komprese). Společná optimalizace znamená, že jak model, tak trénovací data jsou vzájemně přizpůsobena v End-to-end procesu a není potřeba žádné zmrazování vrstev.

Systém v zásadě přizpůsobuje kompresi JPEG (raw) datové sady tak, aby odpovídala logice procesu zobecnění.

Schéma pro JPEG-DL.

Koncepční schéma pro JPEG-DL.

Dalo by se předpokládat, že nezpracovaná data by byla ideálním krmivem pro školení; koneckonců, obrázky jsou zcela dekomprimovány do vhodného barevného prostoru plné délky, když jsou spouštěny v dávkách; tak jaký je rozdíl v původním formátu?

Protože komprese JPEG je optimalizována pro lidské prohlížení, odhazuje oblasti detailů nebo barev způsobem, který je v souladu s tímto cílem. Na obrázku jezera pod modrou oblohou bude na oblohu aplikována zvýšená úroveň komprese, protože neobsahuje žádné „podstatné“ detaily.

Na druhou stranu neuronová síť postrádá excentrické filtry, které nám umožňují zaměřit se na centrální subjekty. Místo toho bude pravděpodobně považovat jakékoli pruhované artefakty na obloze za platná data, která mají být asimilována do svého latentní prostor.

Ačkoli člověk pruhování na obloze zavrhne, na silně komprimovaném obrázku (vlevo) neuronová síť netuší, že by tento obsah měl být vyhozen, a bude potřebovat obrázek vyšší kvality (vpravo). Zdroj: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Ačkoli člověk pruhování na obloze zavrhne, na silně komprimovaném obrázku (vlevo) neuronová síť netuší, že by tento obsah měl být vyhozen, a bude potřebovat obrázek vyšší kvality (vpravo). Zdroj: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Proto je nepravděpodobné, že by jedna úroveň komprese JPEG vyhovovala celému obsahu trénovací datové sady, pokud nepředstavuje velmi specifickou doménu. Obrázky davů budou vyžadovat mnohem menší kompresi než například obrázek ptáka s úzkým ohniskem.

Autoři pozorují, že ti, kteří nejsou obeznámeni s výzvami kvantování, ale kteří jsou obeznámeni se základy kvantování transformátory architektury, může tyto procesy považovat za 'pozornost', široce.

Data a testy

JPEG-DL byl hodnocen proti architektuře založené na transformátoru a konvoluční neuronové sítě (CNN). Použité architektury byly EfficientFormer-L1; ResNet; VGG; MobileNetA ShuffleNet.

Použité verze ResNet byly specifické pro CIFAR datová sada: ResNet32, ResNet56 a ResNet110. VGG8 a VGG13 byly vybrány pro testy založené na VGG.

Pro CNN byla metodika školení odvozena z práce z roku 2020 Kontrastní reprezentace Destilace (CRD). Pro EfficientFormer-L1 (založený na transformátoru), metodu školení z výletu v roce 2023 Inicializace modelů s většími byl použit.

Pro jemnozrnné úlohy uvedené v testech byly použity čtyři datové sady: Stanfordští psi; univerzitě v Oxfordu Květiny; CUB-200-2011 (CalTech Birds); a Domácí mazlíčci ("Kočky a psi", spolupráce mezi University of Oxford a Hyderabad v Indii).

Pro jemnozrnné úkoly na CNN autoři použili PreAct ResNet-18 si DenseNet-BC. Pro EfficientFormer-L1, metodologie nastíněná výše Inicializace modelů s většími byl použit.

Přes CIFAR-100 a jemnozrnné úkoly, různé velikosti Diskrétní kosinová transformace (DCT) frekvence v kompresním přístupu JPEG byly zpracovány pomocí Adam optimalizátor, aby se přizpůsobil rychlost učení pro vrstvu JPEG napříč testovanými modely.

V testech na ImageNet-1K, ve všech experimentech autoři použili PyTorch, with SqueezeNet, ResNet-18 a ResNet-34 jako základní modely.

Pro vyhodnocení optimalizace JPEG vrstvy výzkumníci použili Stochastický gradientní sestup (SGD) místo Adama, pro stabilnější výkon. Pro testy ImageNet-1K však metoda z dokumentu z roku 2019 Naučená kvantizace velikosti kroku byl zaměstnán.

Přesnost validace vyšší než 1 pro základní linii vs. JPEG-DL na CIFAR-100 se standardními a průměrnými odchylkami zprůměrovanými během tří běhů. Níže je uvedena nejvyšší přesnost validace pro různé úlohy klasifikace jemně zrnitých snímků napříč různými architekturami modelů, opět jako průměr ze tří průchodů.

Přesnost validace vyšší než 1 pro základní linii vs. JPEG-DL na CIFAR-100 se standardními a průměrnými odchylkami zprůměrovanými během tří běhů. Níže je uvedena nejvyšší přesnost validace pro různé úlohy klasifikace jemně zrnitých snímků napříč různými architekturami modelů, opět jako průměr ze tří průchodů.

V komentáři k výše uvedenému úvodnímu kolu výsledků autoři uvádějí:

„U všech sedmi testovaných modelů pro CIFAR-100 poskytuje JPEG-DL konzistentně vylepšení se ziskem až 1.53 % v přesnosti top-1. V jemnozrnných úlohách nabízí JPEG-DL podstatné zvýšení výkonu se zlepšením až o 20.90 % napříč všemi datovými sadami pomocí dvou různých modelů.'

Výsledky testů ImageNet-1K jsou uvedeny níže:

Nejlepší výsledky přesnosti ověření na ImageNet napříč různými frameworky.

Nejlepší výsledky přesnosti ověření na ImageNet napříč různými frameworky.

Zde papír uvádí:

„S triviálním zvýšením složitosti (přidáním 128 parametrů) JPEG-DL dosahuje zisku 0.31 % v nejvyšší přesnosti pro SqueezeNetV1 ve srovnání se základní linií pomocí jediného kola [kvantizace] operace.

'Zvýšením počtu kvantizačních kol na pět pozorujeme další zlepšení o 0.20 %, což vede k celkovému zisku 0.51 % oproti základní linii.'

Výzkumníci také testovali systém pomocí dat kompromitovaných nepřátelský útok přístupy Rychlý gradient podepsaný metoda (FGSM) a Projektovaný gradient klesání (PGD).

Útoky byly provedeny na CIFAR-100 přes dva modely:

Výsledky testování pro JPEG-DL proti dvěma standardním rámcům nepřátelských útoků.

Výsledky testování pro JPEG-DL proti dvěma standardním rámcům nepřátelských útoků.

Autoři uvádějí:

'[Modely] JPEG-DL výrazně zlepšují odolnost protivníka ve srovnání se standardními modely DNN, se zlepšením až o 15 % u FGSM a 6 % u PGD.“

Kromě toho, jak bylo ilustrováno dříve v článku, autoři provedli srovnání extrahovaných map funkcí pomocí GradCAM++ – rámec, který dokáže zvýraznit extrahované prvky vizuálním způsobem.

Ilustrace GradCAM++ pro základní a JPEG-DL klasifikaci obrázků se zvýrazněnými extrahovanými prvky.

Ilustrace GradCAM++ pro základní a JPEG-DL klasifikaci obrázků se zvýrazněnými extrahovanými prvky.

Článek poznamenává, že JPEG-DL poskytuje lepší výsledek a že v jednom případě byl dokonce schopen klasifikovat obrázek, který základní linie nedokázala identifikovat. Pokud jde o dříve ilustrovaný obrázek s ptáky, autoři uvádějí:

„Je zřejmé, že mapy objektů z modelu JPEG-DL vykazují výrazně lepší kontrast mezi informací v popředí (pták) a pozadím ve srovnání s mapami objektů generovanými základním modelem.

„Objekt v popředí na mapách prvků JPEG-DL je uzavřen v dobře definovaném obrysu, takže je vizuálně odlišitelný od pozadí.

"Naproti tomu mapy rysů základního modelu ukazují více prolnutou strukturu, kde popředí obsahuje vyšší energii v nízkých frekvencích, což způsobuje, že hladce splyne s pozadím."

Proč investovat do čističky vzduchu?

JPEG-DL je určen pro použití v situacích, kdy jsou k dispozici nezpracovaná data – ale bylo by velmi zajímavé zjistit, zda by některé principy uvedené v tomto projektu mohly být aplikovány na konvenční školení datových sad, kde může být obsah nižší kvality (např. se často vyskytuje u datových sad hyperscale stažených z internetu).

Jak to tak je, to z velké části zůstává problémem s anotací, i když byl vyřešen rozpoznávání obrazu na základě provozua jinde.

 

Poprvé publikováno ve čtvrtek 10. října 2024