Kapcsolatba velünk

Mesterséges intelligencia

JPEG tömörítés használata a neurális hálózatok képzésének javítására

mm

Közzététel:

 on

Egy mesterséges intelligencia által generált kép a ChatGPTY-4o használatával, a következő üzenettel: "Kérjük, készítsen panoráma fotórealisztikus képet egy tájkép naplementéről, ahol a kép jobb fele fokozatosan tele lesz csúnya JPEG műtermékekkel."

Egy új kanadai kutatási tanulmány olyan keretrendszert javasolt, amely szándékosan bevezeti a JPEG-tömörítést a neurális hálózatok képzési rendszerébe, és jobb eredményeket ér el – és jobban ellenáll az ellenséges támadásokkal szemben.

Ez egy meglehetősen radikális ötlet, mivel a jelenlegi általános bölcsesség az, hogy a JPEG műtermékek, amelyek emberi megtekintésre, és nem gépi tanulásra vannak optimalizálva, általában káros hatással vannak a JPEG adatokra képzett neurális hálózatokra.

Példa a különböző veszteségértékekkel tömörített JPEG-képek tisztaságának különbségére (a nagyobb veszteség kisebb fájlméretet tesz lehetővé, a színátmenetek körülhatárolása és sávosodása rovására, más műterméktípusok mellett). Forrás: https://forums.jetphotos.com/forum/aviation-photography-videoography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Példa a különböző veszteségértékekkel tömörített JPEG-képek tisztaságának különbségére (a nagyobb veszteség kisebb fájlméretet tesz lehetővé, a színátmenetek körülhatárolásának és sávosodásának rovására, más típusú műtermékek mellett). Forrás: https://forums.jetphotos.com/forum/aviation-photography-videoography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

A Marylandi Egyetem és a Facebook AI 2022-es jelentése érvényesíteni hogy a JPEG-tömörítés „jelentős teljesítménybüntetéssel jár” a neurális hálózatok képzésében, annak ellenére, hogy előző munka hogy az állítólagos neurális hálózatok viszonylag rugalmasak a képtömörítési műtermékekkel szemben.

Ezt megelőzően egy új gondolatmenet jelent meg a szakirodalomban: a JPEG tömörítés képes ténylegesen ki kell használni a modellképzés jobb eredményeiért.

Bár a cikk szerzői jobb eredményeket értek el a különböző minőségű JPEG-képek képzésében, az általuk javasolt modell annyira összetett és megterhelő volt, hogy nem volt megvalósítható. Ezenkívül a rendszer az alapértelmezett JPEG optimalizálási beállításokat (kvantálási) akadálynak bizonyult az edzés hatékonysága előtt.

Egy későbbi projekt (2023 JPEG-kompatibilis tömörítés a DNN Vision számára) kísérletezett egy olyan rendszerrel, amely valamivel jobb eredményeket ért el a JPEG-tömörített edzésképekből a fagyasztva mély neurális hálózat (DNN) modell. A modell részeinek betanítás közbeni lefagyasztása azonban csökkenti a modell sokoldalúságát, valamint az új adatokkal szembeni szélesebb körű rugalmasságát.

JPEG-DL

Ehelyett a új munka, címe JPEG ihletésű mély tanulás, sokkal egyszerűbb architektúrát kínál, amely akár már meglévő modellekre is rákényszeríthető.

A Waterloo Egyetem kutatói kijelentik:

„Az eredmények azt mutatják, hogy a JPEG-DL jelentősen és következetesen felülmúlja a szabványos DL-t a különböző DNN-architektúrákban, a modell összetettségének elhanyagolható növekedésével.

Pontosabban, a JPEG-DL akár 20.9%-kal javítja az osztályozási pontosságot egyes finomszemcsés osztályozási adatkészleteken, miközben csak 128 betanítható paramétert ad hozzá a DL-folyamathoz. Ezen túlmenően, a JPEG-DL felsőbbrendűségét a szabványos DL-lel szemben tovább bizonyítja a tanult modellek megnövelt ellenséges robusztussága és a bemeneti képek csökkentett fájlmérete.

A szerzők azt állítják, hogy az optimális JPEG tömörítési minőségi szint segíthet a neurális hálózatnak megkülönböztetni a kép központi témáját. Az alábbi példában az alapvonali eredményeket látjuk (balra), amelyek a madarat a háttérbe keverik, amikor a neurális hálózat jellemzőket kap. Ezzel szemben a JPEG-DL (jobbra) képes megkülönböztetni és körülhatárolni a fénykép témáját.

Teszt a JPEG-DL alapmódszereivel szemben. Forrás: https://arxiv.org/pdf/2410.07081

Teszt a JPEG-DL alapmódszereivel szemben. Forrás: https://arxiv.org/pdf/2410.07081

"Ez a jelenség" magyarázzák, „a [2021]-es cikkben a „tömörítés segíti” kifejezést az indokolja, hogy a tömörítés eltávolíthatja a zajt és a zavaró háttérjellemzőket, ezáltal kiemelheti a képen a fő objektumot, ami segít a DNN-eknek jobb előrejelzésben.

Módszer

A JPEG-DL megkülönböztetőt vezet be lágy kvantáló, amely felváltja a nem differenciálható kvantálási műveletet egy szabványos JPEG optimalizálási rutinban.

Ez lehetővé teszi gradiens alapú a képek optimalizálása. Ez nem lehetséges a hagyományos JPEG kódolásban, amely a egységes kvantáló a legközelebbi együtthatót megközelítő kerekítési művelettel.

A JPEG-DL sémájának differenciálhatósága lehetővé teszi mind a betanítási modell paramétereinek, mind a JPEG kvantálás (tömörítési szint) együttes optimalizálását. A közös optimalizálás azt jelenti, hogy mind a modell, mind a betanítási adatok egymáshoz illeszkednek a végtől végig folyamat, és nincs szükség a rétegek lefagyasztására.

Lényegében a rendszer testreszabja egy (nyers) adatkészlet JPEG-tömörítését, hogy illeszkedjen az általánosítási folyamat logikájához.

JPEG-DL séma.

JPEG-DL koncepcionális séma.

Feltételezhető, hogy a nyers adatok ideális takarmányt jelentenek a képzéshez; végül is a képek teljes egészében kitömörödnek egy megfelelő teljes hosszúságú színtérbe, ha kötegekben futnak; akkor mi a különbség az eredeti formátumban?

Nos, mivel a JPEG-tömörítést emberi megtekintésre optimalizálták, ennek a célnak megfelelő módon eldobja a részleteket vagy a színeket. Egy kék ég alatti tó képén a rendszer fokozott tömörítést alkalmaz az égbolton, mivel nem tartalmaz „lényeges” részletet.

Másrészt egy neurális hálózatból hiányoznak az excentrikus szűrők, amelyek lehetővé teszik számunkra, hogy nullázzuk a központi témákat. Ehelyett valószínű, hogy az égbolton minden sávos műterméket érvényes adatnak tekint látens tér.

Bár az ember elhárítja a sávozást az égen, egy erősen tömörített képen (balra), a neurális hálózatnak fogalma sincs arról, hogy ezt a tartalmat ki kell dobni, és jobb minőségű képre lesz szüksége (jobbra). Forrás: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Bár az ember elhárítja a sávozást az égen, egy erősen tömörített képen (balra), a neurális hálózatnak fogalma sincs arról, hogy ezt a tartalmat ki kell dobni, és jobb minőségű képre lesz szüksége (jobbra). Forrás: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Ezért a JPEG-tömörítés egy szintje valószínűleg nem felel meg a betanítási adatkészlet teljes tartalmának, hacsak nem egy nagyon meghatározott tartományt képvisel. A tömegről készült képek sokkal kevesebb tömörítést igényelnek, mint például egy madárról készült szűk fókuszú kép.

A szerzők megfigyelik, hogy azok, akik nem ismerik a kvantálás kihívásait, de ismerik a kvantálás alapjait. transzformerek architektúra, ezeket a folyamatokat egy "figyelem művelet", nagy vonalakban.

Adatok és tesztek

A JPEG-DL-t transzformátor alapú architektúrákhoz képest értékelték és konvolúciós neurális hálózatok (CNN-ek). A használt építészet a következő volt EfficientFormer-L1; ResNet; VGG; MobileNet, És ShuffleNet.

A használt ResNet verziók kifejezetten a CIFAR adatkészlet: ResNet32, ResNet56 és ResNet110. A VGG alapú tesztekhez a VGG8-at és a VGG13-at választottuk.

A CNN számára a képzési módszertan a 2020-as munkából származott Kontrasztív ábrázolás Desztilláció (CRD). Az EfficientFormer-L1 (transzformátor alapú) edzési módszer a 2023-as kirándulásból Modellek inicializálása nagyobb modellekkel használtunk.

A tesztekben szereplő finomszemcsés feladatokhoz négy adatkészletet használtak: Stanford kutyák; az Oxfordi Egyetemen Virágok; CUB-200-2011 (CalTech Birds); és Háziállat ("Macskák és kutyák", az Oxfordi Egyetem és az indiai Hyderabad együttműködése).

A CNN-eken végzett finomszemcsés feladatokhoz a szerzők használták PreAct ResNet-18 és a DenseNet-BC. Az EfficientFormer-L1 esetében a fent említett módszertan Modellek inicializálása nagyobb modellekkel használtunk.

A CIFAR-100 és a finomszemcsés feladatok között a változó nagyságrendű Diszkrét koszinusz transzformáció (DCT) frekvenciákat a JPEG tömörítési megközelítésben a Ádám optimalizáló, a tanulási arány a JPEG réteghez a tesztelt modelleken.

A teszteken ImageNet-1K, az összes kísérlet során a szerzők PyTorch-ot használtak SqueezeNet, ResNet-18 és ResNet-34 mint alapmodell.

A JPEG-réteg optimalizálási értékeléséhez a kutatók használtak Sztochasztikus gradiens süllyedés (SGD) Adam helyett, a stabilabb teljesítmény érdekében. Az ImageNet-1K teszteknél azonban a 2019-es papírból származó módszer Megtanult lépésméret kvantálás alkalmazták.

A CIFAR-1 rendszeren a JPEG-DL-hez viszonyított alapvonal és a JPEG-DL validálási pontossága meghaladja a legjobb 100-et, a standard és az átlagos eltéréseket három futtatás alatt átlagolják. Az alábbiakban a legjobb ellenőrzési pontosság látható a különféle finomszemcsés képosztályozási feladatoknál, különböző modellarchitektúrákon, ismét három lépésből átlagolva.

A CIFAR-1 rendszeren a JPEG-DL-hez viszonyított alapvonal és a JPEG-DL validálási pontossága meghaladja a legjobb 100-et, a standard és az átlagos eltéréseket három futtatás alatt átlagolják. Az alábbiakban a legjobb ellenőrzési pontosság látható a különféle finomszemcsés képosztályozási feladatoknál, különböző modellarchitektúrákon, ismét három lépésből átlagolva.

A fent bemutatott kezdeti eredményeket kommentálva a szerzők kijelentik:

„Mind a hét tesztelt CIFAR-100 modellen a JPEG-DL folyamatosan javítja az 1.53. legjobb pontosságot akár 1%-kal is. A finomszemcsés feladatokban a JPEG-DL jelentős teljesítménynövekedést kínál, akár 20.90%-os javulást is elérve az összes adatkészletben két különböző modell használatával.

Az ImageNet-1K tesztek eredményei az alábbiakban láthatók:

A legjobb ellenőrzési pontossági eredmények az ImageNet-en különböző keretrendszereken.

A legjobb ellenőrzési pontossági eredmények az ImageNet-en különböző keretrendszereken.

Itt a papír ezt írja:

„A komplexitás triviális növekedésével (128 paraméter hozzáadásával) a JPEG-DL 0.31%-os javulást ér el a SqueezeNetV1 első számú pontosságában az alapvonalhoz képest egyetlen [kvantálási] művelettel.

"A kvantálási körök számának ötre növelésével további 0.20%-os javulást tapasztalunk, ami az alapvonalhoz képest 0.51%-os teljes növekedést eredményez."

A kutatók a rendszert az általuk veszélyeztetett adatok felhasználásával is tesztelték ellenséges támadás megközelít Fast Gradient Signed Method (FGSM) és Tervezett gradiens süllyedés (PGD).

A támadásokat a CIFAR-100 ellen hajtották végre két modellen:

Tesztelési eredmények JPEG-DL-hez, két szabványos ellenséges támadási kerettel szemben.

Tesztelési eredmények JPEG-DL-hez, két szabványos ellenséges támadási kerettel szemben.

A szerzők kijelentik:

„[A] JPEG-DL modellek jelentősen javítják az ellenféllel szembeni robusztusságot a szabványos DNN-modellekhez képest, akár 15%-os javulással az FGSM és 6%-os a PGD esetében."

Ezen túlmenően, amint azt a cikkben korábban bemutattuk, a szerzők összehasonlították a kivont tereptérképeket GradCAM++ – olyan keretrendszer, amely képes vizuálisan kiemelni a kivont jellemzőket.

GradCAM++ illusztráció az alapvonal és a JPEG-DL képosztályozáshoz, kiemelve a kivonatolt funkciókat.

GradCAM++ illusztráció az alapvonal és a JPEG-DL képosztályozáshoz, kiemelve a kivonatolt funkciókat.

A lap megjegyzi, hogy a JPEG-DL jobb eredményt produkál, és egy esetben még olyan képet is képes volt besorolni, amelyet az alapvonal nem tudott azonosítani. A korábban illusztrált, madarakat ábrázoló kép kapcsán a szerzők kijelentik:

„[Nyilvánvaló], hogy a JPEG-DL modell tereptérképei lényegesen jobb kontrasztot mutatnak az előtér információi (a madár) és a háttér között, mint az alapmodell által generált jellemzőtérképek.

„Konkrétan a JPEG-DL jellemzőtérképekben az előtérben lévő objektum egy jól meghatározott körvonalon belül van, így vizuálisan megkülönböztethető a háttértől.

"Ezzel szemben az alapmodell jellemzőtérképei egy kevertebb struktúrát mutatnak, ahol az előtér magasabb energiát tartalmaz alacsony frekvenciákon, így simábban keveredik a háttérrel."

Következtetés

A JPEG-DL olyan helyzetekben való használatra készült, ahol nyers adatok állnak rendelkezésre – de a legérdekesebb lenne látni, hogy a projektben bemutatott alapelvek némelyike ​​alkalmazható-e a hagyományos adatkészlet-képzésre, ahol a tartalom gyengébb minőségű lehet (pl. gyakran előfordul az internetről lekapart hiperskálás adatkészleteknél).

Jelenlegi állapotában ez nagyrészt annotálási probléma marad, bár már foglalkoztunk vele forgalom alapú képfelismerésés másutt.

 

Első megjelenés: 10. október 2024., csütörtök

Író a gépi tanulásról, az emberi képszintézis terület specialistája. A Metaphysic.ai kutatási tartalomért felelős vezetője volt.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai