Kąt Andersona

JPEG AI Zaciera Granicę Między Rzeczywistymi a Syntetycznymi

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

W lutym tego roku opublikowano międzynarodowy standard JPEG AI, po kilku latach badań mających na celu wykorzystanie technik uczenia maszynowego do produkcji mniejszego i łatwiejszego do transmisji i przechowywania kodeka obrazu, bez utraty jakości percepcyjnej.

Z oficjalnego strumienia publikacji dla JPEG AI, porównanie między Peak Signal-to-Noise Ratio (PSNR) a podejściem ML-augmented JPEG AI. Źródło: https://jpeg.org/jpegai/documentation.html

Jednym z możliwych powodów, dla którego ten przełom zrobił niewiele nagłówków, jest to, że podstawowe pliki PDF dla tego ogłoszenia były (ironicznie) niedostępne za pośrednictwem bezpłatnych portali, takich jak Arxiv. Niemniej jednak, Arxiv już wcześniej przedstawił szereg badań badających znaczenie JPEG AI w różnych aspektach, w tym nietypowych artefaktów kompresji i jego znaczenia dla sądownictwa.

Jedno z badań porównało artefakty kompresji, w tym wcześniejszy projekt JPEG AI, stwierdzając, że nowa metoda ma tendencję do rozmywania tekstu – nie jest to bagatelka w przypadkach, gdy kodek może przyczynić się do łańcucha dowodów. Źródło: https://arxiv.org/pdf/2411.06810

Ponieważ JPEG AI zmienia obrazy w sposób, który naśladuje artefakty syntetycznych generatorów obrazów, istniejące narzędzia sądowe mają trudności z rozróżnieniem prawdziwych i fałszywych obrazów:

Po kompresji JPEG AI, algorytmy najnowszej generacji nie mogą już niezawodnie oddzielić autentycznej zawartości od zmodyfikowanych obszarów na mapach lokalizacji, zgodnie z niedawnym artykułem (marzec 2025). Przykładowe obrazy po lewej stronie to zmodyfikowane/ fałszywe obrazy, w których zmodyfikowane obszary są wyraźnie wyznaczone przy użyciu standardowych technik sądowych (środkowy obraz). Jednak kompresja JPEG AI nadaje fałszywym obrazom warstwę wiarygodności (obraz z daleka po prawej). Źródło: https://arxiv.org/pdf/2412.03261

Jednym z powodów jest to, że JPEG AI jest szkolony przy użyciu architektury modelu podobnej do tych używanych przez generatywne systemy, które narzędzia sądowe mają na celu wykryć:

Nowy artykuł ilustruje podobieństwo między metodologiami kompresji obrazu napędzanymi przez AI a rzeczywistymi obrazami wygenerowanymi przez AI. Źródło: https://arxiv.org/pdf/2504.03191

Dlatego oba modele mogą wytworzyć niektóre podobne podstawowe cechy wizualne, z punktu widzenia sądowego.

Kwantyzacja

Ten przełom występuje z powodu kwantyzacji, wspólnej dla obu architektur, i która jest używana w uczeniu maszynowym jako metoda konwersji danych ciągłych na dyskretne punkty danych, oraz jako technika optymalizacji, która może znacznie zmniejszyć rozmiar pliku szkoleniowego modelu (hobbystom syntezowania obrazów będzie znany czas oczekiwania między oficjalnym modelem a wersją społecznościową, która może działać na lokalnym sprzęcie).

W tym kontekście kwantyzacja odnosi się do procesu konwersji ciągłych wartości w latentnym przedstawieniu obrazu na ustalone, dyskretne kroki. JPEG AI używa tego procesu, aby zmniejszyć ilość danych potrzebnych do przechowywania lub transmisji obrazu, upraszczając wewnętrzną reprezentację numeryczną.

Chociaż kwantyzacja sprawia, że kodowanie jest bardziej wydajne, również narzuca regularności strukturalne, które mogą przypominać artefakty pozostawione przez generatywne modele – zbyt subtelne, aby być postrzeganymi, ale zakłócające narzędzia sądowe.

W odpowiedzi, autorzy nowej pracy zatytułowanej Trzy wskazówki sądowe dla obrazów JPEG AI proponują interpretowalne, nie-neuronowe techniki, które wykrywają kompresję JPEG AI; określają, czy obraz został ponownie skompresowany; i różnicują skompresowane obrazy rzeczywiste od tych wygenerowanych w całości przez AI.

Metoda

Korelacje kolorów

Artykuł proponuje trzy ‘wskazówki sądowe’ dostosowane do obrazów JPEG AI: korelacje kanałów kolorów, wprowadzane podczas wstępnych kroków przetwarzania JPEG AI; mierne odkształcenia jakości obrazu w wielokrotnych kompresjach, które ujawniają zdarzenia rekompresji; i wzorce kwantyzacji przestrzeni latentnej, które pomagają różnicować obrazy skompresowane przez JPEG AI i te wygenerowane przez modele AI.

W odniesieniu do podejścia opartego na korelacjach kolorów, pipeline przetwarzania JPEG AI wprowadza zależności statystyczne między kanałami kolorów obrazu, tworząc sygnaturę, która może służyć jako wskazówka sądowa.

JPEG AI konwertuje obrazy RGB na przestrzeń kolorów YUV i wykonuje 4:2:0 podpróbkowanie chrominancji, co obejmuje pomniejszanie kanałów chrominancji przed kompresją. Ten proces prowadzi do subtelnych korelacji między wysokoczęstotliwościowymi resztkami kanałów czerwonego, zielonego i niebieskiego – korelacjami, które nie są obecne w niekompresowanych obrazach i które różnią się od tych wytwarzanych przez tradycyjną kompresję JPEG lub syntetyczne generatory obrazów.

<img class="size-full wp-image-215539" src="https://www.unite.ai/wp-content/uploads/2025/04/color-correlations.jpg" alt="Porównanie tego, jak kompresja JPEG AI zmienia korelacje kolorów w obrazach, używając kanału czerwonego jako przykładu. Panel (a) porównuje niekompresowane obrazy z obrazami skompresowanymi przez JPEG AI, pokazując, że kompresja znacznie zwiększa międzykanałową korelację. Panel (b) izoluje efekt wstępnego przetwarzania JPEG AI – tylko konwersja kolorów i podpróbkowanie – demonstrując, że nawet ten krok zwiększa korelację w sposób zauważalny. Panel (c) pokazuje, że tradycyjna kompresja JPEG również zwiększa korelację, ale nie w takim samym stopniu. Panel (d) baduje syntetyczne obrazy, z Midjourney-V5 i Adobe Firefly wykazującymi umiarkowane zwiększenie korelacji, podczas gdy inne pozostają bliżej poziomów niekompresowanych.” width=”1200″ height=”337″ /> Porównanie tego, jak kompresja JPEG AI zmienia korelacje kolorów w obrazach..

Powyżej możemy zobaczyć porównanie z artykułu, ilustrujące, jak kompresja JPEG AI zmienia korelacje kolorów w obrazach, używając kanału czerwonego jako przykładu.

Panel A porównuje niekompresowane obrazy z obrazami skompresowanymi przez JPEG AI, pokazując, że kompresja znacznie zwiększa międzykanałową korelację; panel B izoluje efekt wstępnego przetwarzania JPEG AI – tylko konwersja kolorów i podpróbkowanie – demonstrując, że nawet ten krok zwiększa korelację w sposób zauważalny; panel C pokazuje, że tradycyjna kompresja JPEG również zwiększa korelację, ale nie w takim samym stopniu; panel D baduje syntetyczne obrazy, z Midjourney-V5 i Adobe Firefly wykazującymi umiarkowane zwiększenie korelacji, podczas gdy inne pozostają bliżej poziomów niekompresowanych.

Stosunek szybkości do odkształcenia

Wskazówka stosunku szybkości do odkształcenia identyfikuje rekompresję JPEG AI, śledząc, jak jakość obrazu, mierzona przez Peak Signal-to-Noise Ratio (PSNR), maleje w przewidywalnym wzorcu w wielokrotnych kompresjach.

Badanie twierdzi, że wielokrotne kompresowanie obrazu za pomocą JPEG AI prowadzi do stopniowych, ale nadal mierzalnych, strat jakości obrazu, jak to mierzy PSNR, i że ten stopniowy spadek stanowi podstawę wskazówki sądowej do wykrycia, czy obraz został ponownie skompresowany.

W przeciwieństwie do tradycyjnego JPEG, gdzie wcześniejsze metody śledziły zmiany w określonych blokach obrazu, JPEG AI wymaga innego podejścia, ze względu na jego architekturę kompresji neuronowej; dlatego autorzy proponują monitorowanie, jak bitrate i PSNR ewoluują w czasie wielokrotnych kompresji. Każda runda kompresji zmienia obraz mniej niż poprzednia, a ten malejący zmian (wykreślony przeciwko bitrate) może ujawnić, czy obraz przeszedł przez wiele etapów kompresji:

Ilustracja tego, jak powtarzana kompresja wpływa na jakość obrazu w różnych kodekach, przedstawiająca wyniki dla JPEG AI i kodeka neuronowego opracowanego w https://arxiv.org/pdf/1802.01436; oba wykazują stopniowy spadek PSNR przy każdej dodatkowej kompresji – nawet przy niższych bitrate. W przeciwieństwie do tego, tradycyjna kompresja JPEG utrzymuje stosunkowo stabilną jakość w wielokrotnych kompresjach, chyba że bitrate jest wysoki.

Na powyższym obrazie widać wykreślone krzywe szybkości do odkształcenia dla JPEG AI; drugiego kodeka opartego na AI; oraz tradycyjnego JPEG, stwierdzając, że JPEG AI i kodek neuronowy wykazują stały spadek PSNR we wszystkich bitrate, podczas gdy tradycyjna kompresja JPEG wykazuje zauważalne pogorszenie tylko przy znacznie wyższych bitrate. To zachowanie dostarcza ilościowego sygnału, który może być wykorzystany do oznaczenia obrazów JPEG AI, które przeszły rekompresję.

Przez wyodrębnienie, jak bitrate i jakość obrazu ewoluują w czasie wielokrotnych kompresji, autorzy podobnie zbudowali sygnaturę, która pomaga oznaczyć, czy obraz został ponownie skompresowany, zapewniając potencjalną praktyczną wskazówkę sądową w kontekście JPEG AI.

Kwantyzacja

Jak widzieliśmy wcześniej, jednym z bardziej wymagających problemów sądowych wynikających z JPEG AI jest jego wizualne podobieństwo do syntetycznych obrazów generowanych przez modele dyfuzyjne. Obie strony używają architektur kodera-dekodera, które przetwarzają obrazy w skompresowanej przestrzeni latentnej i często pozostawiają subtelne artefakty upsamplowania.

Te wspólne cechy mogą mylić wykrywacze – nawet te przeszkolone na obrazach JPEG AI. Jednak kluczowa różnica strukturalna pozostaje: JPEG AI stosuje kwantyzację, krok, który zaokrągla wartości latentne do dyskretnych poziomów w celu efektywnej kompresji, podczas gdy generatywne modele zwykle nie.

Nowy artykuł wykorzystuje tę różnicę, aby zaprojektować wskazówkę sądową, która pośrednio testuje obecność kwantyzacji. Metoda analizuje, jak latentne przedstawienie obrazu reaguje na zaokrąglanie, przy założeniu, że jeśli obraz został już skwantyzowany, jego struktura latentna wykaże mierzalny wzorzec wyrównania z zaokrąglonymi wartościami.

Te wzorce, choć niewidoczne dla oka, produkują różnice statystyczne, które mogą pomóc oddzielić skompresowane obrazy rzeczywiste od tych w całości wygenerowanych przez AI.

Przykład średnich widm Fouriera ujawnia, że obrazy skompresowane przez JPEG AI oraz te wygenerowane przez modele dyfuzyjne, takie jak Midjourney-V5 i Stable Diffusion XL, wykazują regularne, siatkowe wzory w dziedzinie częstotliwości – artefakty zwykle związane z upsamplowaniem. W przeciwieństwie do tego, obrazy rzeczywiste nie wykazują tych wzorów. To nachodzenie struktury widmowej pomaga wyjaśnić, dlaczego narzędzia sądowe często mylą skompresowane obrazy rzeczywiste z syntetycznymi.

Co ważne, autorzy pokazują, że ta wskazówka działa w różnych modelach generatywnych i pozostaje skuteczna nawet wtedy, gdy kompresja jest wystarczająco silna, aby zredukować całe sekcje przestrzeni latentnej do zera. W przeciwieństwie do tego, syntetyczne obrazy wykazują znacznie słabsze reakcje na ten test zaokrąglania, oferując praktyczny sposób różnicowania między nimi.

Wynik ten jest przeznaczony jako lekki i interpretowalny narzędzie ukierunkowane na podstawową różnicę między kompresją a generacją, zamiast polegania na kruchych powierzchniowych artefaktach.

Dane i testy

Kompresja

Aby ocenić, czy ich wskazówka korelacji kolorów może niezawodnie wykryć kompresję JPEG AI (tj. pierwszą kompresję z niekompresowanego źródła), autorzy przetestowali ją na wysokiej jakości niekompresowanych obrazach z zbioru danych RAISE, kompresując je na różnych poziomach bitrate, przy użyciu referencyjnej implementacji JPEG AI.

Szkolili prosty las losowy na statystycznych wzorach korelacji kanałów kolorów (szczególnie jak szum resztkowy w każdym kanale wyrównywał się z innymi) i porównali go do ResNet50 sieci neuronowej szkolonej bezpośrednio na pikselach obrazu.

Dokładność wykrywania kompresji JPEG AI przy użyciu cech korelacji kolorów, porównana w różnych bitrate. Metoda jest najbardziej skuteczna przy niższych bitrate, gdzie artefakty kompresji są silniejsze, i wykazuje lepszą generalizację do niewidzianych poziomów kompresji niż model ResNet50.

Podczas gdy ResNet50 osiągnął wyższą dokładność, gdy dane testowe ściśle odpowiadały warunkom szkolenia, miał trudności z generalizacją na różne poziomy kompresji. Podejście oparte na korelacjach, chociaż znacznie prostsze, okazało się bardziej konsekwentne w różnych bitrate, szczególnie przy niższych poziomach kompresji, gdzie wstępne przetwarzanie JPEG AI ma silniejszy efekt.

Te wyniki sugerują, że nawet bez głębokiego uczenia, jest możliwe wykrycie kompresji JPEG AI przy użyciu statystycznych wskazówek, które pozostają interpretowalne i odporne.

Rekompresja

Aby ocenić, czy rekompresja JPEG AI może być niezawodnie wykryta, badacze przetestowali wskazówkę szybkości do odkształcenia na zestawie obrazów skompresowanych na różnych poziomach bitrate – niektóre tylko raz, a inne ponownie przy użyciu JPEG AI.

Metoda ta obejmowała wyodrębnienie 17-wymiarowego wektora cech, aby śledzić, jak bitrate i PSNR obrazu ewoluują w trzech rundach kompresji. Ten zestaw cech ujmował, ile jakości zostało utracone na każdym etapie, i jak zachowują się stawki latentne i hiperpriory – metryki, których tradycyjne metody oparte na pikselach nie mogą łatwo uzyskać.

Badacze szkolili las losowy na tych cechach i porównali jego wyniki z ResNet50 szkolonym na fragmentach obrazu:

Wyniki dokładności klasyfikacji lasu losowego szkolonego na cechach szybkości do odkształcenia w celu wykrycia, czy obraz JPEG AI został ponownie skompresowany. Metoda działa najlepiej, gdy pierwsza kompresja jest silna (tj. przy niższych bitrate), i następnie konsekwentnie przewyższa ResNet50 – szczególnie w przypadkach, gdy druga kompresja jest łagodniejsza niż pierwsza.

Las losowy okazał się szczególnie skuteczny, gdy pierwsza kompresja była silna (tj. przy niższych bitrate), ujawniając wyraźne różnice między obrazami skompresowanymi jeden i wiele razy. Podobnie jak w przypadku poprzedniej wskazówki, iteracja ResNet50 miała trudności z generalizacją, szczególnie gdy testowana była na poziomach kompresji, których nie widziała podczas szkolenia.

Cecha szybkości do odkształcenia okazała się stabilna w różnych scenariuszach. Godne uwagi jest to, że podejście działało nawet wtedy, gdy zastosowano je do innego kodeka opartego na AI, co sugeruje, że metoda generalizuje poza JPEG AI.

JPEG AI i syntetyczne obrazy

W ostatniej rundzie testów autorzy sprawdzili, czy ich cechy kwantyzacji mogą różnicować obrazy skompresowane przez JPEG AI od w pełni syntetycznych, wygenerowanych przez modele takie jak Midjourney, Stable Diffusion, DALL-E 2, Glide i Adobe Firefly.

Do tego celu wykorzystali podzbiór zbioru danych Synthbuster, łącząc zdjęcia rzeczywiste z zbioru danych RAISE z obrazami wygenerowanymi przez różne modele dyfuzyjne i oparte na GAN.

<img class=" wp-image-215545" src="https://www.unite.ai/wp-content/uploads/2025/04/synthbuster.jpg" alt="Przykłady syntetycznych obrazów w Synthbuster, wygenerowanych przy użyciu podpowiedzi tekstowych inspirowanych naturalnymi fotografiami z zbioru danych RAISE-1k. Obrazy zostały wygenerowane przy użyciu różnych modeli dyfuzyjnych, z podpowiedziami zaprojektowanymi w celu wytworzenia fotorealistycznej zawartości i tekstur zamiast stylizowanych lub artystycznych wyobrażeń, odzwierciedlając focus zbioru danych na testowanie metod różnicowania rzeczywistych i wygenerowanych obrazów.” width=”898″ height=”437″ /> Przykłady syntetycznych obrazów w Synthbuster, wygenerowanych przy użyciu podpowiedzi tekstowych inspirowanych naturalnymi fotografiami z zbioru danych RAISE-1k. Obrazy zostały wygenerowane przy użyciu różnych modeli dyfuzyjnych, z podpowiedziami zaprojektowanymi w celu wytworzenia fotorealistycznej zawartości i tekstur zamiast stylizowanych lub artystycznych wyobrażeń, odzwierciedlając focus zbioru danych na testowanie metod różnicowania rzeczywistych i wygenerowanych obrazów. Źródło: https://ieeexplore.ieee.org/document/10334046

Rzeczywiste obrazy zostały skompresowane przy użyciu JPEG AI na kilku poziomach bitrate, a klasyfikacja została sformułowana jako dwukierunkowe zadanie: albo JPEG AI versus konkretny generator, albo konkretny bitrate versus Stable Diffusion XL.

Cechy kwantyzacji (korelacje wyodrębnione z latentnych reprezentacji) zostały obliczone z ustalonej 256×256 regionu i podane do klasyfikatora lasu losowego. Jako punkt odniesienia, ResNet50 został szkolony na fragmentach pikseli z tych samych danych.

Dokładność klasyfikacji lasu losowego przy użyciu cech kwantyzacji do rozróżnienia obrazów skompresowanych przez JPEG AI od syntetycznych.

Przez większość warunków, podejście oparte na kwantyzacji przewyższało punkt odniesienia ResNet50, szczególnie przy niższych bitrate, gdzie artefakty kompresji były silniejsze.

Autorzy stwierdzają:

‘Punkt odniesienia ResNet50 osiąga najlepsze wyniki dla obrazów Glide z dokładnością 66,1%, ale ogólnie generalizuje gorzej niż cechy kwantyzacji. Cechy kwantyzacji wykazują dobrą generalizację w różnych siłach kompresji i typach generatorów.

‘Ważność współczynników, które są skwantyzowane do zera, jest pokazana w bardzo szanowanym wyniku skróconych [cech], które w wielu przypadkach osiągają wyniki porównywalne do klasyfikatora ResNet50.

‘Jednak cechy kwantyzacji, które wykorzystują nieskrócone, pełne wektory całkowite, nadal osiągają znacznie lepsze wyniki. Te wyniki potwierdzają, że ilość zer po kwantyzacji jest ważną wskazówką do różnicowania obrazów skompresowanych przez AI i wygenerowanych przez AI.

‘Jednakże, również pokazuje, że inne czynniki przyczyniają się. Dokładność pełnego wektora do wykrywania JPEG AI jest dla wszystkich bitrate powyżej 91,0%, a silniejsza kompresja prowadzi do wyższych dokładności.’

Projekcja przestrzeni cech przy użyciu UMAP wykazała wyraźne rozdzielenie między obrazami JPEG AI a syntetycznymi, z niższymi bitrate zwiększającymi odległość między klasami. Jednym ze stałych outlierów była Glide, której obrazy klastryzowały się inaczej i miały najniższą dokładność wykrywania spośród wszystkich testowanych generatorów.

Dwuwymiarowa wizualizacja UMAP obrazów skompresowanych przez JPEG AI i syntetycznych, opartych na cechach kwantyzacji. Lewy wykres pokazuje, że niższe bitrate JPEG AI tworzą większe rozdzielenie od syntetycznych obrazów; prawy wykres, jak obrazy z różnych generatorów klastryzują się wyraźnie w przestrzeni cech.

Na koniec, autorzy ocenili, jak dobrze cechy kwantyzacji radzą sobie z typowym postprocessingiem, takim jak rekompresja JPEG lub zmniejszanie rozdzielczości. Chociaż wydajność spadała przy silniejszym przetwarzaniu, spadek był stopniowy, sugerując, że podejście zachowuje pewną wytrzymałość nawet w przypadku zdegradowanych warunków.

Ocena wytrzymałości cech kwantyzacji na postprocessing, w tym rekompresję JPEG (JPG) i zmniejszanie rozdzielczości (RS).

Podsumowanie

Nie jest pewne, czy JPEG AI zostanie szeroko przyjęty. Z jednej strony, istnieje wystarczająco dużo infrastrukturalnego długu, aby nałożyć tarcie na każdy nowy kodek; i nawet ‘tradycyjny’ kodek o dobrych rodowodach i szerokiej zgodzie co do jego wartości, taki jak AV1, ma trudności z wyprzedzeniem długo ustalonych metod.

W odniesieniu do potencjalnego konfliktu systemu z generatorami AI, charakterystyczne artefakty kwantyzacji, które pomagają bieżącej generacji wykrywaczy AI, mogą być zmniejszone lub ostatecznie zastąpione przez ślady innego rodzaju, w późniejszych systemach (przy założeniu, że generatory AI zawsze pozostawiają ślady sądowe, co nie jest pewne).

To oznacza, że własne cechy kwantyzacji JPEG AI, być może wraz z innymi wskazówkami zidentyfikowanymi przez nowy artykuł, mogą nie kolidować z śladem sądowym najskuteczniejszych nowych systemów generatywnych AI.

Jeśli jednak JPEG AI będzie działał jako de facto ‘pranie AI’, znacznie zacierając różnicę między rzeczywistymi a wygenerowanymi obrazami, byłoby trudno uzasadnić jego przyjęcie.

Pierwotnie opublikowane we wtorek, 8 kwietnia 2025