Artificial Intelligence
Rozwiązywanie problemu artefaktów JPEG w zbiorach danych obrazu komputerowego

Nowe badanie przeprowadzone przez University of Maryland i Facebook AI wykazało „znaczny spadek wydajności” w przypadku systemów głębokiego uczenia, które wykorzystują w swoich zbiorach danych mocno skompresowane obrazy JPEG, oraz przedstawiło nowe metody łagodzenia skutków tego zjawiska.
raport, pod tytulem Analizowanie i łagodzenie defektów kompresji JPEG w głębokim uczeniu się, twierdzi, że jest „znacznie bardziej kompleksowy” niż poprzednie badania nad wpływem artefaktów na zestawy danych treningowych wizji komputerowej. W artykule stwierdzono, że „[silna] lub umiarkowana kompresja JPEG powoduje znaczny spadek wydajności w standardowych metrykach” i że sieci neuronowe prawdopodobnie nie są tak odporne na tego typu zaburzenia, jak wcześniejsze prace. wskazuje.

Zdjęcie psa z zestawu danych MobileNetV2018 z 2 roku. W jakości 10 (po lewej) system klasyfikacji nie identyfikuje prawidłowej rasy „Pembroke Welsh Corgi”, zamiast tego zgadując „Norwich terrier” (system wie już, że to zdjęcie psa, ale nie wie, jaka to rasa); drugie od lewej, gotowa wersja JPEG z poprawioną artefaktami ponownie nie identyfikuje prawidłowej rasy; drugie od prawej, celowa korekta artefaktów przywraca prawidłową klasyfikację; a po prawej, oryginalne zdjęcie, poprawnie sklasyfikowane. Źródło: https://arxiv.org/pdf/2011.08932.pdf
Artefakty kompresji jako „dane”
Ekstremalna kompresja JPEG prawdopodobnie utworzy widoczne lub półwidoczne obramowania wokół pliku 8×8 bloki Z których plik JPEG jest składany w siatkę pikseli. Gdy te blokujące lub „dzwoniące” artefakty się pojawią, prawdopodobnie zostaną błędnie zinterpretowane przez systemy uczenia maszynowego jako rzeczywiste elementy obiektu obrazu, chyba że zostanie zastosowana jakaś kompensacja.

Powyżej, system uczenia maszynowego wykorzystujący wizję komputerową wyodrębnia „czysty” obraz gradientowy z obrazu dobrej jakości. Poniżej, „blokujące” artefakty w zapisie obrazu o niższej jakości zasłaniają cechy obiektu i mogą ostatecznie „zainfekować” cechy uzyskane z zestawu obrazów, szczególnie w przypadkach, gdy w zbiorze danych występują obrazy o wysokiej i niskiej jakości, na przykład w zbiorach pozyskanych z internetu, do których zastosowano jedynie ogólne czyszczenie danych. Źródło: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf
Jak widać na pierwszym obrazku powyżej, takie artefakty mogą wpływać na zadania klasyfikacji obrazów, co ma konsekwencje także dla algorytmów rozpoznawania tekstu, które mogą nieprawidłowo identyfikować postacie dotknięte artefaktami.
W przypadku systemów szkoleniowych syntezy obrazu (takich jak oprogramowanie deepfake lub systemy generowania obrazów oparte na sieciach GAN), „nieuczciwy” blok niskiej jakości, mocno skompresowanych obrazów w zbiorze danych może albo obniżyć medianę jakości reprodukcji, albo zostać wchłonięty i w zasadzie zastąpiony przez większą liczbę cech wyższej jakości wyodrębnionych z lepszych obrazów w zbiorze. W obu przypadkach pożądane są lepsze dane – lub przynajmniej spójne dane.
JPEG – Zwykle wystarczająco dobry
Kompresja JPEG to nieodwracalnie stratny kodek, który można stosować do różnych formatów obrazów, choć głównie stosuje się go do plików obrazów JFIF obwoluta. Mimo to nazwa formatu JPEG (.jpg) pochodzi od powiązanej z nim metody kompresji, a nie opakowania JFIF dla danych obrazu.
W ostatnich latach pojawiły się całe architektury uczenia maszynowego, które obejmują łagodzenie artefaktów w stylu JPEG w ramach procedur zwiększania/przywracania opartych na sztucznej inteligencji, a usuwanie artefaktów kompresji w oparciu o sztuczną inteligencję jest obecnie włączone do wielu produktów komercyjnych, takich jak obraz/przywracanie Topaz wideo apartamenti cechy neuronowe najnowszych wersji programu Adobe Photoshop.
Ponieważ 1986 Obecnie powszechnie używany schemat JPEG był praktycznie nieaktualny na początku lat 1990. Nie było możliwe dodanie do obrazu metadanych wskazujących poziom jakości (1–100) zapisany w formacie JPEG – przynajmniej nie bez modyfikacji istniejących od ponad trzydziestu lat konsumenckich, profesjonalnych i akademickich systemów oprogramowania, które nie oczekiwały dostępności takich metadanych.
W związku z tym dostosowywanie procedur uczenia maszynowego do ocenianej lub znanej jakości danych obrazu JPEG nie jest niczym niezwykłym, tak jak zrobili to badacze w nowym artykule (patrz poniżej). W przypadku braku wpisu metadanych dotyczących „jakości”, obecnie konieczna jest albo znajomość szczegółów dotyczących sposobu kompresji obrazu (tj. kompresji ze źródła bezstratnego), albo oszacowanie jakości za pomocą algorytmów percepcyjnych lub klasyfikacji ręcznej.
Ekonomiczny kompromis
JPEG nie jest jedyną metodą kompresji stratnej, która może mieć wpływ na jakość zbiorów danych uczenia maszynowego; ustawienia kompresji w plikach PDF również mogą w ten sposób usuwać informacje i ustawiać je na bardzo niski poziom jakości, aby zaoszczędzić miejsce na dysku do celów archiwizacji lokalnej lub sieciowej.
Można to zaobserwować, porównując różne pliki PDF z archive.org, z których niektóre zostały skompresowane tak mocno, że stanowią poważne wyzwanie dla systemów rozpoznawania obrazu lub tekstu. W wielu przypadkach, takich jak książki chronione prawem autorskim, ta intensywna kompresja wydaje się być stosowana jako forma taniego DRM, podobnie jak właściciele praw autorskich mogą obniżać rozdzielczość filmów przesyłanych przez użytkowników na YouTube, do których posiadają prawa własności intelektualnej, pozostawiając „kanciaste” filmy jako promocyjne tokeny, zachęcające do zakupu w „pełnej rozdzielczości”, zamiast zmuszać ich do usunięcia.
W wielu innych przypadkach rozdzielczość lub jakość obrazu jest niska po prostu dlatego, że dane są bardzo stare i pochodzą z epoki, gdy pamięć lokalna i sieciowa była droższa, a ograniczone prędkości sieci faworyzowały wysoce zoptymalizowane i przenośne obrazy zamiast reprodukcji wysokiej jakości .
Twierdzono, że JPEG, choć nie jest najlepszym rozwiązaniem już dziś, został „uczczony” jako nieusuwalna, przestarzała infrastruktura, która jest nierozerwalnie związana z podstawami Internetu.
Obciążenie dziedzictwa
Chociaż późniejsze innowacje, takie jak JPEG 2000, PNG i (najnowszy) format .webp, oferują wyższą jakość, ponowne próbkowanie starszych, bardzo popularnych zbiorów danych uczenia maszynowego prawdopodobnie „zresetowałoby” ciągłość i historię corocznych wyzwań związanych z przetwarzaniem obrazu w środowisku akademickim – przeszkoda, która dotyczyłaby również ponownego zapisywania obrazów z zestawów danych PNG w wyższych ustawieniach jakości. Można to uznać za rodzaj długu technicznego.
Chociaż szanowane serwerowe biblioteki do przetwarzania obrazów, takie jak ImageMagick, obsługują lepsze formaty, w tym .webp, wymagania dotyczące transformacji obrazów często występują w starszych systemach, które nie są skonfigurowane do niczego innego niż JPG lub PNG (które oferują bezstratną kompresję, ale kosztem opóźnienia i miejsce na dysku). Nawet WordPress, zasilanie CMS prawie 40% wszystkich stron internetowych, dodano tylko obsługę .webp trzy miesiące temu.
PNG był późnym (prawdopodobnie zbyt późnym) wejściem w sektor formatów obrazów, powstałym jako rozwiązanie open source w drugiej połowie lat 1990. deklarację z 1995 r przez Unisys i CompuServe, że odtąd tantiemy będą płacone za format kompresji LZW używany w plikach GIF, które były wówczas powszechnie używane w przypadku logo i elementów o jednolitym kolorze, nawet jeśli format wskrzeszenie na początku 2010 roku skupiał się na możliwości dostarczania atrakcyjnych animowanych treści o niskiej przepustowości (jak na ironię, animowane pliki PNG nigdy nie zyskały popularności ani szerokiego wsparcia, a nawet były zakazane na Twitterze w 2019).
Pomimo swoich wad kompresja JPEG jest szybka, zajmuje mało miejsca i jest głęboko osadzona w systemach wszelkiego typu, dlatego też prawdopodobnie w najbliższej przyszłości nie zniknie całkowicie ze sceny uczenia maszynowego.
Jak najlepiej wykorzystać odprężenie AI/JPEG
W pewnym stopniu społeczność uczących się maszyn przyzwyczaiła się do wad kompresji JPEG: w 2011 roku Europejskie Towarzystwo Radiologiczne (ESR) opublikowało „The Puzzle of Monogamous Marriage” w sprawie „Przydatności nieodwracalnej kompresji obrazu w obrazowaniu radiologicznym”, zawierającej wytyczne dotyczące „akceptowalnej” straty; gdy szanowny MNIST zbiór danych rozpoznawania tekstu (którego dane obrazu pierwotnie dostarczono w nowym formacie binarnym) został przeniesiony do „zwykłego” formatu obrazu, JPEG, a nie PNGwybrano; wcześniejsza (2020) współpraca autorów nowego artykułu zaoferowała „nowa architektura” do kalibracji systemów uczenia maszynowego pod kątem niedociągnięć związanych z różną jakością obrazu JPEG, bez konieczności uczenia modeli przy każdym ustawieniu jakości JPEG – jest to funkcja wykorzystana w nowej pracy.
Rzeczywiście badania nad użytecznością danych JPEG o różnej jakości są stosunkowo dobrze prosperującą dziedziną uczenia maszynowego. Właściwie jeden (niepowiązany) projekt z 2016 roku z Centrum Badań nad Automatyką na Uniwersytecie Maryland koncentruje się na domenie DCT (gdzie artefakty JPEG pojawiają się przy niskich ustawieniach jakości) jako sposób na głęboką ekstrakcję obiektów; koncentruje się kolejny projekt z 2019 roku odczyt na poziomie bajtów danych JPEG bez czasochłonnej konieczności faktycznej dekompresji obrazów (tzn. otwierania ich w pewnym momencie w zautomatyzowanym procesie); i a „The Puzzle of Monogamous Marriage” z Francji w 2019 r. aktywnie wykorzystuje kompresję JPEG w procedurach rozpoznawania obiektów.
Testowanie i wnioski
Wracając do najnowszego badania UoM i Facebooka, naukowcy starali się przetestować zrozumiałość i użyteczność formatu JPEG na obrazach skompresowanych w zakresie 10–90 (poniżej którego obraz jest praktycznie niemożliwy do zniekształcenia, a powyżej jest to kompresja bezstratna). Obrazy użyte w testach zostały wstępnie skompresowane dla każdej wartości w docelowym zakresie jakości, co obejmowało co najmniej osiem sesji treningowych.
Modele szkolono w zakresie stochastycznego opadania gradientowego za pomocą czterech metod: bazowy, gdzie nie dodano żadnych dodatkowych środków łagodzących; nadzorowane dostrajanie, gdzie zaletą zestawu szkoleniowego są wstępnie wytrenowane wagi i oznakowane dane (chociaż badacze przyznają, że trudno jest to odtworzyć w zastosowaniach na poziomie konsumenckim); korekta artefaktów, gdzie przed treningiem przeprowadza się wzmocnienie/poprawę na skompresowanych obrazach; I korekta artefaktów ukierunkowana na zadanie, gdzie sieć poprawna z artefaktami jest dostrajana na podstawie zwracanych błędów.
Szkolenie odbyło się na szerokiej gamie trafnych zbiorów danych, w tym na wielu wariantach ResNet, SzybkiRCNN, MobileNetV2, MaskaRCNN i Kerasa PoczątekV3.
Wyniki utraty próbek po korekcji artefaktów ukierunkowanej na zadanie są wizualizowane poniżej (niżej = lepiej).
Nie jest możliwe głębsze zagłębienie się w szczegóły wyników uzyskanych w badaniu, ponieważ ustalenia badaczy są podzielone między cel oceny artefaktów JPEG a nowe metody łagodzenia tego problemu; szkolenie było iterowane według jakości na tak wielu zbiorach danych; a zadania obejmowały wiele celów, takich jak wykrywanie obiektów, segmentacja i klasyfikacja. Zasadniczo nowy raport jawi się jako kompleksowe dzieło referencyjne dotyczące wielu zagadnień.
Niemniej jednak, artykuł generalnie stwierdza, że „kompresja JPEG ma znaczną przewagę w przypadku wszystkich ustawień kompresji od wysokich do umiarkowanych”. Twierdzi również, że nowatorskie strategie łagodzenia błędów bez etykietowania osiągają lepsze rezultaty niż inne podobne podejścia; że w przypadku złożonych zadań nadzorowana metoda badaczy również przewyższa swoje odpowiedniki, pomimo braku dostępu do etykiet prawdy rzeczywistej; oraz że te nowatorskie metodologie umożliwiają ponowne wykorzystanie modelu, ponieważ uzyskane wagi są przenoszalne między zadaniami.
W kontekście zadań klasyfikacyjnych w artykule wyraźnie stwierdzono, że „format JPEG pogarsza jakość gradientu, a także powoduje błędy lokalizacji”.
Autorzy mają nadzieję rozszerzyć przyszłe badania na inne metody kompresji, takie jak te w dużej mierze pomijane JPEG 2000, a także WebP, HEIF oraz BPG. Sugerują ponadto, że ich metodologię można zastosować do analogicznych badań nad algorytmami kompresji wideo.
Ponieważ metoda korekcji artefaktów ukierunkowana na zadania okazała się tak skuteczna w badaniu, autorzy sygnalizują również swój zamiar udostępnienia wag wytrenowanych w trakcie projektu, zakładając, że „[wiele] aplikacji skorzysta na stosowaniu naszych wag TTAC bez modyfikacji”.
nb Zdjęcie źródłowe artykułu pochodzi z thispersondoesnotexist.com