Bizimle iletişime geçin

Yapay Zeka

Görüntü İşleme Veri Kümelerinde JPEG Artefakt Problemini Çözme

mm

Maryland Üniversitesi ve Facebook AI'nın yaptığı yeni bir çalışma, veri setlerinde yüksek oranda sıkıştırılmış JPEG görüntüleri kullanan derin öğrenme sistemleri için 'önemli bir performans kaybı' buldu ve bunun etkilerini azaltmak için bazı yeni yöntemler önerdi.

MKS raporbaşlıklı Derin Öğrenmede JPEG Sıkıştırma Hatalarını Analiz Etme ve Azaltma, bilgisayarlı görme veri kümelerinin eğitiminde eserlerin etkilerine ilişkin önceki çalışmalardan 'önemli ölçüde daha kapsamlı' olduğunu iddia ediyor. Makale, '[ağır] ila orta düzey JPEG sıkıştırmanın standart metriklerde önemli bir performans düşüşüne yol açtığını' ve sinir ağlarının bu tür bozulmalara karşı önceki çalışmalar kadar dayanıklı olmadığını tespit ediyor. anlaşılacağı.

2018 MobileNetV2 veri kümesinden bir köpeğin fotoğrafı. 10. kalitede (solda), bir sınıflandırma sistemi doğru cins 'Pembroke Welsh Corgi'yi belirleyemez, bunun yerine 'Norwich terrier'i tahmin eder (sistem bunun bir köpeğin fotoğrafı olduğunu zaten biliyor, ancak cins değil); soldan ikinci, görüntünün kullanıma hazır bir JPEG yapı düzeltmeli sürümü yine doğru türü belirleyemiyor; sağdan ikinci, hedeflenen artefakt düzeltmesi doğru sınıflandırmayı geri yükler; ve doğru, orijinal fotoğraf, doğru şekilde sınıflandırılmış. Kaynak: https://arxiv.org/pdf/2011.08932.pdf

2018 MobileNetV2 veri setinden bir köpek fotoğrafı. Kalite 10'da (solda), bir sınıflandırma sistemi doğru cins 'Pembroke Welsh Corgi'yi belirleyemiyor, bunun yerine 'Norwich terrier'i tahmin ediyor (sistem bunun bir köpek fotoğrafı olduğunu zaten biliyor, ancak cinsini bilmiyor); soldan ikinci, hazır JPEG görüntü düzeltmeli versiyonu yine doğru cinsi belirleyemiyor; sağdan ikinci, hedefli görüntü düzeltmesi doğru sınıflandırmayı geri getiriyor; ve sağda, orijinal fotoğraf doğru sınıflandırılmış. Kaynak: https://arxiv.org/pdf/2011.08932.pdf

Sıkıştırma Eserleri 'Veri' Olarak

Aşırı JPEG sıkıştırması, muhtemelen görüntünün çevresinde görünür veya yarı görünür kenarlıklar oluşturur. 8×8 blok JPEG'in bir piksel ızgarasına dönüştürüldüğü bir yöntemdir. Bu engelleme veya "çınlama" eserleri ortaya çıktığında, makine öğrenimi sistemleri tarafından görüntünün öznesinin gerçek dünya unsurları olarak yanlış yorumlanmaları muhtemeldir; ancak bu konuda bir telafi yapılmadığı takdirde.

Yukarıda, bir bilgisayarla görme makine öğrenme sistemi, kaliteli bir resimden 'temiz' bir gradyan resmi çıkaracaktır. Aşağıda, görüntünün düşük kaliteli bir kaydındaki 'engelleme' yapaylıkları, öznenin özelliklerini belirsizleştirir ve özellikle veri kümesinde yüksek ve düşük kaliteli görüntülerin oluştuğu durumlarda, bir görüntü kümesinden türetilen özelliklerin 'etkilenmesine' neden olabilir. yalnızca genel veri temizlemenin uygulandığı web'den kazınmış koleksiyonlarda olduğu gibi. Kaynak: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Yukarıda, bir bilgisayarlı görüntü makine öğrenme sistemi, kaliteli bir görüntüden "temiz" bir degrade görüntü çıkarıyor. Aşağıda, görüntünün düşük kaliteli bir kaydındaki "engelleme" işlemleri, öznenin özelliklerini gizler ve özellikle veri kümesinde yüksek ve düşük kaliteli görüntülerin bulunduğu durumlarda (örneğin, yalnızca genel veri temizleme işleminin uygulandığı web'den derlenmiş koleksiyonlarda), bir görüntü kümesinden türetilen özellikleri "etkileyebilir". Kaynak: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Yukarıdaki ilk görüntüde görüldüğü gibi, bu tür yapaylıklar görüntü sınıflandırma görevlerini etkileyebilir ve yapıdan etkilenen karakterleri doğru bir şekilde tanımlayamayan metin tanıma algoritmaları için de çıkarımlar yapabilir.

Görüntü sentezi eğitim sistemlerinde (örneğin, deepfake yazılımları veya GAN tabanlı görüntü oluşturma sistemleri), bir veri kümesindeki düşük kaliteli, yüksek oranda sıkıştırılmış görüntülerden oluşan "sahte" bir blok, yeniden üretimin ortalama kalitesini düşürebilir veya kümedeki daha iyi görüntülerden çıkarılan daha yüksek kaliteli özellikler tarafından özümsenip geçersiz kılınabilir. Her iki durumda da, daha iyi veri -veya en azından tutarlı veri- arzu edilir.

JPEG – Genellikle 'Yeterince İyi'

JPEG sıkıştırma, çeşitli görüntü biçimlerine uygulanabilen geri döndürülemez şekilde kayıplı bir kodektir; ancak öncelikli olarak JFIF görüntü dosyasına uygulanır sarıcı. Buna rağmen, JPEG (.jpg) formatı, resim verileri için JFIF sarmalayıcısından değil, ilişkili sıkıştırma yönteminden sonra adlandırılmıştır.

Yapay zeka güdümlü yükseltme/geri yükleme rutinlerinin bir parçası olarak JPEG tarzı yapay azaltmayı içeren tüm makine öğrenimi mimarileri son yıllarda ortaya çıktı ve yapay zeka tabanlı sıkıştırma yapaylığı kaldırma artık Topaz görüntü/ video süit, Ve sinirsel özellikler Adobe Photoshop'un son sürümlerinden.

Yana 1986 Günümüzde yaygın olarak kullanılan JPEG şeması 1990'ların başında neredeyse tamamen kilitlenmişti, bir JPEG görüntüsünün hangi kalite seviyesinde (1-100) kaydedildiğini gösteren meta veriyi görüntüye eklemek mümkün değildi; en azından, bu tür meta verilerin mevcut olacağını beklemeyen otuz yılı aşkın süredir kullanılan eski tüketici, profesyonel ve akademik yazılım sistemlerini değiştirmeden mümkün değildi.

Sonuç olarak, araştırmacıların yeni makale için yaptığı gibi (aşağıya bakın), makine öğrenimi eğitim rutinlerini JPEG görüntü verilerinin değerlendirilen veya bilinen kalitesine göre uyarlamak alışılmadık bir durum değildir. Bir "kalite" meta veri girişi olmadığında, şu anda görüntünün nasıl sıkıştırıldığının (yani kayıpsız bir kaynaktan sıkıştırıldığı) ayrıntılarını bilmek veya algısal algoritmalar veya manuel sınıflandırma yoluyla kaliteyi tahmin etmek gerekmektedir.

Ekonomik Bir Uzlaşma

JPEG, makine öğrenimi veri kümelerinin kalitesini etkileyebilecek tek kayıplı sıkıştırma yöntemi değildir; PDF dosyalarındaki sıkıştırma ayarları da bu şekilde bilgileri atabilir ve yerel veya ağ arşivleme amaçlarıyla disk alanından tasarruf etmek için çok düşük kalite seviyelerine ayarlanabilir.

Bu durum, archive.org'daki çeşitli PDF örneklerinden görülebilir; bunlardan bazıları, görüntü veya metin tanıma sistemleri için önemli bir zorluk teşkil edecek kadar yoğun bir şekilde sıkıştırılmıştır. Telif hakkıyla korunan kitaplar gibi birçok durumda, bu yoğun sıkıştırma, tıpkı telif hakkı sahiplerinin, IP'sini elinde bulundurdukları kullanıcı tarafından yüklenen YouTube videolarının çözünürlüğünü düşürmeyi tercih ederek, "blok" videoları silmek yerine "tam çözünürlüklü" satın alımları teşvik etmek için tanıtım amaçlı olarak bırakmaları gibi, ucuz bir DRM biçimi olarak uygulanmış gibi görünmektedir.

Diğer birçok durumda, çözünürlük veya görüntü kalitesi, yalnızca veriler çok eski olduğundan ve yerel ve ağ depolamanın daha pahalı olduğu ve sınırlı ağ hızlarının yüksek kaliteli çoğaltma yerine yüksek düzeyde optimize edilmiş ve taşınabilir görüntüleri tercih ettiği bir çağdan geldiği için düşüktür. .

JPEG'in en iyi çözüm olmadığı öne sürüldü şimdi, 'kutsallaştırıldı' İnternetin temelleriyle iç içe geçmiş, kaldırılamaz bir miras altyapısı olarak.

Miras Yükü

JPEG 2000, PNG ve (en son) .webp formatı gibi daha sonraki yenilikler üstün kalite sunsa da, eski ve oldukça popüler makine öğrenimi veri kümelerinin yeniden örneklenmesi, akademik camiada her yıl karşılaşılan bilgisayarlı görme zorluklarının sürekliliğini ve geçmişini tartışmasız bir şekilde "sıfırlayacaktır". Bu engel, PNG veri kümesi görüntülerinin daha yüksek kalite ayarlarında yeniden kaydedilmesi durumunda da geçerli olacaktır. Bu, bir tür teknik borç olarak değerlendirilebilir.

ImageMagick gibi saygıdeğer sunucu güdümlü görüntü işleme kitaplıkları, .webp dahil olmak üzere daha iyi biçimleri desteklerken, görüntü dönüştürme gereksinimleri genellikle JPG veya PNG'den başka bir şey için ayarlanmayan eski sistemlerde ortaya çıkar (kayıpsız sıkıştırma sunar, ancak bunun pahasına) gecikme ve disk alanı). CMS'ye güç veren WordPress bile tüm web sitelerinin yaklaşık %40'ı, yalnızca .webp desteği eklendi üç ay önce.

PNG, görüntü formatı sektörüne geç (muhtemelen çok geç) bir girişti ve 1990'ların ikinci yarısında açık kaynaklı bir çözüm olarak ortaya çıktı. 1995 deklarasyonu Unisys ve CompuServe tarafından, o zamanlar logolar ve düz renkli öğeler için yaygın olarak kullanılan GIF dosyalarında kullanılan LZW sıkıştırma biçimi için bundan böyle telif ücreti ödeneceği, biçim diriliş 2010'ların başlarında, düşük bant genişliğine sahip, hızlı animasyonlu içerik sağlama becerisine odaklanıldı (ironik bir şekilde, animasyonlu PNG'ler hiçbir zaman popülerlik veya geniş destek kazanmadı ve hatta Twitter'dan yasaklandı 2019 olarak).

Eksikliklerine rağmen, JPEG sıkıştırması hızlıdır, yerden tasarruf sağlar ve her türden sisteme derinlemesine gömülüdür ve bu nedenle yakın gelecekte makine öğrenimi sahnesinden tamamen kaybolması pek olası değildir.

AI/JPEG Detente'den En İyi Şekilde Yararlanmak

Makine öğrenimi topluluğu bir dereceye kadar kendisini JPEG sıkıştırmanın zaaflarına uydurdu: 2011'de Avrupa Radyoloji Derneği (ESR) bir ders çalışma 'Radyolojik görüntülemede geri döndürülemez görüntü sıkıştırmanın kullanılabilirliği' konusunda, 'kabul edilebilir' kayıp için yönergeler sağlayan; saygıdeğer MNİST (görüntü verileri başlangıçta yeni bir ikili formatta sağlanan) metin tanıma veri seti 'normal' bir görüntü formatına taşındı, PNG değil, JPEG, seçildi; ve yeni makalenin yazarlarından daha önceki (2020) bir işbirliği teklif edildi 'yeni bir mimari' yeni çalışmada kullanılan bir özellik olan her bir JPEG kalite ayarında modellerin eğitilmesine gerek kalmadan makine öğrenme sistemlerini değişen JPEG görüntü kalitesinin eksikliklerine göre kalibre etmek için.

Aslında, kalite değişkenli JPEG verilerinin faydasına yönelik araştırma, makine öğreniminde nispeten gelişen bir alandır. Maryland Üniversitesi Otomasyon Araştırma Merkezi'nden bir (ilgisiz) 2016 projesi, aslında DCT alanına odaklanır (JPEG yapılarının düşük kalite ayarlarında meydana geldiği yerlerde) derin özellik çıkarımına giden bir yol olarak; 2019'dan başka bir projede yoğunlaşıyor JPEG verilerinin bayt düzeyinde okunması görüntülerin sıkıştırmasını gerçekten açmak için zaman alıcı gereklilik olmadan (yani, otomatikleştirilmiş bir iş akışında bir noktada onları açın); ve bir ders çalışma 2019'da Fransa'dan, nesne tanıma rutinlerinin hizmetinde JPEG sıkıştırmasından aktif olarak yararlanıyor.

Test ve Sonuçlar

UoM ve Facebook'un son çalışmasına dönersek, araştırmacılar JPEG'in anlaşılabilirliğini ve kullanışlılığını 10-90 arasında sıkıştırılmış görüntülerde test etmeyi amaçladılar (bu değerin altında görüntü imkansız bir şekilde bozulur ve bu değerin üstünde kayıpsız sıkıştırmaya eşittir). Testlerde kullanılan görüntüler, hedef kalite aralığındaki her değerde önceden sıkıştırıldı ve bu da en az sekiz eğitim oturumu gerektirdi.

Modeller dört yöntem üzerinden stokastik gradyan inişine göre eğitildi: bazal, herhangi bir ilave azaltıcı önlemin eklenmediği; denetimli ince ayareğitim setinin önceden eğitilmiş ağırlıklar ve etiketli veriler avantajına sahip olduğu yerlerde (araştırmacılar bunun tüketici düzeyindeki uygulamalarda tekrarlanmasının zor olduğunu kabul etseler de); artefakt düzeltmeeğitimden önce sıkıştırılmış görüntüler üzerinde büyütme/iyileştirmenin yapıldığı; Ve görev hedefli yapı düzeltme, yapı doğru ağının döndürülen hatalarda ince ayarının yapıldığı yer.

Eğitim, ResNet'in birden çok çeşidi dahil olmak üzere çok çeşitli uygun veri kümelerinde gerçekleştirildi, HızlıRCNN, MobilNetV2, MaskeRCNN ve Keras' Başlangıç ​​V3.

Görev hedefli yapı düzeltmesinden sonraki örnek kaybı sonuçları aşağıda görselleştirilmiştir (daha düşük = daha iyi).

Çalışmada elde edilen sonuçların ayrıntılarına derinlemesine inmek mümkün değil, çünkü araştırmacıların bulguları JPEG eserlerini değerlendirme amacı ile bunu hafifletmek için yeni yöntemler arasında bölünmüş durumda; eğitim yinelemeli olarak uygulandı kaliteye göre pek çok veri kümesi üzerinde; ve görevler, nesne algılama, segmentasyon ve sınıflandırma gibi çoklu amaçları içeriyordu. Esasen, yeni rapor kendisini birden fazla konuyu ele alan kapsamlı bir referans çalışması olarak konumlandırıyor.

Bununla birlikte, makale genel olarak "JPEG sıkıştırmasının, ağır ve orta düzeyde sıkıştırma ayarları için genel olarak yüksek bir cezaya tabi olduğu" sonucuna varmaktadır. Ayrıca, yeni etiketsiz azaltma stratejilerinin diğer benzer yaklaşımlar arasında üstün sonuçlar elde ettiğini; karmaşık görevler için, araştırmacıların gözetimli yönteminin, temel gerçeklik etiketlerine erişimi olmamasına rağmen benzerlerinden daha iyi performans gösterdiğini; ve bu yeni metodolojilerin, elde edilen ağırlıklar görevler arasında aktarılabildiği için modelin yeniden kullanımına olanak sağladığını ileri sürmektedir.

Sınıflandırma görevleri açısından makalede, 'JPEG'in gradyan kalitesini düşürdüğü ve yerelleştirme hatalarına neden olduğu' açıkça belirtiliyor.

Yazarlar, gelecekteki çalışmaları, büyük ölçüde göz ardı edilenler gibi diğer sıkıştırma yöntemlerini kapsayacak şekilde genişletmeyi umuyorlar. JPEG 2000WebP'nin yanı sıra, HEIF ve BPG. Ayrıca metodolojilerinin video sıkıştırma algoritmalarına benzer araştırmalara uygulanabileceğini öne sürüyorlar.

Görev hedefli eser düzeltme yönteminin çalışmada çok başarılı olduğu kanıtlandığından, yazarlar ayrıca proje sırasında eğitilen ağırlıkları serbest bırakma niyetlerini de belirtiyorlar ve '[birçok] uygulamanın TTAC ağırlıklarımızı herhangi bir değişiklik yapmadan kullanmasından fayda sağlayacağını' öngörüyorlar.

 

nb Makale için kaynak görsel thispersondoesnotexist.com'dan gelmektedir.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai