Bizimle iletişime geçin

Yapay Zeka

Sinir Ağı Eğitimini Geliştirmek İçin JPEG Sıkıştırmayı Kullanma

mm
ChatGPTY-4o kullanılarak yapay zeka tarafından oluşturulmuş bir görüntü, 'Lütfen görüntünün sağ yarısının giderek çirkin JPEG eserleriyle dolduğu panoramik, fotogerçekçi bir manzara gün batımı görüntüsü oluşturun' komutuyla birlikte

Kanada'dan yeni bir araştırma makalesi, bir sinir ağının eğitim şemasına kasıtlı olarak JPEG sıkıştırmayı dahil eden ve daha iyi sonuçlar elde etmeyi ve düşmanca saldırılara karşı daha iyi direnç sağlamayı başaran bir çerçeve önerdi.

Bu oldukça radikal bir fikirdir, çünkü mevcut genel kanı, insan görüntüleme için optimize edilmiş ve makine öğrenimi için optimize edilmemiş JPEG eserlerinin, JPEG verileriyle eğitilen sinir ağları üzerinde genellikle zararlı bir etkiye sahip olduğudur.

Farklı kayıp değerlerinde sıkıştırılmış JPEG görüntüleri arasındaki netlik farkına bir örnek (daha yüksek kayıp, diğer türdeki eserlerin yanı sıra renk geçişlerinde çizgi ve bantlanma pahasına daha küçük bir dosya boyutuna izin verir). Kaynak: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Farklı kayıp değerlerinde sıkıştırılmış JPEG görüntüleri arasındaki netlik farkına bir örnek (daha yüksek kayıp, diğer türdeki eserlerin yanı sıra renk geçişlerinde çizgilenme ve bantlanma pahasına daha küçük dosya boyutuna izin verir). Kaynak: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Maryland Üniversitesi ve Facebook AI'dan 2022 raporu iddia JPEG sıkıştırmasının, sinir ağlarının eğitiminde 'önemli bir performans kaybına' neden olduğu, önceki iş Sinir ağlarının görüntü sıkıştırma eserlerine karşı nispeten dayanıklı olduğunu iddia etti.

Bundan bir yıl önce, literatürde yeni bir düşünce akımı ortaya çıkmıştı: JPEG sıkıştırmasının aslında kaldıraçlı olmak Model eğitiminde daha iyi sonuçlar için.

Ancak, bu makalenin yazarları farklı kalite seviyelerindeki JPEG görüntülerinin eğitiminde gelişmiş sonuçlar elde etmeyi başarmış olsalar da, önerdikleri model o kadar karmaşık ve külfetliydi ki uygulanabilir değildi. Ek olarak, sistemin varsayılan JPEG optimizasyon ayarlarını kullanması (niceleme) eğitimin etkinliğinin önünde bir engel teşkil ettiği ortaya çıktı.

Daha sonraki bir proje (2023'ler) DNN Vision için JPEG Uyumlu Sıkıştırma) JPEG sıkıştırılmış eğitim görüntülerinden biraz daha iyi sonuçlar elde eden bir sistemle deneyler yaptı dondurulmuş derin sinir ağı (DNN) modeli. Ancak, eğitim sırasında bir modelin parçalarını dondurmak, modelin çok yönlülüğünü ve yeni verilere karşı daha geniş dayanıklılığını azaltma eğilimindedir.

JPEG-DL

Bunun yerine yeni işbaşlıklı JPEG Esintili Derin Öğrenme, mevcut modellere bile uygulanabilen çok daha basit bir mimari sunar.

Waterloo Üniversitesi'ndeki araştırmacılar şunları söylüyor:

'Sonuçlar, JPEG-DL'nin çeşitli DNN mimarilerinde standart DL'den önemli ve tutarlı bir şekilde daha iyi performans gösterdiğini, model karmaşıklığında ise ihmal edilebilir bir artış olduğunu göstermektedir.

Özellikle, JPEG-DL, bazı ince taneli sınıflandırma veri kümelerinde sınıflandırma doğruluğunu %20.9'a kadar artırırken, DL hattına yalnızca 128 eğitilebilir parametre ekliyor. Dahası, JPEG-DL'nin standart DL'ye göre üstünlüğü, öğrenilen modellerin gelişmiş düşmanca dayanıklılığı ve giriş görüntülerinin dosya boyutlarının küçültülmesiyle daha da kanıtlanıyor.

Yazarlar, optimum bir JPEG sıkıştırma kalite seviyesinin, bir sinir ağının bir görüntünün merkezi öznesini/öznelerini ayırt etmesine yardımcı olabileceğini iddia ediyorlar. Aşağıdaki örnekte, özellikler sinir ağı tarafından elde edildiğinde kuşu arka planla harmanlayan temel sonuçları (sol) görüyoruz. Buna karşılık, JPEG-DL (sağ) fotoğrafın öznesini ayırt etmede ve tasvir etmede başarılı oluyor.

JPEG-DL için temel yöntemlere karşı testler. Kaynak: https://arxiv.org/pdf/2410.07081

JPEG-DL için temel yöntemlere karşı testler. Kaynak: https://arxiv.org/pdf/2410.07081

'Bu olgu,' açıklıyorlar, [2021] makalesinde "sıkıştırma yardımcı olur" olarak adlandırılan bu ifade, sıkıştırmanın gürültüyü ve rahatsız edici arka plan özelliklerini ortadan kaldırabilmesi ve böylece görüntüdeki ana nesneyi vurgulayarak DNN'lerin daha iyi tahminler yapmasına yardımcı olması gerçeğiyle haklı çıkarılmıştır.

Yöntem

JPEG-DL, farklılaştırılabilir bir yumuşak niceleyiciStandart bir JPEG optimizasyon rutinindeki türevlenebilir olmayan kantizasyon işleminin yerini alan.

Bu izin verir gradyan tabanlı Görüntülerin optimizasyonu. Bu, geleneksel JPEG kodlamasında mümkün değildir, bu kodlama bir tekdüze niceleyici en yakın katsayıya yaklaşan bir yuvarlama işlemi ile.

JPEG-DL şemasının farklılaştırılabilirliği, hem eğitim modelinin parametrelerinin hem de JPEG nicelemesinin (sıkıştırma seviyesi) ortak optimizasyonuna olanak tanır. Ortak optimizasyon, hem modelin hem de eğitim verilerinin birbirine uyum sağlaması anlamına gelir. son uca işlemdir ve katmanların dondurulmasına gerek yoktur.

Sistem esasen, (ham) veri kümesinin JPEG sıkıştırmasını, genelleme sürecinin mantığına uyacak şekilde özelleştirir.

JPEG-DL için şema.

JPEG-DL için kavramsal şema.

Ham verilerin eğitim için ideal malzeme olduğu varsayılabilir; sonuçta, görüntüler toplu olarak çalıştırıldığında uygun tam uzunluktaki renk uzayına tamamen sıkıştırılır; o zaman orijinal formatın ne farkı var?

JPEG sıkıştırması insan gözüyle görüntülenmek üzere optimize edildiğinden, bu amaca uygun bir şekilde ayrıntı veya renk alanlarını yok eder. Mavi gökyüzünün altında bir göl fotoğrafı söz konusu olduğunda, gökyüzüne daha yüksek sıkıştırma seviyeleri uygulanacaktır, çünkü "temel" hiçbir ayrıntı içermez.

Öte yandan, bir sinir ağı, merkezi konulara odaklanmamızı sağlayan eksantrik filtrelerden yoksundur. Bunun yerine, gökyüzündeki herhangi bir bantlama eserini, kendi içine asimile edilecek geçerli veriler olarak görmesi muhtemeldir. gizli alan.

Bir insan gökyüzündeki bantları görmezden gelse de, aşırı sıkıştırılmış bir görüntüde (solda), bir sinir ağı bu içeriğin atılması gerektiğinin farkında değildir ve daha yüksek kaliteli bir görüntüye ihtiyaç duyacaktır (sağda). Kaynak: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Bir insan gökyüzündeki bantları görmezden gelse de, aşırı sıkıştırılmış bir görüntüde (sol), bir sinir ağı bu içeriğin atılması gerektiğinin farkında değildir ve daha yüksek kaliteli bir görüntüye ihtiyaç duyar (sağ). Kaynak: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Bu nedenle, bir JPEG sıkıştırma düzeyinin, çok belirli bir alanı temsil etmediği sürece, bir eğitim veri kümesinin tüm içeriklerine uyması olası değildir. Örneğin, kalabalıkların resimleri, bir kuşun dar odaklı resminden çok daha az sıkıştırma gerektirecektir.

Yazarlar, nicelemenin zorluklarına aşina olmayan, ancak nicelemenin temellerine aşina olan kişilerin, transformatörler mimarlık, bu süreçleri bir süreç olarak değerlendirebilir 'dikkat operasyonu', geniş anlamda.

Veriler ve Testler

JPEG-DL, transformatör tabanlı mimarilere karşı değerlendirildi ve evrişimli sinir ağları (CNN'ler). Kullanılan mimariler VerimliÖnceki-L1; ResNet; VGG; MobilNet; Ve Karıştırma ağı.

Kullanılan ResNet sürümleri özeldi CİFAR Veri seti: ResNet32, ResNet56 ve ResNet110. VGG tabanlı testler için VGG8 ve VGG13 seçildi.

CNN için eğitim metodolojisi 2020 çalışmalarından türetilmiştir Karşıtlık Gösterimi Damıtma (CRD). EfficientFormer-L1 (transformatör tabanlı) için 2023 çıkışından eğitim yöntemi Daha Büyük Modellerle Modelleri Başlatma kullanıldı.

Testlerde yer alan ayrıntılı görevler için dört veri kümesi kullanıldı: Stanford Köpekleri; Oxford Üniversitesi'nin Çiçekler; KÜÇÜK-200-2011 (CalTech Kuşları); ve Evcil Hayvan ('Kediler ve Köpekler'(Hindistan'daki Oxford Üniversitesi ile Haydarabad Üniversitesi arasındaki bir işbirliği).

Yazarlar, CNN'lerde ayrıntılı görevler için şunları kullandı: Eylem Öncesi ResNet-18 ve YoğunNet-BCEfficientFormer-L1 için, yukarıda belirtilen metodoloji Daha Büyük Modellerle Modelleri Başlatma kullanıldı.

CIFAR-100 ve ayrıntılı görevlerde, değişen büyüklükler Ayrık kosinüs dönüşümü JPEG sıkıştırma yaklaşımında (DCT) frekansları şu şekilde ele alındı: Adem optimize edici, uyarlamak için öğrenme oranı Test edilen modeller genelinde JPEG katmanı için.

Üzerinde yapılan testlerde ImageNet-1K, tüm deneylerde yazarlar PyTorch'u kullandılar SıkmaNet, ResNet-18 ve ResNet-34 çekirdek modeller olarak.

JPEG katmanı optimizasyon değerlendirmesi için araştırmacılar şunları kullandı: Stokastik Gradyan İniş (SGD) Adam yerine, daha istikrarlı performans için. Ancak, ImageNet-1K testleri için, 2019 makalesindeki yöntem Öğrenilmiş Adım Boyutu Kuantizasyonu kullanılmıştır.

CIFAR-1'de JPEG-DL'ye kıyasla temel çizgi için en iyi 100 doğrulama doğruluğunun üstünde, standart ve ortalama sapmalar üç çalışma üzerinden ortalama alınmıştır. Aşağıda, çeşitli model mimarileri boyunca çeşitli ince taneli görüntü sınıflandırma görevlerinde en iyi 1 doğrulama doğruluğu, yine üç geçişten ortalama alınmıştır.

CIFAR-1'de JPEG-DL'ye kıyasla temel çizgi için en iyi 100 doğrulama doğruluğunun üstünde, standart ve ortalama sapmalar üç çalışma üzerinden ortalama alınmıştır. Aşağıda, çeşitli model mimarileri boyunca çeşitli ince taneli görüntü sınıflandırma görevlerinde en iyi 1 doğrulama doğruluğu, yine üç geçişten ortalama alınmıştır.

Yazarlar yukarıda gösterilen ilk tur sonuçlarına ilişkin yorumlarında şunları belirtiyorlar:

'CIFAR-100 için test edilen yedi modelin tamamında, JPEG-DL tutarlı bir şekilde iyileştirmeler sağlıyor ve en iyi doğrulukta %1.53'e varan kazanımlar sağlıyor. İnce ayrıntılı görevlerde ise JPEG-DL, iki farklı model kullanılarak tüm veri kümelerinde %1'a varan iyileştirmelerle önemli bir performans artışı sağlıyor.'

ImageNet-1K testlerinin sonuçları aşağıda gösterilmektedir:

ImageNet'te farklı çerçevelerde en iyi doğrulama doğruluğu sonuçları.

ImageNet'te farklı çerçevelerde en iyi doğrulama doğruluğu sonuçları.

Makalede şöyle deniliyor:

'Karmaşıklıkta küçük bir artışla (128 parametre eklenerek), JPEG-DL, tek bir [kuantizasyon] işlemi turu kullanılarak SqueezeNetV0.31 için temel değere kıyasla en iyi 1 doğrulukta %1.1'lik bir kazanım elde eder.

'Kantitizasyon turlarının sayısını beşe çıkararak, %0.20'lik ek bir iyileştirme gözlemliyoruz ve bu da temel değere göre toplamda %0.51'lik bir kazanıma yol açıyor.'

Araştırmacılar ayrıca sistemi, güvenlik açığı bulunan verileri kullanarak da test ettiler. düşmanca saldırı yaklaşımlar Hızlı Gradyan İmzalı Yöntem (FGSM) ve Tahmini Gradyan İnişi (PGD).

Saldırılar CIFAR-100'e iki model üzerinden gerçekleştirildi:

JPEG-DL'nin iki standart saldırı çerçevesine karşı test sonuçları.

JPEG-DL'nin iki standart saldırı çerçevesine karşı test sonuçları.

Yazarlar şunları belirtiyor:

'[JPEG-DL] modelleri, standart DNN modellerine kıyasla düşmanca dayanıklılığı önemli ölçüde iyileştiriyor; FGSM için %15'e ve PGD için %6'ya varan iyileştirmeler sağlıyor.'

Ek olarak, makalede daha önce gösterildiği gibi, yazarlar çıkarılan özellik haritalarının bir karşılaştırmasını şu şekilde gerçekleştirdiler: GradCAM++ – çıkarılan özellikleri görsel bir şekilde vurgulayabilen bir çerçeve.

Çıkarılan özelliklerin vurgulandığı, temel ve JPEG-DL görüntü sınıflandırması için bir GradCAM++ çizimi.

Çıkarılan özelliklerin vurgulandığı, temel ve JPEG-DL görüntü sınıflandırması için bir GradCAM++ çizimi.

Makale, JPEG-DL'nin geliştirilmiş bir sonuç ürettiğini ve bir örnekte, temel çizginin tanımlayamadığı bir görüntüyü bile sınıflandırabildiğini belirtiyor. Kuşları içeren daha önce gösterilen görüntüyle ilgili olarak, yazarlar şunları belirtiyor:

'[JPEG-DL modelinden elde edilen özellik haritalarının, temel model tarafından oluşturulan özellik haritalarına kıyasla ön plandaki bilgiler (kuş) ile arka plan arasında önemli ölçüde daha iyi bir kontrast gösterdiği açıktır.

'Özellikle, JPEG-DL özellik haritalarındaki ön plandaki nesne, iyi tanımlanmış bir konturun içine yerleştirilmiştir ve bu da onu arka plandan görsel olarak ayırt edilebilir hale getirir.

'Bunun aksine, temel modelin özellik haritaları daha karışık bir yapı gösteriyor; ön plan düşük frekanslarda daha yüksek enerji içeriyor ve bu da arka planla daha düzgün bir şekilde harmanlanmasına neden oluyor.'

Sonuç

JPEG-DL, ham verilerin mevcut olduğu durumlarda kullanılmak üzere tasarlanmıştır; ancak bu projede yer alan ilkelerden bazılarının, içeriğin daha düşük kalitede olabileceği (internetten toplanan hiper ölçekli veri kümelerinde sıklıkla görüldüğü gibi) geleneksel veri kümesi eğitimine uygulanıp uygulanamayacağını görmek çok daha ilginç olacaktır.

Şu an itibariyle bu büyük ölçüde bir açıklama sorunu olmaya devam ediyor, ancak bu sorun daha önce ele alındı. trafik tabanlı görüntü tanıma, Ve başka yerlerde.

 

İlk yayın tarihi Perşembe, 10 Ekim 2024

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai