Yapay Zeka
CNN Tabanlı Görüntü Yeniden Boyutlandırma Yoluyla Daha İyi Makine Öğrenimi Performansı

Google Araştırması, bir veri kümesindeki görüntülerin ön işleme aşamasında küçültülme biçimini iyileştirerek görüntü tabanlı bilgisayarlı görme eğitimi iş akışlarının verimliliğini ve doğruluğunu artırmak için yeni bir yöntem önerdi.
içinde kâğıt Görüntü İşleme Görevleri için Görüntüleri Yeniden Boyutlandırmayı Öğrenme, araştırmacılar Hossein Talebi ve Peyman Milanfar, dört popüler bilgisayar görüntüsü veri kümesi üzerinden elde edilen tanıma sonuçlarında kayda değer bir gelişme sağlayan yeni bir karma görüntü yeniden boyutlandırma mimarisi oluşturmak için bir CNN kullanıyor.

Tanıma ve yeniden boyutlandırma için önerilen ortak çerçeve. Kaynak: https://arxiv.org/pdf/2103.09950.pdf
Makale, şu anda otomatik makine öğrenimi hatlarında kullanılan yeniden ölçeklendirme/yeniden boyutlandırma yöntemlerinin onlarca yıldır güncelliğini yitirdiğini ve sıklıkla yalnızca temel çift doğrusal, çift kübik ve en yakın komşuyu kullandığını gözlemliyor boyutlandırma – tüm pikselleri ayrım gözetmeksizin ele alan yöntemler.
Buna karşılık, önerilen yöntem görüntü verilerini bir CNN aracılığıyla zenginleştirir ve bu girdiyi, nihayetinde modelin mimarisinden geçecek olan yeniden boyutlandırılmış görüntülere dahil eder.
AI Eğitiminde Görüntü Kısıtlamaları
Görüntülerle ilgilenen bir modeli eğitmek için, bir makine öğrenimi çerçevesi, çeşitli boyutlarda, renk uzaylarında ve çözünürlüklerde (eğitim veri kümesine katkıda bulunacak) farklı görüntülerin sistematik olarak kırpıldığı bir ön işleme aşaması içerecektir. tutarlı boyutlara ve sabit, tek bir biçime yeniden boyutlandırılır.
Genel olarak bu, işlem süresi/kaynakları, dosya boyutu ve görüntü kalitesi arasında bir değiş tokuşun kurulacağı PNG formatına dayalı bazı uzlaşmaları içerecektir.
Çoğu durumda işlenen görüntünün son boyutları çok küçüktür. Aşağıda, en eski deepfake veri kümelerinden bazılarının yer aldığı 80×80 çözünürlüklü görüntünün bir örneğini görüyoruz. oluşturuldu:

Yüzler (ve diğer olası özneler) gerekli kare oranına nadiren sığdığından, görüntüleri homojenleştirmek için siyah çubukların eklenmesi (veya boşa harcanan alana izin verilmesi) gerekebilir, bu da gerçek kullanılabilir görüntü verilerini daha da azaltır:

Burada yüz, tüm yüz alanını dahil etmek için olabildiğince ekonomik bir şekilde kırpılana kadar daha büyük bir görüntü alanından çıkarılmıştır. Ancak, sağda görüldüğü gibi, eğitim sırasında kalan alanın büyük bir kısmı kullanılmayacaktır ve bu, yeniden boyutlandırılan verilerin görüntü kalitesinin önemine daha fazla ağırlık katacaktır.
Son yıllarda GPU yetenekleri geliştikçe, yeni nesil NVIDIA kartlarıyla donatıldı. artan miktarlar video-RAM (VRAM) arasında, ortalama katkıda bulunan görüntü boyutları artmaya başlıyor, ancak 224×224 piksel hala oldukça standart (örneğin, ResNet-50 veri kümesi).

Yeniden boyutlandırılmamış 224×244 piksellik bir resim.
Grupları VRAM'e Sığdırma
Resimlerin hepsinin aynı boyutta olmasının nedeni, dereceli alçalma, modelin zaman içinde geliştiği yöntem, tek tip eğitim verileri gerektirir.
Görüntülerin bu kadar küçük olmasının nedeni, eğitim sırasında genellikle toplu iş başına 6-24 görüntü olmak üzere küçük gruplar halinde VRAM'e yüklenmeleri (tamamen sıkıştırılmış halde) olmalarıdır. Toplu iş başına çok az görüntü ve eğitim süresini uzatmanın yanı sıra iyi genelleme yapmak için yeterli grup materyali yok; çok fazla ve model gerekli özellikleri ve ayrıntıları elde edemeyebilir (aşağıya bakın).
Eğitim mimarisinin bu 'canlı yükleme' bölümüne şu ad verilir: gizli alan. Bu, modelin benzer türde daha sonra görülmemiş veriler üzerinde dönüşümler gerçekleştirmek için ihtiyaç duyduğu tüm genelleştirilmiş bilgiye sahip olduğu bir duruma yaklaşana kadar aynı verilerden (yani aynı görüntülerden) tekrar tekrar özniteliklerin çıkarıldığı yerdir.
Bu süreç genellikle günler alır, ancak yararlı bir genelleme elde etmek için bir ay veya daha fazla sürekli ve boyun eğmez yüksek hacimli 24/7 düşünme gerekebilir. VRAM boyutundaki artışlar yalnızca bir noktaya kadar yardımcı olur, çünkü görüntü çözünürlüğündeki küçük artışlar bile işleme kapasitesi üzerinde bir büyüklük sırası etkisine ve doğruluk üzerinde her zaman olumlu olmayabilecek ilgili etkilere sahip olabilir.
Daha yüksek parti boyutlarını barındırmak için daha yüksek VRAM kapasitesi kullanmak da karışık bir nimettir, çünkü bununla elde edilen daha yüksek eğitim hızları denk gelmesi muhtemel daha az kesin sonuçlara göre.
Bu nedenle, eğitim mimarisi çok kısıtlı olduğundan, boru hattının mevcut sınırlamaları dahilinde bir iyileştirmeyi etkileyebilecek her şey kayda değer bir başarıdır.
Üstün Küçülme Nasıl Yardımcı Olur?
Bir eğitim veri setine dahil edilecek bir görüntünün nihai kalitesinin, özellikle eğitimin sonucu üzerinde iyileştirici bir etkiye sahip olduğu kanıtlanmıştır. nesne tanıma görevlerinde. 2018'de Max Planck Akıllı Sistemler Enstitüsü'nden araştırmacılar iddia yeniden örnekleme yöntemi seçiminin, eğitim performansını ve sonuçlarını önemli ölçüde etkilediğini.
Ek olarak, Google'ın önceki çalışması (yeni makalenin yazarları tarafından ortaklaşa yazılmıştır), sınıflandırma doğruluğunun aşağıdaki şekilde iyileştirilebileceğini bulmuştur: kontrolü sürdürmek veri kümesi görüntülerinde aşırı sıkıştırma artefaktları.
Yeni yeniden örnekleme aracına entegre edilen CNN modeli, eğitilmiş ağdan gelen çıktıyı yeniden boyutlandırılmış görüntüye dahil edebilen 'bağlantıyı atlama' özelliğiyle çift doğrusal yeniden boyutlandırmayı birleştiriyor.
Tipik bir kodlayıcı/kod çözücü mimarisinin aksine, yeni öneri yalnızca ileri beslemeli bir darboğaz olarak değil, aynı zamanda herhangi bir hedef boyuta ve/veya en boy oranına ölçekleme için ters bir darboğaz olarak da işlev görebilir. Ayrıca, "standart" yeniden örnekleme yöntemi, Lanczos gibi herhangi bir uygun geleneksel yöntemle değiştirilebilir.
Yüksek Frekans Ayrıntıları
Yeni yöntem, temel özellikleri (sonuçta eğitim süreci tarafından tanınacak) doğrudan kaynak görüntüye 'işleyen' görüntüler üretiyor. Estetik açıdan bakıldığında, sonuçlar alışılmadık:

Dört ağda uygulanan yeni yöntem – Inception V2; Yoğun Net-121; ResNet-50; ve MobileNet-V2. Google Araştırma görüntü altörnekleme/yeniden boyutlandırma yönteminin sonuçları, eğitim sürecinde fark edilecek temel özellikleri öngörerek bariz piksel kümelenmesi olan görüntüler üretir.
Araştırmacılar, bu ilk deneylerin yalnızca görüntü tanıma görevleri için optimize edildiğini ve testlerde CNN destekli "öğrenilmiş yeniden boyutlandırıcı"nın bu tür görevlerde daha iyi hata oranları elde edebildiğini belirtiyor. Araştırmacılar, gelecekte bu yöntemi diğer görüntü tabanlı bilgisayarlı görme uygulamalarına da uygulamayı planlıyor.













