saplama CNN Tabanlı Görüntü Yeniden Boyutlandırma Sayesinde Daha İyi Makine Öğrenimi Performansı - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

CNN Tabanlı Görüntü Yeniden Boyutlandırma Yoluyla Daha İyi Makine Öğrenimi Performansı

mm
Güncellenmiş on

Google Araştırması, bir veri kümesindeki görüntülerin ön işleme aşamasında küçültülme biçimini iyileştirerek görüntü tabanlı bilgisayarlı görme eğitimi iş akışlarının verimliliğini ve doğruluğunu artırmak için yeni bir yöntem önerdi.

içinde kâğıt Görüntü İşleme Görevleri için Görüntüleri Yeniden Boyutlandırmayı Öğrenme, araştırmacılar Hossein Talebi ve Peyman Milanfar, dört popüler bilgisayar görüntüsü veri kümesi üzerinden elde edilen tanıma sonuçlarında kayda değer bir gelişme sağlayan yeni bir karma görüntü yeniden boyutlandırma mimarisi oluşturmak için bir CNN kullanıyor.

Tanıma ve yeniden boyutlandırma için önerilen ortak çerçeve. Kaynak: https://arxiv.org/pdf/2103.09950.pdf

Tanıma ve yeniden boyutlandırma için önerilen ortak çerçeve. Kaynak: https://arxiv.org/pdf/2103.09950.pdf

Makale, şu anda otomatik makine öğrenimi hatlarında kullanılan yeniden ölçeklendirme/yeniden boyutlandırma yöntemlerinin onlarca yıldır güncelliğini yitirdiğini ve sıklıkla yalnızca temel çift doğrusal, çift kübik ve en yakın komşuyu kullandığını gözlemliyor boyutlandırma – tüm pikselleri ayrım gözetmeksizin ele alan yöntemler.

Buna karşılık, önerilen yöntem, görüntü verilerini bir CNN aracılığıyla artırır ve bu girdiyi, en sonunda modelin mimarisinden geçecek olan yeniden boyutlandırılmış görüntülere dahil eder.

AI Eğitiminde Görüntü Kısıtlamaları

Görüntülerle ilgilenen bir modeli eğitmek için, bir makine öğrenimi çerçevesi, çeşitli boyutlarda, renk uzaylarında ve çözünürlüklerde (eğitim veri kümesine katkıda bulunacak) farklı görüntülerin sistematik olarak kırpıldığı bir ön işleme aşaması içerecektir. tutarlı boyutlara ve sabit, tek bir biçime yeniden boyutlandırılır.

Genel olarak bu, işlem süresi/kaynakları, dosya boyutu ve görüntü kalitesi arasında bir değiş tokuşun kurulacağı PNG formatına dayalı bazı uzlaşmaları içerecektir.

Çoğu durumda işlenen görüntünün son boyutları çok küçüktür. Aşağıda, en eski deepfake veri kümelerinden bazılarının yer aldığı 80×80 çözünürlüklü görüntünün bir örneğini görüyoruz. oluşturuldu:

Bu, en eski derin veri kümelerinden bazılarının oluşturulduğu 80x80 çözünürlüktür.

Yüzler (ve diğer olası özneler) gerekli kare oranına nadiren sığdığından, görüntüleri homojenleştirmek için siyah çubukların eklenmesi (veya boşa harcanan alana izin verilmesi) gerekebilir, bu da gerçek kullanılabilir görüntü verilerini daha da azaltır:

Burada yüz, tüm yüz alanını dahil etmek için olabildiğince ekonomik bir şekilde kırpılana kadar daha büyük bir görüntü alanından çıkarılmıştır. Bununla birlikte, solda görüldüğü gibi, eğitim sırasında kalan alanın büyük bir kısmı kullanılmayacaktır ve bu, yeniden boyutlandırılan verilerin görüntü kalitesinin önemini daha da artırmaktadır.

Burada yüz, tüm yüz alanını dahil etmek için olabildiğince ekonomik bir şekilde kırpılana kadar daha büyük bir görüntü alanından çıkarılmıştır. Ancak, sağda görüldüğü gibi, eğitim sırasında kalan alanın büyük bir kısmı kullanılmayacaktır ve bu, yeniden boyutlandırılan verilerin görüntü kalitesinin önemine daha fazla ağırlık katacaktır.

Son yıllarda GPU yetenekleri geliştikçe, yeni nesil NVIDIA kartlarıyla donatıldı. artan miktarlar video-RAM (VRAM) arasında, ortalama katkıda bulunan görüntü boyutları artmaya başlıyor, ancak 224×224 piksel hala oldukça standart (örneğin, ResNet-50 veri kümesi).

Yeniden boyutlandırılmamış 224x244 piksellik bir resim.

Yeniden boyutlandırılmamış 224×244 piksellik bir resim.

Grupları VRAM'e Sığdırma

Resimlerin hepsinin aynı boyutta olmasının nedeni, dereceli alçalma, modelin zaman içinde geliştiği yöntem, tek tip eğitim verileri gerektirir.

Görüntülerin bu kadar küçük olmasının nedeni, eğitim sırasında genellikle toplu iş başına 6-24 görüntü olmak üzere küçük gruplar halinde VRAM'e yüklenmeleri (tamamen sıkıştırılmış halde) olmalarıdır. Toplu iş başına çok az görüntü ve eğitim süresini uzatmanın yanı sıra iyi genelleme yapmak için yeterli grup materyali yok; çok fazla ve model gerekli özellikleri ve ayrıntıları elde edemeyebilir (aşağıya bakın).

Eğitim mimarisinin bu 'canlı yükleme' bölümü, gizli alan. Bu, modelin benzer türde daha sonra görülmemiş veriler üzerinde dönüşümler gerçekleştirmek için ihtiyaç duyduğu tüm genelleştirilmiş bilgiye sahip olduğu bir duruma yaklaşana kadar aynı verilerden (yani aynı görüntülerden) tekrar tekrar özniteliklerin çıkarıldığı yerdir.

Bu süreç genellikle günler alır, ancak yararlı bir genelleme elde etmek için bir ay veya daha fazla sürekli ve boyun eğmez yüksek hacimli 24/7 düşünme gerekebilir. VRAM boyutundaki artışlar yalnızca bir noktaya kadar yardımcı olur, çünkü görüntü çözünürlüğündeki küçük artışlar bile işleme kapasitesi üzerinde bir büyüklük sırası etkisine ve doğruluk üzerinde her zaman olumlu olmayabilecek ilgili etkilere sahip olabilir.

Daha yüksek parti boyutlarını barındırmak için daha yüksek VRAM kapasitesi kullanmak da karışık bir nimettir, çünkü bununla elde edilen daha yüksek eğitim hızları denk gelmesi muhtemel daha az kesin sonuçlara göre.

Bu nedenle, eğitim mimarisi çok kısıtlı olduğundan, boru hattının mevcut sınırlamaları dahilinde bir iyileştirmeyi etkileyebilecek her şey kayda değer bir başarıdır.

Üstün Küçülme Nasıl Yardımcı Olur?

Bir eğitim veri setine dahil edilecek bir görüntünün nihai kalitesinin, özellikle eğitimin sonucu üzerinde iyileştirici bir etkiye sahip olduğu kanıtlanmıştır. nesne tanıma görevlerinde. 2018'de Max Planck Akıllı Sistemler Enstitüsü'nden araştırmacılar iddia yeniden örnekleme yöntemi seçiminin, eğitim performansını ve sonuçlarını önemli ölçüde etkilediğini.

Ek olarak, Google'ın (yeni makalenin yazarları tarafından birlikte yazılan) önceki çalışması, sınıflandırma doğruluğunun aşağıdakilerle iyileştirilebileceğini bulmuştur: kontrolü sürdürmek veri kümesi görüntülerinde aşırı sıkıştırma artefaktları.

Google Research tarafından önerilen altörnekleme algoritması için CNN mimarisi.

Google Research tarafından önerilen altörnekleme algoritması için CNN mimarisi.

Yeni yeniden örnekleyicide yerleşik olan CNN modeli, çift doğrusal yeniden boyutlandırmayı eğitimli ağdan alınan çıktıyı yeniden boyutlandırılmış görüntüye dahil edebilen bir "bağlantı atlama" özelliğiyle birleştirir.

Tipik bir kodlayıcı/kod çözücü mimarisinden farklı olarak, yeni teklif yalnızca ileri beslemeli bir darboğaz olarak değil, aynı zamanda herhangi bir hedef boyuta ve/veya en boy oranına ölçeklendirme için ters bir darboğaz görevi de görebilir. Ek olarak, 'standart' yeniden örnekleme yöntemi, aşağıdakiler gibi herhangi bir uygun geleneksel yöntemle değiştirilebilir: Lanczo'lar.

Yüksek Frekans Ayrıntıları

Yeni yöntem, temel özellikleri (nihayetinde eğitim süreci tarafından tanınacak olan) doğrudan kaynak görüntüye 'pişiriyor' gibi görünen görüntüler üretir. Estetik açıdan, sonuçlar alışılmışın dışındadır:

Dört ağda uygulanan yeni yöntem – Inception V2; Yoğun Net-121; ResNet-50; ve MobileNet-V2. Google Araştırma görüntü altörnekleme/yeniden boyutlandırma yönteminin sonuçları, eğitim sürecinde fark edilecek temel özellikleri öngörerek bariz piksel kümelenmesi olan görüntüler üretir.

Dört ağda uygulanan yeni yöntem – Inception V2; Yoğun Net-121; ResNet-50; ve MobileNet-V2. Google Araştırma görüntü altörnekleme/yeniden boyutlandırma yönteminin sonuçları, eğitim sürecinde fark edilecek temel özellikleri öngörerek bariz piksel kümelenmesi olan görüntüler üretir.

Araştırmacılar, bu ilk deneylerin özellikle görüntü tanıma görevleri için optimize edildiğini ve testlerde CNN destekli 'öğrenilmiş yeniden boyutlandırıcı'larının bu tür görevlerde gelişmiş hata oranları elde edebildiğini belirtiyor. Araştırmacılar gelecekte yöntemi diğer görüntü tabanlı bilgisayar görme uygulamalarına uygulamayı planlıyorlar.