Connect with us

Yapay Zekâ

Yüksek Çözünürlüklü Görüntüleri Makine Öğrenimi ile Küçültme

mm

İngiltere’den yapılan yeni bir araştırmada, görüntülerin çeşitli kısımlarının algılanan değerine dayanarak görüntüleri yeniden boyutlandırmak için geliştirilmiş bir makine öğrenimi yöntemi önerilmiştir. Bu, tüm piksellerin boyutunu ve dolayısıyla kalitesini ve çıkarılabilir özelliklerini keyfi olarak azaltmak yerine, görüntüdeki içeriğin çeşitli kısımlarının algılanan değerine dayanarak görüntüleri yeniden boyutlandırmak için geliştirilmiştir.

Bilgisayarlı görü üretilen sıkıştırma sistemlerine yönelik artan ilgi kapsamında bu yaklaşım, sonunda genel görüntü sıkıştırması için yeni kodekler bilgilendirebilir, ancak çalışma, keyfi olarak yüksek çözünürlüklü tıbbi görüntülerin downsamplinginin hayat kurtaran bilgilerin kaybına neden olabileceği tıbbi görüntüleme tarafından motive edilmektedir.

Yeni sistemin temsil edici mimarisi. İnterstisyel deformasyon modülü, görüntüdeki ilgi alanlarına karşılık gelen bir deformasyon haritası üretir. Kırmızı noktaların yoğunluğu ve yönü bu alanları gösterir. Harita, yalnızca downsampling için değil, aynı zamanda eğitim sürecinin diğer tarafında görüntüdeki içeriği eşit olmayan şekilde yeniden ölçeklendirirken birincil ilgi alanlarını yeniden oluşturmak için kullanılır. Kaynak: https://arxiv.org/pdf/2109.11071.pdf

Yeni sistemin temsil edici mimarisi. İnterstisyel deformasyon modülü, görüntüdeki ilgi alanlarına karşılık gelen bir deformasyon haritası üretir. Kırmızı noktaların yoğunluğu ve yönü bu alanları gösterir. Harita, yalnızca downsampling için değil, aynı zamanda eğitim sürecinin diğer tarafında görüntüdeki içeriği eşit olmayan şekilde yeniden ölçeklendirirken birincil ilgi alanlarını yeniden oluşturmak için kullanılır. Kaynak: https://arxiv.org/pdf/2109.11071.pdf

Sistem, görüntülere anlamsal segmentasyon uygular – resimdeki tanınan varlıkları kapsayan geniş bloklar, resimdeki ‘yol’, ‘bisiklet’, ‘lezyon’ gibi varlıkları temsil eden renk blokları. Anlamsal segmentasyon haritalarının düzeni, fotoğraftaki hangi kısımların aşırı downsampling edilmemesi gerektiği hesaplamak için kullanılır.

“Ultra Yüksek Çözünürlüklü Görüntülerin Segmentasyonu için Downsampling Öğrenme” adlı yeni makale, University College London’daki Tıbbi Görüntü İşleme Merkezi’nden araştırmacılar ve Microsoft Cambridge’deki Sağlık Zekası departmanından araştırmacılar arasında bir işbirliğidir.

Bilgisayarlı Görü Eğitiminde (Görece) Düşük Çözünürlüklü Dünya

Bilgisayarlı görü sistemlerinin eğitimi, GPU kapasitesi tarafından önemli ölçüde kısıtlanmaktadır. Veri setleri, özelliklerin çıkarılması gereken binlerce görüntüye sahip olabilir, ancak endüstri çapındaki GPU’lar genellikle 24gb VRAM’de zirveye ulaşır ve süregelen kıtlıklar erişilebilirliği ve maliyeti etkiler.

Bu, verilerin sınırlı Tensor çekirdekli GPU’ya yönetilebilir partiler halinde geçirilmesi anlamına gelir, birçok bilgisayar görü eğitimi akışında 8-16 görüntü tipiktir.

Açık çözümler yoktur: sınırsız VRAM olsaydı ve CPU mimarileri GPU’dan bu tür bir verimliliği destekleyebilseydi, çok yüksek toplu işlemler, son algoritmanın yararlı olmasına kritik olabilecek daha ayrıntılı dönüşümler yerine yüksek düzeyli özellikler türetilmesine neden olacaktır.

Giriş görüntülerinin çözünürlüğünü artırmak, verilerin GPU’nun ‘latent space’ine sığması için daha küçük partiler kullanmanız anlamına gelir, bu da muhtemelen ‘eksantrik’ ve aşırı uyumlu bir model üretir.

Ek GPU’lar eklemek de yardım etmez, en azından en yaygın mimarilerde: çoklu GPU kurulumları eğitim sürelerini hızlandırabilir, ancak eğitim sonuçlarının bütünlüğünü de tehlikeye atabilir, koordinasyon için yalnızca bir telefon hattı olan aynı ürünü üreten iki komşu fabrikaya benzer.

Akıllıca Yeniden Boyutlandırılmış Görüntüler

Geride kalan, bir bilgisayar görü veri seti için tipik bir görüntünün en ilgili bölümleri, yeni yöntem ile otomatik olarak yeniden boyutlandırıldığında korunabilir.

Bu, makine öğrenimi veri setlerindeki kayıp artefaktlar sorunundan ayrı bir zorluluktur, burada kalite, otomatik yeniden boyutlandırma işlemlerinde çok fazla (genellikle kurtarılamayan) bilgi atan nedeniyle kaybolur.

Bu durumda, kayıpsız bir görüntü formatına (LZW sıkıştırması ile PNG gibi) kaydetmek, (örneğin) bir Manyetik Rezonans Görüntüleme (MRI) taramasını genellikle rekor kıran boyutlardan daha inandırıcı bir 256×256 veya 512×512 piksel çözünürlüğe düşürürken atılan bilginin geri kazanılmasını sağlayamaz.

Durumu daha da kötüleştirmek için, çerçevelerin gereksinimlerine bağlı olarak, kare bir girdi formatı oluşturmak için siyah kenarlıklar genellikle dikdörtgen kaynak görüntülere rutin bir veri işleme görevi olarak eklenir, bu da potansiyel olarak kritik veri için kullanılabilir alanı daha da azaltır.

UCL ve Microsoft’tan araştırmacılar, yeniden boyutlandırma işlemini daha akıllı hale getirmeyi öneriyor, efektif olarak makine öğrenimi sistemine geçecek olan görüntülerin ilgi alanlarını vurgulamak için her zaman bir boru hattının genel bir aşamasını kullanıyor.

Öğrenilen Downsampler

Yeni araştırma, bir öğrenilebilen downsampler olarak adlandırılan bir deformasyon modülü önermektedir, bu, paralel bir segmentasyon modülü ile birlikte eğitilir ve anlamsal segmentasyon tarafından tanımlanan ilgi alanları hakkında bilgilendirilebilir ve downsampling işlemi sırasında bunları önceliklendirebilir.

Yazarlar, Cityscapes, DeepGlobe ve yerel bir Prostat Kanseri Histoloji veri seti ‘PCa-Histo’ dahil olmak üzere birkaç popüler veri setinde sistemi test etti.

Üç yaklaşım: solda, mevcut 'uniform' downsampling; ortada, 2019 makalesinin 'optimal edge' yaklaşımı; sağda, yeni sistemin mimarisi, bir anlamsal segmentasyon katmanındaki varlık tanımlaması tarafından bilgilendirilir.

Üç yaklaşım: solda, mevcut ‘uniform’ downsampling; ortada, 2019 makalesinin ‘optimal edge’ yaklaşımı; sağda, yeni sistemin mimarisi, bir anlamsal segmentasyon katmanındaki varlık tanımlaması tarafından bilgilendirilir.

Benzer bir yaklaşım, 2019’da önerilen bir sınıflandırıcı için denenmiştir, ancak mevcut makalenin yazarları, bu yöntemin vurgulanan alanları yeterli şekilde düzenlemediğini, tıbbi görüntüleme bağlamında hayati alanları kaçırabileceğini iddia etmektedir.

Sonuçlar

Yeni sistemin deformasyon modülü, küçük bir Konvolüsyonel Sinir Ağı (CNN), segmentasyon katmanı ise derin bir CNN mimarisi kullanır ve HRNetV2-W48 kullanır. CityScapes testleri için Pyramid Scene Parsing Network (PSP-net) bir sağduyu kontrol katmanı olarak kullanılmıştır.

Yeni çerçeve, uniform örnek alma (geleneksel yöntem), 2019’un optimal kenar yöntemi ve yeni yaklaşımın anlamsal segmentasyonu kullanarak test edilmiştir.

Yazarlar, yeni yöntemin ‘en klinik olarak önemli sınıfları tanımlamak ve ayırt etmek için net bir avantaj gösterdiğini’ bildirdiler ve %15-20’lik bir doğruluk artışı gözlemlediler. Ayrıca, bu sınıflar arasındaki mesafenin genellikle ‘sağlıklıdan kansere’ eşiğin tanımlanması olarak tanımladığını belirttiler.

Üç yöntemdeki sınıf başına kesişim üzerinden birlik (IoU) analizi: solda, standart örnek alma; ortada, optimal kenar; ve sağda, yeni yaklaşım. CityScapes 64 x 128'e, PCaHisto 80 x 800'e ve DeepGlobe 300 piksel kareye düşürüldü.

Üç yöntemdeki sınıf başına kesişim üzerinden birlik (IoU) analizi: solda, standart örnek alma; ortada, optimal kenar; ve sağda, yeni yaklaşım. CityScapes 64 x 128’e, PCaHisto 80 x 800’e ve DeepGlobe 300 piksel kareye düşürüldü.

Rapor, yöntemlerinin ‘downsampling için bir strateji öğrenmesini, bilgiyi daha iyi korumayı ve segmentasyon doğruluğunda en yüksek genel getiriyi elde etmek için bir ticaret yapmasını’ sağlayabileceğini belirtir ve yeni çerçevenin ‘downsampling sırasında sınırlı piksel bütçesini en yüksek segmentasyon doğruluğunu elde etmek için “yatırım” yapmasını’ öğrendiğini belirtir.

 

Bu özelliklerin ana görüntüsü thispersondoesnotexist.com’dan alınmıştır. Metin hatası için 15:35 GMT+2’de güncellendi.

 

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]