Yapay Zeka

InstructIR: İnsan Talimatlarına Göre Yüksek Kaliteli Görüntü Onarımı

Yayınlanan

1 ay önce

2 Nisan 2024

İnsan Talimatlarına Göre Yüksek Kaliteli Görüntü Onarımı

Bir görüntü çok şey ifade edebilir ancak hareket bulanıklığı, pus, gürültü ve düşük dinamik aralık gibi çeşitli sorunlar nedeniyle de gölgelenebilir. Genellikle düşük seviyeli bilgisayar görüşündeki bozulmalar olarak adlandırılan bu sorunlar, ısı veya yağmur gibi zor çevre koşullarından veya kameranın kendi sınırlamalarından kaynaklanabilir. Görüntü restorasyonu, bilgisayarlı görmede temel bir zorluğu temsil eder ve bu tür bozulmalar sergileyen bir görüntüden yüksek kaliteli, temiz bir görüntü elde etmeye çalışır. Görüntü restorasyonu karmaşıktır çünkü herhangi bir görüntüyü geri yüklemek için birden fazla çözüm olabilir. Bazı yaklaşımlar, gürültüyü azaltmak veya bulanıklığı veya bulanıklığı ortadan kaldırmak gibi belirli bozulmaları hedef alır.

Bu yöntemler belirli sorunlar için iyi sonuçlar verebilirken, genellikle farklı bozulma türleri arasında genelleme yapmakta zorlanırlar. Çoğu çerçeve, çok çeşitli görüntü restorasyon görevleri için genel bir sinir ağı kullanır, ancak bu ağların her biri ayrı ayrı eğitilir. Her bir bozulma türü için farklı modellere duyulan ihtiyaç, bu yaklaşımı hesaplama açısından pahalı ve zaman alıcı hale getirmekte ve son gelişmelerde Hepsi Bir Arada restorasyon modellerine odaklanılmasına yol açmaktadır. Bu modeller, performansı artırmak için genellikle bozulmaya özgü istemler veya yönlendirme vektörleri kullanan, birden fazla bozulma düzeyini ve türünü ele alan tek bir derin kör restorasyon modelini kullanır. Hepsi Bir Arada modeller genellikle umut verici sonuçlar vermesine rağmen, yine de ters sorunlarla karşı karşıyadırlar.

InstructIR, alanda çığır açan bir yaklaşımı temsil ediyor ve ilk olma özelliği taşıyor. görüntü restorasyonu Restorasyon modeline insan tarafından yazılmış talimatlar aracılığıyla rehberlik etmek üzere tasarlanmış bir çerçeve. Çeşitli bozulma türlerini göz önünde bulundurarak, bozulmuş olanlardan yüksek kaliteli görüntüleri kurtarmak için doğal dil istemlerini işleyebilir. InstructIR, düşük ışıklı görüntülerin giderilmesi, gürültünün giderilmesi, bulanıklığın giderilmesi ve bulanıklığın giderilmesi dahil olmak üzere geniş bir yelpazedeki görüntü restorasyon görevleri için performansta yeni bir standart belirliyor.

Bu makale InstructIR çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve bunun en son teknoloji görüntü ve video oluşturma çerçeveleriyle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım.

InstructIR: Yüksek Kaliteli Görüntü Onarımı

Görüntü restorasyonu, bozulmalar gösteren bir görüntüden yüksek kalitede temiz bir görüntü elde etmeyi amaçladığından, bilgisayarlı görmede temel bir sorundur. Düşük seviyeli bilgisayar görüşünde Bozulmalar, bir görüntüde gözlemlenen hareket bulanıklığı, pus, gürültü, düşük dinamik aralık ve daha fazlası gibi hoş olmayan etkileri temsil etmek için kullanılan bir terimdir. Görüntü restorasyonunun karmaşık ve ters bir zorluk olmasının nedeni, herhangi bir görüntüyü geri yüklemek için birden fazla farklı çözümün bulunabilmesidir. Bazı çerçeveler, örnek gürültüsünü azaltmak veya görüntüdeki gürültüyü gidermek gibi belirli bozulmalara odaklanırken, diğerleri daha çok bulanıklığın giderilmesine veya bulanıklığın giderilmesine veya bulanıklığın giderilmesine veya bulanıklığın giderilmesine odaklanabilir.

Güncel derin öğrenme yöntemleri, geleneksel görüntü restorasyon yöntemleriyle karşılaştırıldığında daha güçlü ve daha tutarlı performans sergiliyor. Bu derin öğrenme görüntü restorasyon modelleri, Transformatörlere ve Evrişimli Sinir Ağlarına dayalı sinir ağlarının kullanılmasını önerir. Bu modeller, çeşitli görüntü restorasyon görevleri için bağımsız olarak eğitilebilir ve aynı zamanda yerel ve küresel özellik etkileşimlerini yakalama ve bunları geliştirme, sonuçta tatmin edici ve tutarlı performans sağlama yeteneğine de sahiptirler. Her ne kadar bu yöntemlerin bazıları belirli bozunma türleri için yeterince işe yarasa da, genellikle farklı bozunma türleri için iyi bir tahminde bulunmazlar. Ayrıca, birçok mevcut çerçeve çok sayıda görüntü restorasyon görevi için aynı sinir ağını kullanırken, her sinir ağı formülasyonu ayrı ayrı eğitilir. Bu nedenle, akla gelebilecek her bozulma için ayrı bir sinir modeli kullanmanın uygulanamaz ve zaman alıcı olduğu açıktır; bu nedenle son görüntü restorasyon çerçeveleri Hepsi Bir Arada restorasyon proxy'leri üzerinde yoğunlaşmıştır.

Hepsi Bir Arada veya Çoklu bozulma veya Çoklu görev görüntü restorasyon modelleri, her bir bozulma için modellerin bağımsız olarak eğitilmesine gerek kalmadan bir görüntüdeki birden fazla türde ve seviyedeki bozulmaları geri yükleyebildiğinden, bilgisayarlı görme alanında popülerlik kazanmaktadır. . Hepsi Bir Arada görüntü restorasyon modelleri, farklı türde ve düzeydeki görüntü bozulmasının üstesinden gelmek için tek bir derin kör görüntü restorasyon modeli kullanır. Farklı Hepsi Bir Arada modeller, bozulmuş görüntüyü geri yüklemek için kör modele rehberlik etmek üzere farklı yaklaşımlar uygular; örneğin, bozulmayı sınıflandırmak için bir yardımcı model veya çok boyutlu yönlendirme vektörleri veya modelin, bir sistem içindeki farklı bozulma türlerini geri yüklemesine yardımcı olacak istemler. görüntü.

Bununla birlikte, son birkaç yılda metinden görüntüye dönüştürme ve metin tabanlı görüntü düzenleme görevleri için çeşitli çerçeveler tarafından uygulandığından, metin tabanlı görüntü manipülasyonuna ulaşıyoruz. Bu modeller genellikle eylemleri veya görüntüleri açıklamak için metin istemlerini kullanır. difüzyona dayalı modeller karşılık gelen görüntüleri oluşturmak için. InstructIR çerçevesinin ana ilham kaynağı, giriş görüntüsünün metin etiketleri, açıklamaları veya altyazıları yerine modele hangi eylemi gerçekleştireceği konusunda talimat veren kullanıcı talimatlarını kullanarak modelin görüntüyü düzenlemesine olanak tanıyan InstructPix2Pix çerçevesidir. Sonuç olarak kullanıcılar, örnek görüntüler veya ek görüntü açıklamaları sağlamaya gerek kalmadan, modele hangi eylemin gerçekleştirileceği konusunda talimat vermek için doğal yazılı metinleri kullanabilir.

Bu temeller üzerine inşa edilen InstructIR çerçevesi, görüntü restorasyonunu gerçekleştirmek ve ters sorunları çözmek için insan tarafından yazılan talimatları kullanan ilk bilgisayarlı görme modelidir. Doğal dil istemleri için InstructIR modeli, kalitesi düşük benzerlerinden yüksek kaliteli görüntüleri kurtarabilir ve ayrıca birden fazla bozulma türünü de hesaba katar. InstructIR çerçevesi, görüntü giderme, gürültü giderme, bulanıklığı giderme, bulanıklaştırma ve düşük ışıkta görüntü iyileştirme dahil olmak üzere çok çeşitli görüntü restorasyon görevlerinde en gelişmiş performansı sunabilmektedir. Öğrenilmiş kılavuz vektörleri veya bilgi istemi yerleştirmeleri kullanarak görüntü restorasyonu sağlayan mevcut çalışmaların aksine, InstructIR çerçevesi metin biçiminde ham kullanıcı istemlerini kullanır. InstructIR çerçevesi, insanların yazılı talimatlarını kullanarak görüntüleri geri yüklemeye genelleme yapabilir ve InstructIR tarafından uygulanan tek hepsi bir arada model, önceki modellere göre daha fazla restorasyon görevini kapsar. Aşağıdaki şekil InstructIR çerçevesinin çeşitli restorasyon örneklerini göstermektedir.

InstructIR : Yöntem ve Mimari

InstructIR çerçevesi özünde bir metin kodlayıcı ve bir görüntü modelinden oluşur. Model, görüntü modeli olarak U-Net mimarisini izleyen etkili bir görüntü restorasyon modeli olan NAFNet çerçevesini kullanır. Ayrıca model, tek bir model kullanarak birden fazla görevi başarıyla öğrenmek için görev yönlendirme tekniklerini uygular. Aşağıdaki şekil InstructIR çerçevesi için eğitim ve değerlendirme yaklaşımını göstermektedir.

InstructPix2Pix modelinden ilham alan InstructIR çerçevesi, kullanıcının ek bilgi sağlamasına gerek olmadığından, kontrol mekanizması olarak insan yazılı talimatlarını benimser. Bu talimatlar, etkileşimin etkileyici ve net bir yolunu sunarak kullanıcıların görüntüdeki bozulmanın tam yerini ve türünü belirtmesine olanak tanır. Ayrıca, sabit bozulmaya özel istemler yerine kullanıcı istemlerinin kullanılması, gerekli alan uzmanlığına sahip olmayan kullanıcılar tarafından da kullanılabileceği için modelin kullanılabilirliğini ve uygulamalarını artırır. InstructIR çerçevesini çeşitli istemleri anlama yeteneğiyle donatmak için model, çeşitli istekler oluşturmak için büyük bir dil modeli olan GPT-4'ü kullanır ve belirsiz ve net olmayan istemler bir filtreleme işleminden sonra kaldırılır.

Metin Kodlayıcı

Bir metin kodlayıcı, dil modelleri tarafından kullanıcı istemlerini bir metin yerleştirmeye veya sabit boyutlu bir vektör gösterimine eşlemek için kullanılır. Geleneksel olarak, bir metin kodlayıcı KLİP modeli CLIP çerçevesi görsel istemlerde üstün olduğundan, metin tabanlı görüntü üretimi ve kullanıcı istemlerini kodlamak için metin tabanlı görüntü işleme modelleri için hayati bir bileşendir. Bununla birlikte, çoğu zaman, kullanıcı bozulma istemlerinde çok az görsel içerik bulunur veya hiç görsel içerik bulunmaz, bu nedenle verimliliği önemli ölçüde azaltacağından büyük CLIP kodlayıcıları bu tür görevler için kullanışsız hale getirir. Bu sorunun üstesinden gelmek için InstructIR çerçevesi, cümleleri anlamlı bir yerleştirme alanında kodlamak üzere eğitilmiş metin tabanlı bir cümle kodlayıcıyı tercih eder. Cümle kodlayıcılar milyonlarca örnek üzerinde önceden eğitilmiştir ve yine de geleneksel CLIP tabanlı metin kodlayıcılarla karşılaştırıldığında kompakt ve verimlidirler ve aynı zamanda çeşitli kullanıcı istemlerinin anlamlarını kodlama yeteneğine sahiptirler.

Metin Rehberi

InstructIR çerçevesinin önemli bir yönü, kodlanmış talimatın görüntü modeli için bir kontrol mekanizması olarak uygulanmasıdır. Bunun üzerine inşa edilen ve birçok görev öğrenimi için görev yönlendirmeden ilham alan InstructIR çerçevesi, model içinde göreve özgü dönüşümleri mümkün kılmak için bir Talimat Yapı Bloğu veya ICB önerir. Geleneksel görev yönlendirme, kanal özelliklerine göreve özgü ikili maskeler uygular. Ancak InstructIR çerçevesi bozulmayı bilmediğinden bu teknik doğrudan uygulanmaz. Ayrıca, görüntü özellikleri ve kodlanmış talimatlar için, InstructIR çerçevesi görev yönlendirmeyi uygular ve metin yerleştirmelerine bağlı olarak bir dizi ağırlık üretmek üzere Sigmoid işlevi kullanılarak etkinleştirilen doğrusal bir katman kullanarak maskeyi üretir, böylece her bir c-boyutunu elde eder. kanal ikili maskesi. Model, bir NAFBlock kullanarak koşullandırılmış özellikleri daha da geliştirir ve hem kodlayıcı bloğundaki hem de kod çözücü bloğundaki özellikleri koşullandırmak için NAFBlock ve Talimat Koşullandırılmış Bloğunu kullanır.

InstructIR çerçevesi sinir ağı filtrelerini açık bir şekilde koşullandırmasa da maske, modelin görüntü talimatı ve bilgileri temelinde en ilgili kanalları seçmesini kolaylaştırır.

InstructIR: Uygulama ve Sonuçlar

InstructIR modeli uçtan uca eğitilebilir ve görüntü modeli ön eğitim gerektirmez. Eğitilmesi gereken yalnızca metin yerleştirme projeksiyonları ve sınıflandırma başlığıdır. Metin kodlayıcı, genel amaçlı cümle kodlaması için büyük miktarda denetlenen ve denetlenmeyen veri üzerinde önceden eğitilmiş BERT benzeri bir kodlayıcı olan bir BGE kodlayıcı kullanılarak başlatılır. InstructIR çerçevesi, görüntü modeli olarak NAFNet modelini kullanır ve NAFNet mimarisi, her seviyede değişen sayıda blok içeren 4 seviyeli kodlayıcı kod çözücüden oluşur. Model ayrıca özellikleri daha da geliştirmek için kodlayıcı ile kod çözücü arasına 4 orta blok ekler. Ayrıca, atlama bağlantıları için birleştirme yerine kod çözücü ekleme işlemini gerçekleştirir ve InstructIR modeli yalnızca kodlayıcı ve kod çözücüde görev yönlendirme için yalnızca ICB veya Talimat Koşullu Bloğu uygular. Devam edersek, InstructIR modeli, geri yüklenen görüntü ile temel gerçek temiz görüntü arasındaki kayıp kullanılarak optimize edilir ve çapraz entropi kaybı, metin kodlayıcının amaç sınıflandırma başlığı için kullanılır. InstructIR modeli, parti büyüklüğü 32 olan ve yaklaşık 5 dönem için 4e-500 öğrenme oranına sahip AdamW optimizerini kullanır ve ayrıca kosinüs tavlama öğrenme hızı azalmasını da uygular. InstructIR çerçevesindeki görüntü modeli yalnızca 16 milyon parametre içerdiğinden ve yalnızca 100 bin öğrenilmiş metin projeksiyon parametresi bulunduğundan, InstructIR çerçevesi standart GPU'lar üzerinde kolaylıkla eğitilebilir, böylece hesaplama maliyetleri azalır ve uygulanabilirlik artar.

Çoklu Bozunma Sonuçları

Çoklu bozulmalar ve çoklu görev restorasyonları için InstructIR çerçevesi iki başlangıç kurulumu tanımlar:

Buğu giderme, gürültü giderme ve temizleme gibi bozulma sorunlarının üstesinden gelmek için üç bozulmalı modeller için 3D.
Görüntüdeki gürültüyü giderme, düşük ışıkta iyileştirmeler, buğu giderme, gürültüyü giderme ve temizleme gibi bozulma sorunlarının üstesinden gelmeye yönelik beş bozulma modeli için 5D.

5D modellerin performansı aşağıdaki tabloda gösterilmekte ve bu performans, en gelişmiş görüntü restorasyonu ve hepsi bir arada modellerle karşılaştırılmaktadır.

Görüldüğü gibi, basit bir görüntü modeline ve yalnızca 16 milyon parametreye sahip InstructIR çerçevesi, talimat tabanlı rehberlik sayesinde beş farklı görüntü restorasyon görevini başarıyla yerine getirebiliyor ve rekabetçi sonuçlar sunuyor. Aşağıdaki tablo, çerçevenin 3B modeller üzerindeki performansını göstermektedir ve sonuçlar, yukarıdaki sonuçlarla karşılaştırılabilir.

InstructIR çerçevesinin en önemli özelliği talimat tabanlı görüntü restorasyonudur ve aşağıdaki şekil, InstructIR modelinin belirli bir görev için çok çeşitli talimatları anlama konusundaki inanılmaz yeteneklerini göstermektedir. Ayrıca, çekişmeli bir talimat için InstructIR modeli zorlanmayan bir kimlik gerçekleştirir.

Son Düşüncelerimiz

Görüntü restorasyonu, bozulmalar gösteren bir görüntüden yüksek kalitede temiz bir görüntü elde etmeyi amaçladığından, bilgisayarlı görmede temel bir sorundur. Düşük seviyeli bilgisayar görüşünde Bozulmalar, bir görüntüde gözlemlenen hareket bulanıklığı, pus, gürültü, düşük dinamik aralık ve daha fazlası gibi hoş olmayan etkileri temsil etmek için kullanılan bir terimdir. Bu yazımızda, insan tarafından yazılan talimatları kullanarak görüntü restorasyon modeline rehberlik etmeyi amaçlayan, dünyanın ilk görüntü restorasyon çerçevesi olan InstructIR'den bahsettik. Doğal dil istemleri için InstructIR modeli, kalitesi düşük benzerlerinden yüksek kaliteli görüntüleri kurtarabilir ve ayrıca birden fazla bozulma türünü de hesaba katar. InstructIR çerçevesi, görüntü giderme, gürültü giderme, bulanıklığı giderme, bulanıklaştırma ve düşük ışıkta görüntü iyileştirme dahil olmak üzere çok çeşitli görüntü restorasyon görevlerinde en gelişmiş performansı sunabilmektedir.

Bir sonraki

GPU Veri Merkezleri Güç Şebekelerini Zorluyor: Yapay Zeka Yeniliklerini ve Enerji Tüketimini Dengelemek

Kaçırmayın

Statik Slaytlardan Akıllı Konuşmalara: Yapay Zeka Destekli Sunumların Yükselişi

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.