Yapay Zeka

Makine Öğrenimi ile Videodan Nesneleri Daha Verimli Kaldırma

Güncellenmiş on 9 Aralık 2022

Çin'den yapılan yeni bir araştırma, çekimden nesneleri ustaca kaldırabilen yeni bir video iç boyama sistemi için son teknoloji sonuçların yanı sıra verimlilikte etkileyici bir gelişme olduğunu bildiriyor.

Bir deltakanatın emniyet kemeri yeni prosedürle boyanır. Daha iyi çözünürlük ve daha fazla örnek için kaynak videoya (bu makalenin alt kısmına gömülü) bakın. Kaynak: https://www.youtube.com/watch?v=N–qC3T2wc4

Flow-Guided video Inpainting için Uçtan Uca çerçeve adı verilen teknik (E²FGVI), ayrıca video içeriğinden filigranları ve diğer çeşitli tıkanıklıkları kaldırabilir.

E2FGVI, tıkanıklıkların arkasında yatan içerik için tahminleri hesaplayarak dikkate değer ve inatçı filigranların bile kaldırılmasını sağlar. Kaynak: https://github.com/MCG-NKU/E2FGVI

E2FGVI, tıkanıklıkların arkasında yatan içerik için tahminleri hesaplayarak, dikkate değer ve aksi takdirde zor olan filigranların bile kaldırılmasını sağlar. Kaynak: https://github.com/MCG-NKU/E2FGVI

Daha iyi çözünürlükte daha fazla örnek görmek için makalenin sonunda gömülü olan videoyu inceleyin.

Yayınlanan makalede yer alan model 432px x 240px videolarda eğitilmiş olsa da (genelde düşük giriş boyutları, mevcut GPU alanı ve optimum toplu iş boyutları ve diğer faktörler tarafından kısıtlanır), yazarlar o zamandan beri yayınladılar. E²FGVI-HQ, videoları keyfi bir çözünürlükte işleyebilir.

Geçerli sürümün kodu mevcut GitHub'da, geçen Pazar günü yayınlanan HQ sürümü ise şu adresten indirilebilir: Google Drive ve Baidu Diski.

Çocuk resimde kalır.

E²FGVI, bir Titan XP GPU'da (432 GB VRAM) kare başına 240 saniyede 0.12×12 videoyu işleyebilir ve yazarlar, sistemin önceki son teknoloji yöntemlere göre on beş kat daha hızlı çalıştığını bildirmektedir. optik akış.

Bir tenisçi beklenmedik bir çıkış yapar.

Görüntü sentezi araştırmasının bu alt sektörü için standart veri kümeleri üzerinde test edilen yeni yöntem, hem nitel hem de nicel değerlendirme turlarında rakiplerini geride bırakmayı başardı.

Önceki yaklaşımlara karşı testler. Kaynak: https://arxiv.org/pdf/2204.02663.pdf

The kâğıt başlıklı Akış Kılavuzlu Video İç Boyama için Uçtan Uca Bir Çerçeveye Doğruve Nankai Üniversitesi'nden dört araştırmacı ile Hisilicon Technologies'den bir araştırmacı arasındaki bir işbirliğidir.

Bu Resimde Ne Eksik

Görsel efektler için bariz uygulamalarının yanı sıra, yüksek kaliteli video iç boyama, yeni yapay zeka tabanlı görüntü sentezi ve görüntü değiştirme teknolojilerinin temel belirleyici özelliği olmaya hazırlanıyor.

Bu, özellikle vücut değiştiren moda uygulamaları ve diğer çerçeveler için geçerlidir. 'zayıflamaya' çalışmak veya resimlerdeki ve videodaki sahneleri başka şekilde değiştirin. Bu gibi durumlarda, sentezin açığa çıkardığı fazladan arka planı inandırıcı bir şekilde 'doldurmak' gerekir.

Yakın tarihli bir makaleden, bir nesne yeniden boyutlandırıldığında yeni ortaya çıkan arka planı boyamakla görevlendirilen bir gövde 'yeniden şekillendirme' algoritması. Burada, bu eksiklik, (gerçek hayat, soldaki resme bakın) dolgun figürlü kişinin işgal ettiği kırmızı çerçeve ile temsil edilmektedir. https://arxiv.org/pdf/2203.10496.pdf'deki kaynak materyale dayalıdır

Tutarlı Optik Akış

Optik akış (OF), video nesnesi kaldırmanın geliştirilmesinde temel bir teknoloji haline geldi. gibi bir ipekli kumaşOF, zamansal bir dizinin tek seferlik bir haritasını sağlar. Genellikle bilgisayarla görme girişimlerinde hızı ölçmek için kullanılan OF, aynı zamanda Disney tarzı 'kare başına' dikkat yerine, görevin toplam toplamının tek bir geçişte değerlendirilebildiği, zamansal olarak tutarlı boyama içi çalışmayı da mümkün kılabilir; zamansal süreksizliğe.

Bugüne kadarki video iç boyama yöntemleri üç aşamalı bir sürece odaklanmıştır: akış tamamlama, burada video esasen ayrık ve keşfedilebilir bir varlığa eşlenir; piksel yayılımı"bozuk" videolardaki boşlukların çift yönlü yayılan piksellerle doldurulduğu; Ve içerik halüsinasyonu (çoğumuzun deepfake'lerden ve DALL-E serisi gibi metinden görüntüye çerçevelerden aşina olduğu piksel 'icadı'), tahmini 'eksik' içeriğin icat edildiği ve çekime eklendiği yer.

E'nin merkezi yeniliği²FGVI, bu üç aşamayı uçtan uca bir sistemde birleştirerek içerik veya süreç üzerinde manuel işlemler gerçekleştirme ihtiyacını ortadan kaldırır.

Makale, manuel müdahale ihtiyacının, eski süreçlerin bir GPU'dan yararlanmamasını gerektirdiğini ve bunun da onları oldukça zaman alıcı hale getirdiğini gözlemliyor. Gazeteden*:

'almak DFVI örnek olarak, 432 × 240 boyutunda bir videoyu DAVISyaklaşık 70 çerçeve içeren 4 dakikaya ihtiyaç duyar ve bu, çoğu gerçek dünya uygulamasında kabul edilemez. Ayrıca, yukarıda belirtilen dezavantajlar dışında, yalnızca içerik halüsinasyonu aşamasında önceden eğitilmiş bir görüntü iç boyama ağı kullanmak, zamansal komşular arasındaki içerik ilişkilerini göz ardı ederek videolarda tutarsız üretilmiş içeriğe yol açar.'

Video iç boyamanın üç aşamasını birleştirerek, E²FGVI, ikinci aşama olan piksel yayılımını özellik yayılımı ile değiştirebilir. Önceki çalışmaların daha bölümlü süreçlerinde, özellikler o kadar kapsamlı bir şekilde mevcut değildir çünkü her aşama nispeten hermetiktir ve iş akışı yalnızca yarı otomatiktir.

Ek olarak, araştırmacılar bir geçici odak transformatörü sadece geçerli karedeki piksellerin doğrudan komşularını değil (yani, önceki veya sonraki görüntüde karenin o bölümünde neler olduğunu), aynı zamanda birçok kare uzaktaki uzak komşuları da dikkate alan içerik halüsinasyonu aşaması için ve ancak bir bütün olarak video üzerinde gerçekleştirilen herhangi bir işlemin tutarlı etkisini etkileyecektir.

E2FGVI mimarisi.

İş akışının yeni özellik tabanlı merkezi bölümü, daha fazla özellik düzeyindeki süreçlerden ve öğrenilebilir örnekleme ofsetlerinden faydalanabilirken, yazarlara göre projenin yeni odak dönüştürücüsü, odak pencerelerinin boyutunu "2B'den 3B'ye" genişletiyor .

Testler ve Veriler

E'yi test etmek için²FGVI, araştırmacılar sistemi iki popüler video nesnesi segmentasyon veri setine göre değerlendirdi: YouTube-VOS, ve DAVIS. YouTube-VOS, 3741 eğitim video klibi, 474 doğrulama klibi ve 508 test klibi içerirken DAVIS, 60 eğitim video klibi ve 90 test klibi içerir.

E²FGVI, YouTube-VOS üzerinde eğitildi ve her iki veri kümesinde de değerlendirildi. Eğitim sırasında, video tamamlamayı simüle etmek için nesne maskeleri (yukarıdaki resimlerdeki yeşil alanlar ve aşağıdaki gömülü video) oluşturuldu.

Ölçümler için araştırmacılar, etkilenen videodaki zamansal kararlılığı ölçmek için Tepe sinyal-gürültü oranı (PSNR), Yapısal benzerlik (SSIM), Video tabanlı Fréchet Başlangıç Mesafesi (VFID) ve Akış Çarpıtma Hatasını benimsedi.

Sistemin test edildiği önceki mimariler, VİNET, DFVI, LGTSM, CAP, FGVC, STTN, ve SigortaEski.

Makalenin nicel sonuçlar bölümünden. Yukarı ve aşağı oklar, sırasıyla daha yüksek veya daha düşük sayıların daha iyi olduğunu gösterir. E2FGVI, pano genelinde en iyi puanları alır. Yöntemler FuseFormer'a göre değerlendirilir, ancak DFVI, VINet ve FGVC uçtan uca sistemler değildir ve FLOP'larını tahmin etmeyi imkansız kılar.

Araştırmacılar, tüm rakip sistemlere karşı en iyi puanları elde etmenin yanı sıra, beş temsili yöntemle dönüştürülen videoların bireysel olarak yirmi gönüllüye gösterildiği ve onlardan görsel kalite açısından derecelendirmelerinin istendiği nitel bir kullanıcı çalışması yürüttü.

Dikey eksen, görsel kalite açısından E2FGVI çıktısını tercih eden katılımcıların yüzdesini temsil eder.

Dikey eksen, E'yi tercih eden katılımcıların yüzdesini temsil eder.²Görsel kalite açısından FGVI çıkışı.

Yazarlar, yöntemleri için oybirliğiyle tercih edilmesine rağmen, sonuçlardan biri olan FGVC'nin nicel sonuçları yansıtmadığını belirtiyorlar ve bunun E'yi gösterdiğini öne sürüyorlar.²FGVI, aldatıcı bir şekilde, 'görsel olarak daha hoş sonuçlar' üretiyor olabilir.

Verimlilik açısından yazarlar, sistemlerinin DAVIS veri kümesindeki tek bir Titan GPU'da saniye başına kayan nokta işlemlerini (FLOP'lar) ve çıkarım süresini büyük ölçüde azalttığını belirtiyor ve sonuçların E'yi gösterdiğini gözlemliyor.²FGVI, akış tabanlı yöntemlerden 15 kat daha hızlı çalışır.

Yorum yapıyorlar:

'[E²FGVI], diğer tüm yöntemlerin aksine en düşük FLOP'ları tutar. Bu, önerilen yöntemin video iç boyama için oldukça verimli olduğunu gösterir.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Yazarların satır içi alıntılarını köprülere dönüştürmem.

İlk olarak 19 Mayıs 2022'de yayınlandı.