Yapay Zeka

Makine Öğrenimi ile Videodan Nesneleri Daha Verimli Kaldırma

Yayınlanan Mayıs 19, 2022

Güncellenmiş 28 Ekim 2025

Martin Anderson

Çin'den yapılan yeni bir araştırma, çekimden nesneleri ustaca kaldırabilen yeni bir video iç boyama sistemi için son teknoloji sonuçların yanı sıra verimlilikte etkileyici bir gelişme olduğunu bildiriyor.

Bir deltakanatın emniyet kemeri yeni prosedürle boyanır. Daha iyi çözünürlük ve daha fazla örnek için kaynak videoya (bu makalenin alt kısmına gömülü) bakın. Kaynak: https://www.youtube.com/watch?v=N--qC3T2wc4

Yeni yöntemle bir yamaç paraşütünün emniyet kemeri boyanıyor. Daha iyi çözünürlük ve daha fazla örnek için kaynak videoyu izleyin. Kaynak: https://www.youtube.com/watch?v=N–qC3T2wc4

Flow-Guided video Inpainting için Uçtan Uca çerçeve adı verilen teknik (E²FGVI), ayrıca video içeriğinden filigranları ve diğer çeşitli tıkanıklıkları kaldırabilir.

E2FGVI, tıkanıklıkların arkasında yatan içerik için tahminleri hesaplayarak dikkate değer ve inatçı filigranların bile kaldırılmasını sağlar. Kaynak: https://github.com/MCG-NKU/E2FGVI

E2FGVI, tıkanıklıkların arkasında yatan içerik için tahminleri hesaplayarak, dikkate değer ve aksi takdirde zor olan filigranların bile kaldırılmasını sağlar. Kaynak: https://github.com/MCG-NKU/E2FGVI

(Daha iyi çözünürlükte daha fazla örnek görmek için şuraya bakın: video)

Yayınlanan makalede yer alan model 432px x 240px videolarda eğitilmiş olsa da (genelde düşük giriş boyutları, mevcut GPU alanı ve optimum toplu iş boyutları ve diğer faktörler tarafından kısıtlanır), yazarlar o zamandan beri yayınladılar. E²FGVI-HQ, videoları keyfi bir çözünürlükte işleyebilir.

Geçerli sürümün kodu mevcut GitHub'da, geçen Pazar günü yayınlanan HQ sürümü ise şu adresten indirilebilir: Google Drive ve Baidu Diski.

Çocuk resimde kalır.

E²FGVI, bir Titan XP GPU'da (432 GB VRAM) kare başına 240 saniyede 0.12×12 videoyu işleyebilir ve yazarlar, sistemin önceki son teknoloji yöntemlere göre on beş kat daha hızlı çalıştığını bildirmektedir. optik akış.

Bir tenisçi beklenmedik bir çıkış yapar.

Görüntü sentezi araştırmasının bu alt sektörü için standart veri kümeleri üzerinde test edilen yeni yöntem, hem nitel hem de nicel değerlendirme turlarında rakiplerini geride bırakmayı başardı.

Önceki yaklaşımlara karşı testler. Kaynak: https://arxiv.org/pdf/2204.02663.pdf

MKS kâğıt başlıklı Akış Kılavuzlu Video İç Boyama için Uçtan Uca Bir Çerçeveye Doğruve Nankai Üniversitesi'nden dört araştırmacı ile Hisilicon Technologies'den bir araştırmacı arasındaki bir işbirliğidir.

Bu Resimde Neler Eksik?

Görsel efektler için bariz uygulamalarının yanı sıra, yüksek kaliteli video iç boyama, yeni yapay zeka tabanlı görüntü sentezi ve görüntü değiştirme teknolojilerinin temel belirleyici özelliği olmaya hazırlanıyor.

Bu, özellikle vücut değiştiren moda uygulamaları ve diğer çerçeveler için geçerlidir. 'zayıflamaya' çalışmak veya görüntü ve videolardaki sahneleri başka şekillerde değiştirmek. Bu gibi durumlarda, sentezle ortaya çıkan ekstra arka planı ikna edici bir şekilde 'doldurmak' gerekir.

Yakın tarihli bir makaleden, bir nesne yeniden boyutlandırıldığında yeni ortaya çıkan arka planı boyamakla görevlendirilen bir gövde 'yeniden şekillendirme' algoritması. Burada, bu eksiklik, (gerçek hayat, soldaki resme bakın) dolgun figürlü kişinin işgal ettiği kırmızı çerçeve ile temsil edilmektedir. https://arxiv.org/pdf/2203.10496.pdf'deki kaynak materyale dayalıdır

Yakın tarihli bir makalede, bir vücut "yeniden şekillendirme" algoritmasının, bir özne yeniden boyutlandırıldığında yeni ortaya çıkan arka planı boyamakla görevlendirildiği belirtiliyor. Burada, bu eksiklik, (gerçek hayatta, soldaki görsele bakın) daha dolgun hatlı kişinin kullandığı kırmızı ana hatla temsil ediliyor. https://arxiv.org/pdf/2203.10496.pdf'deki kaynak materyale dayalıdır

Tutarlı Optik Akış

Optik akış (OF), video nesnesi kaldırmanın geliştirilmesinde temel bir teknoloji haline geldi. gibi bir ipekli kumaşOF, zamansal bir dizinin tek seferlik bir haritasını sağlar. Genellikle bilgisayarlı görme girişimlerinde hızı ölçmek için kullanılan OF, aynı zamanda, Disney tarzı "kare başına" dikkat yerine, görevin toplamının tek bir geçişte değerlendirilebildiği, zamansal olarak tutarlı iç boyama olanağı da sağlayabilir; bu da kaçınılmaz olarak zamansal kopukluğa yol açar.

Bugüne kadarki video iç boyama yöntemleri üç aşamalı bir sürece odaklanmıştır: akış tamamlama, burada video esasen ayrık ve keşfedilebilir bir varlığa eşlenir; piksel yayılımı'Bozuk' videolardaki deliklerin çift yönlü yayılan pikseller tarafından doldurulduğu; ve içerik halüsinasyonu (çoğumuzun deepfake ve DALL-E serisi gibi metinden görüntüye dönüştürme çerçevelerinden aşina olduğu piksel 'icadı') burada tahmini 'eksik' içerik icat edilir ve görüntülere eklenir.

E'nin merkezi yeniliği²FGVI, bu üç aşamayı uçtan uca bir sistemde birleştirerek içerik veya süreç üzerinde manuel işlemler gerçekleştirme ihtiyacını ortadan kaldırır.

Makale, manuel müdahale ihtiyacının, eski süreçlerin bir GPU'dan yararlanmamasını gerektirdiğini ve bunun da onları oldukça zaman alıcı hale getirdiğini gözlemliyor. Gazeteden*:

'almak DFVI örnek olarak, 432 × 240 boyutunda bir videoyu DAVISYaklaşık 70 kare içeren , yaklaşık 4 dakika sürüyor ve bu da çoğu gerçek dünya uygulamasında kabul edilemez. Ayrıca, yukarıda belirtilen dezavantajlar dışında, içerik halüsinasyonu aşamasında yalnızca önceden eğitilmiş bir görüntü boyama ağı kullanmak, zamansal komşular arasındaki içerik ilişkilerini göz ardı ederek videolarda tutarsız içerik oluşturulmasına yol açıyor.

Video iç boyamanın üç aşamasını birleştirerek, E²FGVI, ikinci aşama olan piksel yayılımını özellik yayılımı ile değiştirebilir. Önceki çalışmaların daha bölümlü süreçlerinde, özellikler o kadar kapsamlı bir şekilde mevcut değildir çünkü her aşama nispeten hermetiktir ve iş akışı yalnızca yarı otomatiktir.

Ek olarak, araştırmacılar bir geçici odak transformatörü sadece geçerli karedeki piksellerin doğrudan komşularını değil (yani, önceki veya sonraki görüntüde karenin o bölümünde neler olduğunu), aynı zamanda birçok kare uzaktaki uzak komşuları da dikkate alan içerik halüsinasyonu aşaması için ve ancak bir bütün olarak video üzerinde gerçekleştirilen herhangi bir işlemin tutarlı etkisini etkileyecektir.

E2FGVI mimarisi.

İş akışının yeni özellik tabanlı merkezi bölümü, daha fazla özellik düzeyindeki süreçlerden ve öğrenilebilir örnekleme ofsetlerinden faydalanabiliyor; yazarlara göre projenin yeni odak dönüştürücüsü ise odak pencerelerinin boyutunu '2B'den 3B'ye' genişletiyor.

Testler ve Veriler

E'yi test etmek için²FGVI, araştırmacılar sistemi iki popüler video nesnesi segmentasyon veri setine göre değerlendirdi: YouTube-VOS, ve DAVIS. YouTube-VOS, 3741 eğitim video klibi, 474 doğrulama klibi ve 508 test klibi içerirken DAVIS, 60 eğitim video klibi ve 90 test klibi içerir.

E²FGVI, YouTube-VOS üzerinde eğitildi ve her iki veri kümesi üzerinde değerlendirildi. Eğitim sırasında, nesne maskeleri (yukarıdaki görüntülerdeki yeşil alanlar ve YouTube videosuna eşlik ediyor) videonun tamamlanmasını simüle etmek için üretildi.

Ölçümler için araştırmacılar, etkilenen videodaki zamansal kararlılığı ölçmek için Tepe sinyal-gürültü oranı (PSNR), Yapısal benzerlik (SSIM), Video tabanlı Fréchet Başlangıç Mesafesi (VFID) ve Akış Çarpıtma Hatasını benimsedi.

Sistemin test edildiği önceki mimariler, VİNET, DFVI, LGTSM, CAP, FGVC, STTN, ve SigortaEski.

Makalenin nicel sonuçlar bölümünden. Yukarı ve aşağı oklar, sırasıyla daha yüksek veya daha düşük sayıların daha iyi olduğunu gösterir. E2FGVI, pano genelinde en iyi puanları alır. Yöntemler FuseFormer'a göre değerlendirilir, ancak DFVI, VINet ve FGVC uçtan uca sistemler değildir ve FLOP'larını tahmin etmeyi imkansız kılar.

Araştırmacılar, tüm rakip sistemlere karşı en iyi puanları elde etmenin yanı sıra, beş temsili yöntemle dönüştürülen videoların bireysel olarak yirmi gönüllüye gösterildiği ve onlardan görsel kalite açısından derecelendirmelerinin istendiği nitel bir kullanıcı çalışması yürüttü.

Dikey eksen, görsel kalite açısından E2FGVI çıktısını tercih eden katılımcıların yüzdesini temsil eder.

Dikey eksen, E'yi tercih eden katılımcıların yüzdesini temsil eder.²Görsel kalite açısından FGVI çıkışı.

Yazarlar, yöntemleri için oybirliğiyle tercih edilmesine rağmen, sonuçlardan biri olan FGVC'nin nicel sonuçları yansıtmadığını belirtiyorlar ve bunun E'yi gösterdiğini öne sürüyorlar.²FGVI, belki de, 'görsel olarak daha hoş sonuçlar' üretiyor olabilir.

Verimlilik açısından yazarlar, sistemlerinin DAVIS veri kümesindeki tek bir Titan GPU'da saniye başına kayan nokta işlemlerini (FLOP'lar) ve çıkarım süresini büyük ölçüde azalttığını belirtiyor ve sonuçların E'yi gösterdiğini gözlemliyor.²FGVI, akış tabanlı yöntemlerden 15 kat daha hızlı çalışır.

Yorum yapıyorlar:

'[E²FGVI], diğer tüm yöntemlere kıyasla en düşük FLOP değerlerine sahiptir. Bu, önerilen yöntemin video boyama için oldukça verimli olduğunu göstermektedir.

*Yazarların satır içi alıntılarını hiper bağlantılara dönüştürmem.

İlk olarak 19 Mayıs 2022'de yayınlandı.

Hatalı video yerleştirmeyi kaldırmak ve makale gövdesindeki gömülü videoya yapılan referansları düzeltmek için 28 Ekim 2025 Salı günü değiştirildi.

İlgili konular:görüntü sentezi araştırma transformatör video

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

Makine Öğrenimi ile Videodan Nesneleri Daha Verimli Kaldırma

Bu Resimde Neler Eksik?

Tutarlı Optik Akış

Testler ve Veriler

Beğenebilirsin