Yapay Zeka
Makine Öğrenimi ile Aşırı Sıkıştırılmış Sosyal Medya Videolarını Geri Yükleme
Çin'de yapılan yeni araştırma, kullanıcı tarafından yüklenen videonun ayrıntılarını ve çözünürlüğünü geri yüklemek için etkili ve yeni bir yöntem sunuyor. otomatik olarak sıkıştırılmış bant genişliğinden ve depolama alanından tasarruf etmek için WeChat ve YouTube gibi platformlarda.
Genel eğitim verilerine dayalı olarak videoları yükseltebilen ve örneklendirebilen önceki yöntemlerin aksine, yeni yaklaşım bunun yerine bozulma özellik haritası Sıkıştırılmış videonun her karesi için (DFM) - sıkıştırmadan kaynaklanan çerçevedeki en çok hasar görmüş veya bozulan bölgelerin etkili bir genel bakışı.
Diğer teknolojilerin yanı sıra evrişimli sinir ağlarını (CNN'ler) kullanan onarıcı süreç, DFM'deki bilgiler tarafından yönlendirilir ve odaklanır, bu da yeni yöntemin önceki yaklaşımların performansını ve doğruluğunu aşmasına olanak tanır.
Sürecin temel gerçeği, araştırmacıların yüksek kaliteli videoyu dört popüler paylaşım platformuna yüklemesi, sıkıştırılmış sonuçları indirmesi ve sıkıştırma yapaylıklarını ve ayrıntı kaybını soyut olarak öğrenebilen ve böylece tüm platformlara uygulanabilecek bir bilgisayarlı görüntü hattı geliştirmesiyle elde edildi. tamamen uygun verilere dayalı olarak videoları orijinale yakın kaliteye geri yüklemek için çeşitli platformlar.
Araştırmada kullanılan materyal, başlıklı bir HQ/LQ veri setinde derlenmiştir. Sosyal Medyada Paylaşılan Kullanıcı Videoları (UVSSM) ve yapılmıştır yüklenebilir (parola: RSQW) Baidu'da, platformla sıkıştırılmış videoyu geri yüklemek için yeni yöntemler geliştirmeye çalışan sonraki araştırma projelerinin yararına.
Olarak bilinen sistemin kodu Uyarlanabilir Bozulma Algılama ile Video Restorasyonu (OYLAR), ayrıca GitHub'da yayınlandı, ancak uygulanması bir dizi çekme tabanlı bağımlılık gerektirir.
The kâğıt başlıklı Sosyal Medyada Paylaşılan Kullanıcı Videolarının Restorasyonu, ve Shenzhen Üniversitesi'ndeki üç araştırmacıdan ve Hong Kong Politeknik Üniversitesi Elektronik ve Bilişim Mühendisliği Bölümü'nden bir araştırmacıdan geliyor.
Eserlerden Gerçeklere
Web'den kazınmış videoların kalitesini jenerik olmadan geri yükleme yeteneği, bazen aşırı Gigapixel (ve benzer kapsamdaki popüler açık kaynak paketlerinin çoğu) gibi programların sağladığı ayrıntıların 'halüsinasyonu', bilgisayarla görme araştırma sektörü için çıkarımlara sahip olabilir.
Video tabanlı CV teknolojilerine yönelik araştırmalar sıklıkla, kullanılan sıkıştırma yöntemlerinin ve codec'lerin yakından korunduğu, artefakt modellerine veya diğer görsel göstergelere dayalı olarak kolayca toparlanamadığı ve YouTube ve Twitter gibi platformlardan elde edilen görüntülere dayanır. periyodik olarak değiştirmek.
Web'de bulunan videodan yararlanan projelerin çoğu, araştırma sıkıştırmave zorunda ödenek yapmak kullanıcıların yüklediği orijinal yüksek kaliteli sürümlere erişimleri olmadığından, platformların sunduğu mevcut sıkıştırılmış video kalitesi için.
Bu nedenle, bu tür videolara daha yüksek kalite ve çözünürlüğü sadakatle geri yükleme yeteneği, ilgisiz bilgisayar görme veri kümelerinden aşağı akış etkisi getirmeden, CV projelerinin şu anda bozulmuş video kaynakları için yapması gereken sık geçici çözümleri ve uyumlaştırmaları ortadan kaldırmaya yardımcı olabilir.
YouTube gibi platformlar, zaman zaman kullanıcıların videolarını sıkıştırma yöntemlerinde (örneğin, VP9), hiçbiri, kullanıcıların yüklediği yüksek kaliteli dosyaları azaltmak için kullanılan tüm süreci veya kesin codec bileşenlerini ve ayarları açıkça göstermez.
Bu nedenle, kullanıcı yüklemelerinden gelişmiş çıktı kalitesi elde etmek, Druidik Sanat son on yıl içinde, çeşitli (çoğunlukla doğrulanmamış) "geçici çözümler" moda giriyor ve modası geçiyor.
Yöntem
Derin öğrenmeye dayalı video geri yüklemeye yönelik önceki yaklaşımlar, ya tek çerçeveli geri yüklemeye bir yaklaşım olarak ya da çok çerçeveli bir mimaride optik akış (yani, geçerli bir çerçeveyi geri yüklerken bitişik ve sonraki çerçeveleri hesaba katar).
Tüm bu yaklaşımlar, çekirdek teknolojilerin ne olduğu veya herhangi bir belirli kullanıcı için nasıl yapılandırıldıkları kesin olmadığı için, çekirdek teknolojilerdeki sıkıştırma etkilerini inceleyemedikleri gerçeği olan 'kara kutu' etkisiyle mücadele etmek zorunda kalmıştır. -yüklenen video.
VOTES, bunun yerine, doğrudan orijinal ve sıkıştırılmış videodan göze çarpan özellikleri ayıklamayı ve bir dizi platformun standartlarına genelleşecek dönüşüm modellerini belirlemeyi amaçlar.
VOTES, evrişimli bloklardaki özellikleri çıkarmak için özel olarak geliştirilmiş bir bozulma algılama modülü (DSM, yukarıdaki resme bakın) kullanır. Birden çok çerçeve daha sonra bir özellik çıkarma ve hizalama modülüne (FEAM) geçirilir ve bunlar daha sonra bir bozulma modülasyon modülüne (DMM) yönlendirilir. Son olarak, yeniden oluşturma modülü geri yüklenen videoyu çıkarır.
Veriler ve Deneyler
Yeni çalışmada, araştırmacılar çabalarını WeChat platformuna yüklenen ve WeChat platformundan yeniden indirilen videoyu geri yüklemeye yoğunlaştırdılar, ancak ortaya çıkan algoritmanın diğer platformlara uyarlanabilmesini sağlamakla ilgileniyorlardı.
WeChat videoları için etkili bir restorasyon modeli elde ettikten sonra, onu Bilibili, Twitter ve YouTube'a uyarlamanın her platform için her bir özel model için tek bir dönem için yalnızca 90 saniye sürdüğü ortaya çıktı (4 NVIDIA Tesla P40 GPU çalıştıran bir makinede) toplam 96 GB VRAM).
UVSSM veri setini doldurmak için araştırmacılar, doğrudan cep telefonu kameralarından veya internetten alınan, her biri 264 fps kare hızına sahip, 5-30 saniye arasında değişen 30 video topladı. Videoların tümü 1920 x 1080 veya 1280 x 270 çözünürlükteydi.
İçerik (önceki resme bakın) şehir manzaralarını, manzaraları, insanları ve hayvanları ve çeşitli diğer konuları içeriyordu ve Creative Commons Atıf lisansı aracılığıyla genel veri setinde kullanılabilir ve yeniden kullanıma izin verir.
Yazarlar, beş farklı marka cep telefonu kullanarak WeChat'e 214 video yükledi ve WeChat'in varsayılan video çözünürlüğü olan 960×540'ı elde etti (kaynak video zaten bu boyutlardan küçük değilse), popüler platformlardaki en "cezalandırıcı" dönüşümler arasında yer aldı.
Araştırmacılar, diğer platformların dönüşüm rutinleriyle daha sonraki karşılaştırmalar için 50 video yükledi. değil orijinal 214'te Bilibili, YouTube ve Twitter'a dahil edilmiştir. Videoların orijinal çözünürlüğü 1280×270, indirilen sürümler ise 640×360 idi.
Bu, UVSSM veri kümesini, WeChat'e 364 ve Bilibili, YouTube ve Twitter'a 214 olmak üzere toplam 50 çift orijinal (HQ) ve paylaşılan (LQ) videoya getirir.
Deneyler için, test seti olarak rastgele 10 video, doğrulama seti olarak dördü ve çekirdek eğitim seti olarak kalan 200 video seçildi. ile deneyler beş kez yapılmıştır. K-katlı çapraz doğrulama, sonuçların bu örnekler genelinde ortalaması alınarak.
Video geri yükleme testlerinde VOTES, Uzaysal-Zamansal Deforme Edilebilir Füzyon (STDF). Çözünürlük geliştirmesi için, Geliştirilmiş Deforme Edilebilir kıvrımlara karşı test edilmiştir (EDVR), RSDN, Geçici Grup Dikkatiyle Süper Çözünürlüklü Video (VSR_TGA), Ve temel VSR. Google'ın tek-aşama yöntemi KOMİSER önceki diğer çalışmaların mimari tipine uymasa da dahil edildi.
Yöntemler hem UVSS'ye hem de KIRMIZI VOTES ile en yüksek puanları alan veri kümesi:
Yazarlar, niteliksel sonuçların, OYLARIN önceki sistemlere karşı üstünlüğünü de gösterdiğini iddia ediyor:
İlk olarak 19 Ağustos 2022'de yayınlandı.