saplama Aşırı Sıkıştırılmış Sosyal Medya Videolarını Makine Öğrenimi ile Geri Yükleme - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Makine Öğrenimi ile Aşırı Sıkıştırılmış Sosyal Medya Videolarını Geri Yükleme

mm
Güncellenmiş on
Ana resim kaynağı: DALL-E 2

Çin'de yapılan yeni araştırma, kullanıcı tarafından yüklenen videonun ayrıntılarını ve çözünürlüğünü geri yüklemek için etkili ve yeni bir yöntem sunuyor. otomatik olarak sıkıştırılmış bant genişliğinden ve depolama alanından tasarruf etmek için WeChat ve YouTube gibi platformlarda.

Yeni yöntemin, sosyal medya platformunun otomatik optimizasyonu sırasında atılan ayrıntıları doğru bir şekilde yeniden çözme yeteneği açısından önceki yaklaşımlarla karşılaştırılması. Kaynak: https://arxiv.org/pdf/2208.08597.pdf

Yeni yöntemin, sosyal medya platformunun otomatik optimizasyonu sırasında atılan ayrıntıları doğru bir şekilde yeniden çözme yeteneği açısından önceki yaklaşımlarla karşılaştırılması. Kaynak: https://arxiv.org/pdf/2208.08597.pdf

Genel eğitim verilerine dayalı olarak videoları yükseltebilen ve örneklendirebilen önceki yöntemlerin aksine, yeni yaklaşım bunun yerine bozulma özellik haritası Sıkıştırılmış videonun her karesi için (DFM) - sıkıştırmadan kaynaklanan çerçevedeki en çok hasar görmüş veya bozulan bölgelerin etkili bir genel bakışı.

Yeni makalenin ablasyon çalışmalarından: sağdan ikinci, 'saf' bir bozunma özellik haritası (DFM) için temel gerçek; sağdan üçüncü, DFM kullanılmadan hasarın bir tahmini. Solda, DFM ile hasarın çok daha doğru bir haritası.

Yeni makalenin ablasyon çalışmalarından: sağdan ikinci, 'saf' bir bozunma özellik haritası (DFM) için temel gerçek; sağdan üçüncü, DFM kullanılmadan hasarın bir tahmini. Solda, DFM ile hasarın çok daha doğru bir haritası.

Diğer teknolojilerin yanı sıra evrişimli sinir ağlarını (CNN'ler) kullanan onarıcı süreç, DFM'deki bilgiler tarafından yönlendirilir ve odaklanır, bu da yeni yöntemin önceki yaklaşımların performansını ve doğruluğunu aşmasına olanak tanır.

Sürecin temel gerçeği, araştırmacıların yüksek kaliteli videoyu dört popüler paylaşım platformuna yüklemesi, sıkıştırılmış sonuçları indirmesi ve sıkıştırma yapaylıklarını ve ayrıntı kaybını soyut olarak öğrenebilen ve böylece tüm platformlara uygulanabilecek bir bilgisayarlı görüntü hattı geliştirmesiyle elde edildi. tamamen uygun verilere dayalı olarak videoları orijinale yakın kaliteye geri yüklemek için çeşitli platformlar.

Araştırmacıların yeni UVSSM veri setinden örnekler.

Araştırmacıların yeni UVSSM veri setinden örnekler.

Araştırmada kullanılan materyal, başlıklı bir HQ/LQ veri setinde derlenmiştir. Sosyal Medyada Paylaşılan Kullanıcı Videoları (UVSSM) ve yapılmıştır yüklenebilir (parola: RSQW) Baidu'da, platformla sıkıştırılmış videoyu geri yüklemek için yeni yöntemler geliştirmeye çalışan sonraki araştırma projelerinin yararına.

İndirilebilir UVSSM veri kümesinden iki eşdeğer HQ/LQ örneği arasındaki karşılaştırma (kaynak URL'ler için yukarıdaki bağlantılara bakın). Bu örnek bile birden fazla sıkıştırma turuna tabi olabileceğinden (görüntü uygulaması, CMS, CDN vb.), daha doğru bir karşılaştırma için lütfen orijinal kaynak verilere bakın.

İndirilebilir UVSSM veri kümesinden iki eşdeğer HQ/LQ örneği arasındaki karşılaştırma (kaynak URL'ler için yukarıdaki bağlantılara bakın). Bu örnek bile birden fazla sıkıştırma turuna tabi olabileceğinden (görüntü uygulaması, CMS, CDN vb.), daha doğru bir karşılaştırma için lütfen orijinal kaynak verilere bakın.

Olarak bilinen sistemin kodu Uyarlanabilir Bozulma Algılama ile Video Restorasyonu (OYLAR), ayrıca GitHub'da yayınlandı, ancak uygulanması bir dizi çekme tabanlı bağımlılık gerektirir.

The kâğıt başlıklı Sosyal Medyada Paylaşılan Kullanıcı Videolarının Restorasyonu, ve Shenzhen Üniversitesi'ndeki üç araştırmacıdan ve Hong Kong Politeknik Üniversitesi Elektronik ve Bilişim Mühendisliği Bölümü'nden bir araştırmacıdan geliyor.

Eserlerden Gerçeklere

Web'den kazınmış videoların kalitesini jenerik olmadan geri yükleme yeteneği, bazen aşırı Gigapixel (ve benzer kapsamdaki popüler açık kaynak paketlerinin çoğu) gibi programların sağladığı ayrıntıların 'halüsinasyonu', bilgisayarla görme araştırma sektörü için çıkarımlara sahip olabilir.

Video tabanlı CV teknolojilerine yönelik araştırmalar sıklıkla, kullanılan sıkıştırma yöntemlerinin ve codec'lerin yakından korunduğu, artefakt modellerine veya diğer görsel göstergelere dayalı olarak kolayca toparlanamadığı ve YouTube ve Twitter gibi platformlardan elde edilen görüntülere dayanır. periyodik olarak değiştirmek.

Web'de bulunan videodan yararlanan projelerin çoğu, araştırma sıkıştırmave zorunda ödenek yapmak kullanıcıların yüklediği orijinal yüksek kaliteli sürümlere erişimleri olmadığından, platformların sunduğu mevcut sıkıştırılmış video kalitesi için.

Bu nedenle, bu tür videolara daha yüksek kalite ve çözünürlüğü sadakatle geri yükleme yeteneği, ilgisiz bilgisayar görme veri kümelerinden aşağı akış etkisi getirmeden, CV projelerinin şu anda bozulmuş video kaynakları için yapması gereken sık geçici çözümleri ve uyumlaştırmaları ortadan kaldırmaya yardımcı olabilir.

YouTube gibi platformlar, zaman zaman kullanıcıların videolarını sıkıştırma yöntemlerinde (örneğin, VP9), hiçbiri, kullanıcıların yüklediği yüksek kaliteli dosyaları azaltmak için kullanılan tüm süreci veya kesin codec bileşenlerini ve ayarları açıkça göstermez.

Bu nedenle, kullanıcı yüklemelerinden gelişmiş çıktı kalitesi elde etmek, Druidik Sanat son on yıl içinde, çeşitli (çoğunlukla doğrulanmamış) "geçici çözümler" moda giriyor ve modası geçiyor.

Yöntem

Derin öğrenmeye dayalı video geri yüklemeye yönelik önceki yaklaşımlar, ya tek çerçeveli geri yüklemeye bir yaklaşım olarak ya da çok çerçeveli bir mimaride optik akış (yani, geçerli bir çerçeveyi geri yüklerken bitişik ve sonraki çerçeveleri hesaba katar).

Tüm bu yaklaşımlar, çekirdek teknolojilerin ne olduğu veya herhangi bir belirli kullanıcı için nasıl yapılandırıldıkları kesin olmadığı için, çekirdek teknolojilerdeki sıkıştırma etkilerini inceleyemedikleri gerçeği olan 'kara kutu' etkisiyle mücadele etmek zorunda kalmıştır. -yüklenen video.

VOTES, bunun yerine, doğrudan orijinal ve sıkıştırılmış videodan göze çarpan özellikleri ayıklamayı ve bir dizi platformun standartlarına genelleşecek dönüşüm modellerini belirlemeyi amaçlar.

VOTES için basitleştirilmiş kavramsal mimari.

VOTES için basitleştirilmiş kavramsal mimari.

VOTES, evrişimli bloklardaki özellikleri çıkarmak için özel olarak geliştirilmiş bir bozulma algılama modülü (DSM, yukarıdaki resme bakın) kullanır. Birden çok çerçeve daha sonra bir özellik çıkarma ve hizalama modülüne (FEAM) geçirilir ve bunlar daha sonra bir bozulma modülasyon modülüne (DMM) yönlendirilir. Son olarak, yeniden oluşturma modülü geri yüklenen videoyu çıkarır.

Veriler ve Deneyler

Yeni çalışmada, araştırmacılar çabalarını WeChat platformuna yüklenen ve WeChat platformundan yeniden indirilen videoyu geri yüklemeye yoğunlaştırdılar, ancak ortaya çıkan algoritmanın diğer platformlara uyarlanabilmesini sağlamakla ilgileniyorlardı.

WeChat videoları için etkili bir restorasyon modeli elde ettikten sonra, onu Bilibili, Twitter ve YouTube'a uyarlamanın her platform için her bir özel model için tek bir dönem için yalnızca 90 saniye sürdüğü ortaya çıktı (4 NVIDIA Tesla P40 GPU çalıştıran bir makinede) toplam 96 GB VRAM).

Başarılı WeChat modelini diğer video paylaşım platformlarına uyarlamanın oldukça önemsiz olduğu ortaya çıktı. Burada, yazarların kendi UVSSM veri setini ve REDS veri setini (aşağıya bakın) kullanarak çeşitli platformlarda neredeyse anında performans paritesi elde eden VOTES'u görüyoruz.

Başarılı WeChat modelini diğer video paylaşım platformlarına uyarlamanın oldukça önemsiz olduğu ortaya çıktı. Burada, yazarların kendi UVSSM veri setini ve REDS veri setini (aşağıya bakın) kullanarak çeşitli platformlarda neredeyse anında performans paritesi elde eden VOTES'u görüyoruz.

UVSSM veri setini doldurmak için araştırmacılar, doğrudan cep telefonu kameralarından veya internetten alınan, her biri 264 fps kare hızına sahip, 5-30 saniye arasında değişen 30 video topladı. Videoların tümü 1920 x 1080 veya 1280 x 270 çözünürlükteydi.

İçerik (önceki resme bakın) şehir manzaralarını, manzaraları, insanları ve hayvanları ve çeşitli diğer konuları içeriyordu ve Creative Commons Atıf lisansı aracılığıyla genel veri setinde kullanılabilir ve yeniden kullanıma izin verir.

Yazarlar, beş farklı marka cep telefonu kullanarak WeChat'e 214 video yükledi ve WeChat'in varsayılan video çözünürlüğü olan 960×540'ı elde etti (kaynak video zaten bu boyutlardan küçük değilse), popüler platformlardaki en "cezalandırıcı" dönüşümler arasında yer aldı.

Sol üstte, büyütülmüş üç bölümü olan orijinal HQ çerçevesi; sağ üst, aynı videonun platforma göre indirgenmiş sıkıştırılmış versiyonundan aynı kare; sol altta, sıkıştırılmış çerçevenin hesaplanan bozulması; ve sağ altta, VOTES'un dikkatini odaklaması için "çalışma alanı". Açıkçası, düşük kaliteli görüntünün boyutu, HQ'nun yarısı kadardır, ancak karşılaştırmanın netliği için burada yeniden boyutlandırılmıştır.

Sol üstte, büyütülmüş üç bölümü olan orijinal HQ çerçevesi; sağ üst, aynı videonun platforma göre indirgenmiş sıkıştırılmış versiyonundan aynı kare; sol altta, sıkıştırılmış çerçevenin hesaplanan bozulması; ve sağ altta, VOTES'un dikkatini odaklaması için "çalışma alanı". Açıkçası, düşük kaliteli görüntünün boyutu, HQ'nun yarısı kadardır, ancak karşılaştırmanın netliği için burada yeniden boyutlandırılmıştır.

Araştırmacılar, diğer platformların dönüşüm rutinleriyle daha sonraki karşılaştırmalar için 50 video yükledi. değil orijinal 214'te Bilibili, YouTube ve Twitter'a dahil edilmiştir. Videoların orijinal çözünürlüğü 1280×270, indirilen sürümler ise 640×360 idi.

Bu, UVSSM veri kümesini, WeChat'e 364 ve Bilibili, YouTube ve Twitter'a 214 olmak üzere toplam 50 çift orijinal (HQ) ve paylaşılan (LQ) videoya getirir.

Deneyler için, test seti olarak rastgele 10 video, doğrulama seti olarak dördü ve çekirdek eğitim seti olarak kalan 200 video seçildi. ile deneyler beş kez yapılmıştır. K-katlı çapraz doğrulama, sonuçların bu örnekler genelinde ortalaması alınarak.

Video geri yükleme testlerinde VOTES, Uzaysal-Zamansal Deforme Edilebilir Füzyon (STDF). Çözünürlük geliştirmesi için, Geliştirilmiş Deforme Edilebilir kıvrımlara karşı test edilmiştir (EDVR), RSDN, Geçici Grup Dikkatiyle Süper Çözünürlüklü Video (VSR_TGA), Ve temel VSR. Google'ın tek-aşama yöntemi KOMİSER önceki diğer çalışmaların mimari tipine uymasa da dahil edildi.

Yöntemler hem UVSS'ye hem de KIRMIZI VOTES ile en yüksek puanları alan veri kümesi:

Yazarlar, niteliksel sonuçların, OYLARIN önceki sistemlere karşı üstünlüğünü de gösterdiğini iddia ediyor:

REDS'ten video kareleri, rakip yaklaşımlarla geri yüklendi. Yalnızca gösterge niteliğindeki çözünürlük - kesin çözüm için makaleye bakın.

REDS'ten video kareleri, rakip yaklaşımlarla geri yüklendi. Yalnızca gösterge niteliğindeki çözünürlük - kesin çözünürlük için makaleye bakın.

 

İlk olarak 19 Ağustos 2022'de yayınlandı.