Yapay Zeka

AI Analizi için Tasarlanmış Bir Video Codec

Yayınlanan Mayıs 1, 2022

Güncellenmiş 9 Aralık 2022

Martin Anderson

Her ne kadar tekno-gerilim The Circle (2017) filmi, harici video analizlerinin pratikliğinden ziyade sosyal ağların etik etkilerine dair bir yorum niteliğinde olsa da, filmin merkezindeki inanılmaz derecede küçük 'SeeChange' kamerası, filmi gerçekten 'bilim kurgu' kategorisine iten şeydir.

Tekno-gerilim The Circle'dan (2017) "SeeChange" kamera/gözetleme cihazı.

Tekno-gerilim filmi 'The Circle' (2017) filmindeki 'SeeChange' kamera/gözetleme cihazı.

Büyük bir bilye büyüklüğünde, kablosuz ve serbest dolaşımlı bir cihaz; güneş panellerinin eksikliği veya diğer ortam kaynaklarından (örneğin; Radyo dalgaları) bu da SeeChange'i pek olası kılmıyor, ancak 24/7 videoyu sıkıştırmak zorunda kalacak olması ve bunu da karşılayabileceği düşük bir ücretle yapması gerekecek olması gerçeği.

Bu tür ucuz sensörlere güç sağlamak, özellikle sensörün çok sınırlı güç kaynaklarından (piller, güneş enerjisi vb.) maksimum performansı elde etmesi gereken kentsel olmayan ortamlarda, bilgisayarlı görüntü (CV) ve video analitiğinde temel bir araştırma alanıdır. .).

Bu türden bir uç IoT/CV cihazının görüntü içeriğini merkezi bir sunucuya (genellikle geleneksel hücre kapsama ağları aracılığıyla) göndermesi gerektiği durumlarda, seçenekler zordur: ya cihazın yerel olarak bir tür hafif sinir ağı çalıştırması gerekir. sadece göndermek için optimize Sunucu tarafı işleme için ilgili veri segmentleri; veya takılı bulut kaynaklarının değerlendirmesi için 'aptal' video göndermesi gerekir.

Olay tabanlı Akıllı Görüntü Sensörleri (SVS) aracılığıyla hareket etkinleştirme, bu yükü azaltmak, bu aktivasyon izlemenin de enerji maliyeti vardır.

Güce tutunmak

Dahası, nadiren etkinleştirildiğinde bile (örneğin ara sıra bir koyun görüş alanına girdiğinde), cihaz gigabaytlarca sıkıştırılmamış video göndermek için yeterli güce sahip değildir; ayrıca, takılı veya bir sonraki şarj seansına yakın donanımları bekleyen H.264/5 gibi popüler video sıkıştırma kodeklerini sürekli olarak çalıştırmak için de yeterli güce sahip değildir.

Üç tipik bilgisayarla görme görevi için video analitiği ardışık düzenleri. Video kodlama mimarisinin eldeki görev için ve genellikle verileri alacak sinir ağı için eğitilmesi gerekir. Kaynak: https://arxiv.org/pdf/2204.12534.pdf

Yaygın olarak kullanılan H.264 codec bileşeni, halefi H.265'ten daha düşük enerji tüketimine sahip olsa da, zayıf sıkıştırma verimliliğiHalefi H.265, daha iyi sıkıştırma verimliliğine sahip ancak daha yüksek güç tüketimine sahip. Google'ın açık kaynaklı VP9 codec bileşeni her alanda her ikisini de yener, daha yüksek yerel hesaplama kaynakları gerektirir, bu da sunar ek problemler sözde ucuz bir IoT sensöründe.

Akışı yerel olarak analiz etmeye gelince: Sunucuya hangi karelerin (veya kare alanlarının) gönderilmeye değer olduğunu belirlemek için en hafif yerel sinir ağını bile çalıştırdığınızda, genellikle tüm kareleri göndererek tasarruf edeceğiniz gücü harcamış olursunuz.

Şebekeye bağlı olması muhtemel olmayan bir sensörle sığırların maskelenmiş temsillerini çıkarmak. Sınırlı güç kapasitesini hafif bir sinir ağı ile yerel semantik bölümlemeye harcıyor mu; daha fazla talimat için bir sunucuya sınırlı bilgi göndererek (gecikme sağlayarak); veya 'aptal' veriler göndererek (bant genişliğinde enerji israf ederek)? Kaynak: https://arxiv.org/pdf/1807.01972.pdf

Şebekeye bağlı olması pek olası olmayan bir sensörle, sığırların maskelenmiş temsillerini çıkarmak. Sınırlı güç kapasitesini, hafif bir sinir ağıyla yerel anlamsal segmentasyona mı harcıyor; daha fazla talimat için bir sunucuya sınırlı bilgi göndererek (gecikmeye neden olarak) mi; yoksa "aptal" veriler göndererek (bant genişliğine enerji israf ederek) mi? Kaynak: https://arxiv.org/pdf/1807.01972.pdf

'Doğada' bilgisayarlı görme projelerinin, anlamsal segmentasyon, anahtar nokta tespiti (insan hareketi analizi) ve nesne tespiti gibi belirli ve çeşitli görevler için belirli sinir ağlarının gereksinimlerine göre optimize edilmiş özel video sıkıştırma kodeklerine ihtiyaç duyduğu açıktır.

Video sıkıştırma verimliliği ile minimum veri iletimi arasında mükemmel bir denge kurabilirseniz, SeeChange'e ve uygun fiyatlı sensör ağlarını uygun maliyetli ortamlarda konuşlandırma yeteneğine bir adım daha yaklaşmış olursunuz.

AccMPEG

Chicago Üniversitesi'nden yapılan yeni araştırma, böyle bir codec bileşenine bir adım daha yaklaşmış olabilir. AccMPEG – sunucu tarafı Derin Sinir Ağları (DNN'ler) için düşük gecikme süresi ve yüksek doğrulukta çalışan ve oldukça düşük yerel bilgi işlem gereksinimlerine sahip yeni bir video kodlama ve akış çerçevesi.

AccMPEG Mimarisi. Kaynak: https://arxiv.org/pdf/2204.12534.pdf

Sistem, her bir 16x16px'in boyutunu değerlendirerek önceki yöntemlere göre ekonomi yapabilir. makro blok sunucu tarafı DNN'nin doğruluğunu etkilemesi muhtemeldir. Bunun yerine önceki yöntemler, genellikle bu tür bir doğruluğu bir görüntüdeki her bir piksele dayalı olarak değerlendirmek veya görüntünün hangi bölgelerinin en çok ilgi çekebileceğini değerlendirmek için elektriksel olarak pahalı yerel işlemleri gerçekleştirmek zorundaydı.

AccMPEG'de bu doğruluk, makroblokun kodlama kalitesinin, insanları saymaya çalışan, insan hareketine ilişkin iskelet tahmini yapan veya diğer yaygın bilgisayar görüşü görevleri gibi son kullanım durumuyla ne şekilde alakalı olabileceğini ölçen AccGrad adlı özel bir modülde tahmin edilir.

Sisteme bir video karesi geldiğinde, AccMPEG başlangıçta onu ucuz, kaliteli bir seçici model aracılığıyla işler. AccModeli. Bir sunucu tarafı DNN'nin yararlı hesaplamalarına katkıda bulunma olasılığı düşük olan tüm alanlar, esas olarak balasttır ve daha iyi kalitede gönderilmesi gereken göze çarpan bölgelerin aksine, mümkün olan en düşük kalitede kodlama için işaretlenmelidir.

Bu süreç üç zorluk sunar: enerji tüketen yerel bilgi işlem kaynakları kullanılmadan kabul edilebilir bir gecikme elde etmek için süreç yeterince hızlı gerçekleştirilebilir mi? Kare hızı ve kalite arasında optimal bir ilişki kurulabilir mi? Ve bir model, tek bir sunucu tarafı DNN için hızlı bir şekilde eğitilebilir mi?

Eğitim Lojistiği

İdeal olarak, bir bilgisayar görüntü codec'i, belirli bir sinir ağının tam gereksinimlerine göre takılı sistemlerde önceden eğitilir. Bununla birlikte AccGrad modülü, standart ek yükün on katı tasarrufla yalnızca iki ileri yayılımla doğrudan bir DNN'den türetilebilir.

AccMPEG, AccGrad'ı son DNN boyunca her biri üç yayılımdan oluşan yalnızca 15 dönem boyunca eğitir ve en azından benzer şekilde belirtilen CV görevleri için, mevcut model durumunu bir şablon olarak kullanarak potansiyel olarak 'canlı' olarak yeniden eğitilebilir.

AccModel önceden eğitilmiş MobileNet-SSD uygun fiyatlı uç cihazlarda yaygın olan özellik çıkarıcı. 12 GFLOPS ciro ile model, tipik ResNet18 yaklaşımlarının yalnızca üçte birini kullanır. Toplu normalleştirme ve etkinleştirmenin yanı sıra, mimari yalnızca evrişimli katmanlardan oluşur ve hesaplama yükü çerçeve boyutuyla orantılıdır.

AccGrad, dağıtım lojistiğini iyileştirerek nihai DNN çıkarımı ihtiyacını ortadan kaldırır.

Kare hızı

Mimari, en uygun şekilde 10 fps'de çalışır; ancak düşük görüşlü trafik (arabaların veya insanların olduğu) gibi çok hızlı hareket eden senaryolar ve yüksek kare hızlarının faydalı olduğu diğer durumlar bu yaklaşım için uygun değildir.

Yöntemin tutumluluğunun bir kısmı, bitişik makro blokların, bir makro blok tahmini doğruluğun altına düşene kadar benzer değerde olma olasılığının yüksek olduğu varsayımından kaynaklanmaktadır. Bu yaklaşımla elde edilen alanlar daha net bir şekilde çizilir ve daha hızlı hesaplanabilir.

Performans iyileştirme

Araştırmacılar, sistemi tek bir 60 çekirdekli Maxwell GPU ve çeşitli diğer ucuz eşdeğerleriyle 128 dolarlık bir Jetson Nano kartında test ettiler. OpenVINO, çok seyrek yerel DNN'lerin enerji gereksinimlerinin bir kısmını CPU'lara dengelemek için kullanıldı.

AccModel'in kendisi başlangıçta 8 GeForce RTX 2080S GPU'lu bir sunucuda çevrimdışı olarak eğitildi. Bu, ilk model oluşturma için müthiş bir bilgi işlem gücü dizisi olsa da, sistemin mümkün kıldığı hafif yeniden eğitim ve bir modelin, benzer görevlere saldıran farklı DNN'lerde belirli tolerans parametrelerine ayarlanabilme şekli, AccMPEG'in şu anlama gelir: vahşi doğada minimum katılım gerektiren bir sistemin parçasını oluşturur.

İlk olarak 1 Mayıs 2022'de yayınlandı.

İlgili konular:Bilgisayar görüşü araştırma