Yapay Zeka

Uzun "Nasıl Yapılır" Videolarını Özetlemek için Yapay Zekayı Kullanma

Güncellenmiş on 9 Aralık 2022

Ana resim: DALL-E 2

Gerçekten istediğiniz bilgilere ulaşmak için bir YouTube nasıl yapılır videosunun hızını artıracak türdenseniz; uzun ve genellikle sponsor yüklü çalışma sürelerinde gizlenen temel bilgileri toplamak için videonun dökümüne bakın; ya da WikiHow'ın eğitim videosundaki bilgilerin daha az zaman alan bir versiyonunu yaratmayı başardığını umarız; o zaman UC Berkeley, Google Research ve Brown University'den yeni bir proje ilginizi çekebilir.

Başlıklı TL; DW? Öğretim Videolarını Görev Alakalılığı ve Modlar Arası Belirginlikle Özetleme, yeni kağıt videodan ilgili adımları tanımlayabilen ve geri kalan her şeyi atabilen yapay zeka destekli bir video özetleme sisteminin oluşturulmasını ayrıntılarıyla anlatıyor, bu da kısa özetlerle sonuçlanıyor.

WikiHow'un hem metin hem de video bilgileri için mevcut uzun video kliplerden yararlanması, IV-Sum projesi tarafından sistemi eğitmek için temel gerçeği sağlayan sahte özetler oluşturmak için kullanılır. Kaynak: https://arxiv.org/pdf/2208.06773.pdf

Ortaya çıkan özetler, orijinal videonun çalışma süresinin bir kısmına sahipken, çok modlu (yani metin tabanlı) bilgiler de işlem sırasında kaydedilir, böylece gelecekteki sistemler potansiyel olarak otomatik olarak ayrıştırabilen WikiHow tarzı blog gönderilerinin oluşturulmasını otomatikleştirebilir. uzun bir nasıl yapılır videosunu kısa ve öz ve aranabilir kısa bir makaleye dönüştürün, resimlerle tamamlayın, potansiyel olarak zamandan ve hayal kırıklığından tasarruf edin.

Yeni sistemin adı IV-Toplam ("Eğitim Videosu Özetleyicisi") ve açık kaynağı kullanır ResNet-50 uzun bir kaynak videonun ilgili karelerini ve bölümlerini ayırmak için diğer birkaç tekniğin yanı sıra bilgisayarlı görüş tanıma algoritması.

IV-Sum için kavramsal iş akışı.

Sistem, WikiHow web sitesinin içerik yapısından oluşturulan sözde özetler üzerinde eğitilmiştir; burada gerçek insanlar, popüler eğitim videolarını genellikle kaynak eğitim videolarından alınan kısa klipler ve animasyonlu GIF'ler kullanarak daha düz, metin tabanlı bir multimedya formuna dönüştürür.

Yazarlar, projenin WikiHow özetlerini sistem için temel gerçek verileri kaynağı olarak kullanmasını tartışırken şunları belirtiyor:

' konulu her yazı WikiHow Videoları web sitesi, genellikle tanıtım içeriği içeren bir görevi gösteren bir ana eğitim videosundan, görevin görsel bilgisi olmadan kameraya konuşan eğitmenin kliplerinden ve görevi gerçekleştirmek için çok önemli olmayan adımlardan oluşur.

Göreve genel bir bakış isteyen izleyiciler, yukarıda belirtilen tüm alakasız bilgilerin olmadığı daha kısa bir videoyu tercih eder. WikiHow makaleleri (örn. bkz. Suşi Pirinci Nasıl Yapılır?) tam olarak şunu içerir: görevdeki çeşitli adımları gösteren resimler/kliplerle birlikte listelenen videodaki tüm önemli adımları içeren ilgili metin.'

Bu web-scraping'den elde edilen veritabanına denir WikiHow Özetleri. Veritabanı, 2,106 girdi videosundan ve bunlarla ilgili özetlerden oluşmaktadır. Bu, normalde pahalı ve emek-yoğun manuel etiketleme ve açıklama gerektiren video özetleme projeleri için yaygın olarak mevcut olandan çok daha büyük bir veri kümesi boyutudur - daha kısıtlı özetleme ortamı sayesinde yeni çalışmada büyük ölçüde otomatikleştirilmiş bir süreç eğitici (genel değil) videolar.

IV-Sum, önceki benzer çalışmaları karakterize eden çerçeve tabanlı temsiller yerine geçici 3 boyutlu evrişimli sinir ağı temsillerinden yararlanıyor ve makalede ayrıntıları verilen bir ablasyon çalışması, bu yaklaşımın tüm bileşenlerinin sistemin işlevselliği için gerekli olduğunu doğruluyor.

IV-Sum, aşağıdakiler de dahil olmak üzere çeşitli karşılaştırılabilir çerçevelere karşı olumlu bir şekilde test edilmiştir: CLIP-it (makalenin yazarlarından birkaçının da üzerinde çalıştığı).

IV-Sum, genel video özetleme girişimleriyle karşılaştırıldığında, muhtemelen daha kısıtlı uygulama kapsamı nedeniyle, karşılaştırılabilir yöntemlere karşı iyi puan alır. Bu makalenin ilerleyen kısımlarında metriklerin ve puanlama yöntemlerinin ayrıntıları.

Yöntem

Özetleme sürecindeki ilk aşama, sözde özetler oluşturmak için nispeten düşük çaba gerektiren, zayıf denetimli bir algoritma kullanmayı içerir ve çerçeve bazında önem puanları her videoda yalnızca tek bir görev etiketi bulunan çok sayıda web'den kazınmış eğitim videosu için.

Daha sonra, bu veriler üzerinde bir öğretim özetleme ağı eğitilir. Sistem, otomatik olarak metne dönüştürülen konuşmayı (örneğin, YouTube'un video için yapay zeka tarafından oluşturulan kendi altyazılarını) ve kaynak videoyu girdi olarak alır.

Ağ, bir video kodlayıcı ve bir segment puanlama dönüştürücüsünden (SST) oluşur ve eğitim, sözde özetlerde atanan önem puanları tarafından yönlendirilir. Nihai özet, yüksek önem puanına ulaşan bölümlerin birleştirilmesiyle oluşturulur.

Kağıttan:

Sözde özet oluşturma boru hattımızın arkasındaki ana sezgi, bir görevin birçok videosu verildiğinde, görev için çok önemli olan adımların birden çok videoda (görev alaka düzeyi) görünmesidir.

"Ayrıca, bir adım önemliyse, göstericinin bu adımı gerçekleştirmeden önce, sırasında veya sonrasında bu adım hakkında konuşması normaldir. Bu nedenle, Otomatik Konuşma Tanıma (ASR) kullanılarak elde edilen videonun altyazıları büyük olasılıkla bu temel adımlara atıfta bulunacaktır (modlar arası belirginlik).'

Sözde özeti oluşturmak için, video ilk önce düzgün bir şekilde bölümlere ayrılır ve bölümler görsel benzerliklerine göre "adımlar" (yukarıdaki resimde farklı renkler) halinde gruplandırılır. Daha sonra bu adımlara 'görev alaka düzeyi' ve 'modlar arası belirginlik' (yani ASR metni ve resimler arasındaki korelasyon) temelinde önem puanları atanır. Daha sonra sözde özette aşamaları temsil etmek için yüksek puanlı adımlar seçilir.

Sözde özeti oluşturmak için, video ilk olarak eşit bir şekilde bölümlere ayrılır ve bölümler görsel benzerliklerine göre "adımlar" (yukarıdaki resimde farklı renkler) halinde gruplandırılır. Daha sonra bu adımlara, 'görev alaka düzeyi' ve 'modlar arası belirginlik' (yani, ASR metni ve resimler arasındaki korelasyon) temelinde önem puanları atanır. Daha sonra sözde özette aşamaları temsil etmek için yüksek puanlı adımlar seçilir.

Sistem kullanır Modlar Arası Belirginlik yorumlanan konuşmayı videodaki resimler ve eylemlerle karşılaştırarak her adımın alaka düzeyini belirlemeye yardımcı olmak için. Bu, her öğenin MIL-NCE kaybı altında ortaklaşa eğitildiği, önceden eğitilmiş bir video-metin modelinin kullanılmasıyla gerçekleştirilir. 3D CNN video kodlayıcı diğerleri arasında DeepMind tarafından geliştirilmiştir.

Daha sonra bu görev alaka düzeyi ve modlar arası analiz aşamalarının hesaplanan ortalamasından genel bir önem puanı elde edilir.

Veri

İşlem için, önceki iki veri kümesinin içeriğinin çoğunu içeren bir ilk sözde özet veri kümesi oluşturuldu - COIN2019 görevle ilgili 11,000 video içeren bir 180 seti; Ve Görevler Arası4,700'i araştırmada kullanılmış olan 3,675 eğitici videoyu içeren . Çapraz Görev, 83 farklı görev içerir.

Yukarıda COIN'den örnekler; Aşağıda, Görevler Arası'ndan. Kaynaklar sırasıyla: https://arxiv.org/pdf/1903.02874.pdf ve https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Araştırmacılar, her iki veri kümesinde yer alan videoları yalnızca bir kez kullanarak, 12,160 farklı görevi kapsayan 263 video ve veri kümeleri için 628.53 saatlik içerik elde edebildiler.

WikiHow tabanlı veri setini doldurmak ve sisteme temel gerçeği sağlamak için yazarlar, her adımla ilişkili resimleri ve video klipleri (yani GIF'ler) ile birlikte tüm uzun eğitim videolarından WikiHow Videolarını çıkardılar. Dolayısıyla, WikiHow'un türetilmiş içeriğinin yapısı, yeni sistemdeki adımların bireyselleştirilmesi için bir şablon görevi görecekti.

ResNet50 aracılığıyla çıkarılan özellikler, WikiHow görüntülerinde videonun titizlikle seçilmiş bölümlerini çapraz eşleştirmek ve adımların yerelleştirilmesini gerçekleştirmek için kullanıldı. 5 saniyelik bir video penceresinde elde edilen en benzer görüntü bağlantı noktası olarak kullanıldı.

Bu daha kısa klipler daha sonra modelin eğitimi için temel gerçeği oluşturacak videolarda birleştirildi.

Giriş videosundaki her kareye, giriş özetine ait olup olmadıklarını belirtmek için etiketler atandı, araştırmacılardan her video kare düzeyinde bir ikili etiket aldı ve tüm kareler için önem puanları yoluyla elde edilen ortalama bir özet puanı aldı. segmentte.

Bu aşamada, her bir öğretim videosundaki 'adımlar' artık metin tabanlı verilerle ilişkilendirilmiş ve etiketlenmiştir.

Eğitim, Testler ve Metrikler

Nihai WikiHow veri seti, 1,339 test videosuna ve 768 doğrulama videosuna bölündü - video analizine ayrılmış ham olmayan veri setlerinin ortalama boyutunda dikkate değer bir artış.

Yeni ağdaki video ve metin kodlayıcılar ortak bir şekilde eğitildiler. S3D Önceden eğitilmiş bir ağdan yüklenen ağırlıklara sahip ağ Nasıl Yapılır100M MIL-NCE kaybı altındaki model.

Model, eğitimi toplam 0.01 GB dağıtılmış VRAM için sekiz NVIDIA RTX 24 GPU'ya yayan Paralel Dağıtılmış Veri bağlantısıyla 2080 toplu iş boyutunda 24 öğrenme hızında Adam iyileştirici ile eğitildi.

IV-Sum daha sonra CLIP-It için çeşitli senaryolarla aşağıdakilere göre karşılaştırıldı: benzer önceki CLIP-It üzerine bir çalışma da dahil olmak üzere çalışır. Kullanılan metrikler, denetlenmeyen üç temel çizgide Kesinlik, Geri Çağırma ve F-Skor değerleriydi (ayrıntılar için belgeye bakın).

Sonuçlar önceki resimde listelenmiştir, ancak araştırmacılar ek olarak CLIP-It'in testlerin çeşitli aşamalarında IV-Sum'un yapmadığı bir dizi olası adımı kaçırdığını belirtmektedir. Bunu, yeni WikiHow korpusundan çok daha küçük veri kümeleri kullanılarak eğitilmiş ve geliştirilmiş olan CLIP-It'e atfederler.

Etkileri

Bu araştırma dizisinin (IV-Sum'un video analizinin daha geniş zorluğuyla paylaştığı) tartışılabilir uzun vadeli değeri, eğitici video klipleri geleneksel arama motoru indekslemesi için daha erişilebilir hale getirmek ve indirgemeci türden bir tür mümkün kılmak olabilir. sonuçlardaki 'snippet' Google'ın genellikle daha uzun geleneksel bir makaleden çıkaracağı videolar için.

Açıkçası, gelişimi herhangi Video içeriğine doğrusal ve özel dikkat uygulama yükümlülüğümüzü azaltan yapay zeka destekli süreç, videonun şeffaf olmamasının belki de bizi özel olarak ilgilendirebileceklerini hissettikleri tek yol olduğu bir nesil pazarlamacılar için ortamın çekiciliğine yönelik sonuçlar doğurabilir.

"Değerli" içeriğin konumunu saptamanın zor olması nedeniyle, kullanıcı tarafından sağlanan video, ürün yerleştirme, sponsor yuvaları ve bir videonun değer önermesinin içinde yer aldığı genel kendini büyütme konusunda medya tüketicilerinden (isteksiz de olsa) geniş bir hoşgörü gördü. çok sık yatırılır. IV-Sum gibi projeler, sonunda video içeriğinin alt boyutlarının parçalı hale geleceği ve çoğu kişinin içerik içi reklamcılık ve içerik dışı doğaçlamanın "balast" olarak gördüğü şeyden ayrılabileceği sözünü veriyor.

İlk olarak 16 Ağustos 2022'de yayınlandı. 2.52 Ağustos 16'de güncellendi, yinelenen ifade kaldırıldı.