Yapay Zeka

Kararlı Video Yayılımı: Büyük Veri Kümelerine Gizli Video Yayılım Modelleri

Yayınlanan 30 Kasım 2023

Kunal Kejriwal

üretken yapay zeka Yapay zeka topluluğunda bir süredir itici güç olmuştur ve üretken görüntü modelleme alanında özellikle yayılma modellerinin kullanımıyla kaydedilen ilerlemeler, üretken video modellerinin yalnızca araştırmada değil, aynı zamanda uygulama açısından da önemli ölçüde ilerlemesine yardımcı olmuştur. gerçek dünya uygulamaları. Geleneksel olarak, üretken video modelleri ya sıfırdan eğitilir ya da görüntü ve video veri kümelerinin bir karışımı üzerinde ekstra zamansal katmanlara sahip önceden eğitilmiş görüntü modellerinden kısmen veya tamamen ince ayar yapılır.

Bu yazımızda üretken video modellerindeki gelişmelerden yola çıkarak, Kararlı Video Dağıtım Modeli, yüksek çözünürlüklü, son teknoloji ürünü görüntüden videoya ve metinden video içeriğine üretebilen gizli bir video dağıtım modeli. 2D görüntüleri sentezlemek için eğitilen latent difüzyon modellerinin, zamansal katmanlar ekleyerek ve yüksek kaliteli videolardan oluşan küçük veri kümeleri üzerindeki modellere ince ayar yaparak üretken video modellerinin yeteneklerini ve verimliliğini nasıl geliştirdiğinden bahsedeceğiz. Kararlı Video Dağıtım Modelinin mimarisine ve çalışmasına daha derinlemesine bakacağız ve performansını çeşitli ölçümlere göre değerlendirip video üretimine yönelik mevcut en gelişmiş çerçevelerle karşılaştıracağız. Öyleyse başlayalım.

Kararlı Video Dağıtım Modeli ve Üretken Video Modelleri: Giriş

Neredeyse sınırsız potansiyeli sayesinde Üretken Yapay Zeka, bir süredir yapay zeka ve makine öğrenimi uygulayıcıları için birincil araştırma konusu olmuştur ve son birkaç yılda, üretken görüntü modellerinin hem verimliliği hem de performansı açısından hızlı ilerlemeler görülmüştür. Üretken görüntü modellerinden öğrenilenler, araştırmacıların ve geliştiricilerin üretken video modelleri üzerinde ilerleme kaydetmesine olanak tanıdı ve bu da daha fazla pratiklik ve gerçek dünya uygulamaları sağladı. Bununla birlikte, üretken video modellerinin yeteneklerini geliştirmeye çalışan araştırmaların çoğu, öncelikle zamansal ve mekansal katmanların tam düzenlemesine odaklanmakta ve bu üretken modellerin sonuçları üzerinde doğru veriyi seçmenin etkisini araştırmaya çok az dikkat edilmektedir.

Üretken görüntü modellerinin kaydettiği ilerleme sayesinde araştırmacılar, eğitim verileri dağıtımının üretken modellerin performansı üzerindeki etkisinin gerçekten önemli ve tartışmasız olduğunu gözlemlediler. Ayrıca araştırmacılar, üretken bir görüntü modelinin büyük ve çeşitli bir veri kümesi üzerinde önceden eğitilmesinin ardından daha küçük bir veri kümesi üzerinde daha iyi kalitede ince ayar yapılmasının genellikle performansı önemli ölçüde artırdığını da gözlemlediler. Geleneksel olarak üretken video modelleri, başarılı üretken görüntü modellerinden elde edilen öğrenmeleri uygular ve araştırmacılar henüz verilerin etkisini incelememektedir ve eğitim stratejileri de henüz araştırılmamıştır. Kararlı Video Yayılım Modeli, veri seçimine özel olarak odaklanılarak daha önce keşfedilmemiş bölgelere girişerek üretken video modellerinin yeteneklerini geliştirmeye yönelik bir girişimdir.

Yeni üretken video modelleri, çoklu tutarlı video veya görüntü çerçevelerini sentezlemek için yayılma modellerine ve metin koşullandırma veya görüntü koşullandırma yaklaşımlarına dayanır. Difüzyon modelleri, yinelemeli bir iyileştirme süreci uygulayarak bir numunenin normal dağılımdan kademeli olarak nasıl gürültüden arındırılacağını öğrenme yetenekleriyle bilinir ve yüksek çözünürlüklü video ve metinden görüntüye sentezde istenen sonuçları sunmuşlardır. Özünde aynı prensibi kullanan Kararlı Video Dağıtım Modeli, Üretken Rekabetçi Ağlar veya GAN'ların ve hatta bir dereceye kadar otoregresif modellerin kullanımıyla birlikte video veri kümesi üzerinde gizli bir video dağıtım modelini eğitir.

Kararlı Video Dağıtım Modeli, sabit bir mimariye sahip gizli video dağıtım temellerine ve ardından verilerin iyileştirilmesinin etkisinin değerlendirilmesine dayanan sabit bir eğitim stratejisine dayandığından, herhangi bir üretken video modeli tarafından asla uygulanmayan benzersiz bir stratejiyi izler. Kararlı Video Yayılım Modeli, üretken video modelleme alanında aşağıdaki katkıları sağlamayı amaçlamaktadır.

Düzenlenmemiş video örneklerinden oluşan geniş bir koleksiyonu, daha sonra üretken video modelleri tarafından kullanılacak yüksek kaliteli veri kümesine dönüştürmek amacıyla sistematik ve etkili bir veri iyileştirme iş akışı sunmak.
Mevcut çerçevelerden daha iyi performans gösteren, son teknoloji ürünü görüntüden videoya ve metinden videoya modellerini eğitmek.
3 boyutlu anlayışı araştırmak için alana özgü deneyler yapmak ve modelin hareket öncesi güçlülüğünü sağlamak.

Artık Kararlı Video Dağıtım Modeli, Gizli Video Dağıtım Modellerinden öğrendiklerini ve Veri İyileştirme tekniklerini temeline yerleştiriyor.

Gizli Video Yayılım Modelleri

Gizli Video Dağıtım Modelleri veya Video-LDM'ler, birincil üretken modeli gizli bir alanda azaltılmış hesaplama karmaşıklığıyla eğitme yaklaşımını takip eder ve çoğu Video-LDM, ön eğitimde geçici karıştırma katmanlarının eklenmesiyle birlikte önceden eğitilmiş bir metinden görüntüye modeli uygular. mimari. Sonuç olarak, çoğu Video Gizli Dağıtım Modeli ya yalnızca zamansal katmanları eğitir ya da tüm çerçeveye ince ayar yapan Kararlı Video Dağıtım Modelinin aksine eğitim sürecini tamamen atlar. Ayrıca, metinden videoya veri sentezlemek için, Kararlı Video Dağıtım Modeli kendisini doğrudan bir metin istemine göre koşullandırır ve sonuçlar, ortaya çıkan çerçevenin, çoklu görüntü sentezine veya bir görüntüden video modeline kolayca ince ayar yapılabileceğini gösterir.

Veri İyileştirme

Veri İyileştirme, yalnızca Kararlı Video Dağıtım Modelinin değil, bir bütün olarak üretken modeller için de önemli bir bileşendir; çünkü dil modelleme veya ayırt edici metinden görüntü oluşturmaya kadar farklı görevlerde performansı artırmak için büyük modelleri büyük ölçekli veri kümeleri üzerinde önceden eğitmek önemlidir. , ve daha fazlası. Veri İyileştirme, verimli dil-görüntü temsillerinin yeteneklerinden yararlanılarak üretken görüntü modelleri üzerinde başarılı bir şekilde uygulanmıştır, ancak bu tür tartışmalara üretken video modelleri geliştirmek için hiçbir zaman odaklanılmamıştır. Geliştiricilerin, üretken video modelleri için verileri düzenlerken karşılaştığı çeşitli engeller vardır ve bu zorlukların üstesinden gelmek için Kararlı Video Dağıtım Modeli, gelişmiş sonuçlar ve performansta önemli bir artışla sonuçlanan üç aşamalı bir eğitim stratejisi uygular.

Yüksek Kaliteli Video Sentezi için Veri İyileştirme

Önceki bölümde tartışıldığı gibi, Kararlı Video Dağıtım Modeli üç aşamalı bir eğitim stratejisi uygulayarak daha iyi sonuçlar ve performansta önemli bir artış sağlar. Aşama I bir görüntü ön eğitimi 2 boyutlu metinden görüntüye yayılma modelini kullanan aşama. Aşama II içindir video ön eğitimi çerçevenin büyük miktarda video verisi üzerinde eğitim aldığı. Son olarak Aşama III'ümüz var. video ince ayarı modelin yüksek kaliteli ve yüksek çözünürlüklü videolardan oluşan küçük bir alt küme üzerinde iyileştirildiği.

Bununla birlikte, Kararlı Video Dağıtım Modeli bu üç aşamayı uygulamadan önce, Aşama II veya video ön eğitim aşaması için temel görevi gördüğünden ve optimum çıktının sağlanmasında kritik bir rol oynadığından, verilerin işlenmesi ve açıklanması hayati önem taşımaktadır. Maksimum verimliliği sağlamak için, çerçeve öncelikle 3 farklı FPS veya Saniyede Kare Sayısı düzeyinde kademeli bir kesme algılama hattı uygular ve bu boru hattına duyulan ihtiyaç aşağıdaki görüntüde gösterilmektedir.

Daha sonra, Kararlı Video Dağıtım Modeli, üç farklı sentetik altyazı yöntemini kullanarak her video klibe açıklama ekler. Aşağıdaki tablo, filtreleme işleminden önce ve sonra Kararlı Difüzyon Çerçevesinde kullanılan veri kümelerini karşılaştırmaktadır.

Aşama I: Görüntü Ön Eğitimi

Kararlı Video Dağıtım Modelinde uygulanan üç aşamalı boru hattının ilk aşaması, görüntünün ön eğitimidir ve bunu başarmak için, ilk Kararlı Video Dağıtım Modeli çerçevesi, önceden eğitilmiş bir görüntü dağıtım modeline, yani Kararlı Difüzyon 2.1 onu daha güçlü görsel temsillerle donatan model.

Aşama II : Video Ön Eğitimi

İkinci aşama, Video Ön Eğitim aşamasıdır ve çok modlu üretken görüntü modellerinde veri iyileştirme kullanımının genellikle daha iyi sonuçlara ve güçlü ayırt edici görüntü oluşturmanın yanı sıra verimliliğin artmasına yol açtığına dair bulgulara dayanır. Bununla birlikte, üretken video modelleri için istenmeyen örnekleri filtreleyecek benzer güçlü hazır temsillerin bulunmaması nedeniyle, Kararlı Video Dağıtım Modeli, çerçevenin ön eğitimi için kullanılan uygun bir veri kümesinin oluşturulması için giriş sinyalleri olarak insan tercihlerine dayanır. Aşağıdaki şekil, daha küçük veri kümelerinde video ön eğitiminin genel performansını artırmaya yardımcı olan seçilmiş bir veri kümesi üzerinde çerçevenin ön eğitiminin olumlu etkisini göstermektedir.

Daha spesifik olmak gerekirse, çerçeve Gizli Video Yayılımının alt kümelerini düzenlemek için farklı yöntemler kullanır ve bu veri kümeleri üzerinde eğitilen LVD modellerinin sıralamasını dikkate alır. Ayrıca Stabil Video Difüzyon çerçevesi, çerçeveleri eğitmek için seçilmiş veri kümelerinin kullanılmasının, çerçevenin ve genel olarak dağıtım modellerinin performansını artırmaya yardımcı olduğunu da ortaya koymaktadır. Ayrıca veri iyileştirme stratejisi daha büyük, daha alakalı ve son derece pratik veri kümeleri üzerinde de çalışır. Aşağıdaki şekil, daha küçük veri kümelerinde video ön eğitiminin genel performansını artırmaya yardımcı olan seçilmiş bir veri kümesi üzerinde çerçevenin ön eğitiminin olumlu etkisini göstermektedir.

Aşama III: Yüksek Kaliteli İnce Ayar

İkinci aşamaya kadar, Kararlı Video Dağıtım çerçevesi, video ön eğitimi öncesinde performansın iyileştirilmesine odaklanır ve üçüncü aşamada, çerçeve, yüksek kaliteli video ince ayarının ardından çerçevenin performansının optimize edilmesine veya daha da artırılmasına ve bunun nasıl yapılacağına vurgu yapar. Aşama II'den Aşama III'e geçiş bu çerçevede sağlanmaktadır. Aşama III'te çerçeve, gizli görüntü yayılma modellerinden ödünç alınan eğitim tekniklerinden yararlanır ve eğitim örneklerinin çözünürlüğünü artırır. Bu yaklaşımın etkinliğini analiz etmek için çerçeve, onu yalnızca başlatma açısından farklılık gösteren üç özdeş modelle karşılaştırır. İlk özdeş modelin ağırlıkları başlatılır ve video eğitim süreci atlanırken geri kalan iki özdeş model, diğer gizli video modellerinden alınan ağırlıklarla başlatılır.

Sonuçlar ve Bulgular

Kararlı Video Yayınım çerçevesinin gerçek dünya görevlerinde nasıl performans gösterdiğine ve mevcut en son teknoloji çerçevelerle nasıl karşılaştırıldığına bir göz atmanın zamanı geldi. Kararlı Video Yayınım çerçevesi, öncelikle temel bir modeli eğitmek için optimum veri yaklaşımını kullanır ve ardından her modelin belirli bir görevi yerine getirdiği birkaç son teknoloji model oluşturmak için ince ayar yapar.

Yukarıdaki resim, çerçeve tarafından oluşturulan yüksek çözünürlüklü görüntüden video örneklerine temsil ederken, aşağıdaki şekil, çerçevenin yüksek kaliteli metinden video örneklerine oluşturma yeteneğini göstermektedir.

Ön Eğitimli Temel Model

Daha önce tartışıldığı gibi, Kararlı Video Dağıtımı modeli, Kararlı Dağıtım 2.1 çerçevesi üzerine inşa edilmiştir ve son bulgulara dayanarak, geliştiricilerin görüntü yayılımını eğitirken daha iyi çözünürlükte görüntüler elde etmek için gürültü programını benimsemeleri ve gürültüyü artırmaları çok önemliydi. modeller. Bu yaklaşım sayesinde, Kararlı Video Dağıtımı temel modeli güçlü hareket gösterimlerini öğrenir ve bu süreçte temel modellerden daha iyi performans gösterir. mesaj gönder Sıfır çekim ayarında video üretimi ve sonuçlar aşağıdaki tabloda görüntülenir.

Çerçeve Enterpolasyonu ve Çoklu Görünüm Oluşturma

Kararlı Video Dağıtım çerçevesi, bir nesnenin birden çok yeni görünümünü elde etmek için çoklu görüntü veri kümeleri üzerindeki görüntüden video modeline ince ayar yapar ve bu model, SVD-MV veya Kararlı Video Dağıtımı - Çoklu Görünüm modeli olarak bilinir. Orijinal SVD modeli, iki veri kümesinin yardımıyla, çerçevenin tek bir görüntüyü gireceği ve çıktı olarak bir dizi çoklu görünüm görüntüsünü döndüreceği şekilde ince ayarlanmıştır.

Aşağıdaki resimlerde görülebileceği gibi, Stabil Video Difüzyon Çoklu Görünüm çerçevesi, son teknoloji ürünü Scratch Çoklu Görünüm çerçevesiyle karşılaştırılabilecek düzeyde yüksek performans sunar ve sonuçlar, SVD-MV'nin elde edilen bilgilerden yararlanma becerisinin açık bir göstergesidir. çoklu görünüm görüntü üretimi için orijinal SVD çerçevesinden. Ayrıca sonuçlar, modelin nispeten daha az sayıda yineleme için çalıştırılmasının, SVD çerçevesinden ince ayar yapılan çoğu modelde olduğu gibi, en iyi sonuçların elde edilmesine yardımcı olduğunu da göstermektedir.

Yukarıdaki şekilde metrikler sol tarafta gösterilmektedir ve görülebileceği gibi Stabil Video Difüzyon Çoklu Görünüm çerçevesi, Scratch-MV ve SD2.1 Çoklu Görünüm çerçevesinden makul bir farkla daha iyi performans göstermektedir. İkinci görüntü, eğitim yinelemelerinin sayısının çerçevenin Klip Puanı açısından genel performansı üzerindeki etkisini gösterir ve SVD-MV çerçeveleri sürdürülebilir sonuçlar sunar.

Son Düşüncelerimiz

Bu makalede, yüksek çözünürlüklü, son teknoloji ürünü görüntüden videoya ve metinden video içeriğine üretebilen gizli bir video dağıtım modeli olan Stabil Video Dağıtımı'ndan bahsettik. Kararlı Video Dağıtım Modeli, sabit bir mimariye sahip gizli video dağıtım temellerine ve ardından verilerin iyileştirilmesinin etkisinin değerlendirilmesine dayanan sabit bir eğitim stratejisine dayandığından, herhangi bir üretken video modeli tarafından asla uygulanmayan benzersiz bir stratejiyi izler.

2 boyutlu görüntüleri sentezlemek için eğitilen gizli yayılma modellerinin, bilgisayarların yeteneklerini ve verimliliğini nasıl geliştirdiğinden bahsettik. üretken video modelleri zamansal katmanlar ekleyerek ve yüksek kaliteli videolardan oluşan küçük veri kümeleri üzerindeki modellere ince ayar yaparak. Çerçeve, eğitim öncesi verileri toplamak için ölçeklendirme çalışması yürütür ve sistematik veri toplama uygulamalarını takip eder ve sonuçta büyük miktarda video verisini iyileştirmek için bir yöntem önerir ve gürültülü videoları üretken video modellerine uygun giriş verilerine dönüştürür.

Ayrıca, Stabil Video Dağıtım çerçevesi, çerçevenin performansı üzerindeki etkilerini değerlendirmek üzere bağımsız olarak analiz edilen üç farklı video modeli eğitim aşamasını kullanır. Çerçeve sonuçta, optimum video sentezi için modellere ince ayar yapmaya yetecek kadar güçlü bir video temsili üretir ve sonuçlar, halihazırda kullanımda olan son teknoloji ürünü video oluşturma modelleriyle karşılaştırılabilir.

İlgili konular:Kararlı Difüzyon video yayılımı

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.