Yapay Zekâ

AnimateLCM: Kişiselleştirilmiş Difüzyon Modellerinin Animasyonu

Yayınlandı 19 Mart 2024

Güncellendi 22 Mayıs 2026

Yazan

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Son birkaç yılda, difüzyon modelleri, görüntü ve video oluşturma görevleri için büyük başarı ve tanınma elde etti. Özellikle video difüzyon modelleri, yüksek koherans ve sadakat ile videolar üretebilmeleri nedeniyle önemli dikkat çekmektedir. Bu modeller, mimarilerindeki yinelemeli bir gürültü giderme işlemiyle yüksek boyutlu Gaussian gürültüsünü dần dần gerçek verilere dönüştürerek yüksek kaliteli videolar oluşturur.

Stable Diffusion, görüntü oluşturma görevleri için en temsilcisi modellerden biridir ve gerçek görüntü ile down-sampled latent özellikler arasında bir Variational AutoEncoder (VAE) kullanır. Bu, modelin oluşturma maliyetlerini azaltmasına olanak tanır ve mimarisindeki çapraz dikkat mekanizması, metin koşullu görüntü oluşturmayı kolaylaştırır. Daha yakın zamanda, Stable Diffusion çerçevesi, daha yenilikçi ve etkili görüntü veya video oluşturma için birkaç tak ve çalıştır adapteörlerinin temelini oluşturdu. Ancak, çoğu video difüzyon modelinin kullandığı yinelemeli oluşturma işlemi, görüntü oluşturma sürecini zaman alıcı ve nispeten pahalı hale getirir, bu da uygulamalarını sınırlar.

Bu makalede, AnimateLCM adlı bir kişiselleştirilmiş difüzyon modeli ve adapteörleri hakkında konuşacağız. AnimateLCM çerçevesi, yüksek sadakatli videoları minimal adımlar ve hesaplama maliyetleriyle oluşturmayı hedeflemektedir. AnimateLCM çerçevesi, Consistency Model’den esinlenmiştir. Consistency Model, önceden eğitilmiş görüntü difüzyon modellerini damıtarak örneklemeyi minimal adımlarla hızlandırır. Ayrıca, Consistency Model’in başarılı bir uzantısı olan Latent Consistency Model (LCM), koşullu görüntü oluşturmayı kolaylaştırır. Ham video veriseti üzerinde doğrudan tutarlılık öğrenimi yapmak yerine, AnimateLCM çerçevesi, hareket oluşturma ve görüntü oluşturma önceliklerini ayıran bir decoupled tutarlılık öğrenimi stratejisi önerir. Bu strateji, modelin oluşturulan içeriğin görsel kalitesini geliştirmesine ve eğitim verimliliğini aynı anda iyileştirmesine olanak tanır.

Bu makale, AnimateLCM çerçevesini derinlemesine kapsayacaktır. Mekanizmayı, metodolojiyi, mimariyi ve diğer görüntü ve video oluşturma çerçeveleriyle karşılaştırmasını keşfedeceğiz. Başlayalım.

AnimateLCM: Kişiselleştirilmiş Difüzyon Modellerinin Animasyonu

Difüzyon modelleri, görüntü ve video oluşturma görevleri için verimlilikleri ve yetenekleri nedeniyle tercih edilen çerçeve olmuştur. Çoğu difüzyon modeli, görüntü oluşturmak için yinelemeli bir gürültü giderme işlemine dayanır ve yüksek boyutlu Gaussian gürültüsünü dần dần gerçek verilere dönüştürür. Bu yöntem, bazı ölçüde tatmin edici sonuçlar verir, ancak yinelemeli işlem ve örneklem sayısı, oluşturma sürecini yavaşlatır ve difüzyon modellerinin diğer oluşturma çerçevelerine göre daha yavaş olmasına neden olur.

Difüzyon modellerinin hızını artırmak için, Consistency Models veya CM’ler önerilmiştir. Consistency Models, tutarlılık eşleştirmelerini öğrenir ve önceden eğitilmiş difüzyon modellerinin oluşturduğu yolların kendi tutarlılığını korur. Consistency Models, yüksek kaliteli görüntüler oluşturmak için minimal adımlarla örneklemeyi hızlandırır ve hesaplama yoğun yinelemelerin ihtiyacını ortadan kaldırır.

AnimateLCM, yüksek kaliteli video oluşturma için minimal adımlarla çalışan bir çerçeve olarak karşımıza çıkar. Latent Consistency Model’den esinlenen AnimateLCM, ters difüzyon sürecini, Classifier Free Guidance (CFG) ile güçlendirilmiş olasılık akışını çözmek olarak ele alır ve modeli, bu olasılık akışlarının çözümünü doğrudan latent uzayda öngörmesini sağlar.

AnimateLCM çerçevesi, tutarlılık öğrenimi için decoupled bir strateji önerir. Bu strateji, hareket oluşturma ve görüntü oluşturma önceliklerini ayıran bir tutarlılık damıtma işlemidir. AnimateLCM, önce görüntü tabanlı difüzyon modelini tutarlılık modeline dönüştürür, ardından tutarlılık modelini video verisi üzerinde eğitir.

InstantID: Metodoloji ve Mimari

InstantID çerçevesi, difüzyon modellerinden ve örneklem hızlandırma stratejilerinden esinlenir. Difüzyon modelleri, skor tabanlı oluşturma modelleri olarak da bilinir ve görüntü oluşturma görevlerinde önemli başarılar elde etmiştir. InstantID, Stable Diffusion modelini temel alır ve DDIM ODE çözücüsünü eğitim amacıyla kullanır.

Tutarlılık Öğreniminden Tutarlılık Modeline Geçiş

AnimateLCM, Stable Diffusion modelini Latent Consistency Model’e (LCM) dönüştürür. LCM, koşullu görüntü oluşturmayı kolaylaştırır ve tutarlılık öğrenimi için bir çerçeve sağlar.

Decoupled Tutarlılık Öğrenimi

AnimateLCM, tutarlılık öğrenimi için decoupled bir strateji önerir. Bu strateji, hareket oluşturma ve görüntü oluşturma önceliklerini ayıran bir tutarlılık damıtma işlemidir. AnimateLCM, önce görüntü tabanlı difüzyon modelini tutarlılık modeline dönüştürür, ardından tutarlılık modelini video verisi üzerinde eğitir.

Öğretmen Özgür Uyum

AnimateLCM, öğretmen özgür uyum için bir strateji önerir. Bu strateji, mevcut adapteörleri daha iyi uyumlu hale getirmek veya adapteörleri sıfırdan eğitmek için kullanılır.

AnimateLCM: Deneyler ve Sonuçlar

AnimateLCM, Stable Diffusion v1-5 modelini temel alır ve DDIM ODE çözücüsünü eğitim amacıyla kullanır. AnimateLCM, WebVid2M verisetini kullanır ve BLIP-kapaklı kısa metinsel.prompt’lar ile kontrollü video oluşturma gerçekleştirir.

Nicel Sonuçlar

AnimateLCM, diğer yöntemlerle karşılaştırıldığında, özellikle düşük adımlı rejimlerde önemli bir performans avantajı gösterir.

Son Düşünceler

Bu makalede, AnimateLCM adlı bir kişiselleştirilmiş difüzyon modeli ve adapteörleri hakkında konuşadık. AnimateLCM çerçevesi, yüksek sadakatli videoları minimal adımlar ve hesaplama maliyetleriyle oluşturmayı hedeflemektedir. AnimateLCM, tutarlılık öğrenimi için decoupled bir strateji önerir ve hareket oluşturma ve görüntü oluşturma önceliklerini ayıran bir tutarlılık damıtma işlemidir.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.