Yapay Zekâ

tutarlı AI Video İçerik Düzenleme ile Metin-Rehberli Giriş

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Profesyonel VFX topluluğu, görüntü ve video sentezinde yeni yeniliklere hem ilgi duyuyor hem de bazen biraz tehdit hissetse de, çoğu AI tabanlı video düzenleme projesinde zamanlı sürekliliğin olmaması, bu çabaları ‘psikedelik’ alana sürüklemekte, parlayan ve hızla değişen dokular ve yapılar, tutarlı olmayan efektler ve foto-kimyasal dönem görsel efektlerini anımsatan kaba teknoloji ile başa çıkma gibi özellikler sergilemektedir.

Bir videoyu, derin sahteciliklerin (yani, mevcut bir kişinin videosuna yeni bir kimlik dayatma) alanına girmeyen çok spesifik bir şeyi değiştirmek istiyorsanız, çoğu mevcut çözüm, üretim kalitesindeki görsel efektler için gereken kesinlik açısından oldukça ciddi sınırlamalar altında çalışır.

Bir istisna, Weizmann Bilim Enstitüsü’nden bir grup akademisyenin devam eden çalışmasıdır. 2021’de, üç araştırmacı, Adobe ile birlikte, bir videoyu parçalayarak ve birleştirilmiş bir çıktıya katmanlı nöral atlas olarak adlandırılan tutarlı bir dahili eşleme uygulayan yeni bir yöntem duyurdu, alpha kanalları ve zamanla uyumlu çıktı ile birlikte.

2021 paperından: Kaynak klipteki yolun tam geçişinin tahmini, geleneksel olarak geniş çaplı rotoskopi ve eşleştirme gerektirecek şekilde bir nöral ağ aracılığıyla düzenlenmiştir. Arka plan ve ön plan elemanları farklı ağlar tarafından işlendiğinden, maskeler gerçekten ‘otomatik’tir. Kaynak: https://layered-neural-atlases.github.io/

VFX iş akışlarında optik akış tarafından kapsanan alana düşmesine rağmen, katmanlı atlas, geleneksel CGI iş akışlarında doğrudan bir eşdeğeri yoktur, çünkü esasen üretilebilecek ve geleneksel yazılımlarla düzenlenebilecek bir ‘zamanlı doku haritası’ oluşturur. Yukarıdaki illüstrasyondaki ikinci resim, yol yüzeyinin arka planını (mecazen) videosunun tüm çalışma zamanı boyunca temsil eder. Bu temel görüntüyü (yukarıdaki illüstrasyondaki üçüncü resim) değiştirmek, arka planda tutarlı bir değişiklik üretir.

Yukarıdaki katmanlı atlasın ‘açık’ görüntüleri yalnızca bireysel yorumlanmış kareleri temsil eder; hedef video karesindeki tutarlı değişiklikler, gerekli örtülmeleri ve diğer sahne efektlerini (gölgeler veya yansımalara benzer) koruyarak orijinal kareye geri eşlenir.

Çekirdek mimari, katmanlı atlasları, alfa kanallarını ve eşlemeleri temsil etmek için bir Çok Katmanlı Perseptron (MLP) kullanır, tüm bunlar konserde optimize edilir ve tamamen 2B bir alanda, NeRF tarzı 3B geometri noktalarının, derinlik haritalarının ve benzer CGI tarzı tuzakların önceden bilgisine gerek kalmadan.

Bireysel nesnelerin referans atlası da güvenilir bir şekilde değiştirilebilir:

2021 çerçevesi altında hareketli bir nesneye tutarlı değişiklik. Kaynak: https://www.youtube.com/watch?v=aQhakPFC4oQ

Esasen, 2021 sistemi, geometri hizalamayı, eşleştirmeyi, eşlemeyi, yeniden doku oluşturmayı ve rotoskopi işlemlerini ayrı bir nöral sürece dönüştürür.

Text2Live

2021 paperının üç orijinal araştırmacısı, NVIDIA araştırma ekibi ile birlikte, katmanlı atlasların gücünü, OpenAI’nin DALL-E 2 çerçevesinin yayınlanmasıyla bu hafta tekrar gündeme gelen CLIP teknolojisini birleştiren bir yenilik üzerinde çalışmaktadır.

Yeni mimari, Text2Live olarak adlandırılmaktadır ve bir son kullanıcıya, metin promtlarına dayalı olarak gerçek video içeriğinde yerel düzenlemeler yapma olanağı sağlar:

Ön plan düzenlemenin iki örneği. Daha iyi çözünürlük ve tanım için, orijinal videolara https://text2live.github.io/sm/pages/video_results_atlases.html adresinden ulaşabilirsiniz

Text2Live, önceden eğitilmiş bir oluşturucu kullanmadan, etkilenen video klipine özgü bir iç veritabanını kullanarak, anlamsal ve yüksek oranda yerel düzenleme sağlar.

Text2Live altında arka plan ve ön plan (nesne) dönüşümleri. Kaynak: https://text2live.github.io/sm/pages/video_results_atlases.html

Bu teknik, geleneksel rotoskopi veya yeşil ekran iş akışlarında olduğu gibi kullanıcı tarafından sağlanan maskeleri gerektirmez, bunun yerine 2021 araştırması temelinde bir başlangıç teknikini kullanarak alaka haritaları tahmin eder.

Transformer tabanlı genel dikkat modeli tarafından oluşturulan çıktı haritaları.

Yeni makale, Text2LIVE: Metin-Rehberli Katmanlı Görüntü ve Video Düzenleme olarak adlandırılmıştır. Orijinal 2021 ekibine, Weizmann’ın Omer Bar-Tal’i ve NVIDIA Araştırma’nın Yoni Kasten’i de katılmıştır.

Mimari

Text2Live, yalnızca bir girdi görüntüsüne ve hedef metin promtlarına eğitilmiş bir oluşturucudan oluşur. 400 milyon metin/görüntü çiftinden oluşan bir veri setine önceden eğitilmiş bir Karşılaştırmalı Dil-Görüntü Ön Eğitimi (CLIP) modeli, kullanıcı girişli dönüşümlerin yorumlanabileceği ilgili görsel materyali sağlar.

Oluşturucu, bir girdi görüntüsünü (kare) kabul eder ve renk ve saydamlık bilgilerini içeren bir hedef RGBA katmanı üretir. Bu katman daha sonra ek aumentasyonlarla orijinal görüntüye kompozitlenir.

Üretilen RGBA katmanındaki alfa kanalı, geleneksel After Effects gibi piksel tabanlı yazılımları içeren geleneksel iş akışlarına başvurmadan dahili bir kompozit işlevi sağlar.

Hedef video veya görüntüye özgü iç görüntülerde eğitim yaparak, Text2Live, girişi bir Generatif Karşıt Ağ (GAN)’ın gizli uzayına çevirmek veya bir Diffüzyon modeli kullanmak gibi gereksinimlerden kaçınır; bu, üretim video düzenleme gereksinimleri için şu anda yeterince kesin değildir veya hedef videoya sadakatini koruyamaz.

Text2Live’dan çeşitli promt tabanlı dönüşüm düzenleme örnekleri.

Önceki yaklaşımlar, ilerletme tabanlı yöntemler veya optik akış tabanlı yaklaşımlar kullanmıştır. Bu teknikler,某 certain bir düzeyde kare tabanlı olduğundan, çıktı videosunda değişikliklerin tutarlı zamanlı görünümünü oluşturamazlar. Bir nöral katmanlı atlas, bunun yerine değişikliklere hitap edebileceğiniz tek bir alan sağlar, bu da video ilerledikçe bağlı kalabilir.

Hiçbir ‘sizzling’ veya rastgele sanrılama: Text2Live, metin promtı ‘paslı jeep’i yorumlar ve video中的 araba’nın nöral katmanlı atlasına yalnızca bir kez uygular, her yorumlanmış kare için dönüşümü yeniden başlatmak yerine.

Text2Live’nin bir Jeep’i paslı bir enkaza dönüştürmesinin iş akışı.

Text2Live, AI tabanlı kompozitlerde bir đột pháya daha yakındır, bu hafta DALL-E 2 çerçevesinin ikinci nesli yayınlanmasıyla dikkatleri üzerine çeken metin-görüntü alanından ziyade. Text2Live, son kullanıcıya, bir atlası çıkarmak ve ardından yüksek kontrolde piksel tabanlı ortamlarda (Photoshop gibi) bir defada düzenlemek ve sonra da doğru yönlendirilmiş bir ortama geri beslemek olanağı sağlar; bu, 3B tahmini veya geriye dönük CGI tabanlı yaklaşımlara dayanmaz.

Ayrıca, Text2Live, yazarlar tarafından iddia edildiği gibi, otomatik olarak maskeleme ve kompozit melakukan sağlayan ilk karşılaştırılabilir çerçevedir.

İlk olarak 7 Nisan 2022’de yayınlandı.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

tutarlı AI Video İçerik Düzenleme ile Metin-Rehberli Giriş

Text2Live

Mimari

You may like