Yapay Zeka
2024'te Bilgisayar Görüntüsü Edebiyat Trendlerine Kişisel Bir Bakış

Yaklaşık beş yıldır Arxiv ve diğer yerlerdeki bilgisayarlı görme (CV) ve görüntü sentezi araştırma sahnesini sürekli takip ediyorum, bu nedenle eğilimler zamanla belirginleşiyor ve her yıl yeni yönlere kayıyor.
Bu nedenle 2024 yılı sona ererken, Bilgisayar Görüntüsü ve Desen Tanıma alanındaki Arxiv gönderilerindeki bazı yeni veya gelişen özelliklere bir göz atmanın uygun olacağını düşündüm. BölümBu gözlemler, olay yerinin yüzlerce saat incelenmesiyle elde edilmiş olsa da, tamamen anekdot niteliğindedir.
Doğu Asya'nın Süregelen Yükselişi
2023'ün sonuna gelindiğinde, 'ses sentezi' kategorisindeki literatürün çoğunun Çin ve Doğu Asya'nın diğer bölgelerinden geldiğini fark etmiştim. 2024'ün sonunda, bunun artık görüntü ve video sentezi araştırmaları için de geçerli olduğunu (anekdot olarak) gözlemlemeliyim.
Bu, Çin ve komşu ülkelerin her zaman en iyi işi ürettiği anlamına gelmez (aslında, bazı farklılıklar vardır) aksine kanıt); ayrıca Çin'de (batıda olduğu gibi) en ilginç ve güçlü yeni gelişmekte olan sistemlerin bazılarının özel mülkiyet olması ve araştırma literatüründen dışlanması olasılığının yüksek olduğu gerçeğini de hesaba katmıyor.
Ancak bu, Doğu Asya'nın bu konuda hacim olarak Batı'yı geride bıraktığını gösteriyor. Bunun değeri, uygulanabilirliğine ne kadar inandığınıza bağlı. Edison tarzı ısrarcılık, genellikle etkisiz olduğu kanıtlanmıştır aşılması zor engeller karşısında.
Var bu tür birçok engel Üretken yapay zekada, hangilerinin mevcut mimarilere hitap ederek çözülebileceğini ve hangilerinin sıfırdan yeniden ele alınması gerekeceğini bilmek kolay değildir.
Doğu Asya'daki araştırmacılar daha fazla sayıda bilgisayarlı görüntüleme makalesi üretiyor gibi görünse de, 'Frankenstein' tarzı projelerin sıklığında bir artış fark ettim. Bu girişimler, önceki çalışmaların bir araya getirilmesiyle oluşturulan ve sınırlı mimari yenilik (veya muhtemelen sadece farklı bir veri türü) ekliyor.
Bu yıl Doğu Asya'dan (çoğunlukla Çinli veya Çinlilerle ilgili işbirlikleri) gelen başvuruların çok daha fazlasının liyakate dayalı olmaktan ziyade kotaya dayalı olduğu görüldü ve bu durum zaten aşırı talep gören bir alanda sinyal-gürültü oranını önemli ölçüde artırdı.
Aynı zamanda, 2024'te daha fazla sayıda Doğu Asya gazetesi de ilgimi ve hayranlığımı çekti. Yani eğer bunların hepsi bir sayı oyunuysa, başarısız değil - ama ucuz da değil.
Gönderimlerin Artan Hacmi
2024 yılında tüm ülkelerdeki makale hacminde belirgin bir artış görüldü.
En popüler yayın günü yıl boyunca değişmektedir; şu anda Salı günleridir ve Bilgisayar Görüntüsü ve Desen Tanıma bölümüne gönderilen makale sayısı, 'en yoğun' dönemlerde (sırasıyla Mayıs-Ağustos ve Ekim-Aralık, yani konferans sezonu ve 'yıllık kota son teslim tarihi' sezonu) genellikle tek bir günde 300-350 civarındadır.
Kendi deneyimimin ötesinde, Arxiv'in kendisi bir rapor veriyor Ekim 2024'te rekor sayıda başvuru yapıldı, toplam 6000 yeni başvuru ile Makine Öğrenmesi'nden sonra en çok başvuru yapılan ikinci bölüm olan Bilgisayar Görüntüsü bölümü.
Ancak, Arxiv'deki Makine Öğrenmesi bölümü genellikle 'ek' veya toplu bir üst kategori olarak kullanıldığından, bu durum Bilgisayar Görüntüsü ve Desen Tanıma'nın aslında en çok gönderilen Arxiv kategorisi olduğunu ileri sürmektedir.
Arxiv'in kendi istatistikleri Bilgisayar bilimini kesinlikle gönderilerde açık ara lider olarak tasvir ediyor:

Son beş yıldır Arxiv'deki başvuru istatistiklerinde Bilgisayar Bilimleri (CS) ön planda yer alıyor. Kaynak: https://info.arxiv.org/about/reports/submission_category_by_year.html
Stanford Üniversitesi 2024 Yapay Zeka Dizini, henüz en son istatistikleri bildirememekle birlikte, son yıllarda makine öğrenimi ile ilgili akademik makale gönderimlerindeki kayda değer artışın da altını çiziyor:

2024 yılı için rakamlar mevcut olmasa da Stanford'un raporu, makine öğrenimi makaleleri için gönderilen makalelerin hacminde önemli bir artış olduğunu gösteriyor. Kaynak: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf
Difüzyon>Mesh Çerçeveleri Yaygınlaşıyor
Benim için ortaya çıkan bir diğer belirgin eğilim de kaldıraçla ilgili makalelerde büyük bir artış olmasıydı Gizli Difüzyon Modelleri (LDM'ler) olarak jeneratörler Örgü tabanlı, 'geleneksel' CGI modelleri.
Bu tür projeler arasında Tencent'in AnındaMesh3D, 3Dtopya, Yayılma2, V3D, MVDüzenle, ve GİM Difüzyonu, benzer tekliflerin bolluğu arasında.

3Dtopia'da Difüzyon tabanlı bir işlemle mesh oluşturma ve iyileştirme. Kaynak: https://arxiv.org/pdf/2403.02234
Bu yeni ortaya çıkan araştırma kolu, difüzyon modelleri gibi üretken sistemlerin süregelen çözümsüzlüğüne karşı örtük bir taviz olarak alınabilir; difüzyon modelleri, difüzyon>ağ modellerinin şu anda yerleştirmeye çalıştığı tüm sistemler için potansiyel bir ikame olarak sadece iki yıl önce duyurulmuştu; difüzyonu, otuz veya daha fazla yıl öncesine dayanan teknolojilerde ve iş akışlarında bir araç rolüne indirgedi.
Stability.ai, açık kaynaklı yazılımların yaratıcıları Kararlı Difüzyon model, yeni piyasaya sürüldü Kararlı Sıfır123, diğer şeylerin yanı sıra, bir Nöral Parlaklık Alanları (NeRF) Yapay Zeka tarafından oluşturulan bir görüntünün, Unity gibi CGI alanlarında, video oyunlarında, artırılmış gerçeklikte ve açık 3B koordinatlar gerektiren diğer platformlarda kullanılabilen açık, ağ tabanlı bir CGI modeli oluşturmak için bir köprü olarak yorumlanması, örtük (gizli) koordinatların aksine sürekli fonksiyonlar.
Oynatmak için tıklayın. Stable Diffusion'da oluşturulan görüntüler rasyonel CGI ağlarına dönüştürülebilir. Burada Stable Zero 123'ü kullanan bir görüntü>CGI iş akışının sonucunu görüyoruz. Kaynak: https://www.youtube.com/watch?v=RxsssDD48Xc
3D Semantik
Üretken AI alanı, 2B ve 3B görme sistemleri uygulamaları ile üretken sistemler arasında ayrım yapar. Örneğin, yüz işaretleme çerçeveleriOlsa temsil 3B nesnelerin (yüzlerin) hepsi her durumda adreslenebilir 3B koordinatları hesaplamaz.
Popüler FANAlign sistemi2017 dönemi deepfake mimarilerinde (ve diğerlerinde) yaygın olarak kullanılan , bu iki yaklaşıma da uyum sağlayabilir:

Yukarıda, 2B dönüm noktaları yalnızca tanınan yüz çizgileri ve özelliklerine dayanarak oluşturulmuştur. Aşağıda, 3B X/Y/Z uzayına rasyonelleştirilmiştir. Kaynak: https://github.com/1adrianb/face-alignment
Yani, tıpkı 'deepfake'in bir tür sahtecilik haline gelmesi gibi belirsiz ve kaçırılmış terim, '3D' aynı şekilde bilgisayarlı görme araştırmalarında da kafa karıştırıcı bir terim haline geldi.
Tüketiciler için, genellikle stereo özellikli medyayı (izleyicinin özel gözlük takması gereken filmler gibi) ifade eder; görsel efekt uygulayıcıları ve modelciler için, 2 boyutlu sanat eserleri (kavramsal çizimler gibi) ile Maya veya Cinema3D gibi bir '4 boyutlu programda' işlenebilen ağ tabanlı modeller arasındaki ayrımı sağlar.
Ancak bilgisayar görüşünde, bu basitçe şu anlama gelir: Kartezyen koordinat sistemi bir yerde var gizli alan modelin – değil bunun bir kullanıcı tarafından mutlaka ele alınabileceği veya doğrudan işlenebileceği; en azından, üçüncü taraf yorumlayıcı CGI tabanlı sistemler olmadan değil 3DMM or ALEV.
Bu nedenle kavramı difüzyon>3D kesin değildir; yalnızca herhangi Gerçek bir fotoğraf da dahil olmak üzere görüntü türü, üretken bir CGI modeli üretmek için girdi olarak kullanılabilir, ancak daha az belirsiz olan 'ağ' terimi daha uygundur.
Ancak belirsizliği daha da artırmak için yayılma is ortaya çıkan projelerin çoğunda kaynak fotoğrafı bir ağa yorumlamak gerekiyordu. Bu yüzden daha iyi bir açıklama şu olabilir görüntü-ağ, süre resim>difüzyon>ağ daha da doğru bir tanımlamadır.
Ancak bunu bir yönetim kurulu toplantısında veya yatırımcıları dahil etmek için tasarlanmış bir tanıtım bülteninde satmak zor olabilir.
Mimari çıkmazların kanıtları
2023 ile karşılaştırıldığında bile, son 12 aylık makale koleksiyonu, zor pratik sınırlar difüzyona dayalı üretim üzerine.
En büyük engel, anlatısal ve zamansal olarak tutarlı videoların üretilmesi ve karakterlerin ve nesnelerin tutarlı bir görünümünün sağlanmasıdır; yalnızca farklı video klipler arasında değil, aynı zamanda tek bir üretilen video klibin kısa çalışma süresi boyunca bile.
Difüzyona dayalı sentezdeki son çığır açıcı yenilik, LoRA'nın gelişi 2022'de. Flux gibi daha yeni sistemler, Stable Diffusion'ın daha önce üretilen bir görüntü içindeki metin içeriğini yeniden üretememesi gibi bazı aykırı sorunları çözmüş ve genel görüntü kalitesi iyileşmiş olsa da, 2024'te incelediğim makalelerin çoğu esasen sadece yemeği tabakta hareket ettirmekle ilgiliydi.
Bu çıkmazlar daha önce Generative Adversarial Networks (GAN'lar) ve Neural Radiance Fields (NeRF) ile yaşandı, ikisi de başlangıçtaki görünür potansiyellerine ulaşamadı ve ikisi de giderek daha geleneksel sistemlerde (yukarıda görülen Stable Zero 123'te NeRF kullanımı gibi) kullanılıyor. Bu durum difüzyon modellerinde de yaşanıyor gibi görünüyor.
Gaussian Splatting Araştırma Pivotları
2023'ün sonunda rasterleştirme yönteminin 3D Gauss Sıçraması 3'ların başında tıbbi görüntüleme tekniği olarak ortaya çıkan (1990DGS), aniden tıbbi görüntülemeyi geride bırakmaya hazırlanıyordu. otokodlayıcı tabanlı İnsan görüntüsü sentezleme sistemlerindeki zorluklar (yüz simülasyonu ve yeniden yaratılması, kimlik aktarımı gibi).
2023 ASH makalesi vaat etti tam vücut 3DGS insanlar, süre Gauss Avatarları (otomatik kodlayıcı ve diğer rakip yöntemlerle karşılaştırıldığında) büyük ölçüde iyileştirilmiş ayrıntılar ve etkileyici çapraz canlandırma sunuyor.
Ancak bu yıl, 3DGS insan sentezi için bu türden çığır açıcı gelişmeler açısından nispeten azdı; sorunu ele alan makalelerin çoğu ya yukarıdaki çalışmalardan türemişti ya da onların kapasitelerini aşamamıştı.
Bunun yerine, 3DGS'ye temel mimari uygulanabilirliğini iyileştirmeye vurgu yapılmış ve bu da gelişmiş 3DGS dış ortamları sunan bir dizi makalenin ortaya çıkmasına yol açmıştır. Özel dikkat Eşzamanlı Yerelleştirme ve Haritalamaya ödenmiştir (SLAM) 3DGS yaklaşımları, aşağıdaki gibi projelerde Gauss Sıçrama SLAM, Splat-SLAM, Gauss-SLAM, DROID-Splat, Diğerleri arasında.
Splat tabanlı insan sentezini sürdürmeyi veya genişletmeyi deneyen projeler arasında şunlar yer aldı: MIGS'ler, GEM, EVA, İşgalFüzyon, Eşcinsel kafa, İnsanSplat, GGKafa, HGM, ve Topo4D. Başkaları da olsa da, bunların hiçbiri 2023 sonlarında ortaya çıkan makalelerin ilk etkisine ulaşamadı.
Test Örneklerinin 'Weinstein Dönemi' (Yavaşça) Geriliyor
Güneydoğu Asya'da yapılan araştırmalarda (özellikle Çin'de) genellikle bir derleme makalesinde yeniden yayınlanması sorunlu olan test örnekleri yer alır, çünkü bunlar biraz 'acı' içerikler içerir.
Bunun, dünyanın o bölgesindeki araştırma bilim insanlarının çıktılarıyla dikkat çekmeye çalışmasından kaynaklanıp kaynaklanmadığı tartışmaya açık; ancak son 18 ayda, üretken yapay zeka (görüntü ve/veya video) etrafındaki giderek artan sayıda makale, proje örneklerinde genç ve yarı çıplak kadın ve kızları kullanmaya başladı. Bunun sınırda NSFW örnekleri arasında şunlar yer alıyor: UniAnimate, KontrolSonrakive hatta çok 'kuru' kağıtlar gibi Fréchet Video Hareket Mesafesi ile Hareket Tutarlılığının Değerlendirilmesi (ÖZDK).
Bu, Kural 34'ün hala çok belirgin olduğu Gizli Yayılma Modelleri (LDM'ler) etrafında toplanan alt dizinlerin ve diğer toplulukların genel eğilimlerini takip ediyor.
Ünlülerin Karşılaşması
Bu tür uygunsuz örnekler, yapay zeka süreçlerinin ünlü benzerliklerini keyfi olarak kullanmaması gerektiği yönündeki artan kabulle örtüşüyor; özellikle örnekleri eleştirel olmayan bir şekilde kullanan çalışmalarda sahip çekici ünlüleri, çoğunlukla kadınları, sorgulanabilir bağlamlara yerleştiriyorlar.
Bir örnek Herhangi bir GiyinmeÇok genç anime tarzı kadın karakterlerin yanı sıra Marilyn Monroe gibi klasik ünlülerin ve Ann Hathaway gibi günümüz ünlülerinin kimliklerini de bolca kullanan (bu tür kullanımları kınayan) oldukça sesli).

Güneydoğu Asya'daki gazetelerde güncel ve 'klasik' ünlülerin keyfi kullanımı hâlâ oldukça yaygın, ancak bu uygulama giderek azalıyor. Kaynak: https://crayon-shinchan.github.io/AnyDressing/
In batı makalelerde, bu özel uygulama 2024 boyunca FAANG ve OpenAI gibi diğer üst düzey araştırma kuruluşlarının daha büyük sürümlerinin öncülüğünde belirgin bir düşüş gösterdi. Gelecekteki dava potansiyelinin eleştirel bir şekilde farkında olan bu büyük kurumsal oyuncular, giderek daha az temsil etmeye isteksiz görünüyor hayali fotogerçekçi insanlar.
Oluşturdukları sistemler (örneğin; Görüntü ve Veo2) açıkça bu tür çıktılar üretebilme kapasitesine sahipken, batılı yaratıcı yapay zeka projelerinden gelen örnekler artık 'sevimli', Disneyleştirilmiş ve son derece 'güvenli' görsellere ve videolara doğru yöneliyor.

Imagen'in 'fotogerçekçi' çıktılar üretme kapasitesini övmesine rağmen, Google Research tarafından tanıtılan örnekler genellikle fantastik, 'aile' yemekleridir; fotogerçekçi insanlardan dikkatlice kaçınılır veya asgari örnekler sağlanır. Kaynak: https://imagen.research.google/
Yüz yıkama
Batı CV literatüründe bu samimiyetsiz yaklaşım özellikle şu şekilde kanıtlanmıştır: özelleştirme sistemler – birden fazla örnekte belirli bir kişinin tutarlı benzerliklerini oluşturma yeteneğine sahip yöntemler (örneğin, LoRA ve daha eskisi gibi) rüya kabini).
Örnekleri arasında ortogonal görsel yerleştirme, LoRA-Besteci, Google’lar TalimatBoothve daha niceleri.

Google'ın InstructBooth'u sevimlilik faktörünü 11'e çıkarıyor, ancak geçmişe bakıldığında kullanıcıların tüylü veya kabarık karakterlerden ziyade fotogerçekçi insanlar yaratmaya daha fazla ilgi duyduğu görülüyor. Kaynak: https://sites.google.com/view/instructbooth
Ancak 'sevimli örnek' kavramının yükselişi, CV ve sentez araştırmalarının diğer dallarında, örneğin şu projelerde görülmektedir: Comp4D, V3D, TasarımDüzenle, UniDüzenle, YüzZincir (bu da daha gerçekçi kullanıcı beklentilerini kabul ediyor) GitHub sayfası), Ve DPG-T2I, Diğerleri arasında.
Bu tür sistemlerin (örneğin) ne kadar kolay olduğu LoRA'lar) nispeten mütevazı donanıma sahip ev kullanıcıları tarafından oluşturulabilir ve özgürce indirilebilen ünlü modellerin sayısında patlamaya yol açmıştır civit.ai etki alanında ve topluluk. Bu tür yasadışı kullanım, mimarilerin açık kaynaklı hale getirilmesiyle mümkün olmaya devam ediyor. Kararlı Difüzyon ve Akı.
Üretken metinden görüntüye (T2I) ve metinden videoya (T2V) sistemlerinin güvenlik özelliklerini aşarak bir platformun kullanım koşulları tarafından yasaklanan materyal üretmek çoğu zaman mümkün olsa da, en iyi sistemlerin (RunwayML ve Sora gibi) kısıtlı yetenekleri ile yalnızca performans gösteren sistemlerin (örneğin, Kararlı Video Dağıtımı, DişliVideo ve yerel dağıtımlar Hunyuan), pek çok kişinin sandığı gibi aslında kapanmıyor.
Bunun yerine, bu tescilli ve açık kaynaklı sistemler sırasıyla eşit derecede işe yaramaz hale gelme tehlikesiyle karşı karşıyadır: pahalı ve hiper ölçekli T2V sistemleri, dava korkusu nedeniyle aşırı derecede engellenebilirken, açık kaynaklı sistemlerde lisanslama altyapısının ve veri kümesi denetiminin eksikliği, daha sıkı düzenlemeler yürürlüğe girdiğinde bunları tamamen pazarın dışında bırakabilir.
İlk yayın tarihi Salı, 24 Aralık 2024












