Yapay Zekâ

Bilgisayar Görme Edebiyatı Trendlerine Kişisel Bir Bakış 2024

Published December 24, 2024

Updated April 27, 2026

Martin Anderson

ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

Bilgisayar görme (CV) ve görüntü sentezleme araştırmaları sahnesini Arxiv’de ve diğer yerlerde yaklaşık beş yıldır sürekli olarak takip ediyorum, bu nedenle trendler zaman içinde belirgin hale geliyor ve her yıl yeni yönlerde değişiyorlar.

Bu nedenle, 2024 yılı sona ererken, Arxiv’deki Bilgisayar Görme ve Desen Tanıma bölümünde yeni veya gelişen bazı özelliklere bakmayı uygun buldum. Bu gözlemler, yüzlerce saatlik çalışma ile bilgilendirilmiş olsa da, katı olarak anekdotlardır.

Doğu Asya’nın Sürekli Yükselişi

2023 yılı sonunda, “ses sentezleme” kategorisindeki literatürün büyük çoğunluğunun Çin ve diğer Doğu Asya bölgelerinden geldiğini fark ettim. 2024 yılı sonunda, görüntüleri ve video sentezleme araştırmaları sahnesine de uygulanabileceğini gözlemledim (anekdot olarak).

Bu, Çin ve komşu ülkelerin her zaman en iyi çalışmaları çıkardığı anlamına gelmez (aslında, bunun aksine bazı kanıtlar vardır); ayrıca, Çin’de (Batı’da olduğu gibi) en ilginç ve güçlü yeni geliştirilen sistemlerin büyük olasılıkla araştırma literatüründen dışlandığı ve proprietary olduğu gerçeğini dikkate almaz.

Ancak, bu, Doğu Asya’nın bu konuda Batı’ya hacim bakımından üstünlük sağladığını öne sürer. Bunun ne kadar değerli olduğu, “Edison tarzı ısrar”ın geçerliliğine inandığınız ölçüde önemlidir, bu genellikle inatçı engeller karşısında etkisizdir.

Yapay genellemenin generatif sistemlerinde birçok böyle engel vardır ve hangi onesinin mevcut mimarilerin ele alınarak çözülebileceğini, hangilerinin sıfırdan yeniden düşünülmesi gerektiğini bilmek kolay değildir.

Doğu Asya’dan araştırmacıların daha fazla bilgisayar görme makalesi üretiyor gibi görünse de, “Frankenstein” tarzı projelerin sıklığında bir artış gözlemledim – önceki çalışmaların birleştirilmesinden oluşan girişimler, sınırlı mimari yenilik (veya belki de sadece farklı bir tür veri) ekler.

Bu yıl, Doğu Asya’dan (çoğunlukla Çin veya Çin ile işbirliği içinde) çok daha fazla girişin, liyakat yerine kota tarafından yönlendirildiği ve zaten aşırı abonelik olan bir alanda sinyal-gürültü oranını önemli ölçüde artırdığı görünüyor.

Aynı zamanda, 2024’te daha fazla Doğu Asya makalesi dikkatimi ve hayranlığımı çekti. Yani bu bir sayı oyunu ise, başarısız olmuyor – ancak ucuz da değil.

Gönderilerin Artan Hacmi

Tüm ülkelerden gelen makalelerin hacmi, 2024’te açıkça artmış görünüyor.

En popüler yayın günü yıl boyunca değişiyor; şu anda Salı, Bilgisayar Görme ve Desen Tanıma bölümüne tek bir günde thường 300-350 gönderi alınıyor, “zirve” dönemlerinde (Mayıs-Ağustos ve Ekim-Aralık, yani konferans sezonu ve “yıllık kota bitiş” sezonu).

Kendi deneyimimin ötesinde, Arxiv kendisi 2024’ün Ekim ayında yeni gönderiler için bir rekor sayıda olduğunu rapor ediyor, toplam 6000 yeni gönderi ile, Bilgisayar Görme bölümü Makine Öğrenimi’nden sonra en çok gönderilen ikinci bölüm.

Ancak, Arxiv’deki Makine Öğrenimi bölümü genellikle “ek” veya birleştirilmiş bir süper kategori olarak kullanılır, bu da Bilgisayar Görme ve Desen Tanıma’nın aslında en çok gönderilen Arxiv kategorisi olduğunu öne sürer.

Arxiv’in kendi istatistikleri kesinlikle bilgisayar bilimini gönderilerde açık lider olarak gösteriyor:

Bilgisayar Bilimi (CS) son beş yılda Arxiv’de gönderi istatistiklerini domine ediyor. Kaynak: https://info.arxiv.org/about/reports/submission_category_by_year.html

Stanford Üniversitesi’nin 2024 AI İndeksi, en son istatistikleri rapor edemese de, son yıllarda makine öğrenimi etrafındaki akademik makalelerin gönderilerindeki önemli yükselişi vurguluyor:

Rakamlar 2024 için mevcut olmasa da, Stanford’un raporu yine de makale gönderi hacimlerinin makine öğrenimi papersi için çarpıcı bir şekilde arttığını gösteriyor. Kaynak: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Diffusion<Mesh Çerçevelerinin Çoğalması

Benim için ortaya çıkan başka bir açık trend, Latent Diffusion Modellerinin (LDM’ler) geleneksel CGI modellerinin üreticileri olarak kullanan makalelerde büyük bir artıştı.

Bu tür projeler arasında Tencent’in InstantMesh3D’si, 3Dtopia, Diffusion², V3D, MVEdit ve GIMDiffusion gibi birçok benzer teklifler bulunur.

3Dtopia’da Diffusion tabanlı bir işlemle mesh oluşturma ve rafine etme. Kaynak: https://arxiv.org/pdf/2403.02234

Bu ortaya çıkan araştırma dalı, generatif sistemler gibi difüzyon modellerinin süregelen çözülemezliğine karşı bir tür örtülü kabul olarak görülebilir; sadece iki yıl önce tüm bu difüzyon>mesh modellerinin şimdi doldurmaya çalıştığı sistemlerin potansiyel bir yerine geçici olarak sunuldukları zaman.

Stability.ai, açık kaynaklı Stable Diffusion modelinin yaratıcıları, şimdi Stable Zero123’ü yayınladı, bu, diğer şeylerin yanı sıra, bir AI tarafından üretilen görüntünün Neural Radiance Fields (NeRF) yorumunu, Unity, video oyunları, artırılmış gerçeklik ve diğer platformlarda kullanılabilen açık, mesh tabanlı bir CGI modeli oluşturmak için bir köprü olarak kullanabilir.

Oynatmak için tıklayın. Stable Diffusion’da üretilen görüntüler, mantıksal CGI meshlerine dönüştürülebilir. Burada, Stable Zero 123 kullanarak bir görüntü>CGI iş akışının sonucunu görüyoruz. Kaynak: https://www.youtube.com/watch?v=RxsssDD48Xc

3D Anlamları

Yapay genellemenin görme ve generatif sistemlerin uygulamaları arasında 2B ve 3B sistemler arasında bir ayrım vardır. Örneğin, yüz landmarking çerçeveleri, her zaman 3B nesneleri (yüzleri) temsil etseler de, tümü gerekli 3B koordinatlarını hesaplamaz.

Popüler FANAlign sistemi, 2017’deki deepfake mimarileri de dahil olmak üzere her iki yaklaşımı da kapsayabilir:

Üstte, 2B landmarklar yalnızca tanınan yüz çizgileri ve özelliklerine dayanarak oluşturulur. Altta, bunlar 3B X/Y/Z uzayına mantıksal hale getirilir. Kaynak: https://github.com/1adrianb/face-alignment

Bu nedenle, “derin sahte” terimi gibi, “3B” terimi de bilgisayar görme araştırmalarında kafa karıştırıcı bir hal almıştır.

Tüketiciler için, stereo-özellikli medya (özel gözlüklerle izlenen filmler) anlamına gelirdi; görsel efekt uygulayıcıları ve modelleyiciler için, 2B sanat (kavramsal çizimler) ile mesh tabanlı modeller arasındaki farkı sağlar, bu modeller Maya veya Cinema4D gibi “3B programlarda” manipüle edilebilir.

Ancak, bilgisayar görme alanında, bu, bir Cartesian koordinat sisteminin modelin gizli uzayında var olduğu anlamına gelir – kullanıcının doğrudan manipüle edemeyeceği bir sistem; en azından, üçüncü taraf interpretatif CGI tabanlı sistemler olmadan, chẳng hạn như 3DMM veya FLAME.

Bu nedenle, difüzyon>3B kavramı doğru değildir; herhangi bir görüntü türü (gerçek bir fotoğraf da dahil) bir generatif CGI modeli üretmek için girdi olarak kullanılabilir, ancak “mesh” terimi daha uygun bir terimdir.

Ancak, belirsizliği daha da artırmak için, difüzyon, kaynak fotoğrafını bir mesh’e çevirmek için çoğunlukla gereklidir. Bu nedenle, daha doğru bir tanım “görüntüden mesh’e” olabilir, ve “görüntü>difüzyon>mesh” daha da doğru bir tanımdır.

Ancak, bu bir yönetim kurulu toplantısında veya yatırımcıları çekmek amacıyla tasarlanmış bir basın bülteninde satmak zor bir iş olabilir.

Mimari çıkmazların kanıtları

2023’e kıyasla, son 12 aylık makaleler, difüzyon tabanlı üretimin zor pratik sınırlarını kaldırmak etrafında artan bir umutsuzluk sergiliyor.

Ana engel, anlatısal ve zaman olarak tutarlı video üretimi ve farklı video klipleri boyunca karakterlerin ve nesnelerin tutarlı görünümünü korumak – hatta tek bir üretilen video klibin kısa çalışma süresi boyunca.

Son büyük yenilik, 2022’de LoRA’nın gelişiydi. Yeni sistemler gibi Flux, Stable Diffusion’ın metin içeriğini bir görüntüde yeniden üretememe gibi bazı outlying sorunları iyileştirdi ve genel görüntü kalitesi verbessildi, ancak 2024’te incelediğim většilikle makaleler esasen sadece yemekleri tabaktaki yerlerini değiştiriyordu.

Bu tür çıkmazlar, önce Generatif Karşıt Ağlar (GAN’lar) ve sonra Nöral Işınım Alanları (NeRF) ile önce meydana geldi – her ikisi de ilk başta ortaya çıkan potansiyellerine ulaşamadı ve her ikisi de artık daha geleneksel sistemlerde (örneğin, Stable Zero 123’de NeRF’in kullanımı) daha fazla kullanılıyor.

3B Gauss Splatting Araştırmaları Dönüşüyor

2023 yılı sonunda, tıbbi görüntüleme tekniği olarak 1990’ların başlarında ortaya çıkan 3B Gauss Splatting (3DGS) yönteminin, insan görüntü sentezleme zorluklarında (yüz simülasyonu ve yeniden yaratma, kimlik transferi gibi) otomatik kod tabanlı sistemleri suddenly aşacağı görünüyordu.

2023 ASH makalesi, tam vücutlu 3BGS insanları vaat etti, Gaussian Avatars ise önceki çalışmalara kıyasla çok daha iyi ayrıntı sundu, birlikte etkileyici cross-reenactment sundu.

Ancak, bu yıl, 3BGS insan sentezleme için böyle bir đột phá anı olmadı; çoğu makale, yukarıdaki çalışmalardan türetilmiş veya onların yeteneklerini aşmamıştı.

Bunun yerine, 3BGS’nin temel mimari uygulanabilirliğini iyileştirmeye odaklanıldı, bu da 3BGS dış ortamlarına yönelik bir dizi makaleye yol açtı. Özellikle, Simultaneous Localization and Mapping (SLAM) 3BGS yaklaşımına dikkat çekildi, Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat gibi projelerde.

Bu projeler arasında, 3BGS tabanlı insan sentezlemeye devam edenler arasında MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM ve Topo4D bulunuyordu. Ancak, bu çıkışların hiçbiri, 2023 sonundaki ilk makalelerin etkisini eşlemedi.

‘Weinstein Dönemi’ Test Örneklerinin Azalması

Güneydoğu Asya’dan (ve özellikle Çin’den) yapılan araştırmalar, problematik olan test örnekleri içerir, çünkü bunlar biraz “tartışmalı” materyaller içerir.

Bu, araştırmacıların bu bölgedeki dünyanın dikkatini çekmeye çalıştıkları için böyle yapıyorlarsa, tartışılmaya açık bir konudur; ancak son 18 aydır, yapay genellemenin (görüntü ve/veya video) etrafındaki çok sayıda makale, genç ve az giymiş kadın ve kızları proje örnekleri olarak kullanmaya başladı.

Bu, UniAnimate, ControlNext ve hatta çok “kurak” makaleler gibi FVMD gibi sınırda NSFW örneklerini içerir.

Bu, Latent Diffusion Modelleri (LDM’ler) etrafında toplanan subreddit’ler ve topluluklarda Rule 34’ün hala geçerli olduğu genel trendi takip ediyor.

Ünlü Yüzleştirme

Bu tür uygun olmayan örnekler, AI işlemlerinin ünlülerin benzerliklerini keyfi olarak sömüremeyeceği konusunda artan bir tanınmayla örtüşüyor – özellikle, eleştirel olmayan bir şekilde örnekler sunan çalışmalar, genellikle kadın olan çekici ünlüleri içerir ve bunları şüpheli bağlamlarda yerleştirir.

AnyDressing gibi bir örnek, genç anime tarzı kadın karakterleri içerir ve aynı zamanda Marilyn Monroe gibi klasik ünlülerin ve current ones gibi Anne Hathaway’in kimliklerini liberal bir şekilde kullanır (bu tür kullanımın karşısında oldukça yüksek sesle konuştu).

Güneydoğu Asya’dan makalelerde, özellikle Çin’den, masih assez yaygın olan, current ve ‘klasik’ ünlülerin keyfi kullanımı. Kaynak: https://crayon-shinchan.github.io/AnyDressing/

Batı’daki makalelerde, bu özel uygulama 2024 boyunca belirgin olarak azalmıştır, FAANG ve diğer yüksek düzeyli araştırma kurumları gibi büyük kurumsal oyuncular tarafından yönetilmiştir. Gelecek davalara karşı duyarlılıklarından dolayı, bu büyük kurumsal oyuncular, artık kurgusal dahi olsa, gerçekçi insanların temsil edilmesine karşı giderek daha isteksiz görünüyorlar.

Ancak, onlar tarafından yaratılan sistemler (örneğin, Imagen ve Veo2), böyle bir çıktı üretme yeteneğine sahip olduklarına rağmen, Batı’dan generatif AI projelerinin örnekleri artık “sevimli”, Disneyvari ve aşırı “güvenli” görüntülere ve videolara doğru bir eğilim gösteriyor.

İmgene’nin fotogerçekçi çıktı üretme kapasitesini överek, Google Araştırma tarafından tanıtılan örnekler genellikle fantastik, ‘aile’ içerikli – fotogerçekçi insanlar dikkatlice kaçınıyor veya minimal örnekler veriliyor. Kaynak: https://imagen.research.google/

Yüz Yıkama

Batı’daki CV literatüründe, bu ikiyüzlü yaklaşım, özellikle özelleştirme sistemlerinde özellikle belirgindir – belirli bir kişinin birden fazla örnek boyunca tutarlı benzerliklerini üretebilen yöntemler.

Örnekler arasında, orthogonel görsel gömme, LoRA-Composer, Google’ın InstructBooth’u ve daha birçokları bulunur.

Google’ın InstructBooth, sevimlilik faktörünü 11’e çıkarıyor, ancak tarih, kullanıcıların fotogerçekçi insanlardan çok, tüylü veya puf karakterler yaratmaya ilgi duyduğunu gösteriyor. Kaynak: https://sites.google.com/view/instructbooth

Ancak, “sevimli örnek” yükselişi, diğer CV ve sentez araştırma alanlarında da görülüyor, Comp4D, V3D, DesignEdit, UniEdit, FaceChain (GitHub sayfasında daha gerçekçi kullanıcı beklentilerine teslim oluyor) ve DPG-T2I gibi projelerde.

Bu sistemlerin (örneğin, LoRAs) nispeten mütevazi donanım ile ev kullanıcıları tarafından kolayca oluşturulabilmesi, Unite.AI’nin sivil topluluğu ve diğer topluluklarda özgürce indirilebilen ünlülerin modellerinin patlamasına yol açtı. Bu tür kaçak kullanımı, Stable Diffusion ve Flux gibi mimarilerin açık kaynaklı olmasıyla mümkün olmaya devam ediyor.

Ancak, en iyi sistemlerin kısıtlı yetenekleri ile yalnızca yeterli sistemlerin sınırsız yetenekleri arasındaki uçurumun gerçekten kapanmadığı, birçokları tarafından düşünülüyor.

Aslında, bu sistemler, aşırı ölçekli T2V sistemleri, dava korkusu nedeniyle aşırı derecede engellenmiş olabilirken, açık kaynaklı sistemlerin lisans altyapısı ve veri kümesi denetimi eksikliği, daha sıkı düzenlemeler yürürlüğe girdikçe pazarın dışında kilitlenebilir.

İlk olarak 24 Aralık 2024 Salı günü yayımlandı

Related Topics:AI research AI research 2024 Computer Vision

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]