Anderson'ın Açısı

Kavramların Karmaşıklığı Neden Yapay Zeka Videolarını 'İstediğiniz Gibi' Yapamayacağınız Anlamına Geliyor?

Yayınlanan 23 Mart, 2026

Martin Anderson

Bir adamın farklı Lego parçalarını bir araya getirmeye çalıştığını gösteren yapay zeka tarafından oluşturulmuş görüntü (GPT-1.5).

Yapay zekâ video araçları tam kontrol vaat ediyor, ancak gizli 'kavram karmaşası' kimlikleri, ifadeleri ve davranışları birbirine bağlayarak, zahmetsiz GenAI büyüsü efsanesini yerle bir eden hilelere ve şablon oyunlarına yol açıyor.

Görüş Konuya en son detaylı olarak değindiğimden beri beş yıl önce, sorunu kavram karmaşası Eğitilmiş yapay zeka sistemlerindeki kullanım, kendi şartları içinde daha iyi anlaşılmadan, çok daha geniş bir kullanıcı yelpazesine yayılmıştır.

O zamanlar, otomatik kodlayıcı deepfake sistemleri (yani artık kullanılmayanlar) Derin Yüz Laboratuvarı ve daha az pornografik odaklı olanlar Yüz nakliİkisi de 2017'de rezil olup neredeyse anında yasaklanan Reddit'ten türetilmiştir. kod yayınlamaİnsanların nispeten fotogerçekçi deepfake görüntülerini oluşturmak için piyasadaki tek seçenek onlardı.

Bu sistemler, yapay zeka modeline A) kişinin dinlenme halindeyken nasıl göründüğü hakkında bilgi sağlamayı amaçlayan kapsamlı yüz eğitimi veri kümelerine dayanıyordu (a standart (referans yerleştirme) ve B) bir yüzün yansıtabileceği çeşitli durumlarda nasıl göründükleri, uyku kadar kahkaha, korku, Can sıkıntısı, kinizm, üzüntü, vb.

Kimlik tek başına değil, yüz ifadeleriyle birlikte oluşur. Ayrıca, bazı duyguların yüz verileri yalnızca belirli, uç açılardan elde edilebilir; bu da açıyı duyguyla, duyguyu da açıyla ilişkilendirme eğiliminde olacaktır.

Sorun şuydu ki, kanonik kimlik genellikle kendi başlarına 'nötr' olmayan yüz görüntülerinden çıkarılmak zorundaydı; bu nedenle, hazır veri kümelerinden veri çekerken elde edilen gülümsemelerin ve sırıtmaların ağırlığı, kimliği değiştirecekti. dağıtım 'Gülümseyen varsayılan' bir duruma doğru. Bunun nedeni, bu modelleri genellikle bilgilendiren web'den kazınmış eğitim verilerindeki yüksek miktarda kırmızı halı paparazi fotoğrafı ve bir veri kümesinin bir tür görüntüye doğru önyargılı olabileceğine dair diğer tüm geçerli nedenlerdi.

Başka bir deyişle, otoenkoder sistemi, yüz özelliklerinin bozulduğu binlerce görüntüden 'nötr' bir kimlik kavramı çıkarmaya çalışmak zorunda kalacaktı. normal yüz ifadeleri.

Ayrıca farklı duyguların anlamsal yüz ifadelerini birbirinden ayırmaya da çalışması gerekiyordu. Yüzlerin çekildiği açılardanBu, eğer mevcut olan tek 'korkmuş' yüz ifadeleri profil görünümünden alınmışsa, eğitilmiş sistemin bu duyguyu en iyi şekilde yalnızca o görünümden yeniden üretebileceği anlamına geliyordu.

İleriye dönük

As difüzyon tabanlı 2022'den itibaren yapay zeka tabanlı görüntü (ve daha sonra video) alanında yaklaşımlar hakimiyet kurdukça, üretken sistemler sınırlı yüz verisiyle beslendiklerinde doğru yüz ifadelerini tahmin etmede çok daha başarılı hale geldi.

Hatta son derece dikenli olanlar bile meydan okuma Günümüzdeki en gelişmiş teknolojiyle, ikna edici profil görünümleri oluşturmanın neredeyse üstesinden gelinmişken, ifade verileri kimlikten oldukça etkili bir şekilde uzaklaştırıldı; öyle ki, otomatik kodlayıcı güdümlü canlı deepfake kuklacılığının öncülüğünü yaptığı türden bir yöntem kullanıldı. DerinYüzCanlı Akış sisteminin birçok etkili çevrimdışı yayılım uygulaması bulunmaktadır ve gerçek zamanlı uygulama da gelecekteki olası bir gelişmedir:

Oynatmak için tıklayın. 'FlashPortrait' projesinden, kaynak videolar üzerinden avatarları yönlendirmeye dair çeşitli örnekler. Bu durumda, 'gerçekçi' alanın hangi tarafta yer aldığı önemli değil. Kaynak

Ancak, genAI'nin uygulama alanı genişledikçe ve çıktısı daha karmaşık hale geldikçe, dolanıklık sorunu birden fazla alana yayıldı ve şu anda oldukça ucuz ve eski bazı yöntemlerle 'çözülmeye' çalışılıyor. Bu yöntemlerin ne olduğunu bilmiyorsanız, video ve görüntü yapay zekasının ne kadar hızlı geliştiğine ve eski sorunlarının üstesinden geldiğine daha olumlu bakabilirsiniz.

Konuşkan Kediler

Umarım, 2017 dönemi otomatik kodlayıcı sistemlerinde kimlik ve duyguyu ayırmanın neden zor olduğu açıkça anlaşılmıştır. Bunun nedeni a) Bir tür verinin çok fazla olması VEYA önemli bir veri türünün çok özel bir versiyonunun bulunmasıydı; bunların her ikisi de dağılımsal bir sapmaya neden olurdu; ve/veya b) model mimarisi bu nitelikleri ayırma görevine uygun değildi ve kullanıcı veri setinde dengeyi sağlamak için olağanüstü özen göstermedikçe, çıkarım zamanında bunları "birbirine yapıştırma" eğilimindeydi.

Tam olarak aynı nedenden dolayı, son birkaç yıldır bir dizi açık kaynaklı ve tescilli video modelinde de benzer sorunlar ortaya çıktı, ancak bunlar daha büyük eleştiriler nedeniyle gölgede kaldı. sanrı, sansür eksikliğive çeşitli diğer konular.

Örneğin, Wan2.+ sistemiBirçok kullanıcı bunun çok iyi olduğunu düşünüyor. zor oluşturdukları karakterlerin durmasını sağlamak için durmadan konuşuyorve onları durdurmak da çoğu zaman zordur. kameraya bakmak.

İkinci sorun (kameraya bakmak veya dördüncü duvarı yıkmak), video sentezleme sistemlerinin ortaya çıkışından önce de vardı; çünkü bu durum, web'den toplanan veri kümelerinde "kameraya bakıyor" fotoğraflarının yaygınlığı nedeniyle çeşitli yalnızca görüntü tabanlı yayılım sistemlerinde ortaya çıkmıştı. Laion.

'Çok geveze' karakterlerle ilgili sorun, YouTube'da 'influencer' videolarının kolaylıkla bulunabilmesinden kaynaklanıyor; bu videolar doğal olarak binlerce saatlik doğrudan, kameraya dönük söylemler sunuyor, genellikle veri kümelerine derlenmiş araştırma bilimcilerinin yapabileceği yer aklamak Akademik bir bağlam sağlayarak web kazıma işlemini kolaylaştırmak.

Ancak, orijinal veya sonraki küratörler bu tür videoların sayısını sınırlamaya ve bunları daha farklı türdeki görüntülerle dengelemeye özen göstermedikçe, video modelinde ciddi bir önyargı gelişir ve bu da yönlendirmeye dayalı çözümler ve çeşitli üçüncü taraf yardımcı sistemler aracılığıyla ele alınması gereken bir sorun haline gelir.

Wan'ın 'çok konuşkan' olması sorunuyla karşı karşıya kalan Reddit kullanıcısı u/Several-Estimate-681, bir çözüm önerisi sundu. geçici çözüm Wan 2.1'deki bir ayarı kullanan Sonsuz Konuşma V2V sistem – tasarlanmış bir çerçeve teşvik etmek Influencer tarzı gevezelik – kullanıcının ekranda görüntülenen karakteri susturmasına olanak tanır:

Oynamak için tıklayın: Sadece dinlemek – Wan2.+'da karakter dikkatini sağlamak için bir geçici çözüm. Kaynak

Açıkçası, bu tür kısayollar düşük seviyeli mimari çözümleri temsil etmez ve temel modellerin yaratıcıları tarafından gerçek çözümler bulunup uygulanmadığı sürece (çünkü sıradan hobi meraklılarının genellikle yeniden yaratmak veya uygulamak için milyonlarca doları yoktur) ince ayar (bu tür çalışmalar), bu da "köstebek avı" oyununun muhtemelen şu anlama geldiği demektir: Bir sonraki sürümde sıfıra sıfırla.

Ucuz ve Kırılgan

Difüzyon mimarisinin kendisinde bu sorunları kaçınılmaz kılan hiçbir şey yok; aslında, gerçekten etkili bir kürasyon, önceliklendirme ve yüksek kalite uygulama yöntemi olsaydı, sorunlar çözülebilirdi. altyazı ve açıklama Milyonlarca veri noktasına sahip hiper ölçekli veri kümelerine geçildiğinde, bu sorunların neredeyse tamamı ortadan kalkacaktır.

Ancak, bu düzeydeki detaylara verilen önem, lojistik, kapsam, gerekli kaynaklar ve uzun vadeli çaba açısından Manhattan Projesi'ne benzerdi. Yeni bir mimarinin, hatta yeni bir mimarinin bile, ortaya çıkabileceği bir ortamda... versiyon Böyle bir çabanın kapsamını boşa çıkarabilecek bir durum söz konusu olsa da, şu anda bu tür bir taahhütte bulunma isteği yok.

Sonuç olarak, kullanılabilir modeller elde etmekle uyumlu olduğu sürece, en ucuz yaklaşımlar tercih edilmeye devam etmektedir. Bu tür bir 'cimriliğin' bir örneği şudur: veri büyütmeBu yöntem, kontrolsüz bir şekilde ve yanlış türdeki veri seti video kliplerine uygulandığında, çeşitli sorunlara yol açabilir. komik sonuçlar:

Veri artırma işlemi genellikle veri kümesindeki kaynak videoların yönünü tersine çevirdiği için, yapay zeka modeli bazen 'imkansız' bazı hareketleri öğrenebilir. - Kaynak

Ancak, genel olarak bakıldığında, yokuş yukarı yuvarlanan taşlar ve "influencer moduna" geçerek karakterlerini bozan insanlar, bu tür sürekli hatalara ve zayıf noktalara rağmen etkileyici sonuçlar ve yeterince hayranlık uyandıran manşetler üretebilen üretken sistemlerdeki yan hasar örnekleri olarak kabul edilir.

Şablon Çözümleri

Günümüzde, neredeyse tamamı bir şekilde ezber bozan yüzlerce üretken video alanı ortaya çıkmıştır. yeni bir dizi yasa ve karşı tepkiler GenAI'ye karşı çıkanlar, kolluk kuvvetleri, kara listeler veya diğer platformdan uzaklaştırma yöntemleri bu ticari hizmetleri kaldırmadan önce kazançlarının tadını çıkarıyorlar.

Kling ve Grok gibi daha büyük ve daha bilinen bu tür siteler, ya bir tür öz sansür mekanizmasına (eninde sonunda) bağlı kalırlar ya da eleştirilere, platformlarının kullanıcılar için sağladığı içerik türlerini değiştirerek yanıt verirler.

Ancak bu büyük isimlerin ardında, sürekli olarak yeni (ve genellikle daha uç noktadaki) içerik türlerine olan talebi karşılayan yüzlerce geçici kuruluş daha var.

Bu tür düşük çaba gerektiren kaynak sağlama, temel modelleri sıfırdan eğitmenin son derece yüksek maliyetini ve çabasını ortadan kaldırır. Çoğu zaman, çok daha az maliyetli olan ince ayar bile bu durumdan muaf tutulur.

Bu nedenle bu siteler, pratikte %100 aynı şekilde davranan 'şablonlar' sunmaktadır. özel olarak eğitilmiş LoRA'larYapay zekâ meraklıları tarafından dört yıldan uzun süredir kullanılan bu araçlar, istenilen herhangi bir kimliği, stili, nesneyi ve (video LoRA'lar söz konusu olduğunda) hareketi veya eylemi özel bir LoRA eklentisine dönüştürmek için kullanılıyor.

Kullanıcı ile temel model arasına LoRA yerleştirildiğinde, elde edilen sonuçlar LoRA'nın eğitildiği şeye çok özgü olacaktır ve genellikle modelin genel performansı, LoRA'nın ağırlık bükme etkisiyle baltalanır; LoRA kendi konusunu çok iyi bir şekilde yeniden üretecek, ancak aynı zamanda bu materyali herhangi bir isteğe de dahil edecektir (eğer geçici GenAI video siteleri bu düzeyde bir kontrole izin verseydi - izin vermiyorlar; sadece bir tane sunuyorlar). [TERCİH ETTİĞİNİZ EYLEM] Şablonu inceleyin ve girdiğiniz metin/resim/videoları, şablonun başarılı bir şekilde uygulanmasını sağlayacak şekilde yorumlayın.

Açık nedenlerden dolayı, bu makaleye web sitesi örnekleri ekleyemiyorum; ancak araştırma literatürü son zamanlarda bazı benzer örnekler sunmuştur. Örneğin, burada, EffectMaker projesi Bu örnek, kullanıcının sağladığı bir görüntüye belirli bir eylemin uygulanmasıyla prensibin nasıl işlediğini göstermektedir:

Oynatmak için tıklayın. EffectMaker'da, özel girdilere ince ayarlı, belirli efektler uygulanabilir. Kaynak

Bu son derece özenle hazırlanmış ve hedef odaklı koşullarda bile, kullanıcılar genellikle iyi bir sonuç elde etmek için birden fazla, riskli girişimde bulunmak zorunda kaldıklarından şikayet ederler ve belki de sağlayıcının açgözlülüğüne veya hileli uygulamalarına değil, daha çok doğuştan gelen "rastgele sonuç alma" eğilimine bağlamalıyız. DIT GenAI çerçeveleri.

Daha geniş kamuoyunun, GenAI'nin yetenekleri hakkındaki izlenimini, sıradan, acemi bir kullanıcının elde edebileceği sonuçları temsil etmeyen, özenle seçilmiş örneklerden edindiği söylenebilir. Bir kullanıcı bir şablonu (örneğin, yapay zeka web sitesi tarafından sağlanan bir LoRA) altı kez denediğinde, bunların en iyilerini yayınlayıp övme eğiliminde olacak ve bu da temel modeli sorgulayarak bu tür sonuçlara ulaşılabileceği izlenimini verecek ve üretken temel modellerin gerçekte olduğundan çok daha karmaşık olduğu izlenimini yaratacaktır.

Sonuç

Literatürde, ilk olarak 2020 civarında Max Planck/Google projesinde ciddi olarak gündeme gelen dolanıklık problemi incelenmeye devam etmektedir. işbirliği Ayrıştırılmış Temsillerin Denetimsiz Öğrenimine ve Değerlendirilmesine Gerçekçi Bir Bakış.

Ayrıca çeşitli halefler de bulunmaktadır. Zıtlık yoluyla çözümleme (DiskoPeriyodik olarak ortaya çıkıyorlar ve yapay zekânın ne olduğuna dair kamuoyunun farkındalığının çok ötesinde bir farkındalıkla sahne canlılığını koruyor. Amerika’ya vize ile ya da Meksika üzerinden geldikten sonra ilticaya başvuran kişileri, herhangi bir suça karışmadıkları sürece mahkeme kararı olmadan sınır dışı (deport) ettiremez. Bu konuda öyle yapın.

Bir 2024'ten kalma Çin araştırması Bu durum, dolanıklığın getirdiği sorunları çözmek için bir çözümün gerekli olmayabileceğini öne sürüyor. Tarihsel olarak bu doğru, çünkü bilgisayar görüşündeki birçok çözümsüz sorun, çözülerek değil, tamamen yeni teknikler ve yaklaşımlar yoluyla aşılarak aşılmıştır.

Böylesine belirgin bir rakip ortaya çıkana kadar, GenAI'nin eksikliklerine ve sınırlamalarına geçici çözümler uygulamaya ve temel modellerin esnekliği ve sünekliği konusunda kamuoyunun abartılı tahminlerine katlanmaya devam etmemiz gerekecek gibi görünüyor.

İlk yayın tarihi Pazartesi, 23 Mart 2026

İlgili konular:veri büyütme difüzyon modelleri difüzyon transformatörü

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai