Anderson’un Açısı
Video AI Eğitimini Kullanıcı Odaklı Verilerle Yeniden Düşünmek

Kullanıcıların Flux veya Hunyuan Video gibi bir üretken model kullanarak oluşturmak isteyebilecekleri türden içerik, her zaman kolayca mevcut olmayabilir, даже eğer içerik isteği oldukça geneldir ve biri üreticinin bunu işleyebileceğini tahmin edebilir.
Bir örnek, yeni bir makalede ele alacağımız bir makalede gösterildiği gibi, giderek daha fazla gölgelenen OpenAI Sora modelinin, ‘Ateş böceği bir yaz gecesi bir çimenin yaprağında parlıyor’ promtını kullanarak anatomik olarak doğru bir ateş böceği oluşturma konusunda bazı zorluklar yaşadığını belirtir:

OpenAI’nin Sora’sı ateş böceği anatomisi konusunda biraz tuhaf bir anlayışa sahiptir. Kaynak: https://arxiv.org/pdf/2503.01739
Araştırmacıların iddialarını yüzeyde kabul etmediğim için, aynı promtu bugün Sora’da test ettim ve biraz daha iyi bir sonuç elde ettim. Ancak Sora, masih ateş böceğinin kuyruğunun ucunda biyolüminesansın meydana geldiği yeri aydınlatmak yerine, ışığı böceğin ayaklarının yakınına yerleştirdi:

Araştırmacıların promtunu Sora’da test etmem, Sora’nın gerçekten bir Ateş böceğinin ışığının nereden geldiğini anlamadığını gösteren bir sonuç üretti.
Ironik olarak, Adobe Firefly üretken difüzyon motoru, şirketin telif hakkı güvenceli stok fotoğrafları ve videolarına dayanarak eğitilmiş olup, aynı promtu Photoshop’un üretken AI özelliğinde denediğimde, yalnızca 1’de 3 başarı oranına ulaştı:

Adobe Firefly (Mart 2025), yalnızca üç proposed jenerasyonun sonuncusunda bir parlama üretti, ancak en azından parlama böceğin anatomisinin doğru kısmında yer aldı.
Bu örnek, yeni bir makalede ele alacağımız bir makalede gösterildiği gibi, popüler temel modelleri bilgilendirmek için kullanılan eğitim setlerinin dağılımı, vurgusu ve kapsamı, kullanıcıların ihtiyaçlarıyla uyumlu olmayabilir, hatta kullanıcı çok zorlu bir şey istemediğinde bile – bu, hiperscale eğitim setlerini en verimli ve etkili sonuçlarına uyarlamakla ilgili zorlukları gündeme getiren bir konudur.
Araştırmacılar şöyle diyor:
‘[Sora] bir ateş böceğinin parlamasını kavramakta başarısız olurken, başarılı bir şekilde çimen ve bir yaz [gecesi] üretiyor. Veri açısından, bunun主要 olarak [Sora]’nın ateş böceği ile ilgili konularda eğitilmediği, ancak çimen ve gece konusunda eğitildiği için olduğunu varsayıyoruz. Ayrıca, [Sora] yukarıdaki [görselde] gösterilen videoyu görmüş olsaydı, bir ateş böceğinin nasıl görünmesi gerektiğini anlayacaktı.’
Yeni bir veri seti sunuyorlar ve metodolojilerinin, gelecekteki çalışmalarda, mevcut modellere göre kullanıcı beklentilerine daha iyi uyumlu veri koleksiyonları oluşturmak için rafine edilebileceğini öne sürüyorlar.
Kullanıcı Odaklı Veri
Temel olarak, bir veri toplama yaklaşımı öneriyorlar, bu, bir model türü için özel veri (örneğin, LoRA gibi) için özel veri ve geniş ve nispeten seçilmeyen yüksek hacimli koleksiyonlar (örneğin, LAION veri seti gibi) arasında bir yerdedir.
VideoUFO
Yeni yaklaşım, hem metodoloji hem de yeni bir veri seti olarak (oldukça karmaşık bir şekilde) Kullanıcıların Odaklı Olan Metin-Videoda veya VideoUFO olarak adlandırılmıştır. VideoUFO veri seti, 1.9 milyon video klip ve 1291 kullanıcı odaklı konudan oluşmaktadır. Konular, mevcut bir video veri setinden geliştirilmiş ve çeşitli dil modelleri ve Doğal Dil İşleme (NLP) teknikleri aracılığıyla işlenmiştir:

Yeni makalede sunulan konuların örnekleri.












