Anderson’un Açısı
Gerçek Fotoğrafları Çekmeden Önce AI Kullanarak Geliştirmek

GenAI’yi fotoğrafları çekildikten sonra düzeltmek yerine araştırmacılar, kullanıcıya nasıl hareket etmesi, poz vermesi ve kareyi önceleyeceği konusunda önceden bilgi veren bir sistem eğitmiştir, bu da hatırlanabilirlik yapan şeylerin incelenmiş bilgilerine dayanmaktadır.
Fotoğrafları sonra düzeltilmesi son zamanlarda kolaylaştı, çünkü üreticiler ve teknoloji platformları artan şekilde kamera içi düzenleme sunuyor, böylece kullanıcılar fotoğrafları çektikten hemen sonra değiştirebiliyor. Bu tür popüler sistemler arasında Google’ın konuşmalı düzenleme ve Samsung’un yaratıcı düzenleme gibi sistemler bulunur.
Ancak, ‘otantiklik’ över ‘AI ile geliştirilmiş’ sonuçlara favori veren yeni bir trend, bu sistemlerin hedeflediği birçok tüketicinin ‘değiştirilmiş’ fotoğrafları AI çamuru olarak görmesine neden olabilir.
Belki de bu, Google’ın Gemini tarafından bilgilendirilen AI eğitilmiş bir ‘kamera koçu’ oluşturmasına ilham verdi, bu koç fotoğrafı çekme sürecinde doğrudan talimat verebiliyor:

Google’ın Kamera Koçu, kullanıcıya fotoğrafı yeniden çerçevelendirmesi dahil temel tavsiyeler veriyor. Kaynak
Kapalı bir sistem olarak, Camera Coach, Gemini’yi kullanarak kullanıcıya çerçeveleme (yukarıdaki resme bakınız) veya duruşta küçük değişiklikler yapma konusunda yardım ediyor gibi görünüyor.
Bu sistem, Google’ın Kamera Koçu mantığının aksine, daha ince bir yorum seti aradı:
‘Hesaplamalı fotoğrafçılık ayarlamalarının odaklandığı post-hoc düzeltmelere (örneğin, “görüntüyü daha parlak yapın”) karşılık, kullanıcıların daha iyi bir fotoğraf için anında alabileceği semantik eylemlere odaklanıyoruz, örneğin “Herbiriniz birbirinize doğru dönün”.’
Sonuçta MemBench koleksiyonu, yaklaşık 10.000 görüntü içerir ve bu görüntüler 1.570 sahneye gruplandırılır ve her sahne için ortalama 6,5 görüntü bulunur. Yazarlar tarafından oluşturulan kelime bulutu (aşağıdaki resme bakınız), veri setindeki geniş bir semantik kategori yelpazesini gösterir:

MemBench’teki en sık kullanılan terimlerin kelime bulutu.
Kaynak fotoğrafların ortalama bir hatırlanabilirlik puanı 0,63 iken, aynı sahnedeki en hatırlanabilir çekimler 0,51’den 1,0’a kadar uzanıyordu ve iki grup arasında belirgin bir örtüşme vardı:

Her sahne içindeki en az ve en çok hatırlanabilir görüntülerin hatırlanabilirlik puanı dağılımları.
Geri bildirim, kısa yedi kelimelik notlardan, dikkate değer şekilde daha uzun talimatlara (aşağıdaki resmin solunda) kadar değişiyordu. Her bir tavsiye, GPT-5 Mini kullanılarak küçük eylem türlerine bölündü (aşağıdaki resmin sağında):

İçerik kelimelerinde geri bildirim uzunluğu dağılımı ve kategori içi kategori sıklığına göre kategori içi alt eylemlerin kategorileştirilmesi.
Yazarlar, çoğu önerinin konunun pozunda odaklandığını, sahne içeriğinde veya anlamında değişikliklerin ikinci sırada geldiğini ve çerçevelenmenin genellikle poz ile bağlantılı olduğunu ve aydınlatma ayarlarının sık sık semantik değişikliklerle bağlantılı olduğunu belirtirler.
Flux Kapasitesi
Hatırlanabilirliğin geri bildirimiyle artırılıp artırılmadığını değerlendirmek için, kullanıcı uyumu FLUX.1 Kontext üretken modeli kullanılarak simüle edildi, bu model fotoğrafçı olarak bir proxy olarak kullanıldı. Kaynak görüntü ve metin geri bildirimi verildiğinde, FLUX tarafından önerilen değişiklikleri simüle eden bir düzenlenmiş sürüm oluşturuldu:

Soldaki görüntüler gerçek ve veri setinden, her bir resmin sağında (her bir durumda) sarı altındaki.prompta dayalı olarak FLUX tarafından oluşturulan görüntülerdir.
Hem orijinal hem de düzenlenmiş görüntüler bir hatırlanabilirlik tahmini aracılığıyla geçirildi, bu da düzenlenmiş sürümün daha yüksek bir puan elde ettiği sıklığının ve başlangıç görüntüsüne kıyasla ne kadar büyük bir kazanç elde ettiğinin ölçülmesini sağladı.
Memorability odaklı referans tavsiyesine benzerlik, ground-truth açıklamalarına karşı kafa karışıklığı hesaplanarak ölçüldü ve sahne düzeyinde %80-%20 bölme uygulandı, böylece test sadece eğitim sırasında kullanılmayan sahnelerle yapıldı.
Durum
Mevcut çok modelli büyük dil modellerinin hatırlanabilirlik farkındalığı test edildi. LaMem veri setinden görüntüler several önde gelen modellere gösterildi ve bu modellere görüntü hatırlanabilir olup olmadığı soruldu. Modelin güven puanı, orijinal çalışmadaki insan görüntüleyicileri tarafından verilen puanlarla karşılaştırıldı:

Temel çok modelli modellerin hatırlanabilirliği yakalayamadığını gösteren testler.
İnsan yargıları ile neredeyse anlamlı bir korelasyon bulunmadı ve yazarlar, büyük ölçekli ön eğitimlerine rağmen modellerin insanların tutarlı olarak hatırladıkları şeyi izlemediğini iddia etti.

LaMem veri setinden örnekler. Kaynak
MemCoach
MemCoach, çekme düğmesine basılmadan önce uygulanabilecek, anlık, semantik talimatlar üzerine odaklanıyor – örneğin, poz ayarlama, etkileşimleri değiştirme veya sahne öğelerini değiştirme. MemCoach tarafından sağlanan geri bildirim, 7 ila 102 içerik kelimesi arasında değişiyor. Hatırlanabilirlik, makaleye göre, basit kompozisyon ayarlamalarından çok konu konfigürasyonu ve anlatı ipuçları tarafından yönlendiriliyor gibi görünüyor:

MemCoach pipeline’inin概emi, hatırlanabilirlik odaklı rehberlik için bir öğretmen MLLM ile öğrenci cevaplarını birleştiren ve öğrenci aktivasyonlarını geliştirilmiş, hatırlanabilirlik odaklı geri bildirimi üretmek için eğitimsiz olarak enjekte edilen bir hatırlanabilirlik yönlendirme vektörü oluşturmak için katmanlar arası aktivasyon farklılıklarının ortalamasını alan bir pipeline.
Testler
Yeni sistemin test aşamasında, yedi Multimodal Large Language Model (MLLM) kullanıldı: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; ve LLaVA-OneVision-1.5. Ayrıca, GPT-5 Mini, temsilci kapalı kaynaklı modellerden biri olarak dahil edildi ve Q-Instruct ve AesExpert gibi estetik özel modeller de dahil edildi. MLLM’ler, sıfır çekim ve öğretmen orakelleri olarak çeşitli şekilde çalıştı.
InternVL3.5, hem öğretmen hem de öğrenci modelleri için kullanıldı ve MemBench eğitim bölmesi, karşıt örnekler oluşturmak için kullanıldı:

MemCoach performansı, öğretmen orakelleri, estetik özel modeller ve sıfır çekim temel çizgileri boyunca state-of-the-art MLLM’lerle karşılaştırıldı, daha yüksek İyileştirme Oranı ve rekabetçi Göreceli Hatırlanabilirlik ile birlikte en düşük kafa karışıklığı gösterildi, daha tutarlı ve hatırlanabilirlik odaklı geri bildirimi gösteriyor.
Yukarıdaki tabloda (yukarıdaki resme bakınız), MemCoach’in, karşılaştırmalı modellerden daha etkili hatırlanabilirlik tavsiyesi sağladığını görüyoruz ve yönlendirilmiş InternVL3.5 modeli daha sık ve daha büyük bir miktarla hatırlanabilirliği artırıyor, GPT-5 Mini’ye kıyasla %5’lik bir İyileştirme Oranı artışı ve yönlendirilmemiş sürümüne kıyasla %31,81’lik bir Göreceli Hatırlanabilirlik artışı gösteriyor.
Ayrıca, estetik odaklı sistemlerin performansını da geride bırakıyor ve bu, herhangi bir ek eğitim gerektirmiyor. Daha düşük kafa karışıklığı, makaleye göre, geri bildiriminin insan hatırlanabilirlik yargıları tarafından ödüllendirilen aynı dil kalıplarını izlediğini de gösteriyor:

Birden çok multimodal omurga boyunca genellemeye ilişkin sonuçlar, MemCoach’in, İyileştirme Oranını ve Göreceli Hatırlanabilirliği tutarlı olarak artırırken, çoğu model için kafa karışıklığını azalttığını gösteriyor.
Bir başka test (yukarıdaki tabloya bakınız), MemCoach’in, test edilen her multimodal omurgaya hatırlanabilirlik odaklı geri bildirimi artırdığını, tutarlı İyileştirme Oranı ve Göreceli Hatırlanabilirlik kazançları sağladığını ve çoğu model için kafa karışıklığını azalttığını gösteriyor.
Son olarak, nitel bir değerlendirme yapıldı ve MemCoach geri bildirimi örnekleri incelendi, bu örneklerde kaynak görüntü, doğal dil önerisi ve hayal edilen geliştirilmiş sonuç birlikte incelendi:

MemCoach tarafından üretilen hatırlanabilirlik odaklı geri bildirimin nitel örnekleri.
Bu sonuçlardan, yazarlar şunları belirtiyorlar:
‘Örnekler, modelin önerdiği çeşitlilik gösteren tavsiyeleri vurgulamaktadır, Bunlar, gaze yönünü değiştirmek, poz veya el pozisyonunu ayarlamak gibi ince kompozisyon ayarlamalarından, nesne kaldırma veya yüz ifadesini değiştirme gibi anlamsal müdahalelere kadar uzanmaktadır. ‘
‘Geri bildirim, doğal olarak yorumlanabilir ve uygulanabilir, doğrudan uygulanabilecek kısa ve net metin talimatları (çoğunlukla “Getir”, “Dur”, “Kaldır” gibi fiilleri içeren) ile ifade edilmektedir, böylece nasıl hatırlanabilir bir fotoğraf çekileceği söylenebilmektedir.’
SONUÇ
Google’ın kapalı kutu yaklaşımının metodolojisinin MemBench projesi ile karşılaştırılması oldukça ilginç olurdu – özellikle de Google’ın sistemini tanımlamak için hangi merkezi standartları, referansları ve veritabanlarını kullandığını bilmek için.
Bu tür sistemlerin olumsuz yönü, ölçekte uniform standartları dayatma riski taşıması ve bu standartların zamanla meme ve klişe olarak son bulması – bir tür görsel AI tire tartışması gibi, burada doğru prosedür kullanımda lanetlenmiş gibi görünmektedir.
* Yazarların inline alıntılarını hyperlink’e dönüştürmem, makale içinde veya projenin sitesinde başka bir yerde sunulmamışsa.
† Makale, ‘ek malzeme’ye atıfta bulunmakta, ancak bu malzeme makalede, temel Arxiv listesinde veya proje sitesinde bulunamadı.
İlk olarak 26 Şubat 2026 Perşembe günü yayınlandı












