Anderson’un Açısı

‘Vibe’-Dayalı Görüntü Açıklama Etiketlemenin Riskleri

Published July 25, 2025

Updated April 2, 2026

Martin Anderson

A patron in the museum of banned artifacts. SDXL; Flux; Flux.1 Kontext; Firefly.

Onlara sadece birkaç dolar (veya hiçbir şey) ödenmesine rağmen, ‘zararlı’ içerik için görüntüleri değerlendiren bilinmeyen kişiler, yaptıkları seçimler ile hayatınızı değiştirebilir. Şimdi, Google’dan büyük bir yeni makale, bu açıklama yapanların neyin ‘zararlı’ veya saldırıya açık olduğunu belirlemek için kendi kurallarını oluşturduklarını öne sürüyor – herhangi bir görüntüye karşı tuhaf veya kişisel tepkileri ne olursa olsun. Ne olabilir yanlış?

Yorum Bu hafta, Google Araştırma ve Google Mind arasındaki yeni bir işbirliği, 13’den fazla katkıda bulunanı yeni bir makaleye bir araya getirdi. Bu makale, algoritmalar için görüntüleri puanlarken, açıklama yapanların ‘içgüdüsel hisleri’ nin dikkate alınıp alınmayacağını araştırıyor, nawet eğer tepkileri tanımlanmış puanlama standartlarına uymuyor ise.

Bu, sizin için önemlidir, çünkü puanlayıcılar ve açıklama yapanlar tarafından uzlaşı kuralı ile saldırıya açık bulunanlar, otomatik sansür ve moderasyon sistemlerinde, ‘müstehcen’ veya ‘kabul edilemez’ materyal için kriterlerde ve yeni NSFW güvenlik duvarı* gibi yasalarda (Avustralya’ya da yakında gelmek üzere) ve sosyal medya platformlarındaki içerik değerlendirme sistemleri de dahil olmak üzere çeşitli ortamlarda yer alacak.

Bu nedenle, saldırıya açık olma kriterleri ne kadar genişse, sansür potansiyeli de o kadar geniş olur.

Vibe-Sansür

Bu, makalenin sunduğu tek bakış açısı değil; aynı zamanda, görüntüleri puanlayan kişilerin genellikle kendileri dışında başkalarını neyin rahatsız edebileceğini düşündüklerine daha çok sansür uyguladıklarını ve düşük kaliteli görüntülerin genellikle güvenlik endişeleri yaratmasına rağmen, görüntüdeki kalite ile içerik arasında bir ilişki olmadığını buldu.

Makale, sonuç bölümünde bu iki bulguyu vurguluyor, sanki makalenin merkezi tezi başarısız olmuş, ancak araştırmacıların yine de yayınlamak zorunda kalmışlar gibi.

Bu, alışılmadık bir senaryo değil, ancak makale, dikkatli bir okumayla, daha sinsice bir alt akım ortaya koyuyor: açıklama uygulamalarının, ‘vibe-açıklama’ olarak tanımlayabileceğim şeyi dikkate alabileceğini öne sürüyor:

‘Buluntularımız, mevcut çerçevelerin subjektif ve bağlamsal boyutları, such as duygusal tepkileri, örtülü yargıları ve zararın kültürel yorumlarını hesaba katması gerektiğini gösteriyor. Açıklama yapanların sık sık duygusal dil kullanması ve önceden tanımlanmış zarar etiketlerinden sapmaları, mevcut değerlendirme uygulamalarındaki boşlukları vurguluyor.

‘Açıklama kılavuzlarını, çeşitli kültürel ve duygusal yorumların örneklerini içerecek şekilde genişletmek, bu boşlukları doldurmak yardımcı olabilir.’

Az resimlenmiş yeni makale, ortalama okuyucuya sempatik ve açık örneklerle başlıyor, ancak asıl içerik daha çok soru işareti yaratıyor. Burada, her görüntünün altında, açıklama yapanların duygusal tepkilerini görüyoruz. Kaynak: https://arxiv.org/pdf/2507.16033

İlk bakışta, bu, ‘zarar’ın ne olduğunu bir görüntüde tanımlamaya yönelik bir öneri gibi görünüyor – övgüye değer bir girişim; ancak makale, bu neither arzu edilen nor (necessarily) uygulanabilir olmadığını birkaç kez tekrarlıyor:

‘Açıklama kılavuzlarını, çeşitli kültürel ve duygusal yorumların örneklerini içerecek şekilde genişletmek, bu boşlukları doldurmak yardımcı olabilir […]

‘[…] Açıklama yapanların, belirsiz görüntüler hakkında neden oldukları süreç, thường kişisel, kültürel ve duygusal bakış açılarını yansıtıyor, bunlar zor scaffold veya standardize ediliyor.’

‘Açıklama kılavuzlarını, çeşitli kültürel ve duygusal yorumların örneklerini içerecek şekilde genişletmek’ in, rasyonel bir puanlama sistemine nasıl uyabileceği açık değil; yazarlar, bu noktayı açıklamakta veya net bir teori formüle etmekte zorlanıyorlar. Bu ohleda, merkezi teması kendisi ‘vibe’ tarafından oluşturulmuş gibi görünüyor, aynı zamanda soyut psikolojilerle ilgileniyor.

Basitçe söylemek gerekirse, bu tür kriterlerin açıklama işlem hattına dahil edilmesi, herhangi bir açıklama yapanın güçlü bir şekilde tepki verebileceği herhangi bir materyali (veya konu sınıfını) ‘iptal’ veya ‘bulanıklaştırmak’ için potansiyel olarak izin verebilir.

İkili Yargı

Görüntüler ve metinlerin ne kadar zarar verebileceği, gerçekten de nicelendirmek zor, en azından因为 yüksek kültür genellikle ‘düşük’ kültür ile kesişiyor (örneğin, sanat ve romanlar ile), bu da en eski ‘vibe’-dayalı sansür kriterlerine yol açıyor: thậm chí müstehcen materyal kesin bir tanımdan kaçınıyor, gördüğünüzde bilirsiniz.

Yeni makalenin kapsamlı ve keşifçi tartışmasının altında, empati ve nitel nüans hakkında, çalışma, merkezi, standartlaştırılmış taksonomilerin (örneğin ‘şiddet’, ‘çıplaklık’, ‘nefret’, vb.) otoritesine karşı sessizce saldırıyor. Bu taksonomiler, platformların moderation uygulamalarını uygulanabilir hata payları ile ölçeklendirmelerine izin veriyor (genellikle).

Ortaya çıkan argüman, sadece merkezden uzak, subjektif, bağlamsal insan geri bildiriminin GenAI çıkışını düzgün bir şekilde yargılayabileceğini öne sürüyor.

Bununla birlikte, bu rõ ràng ölçeklenebilir değil, çünkü ‘vibe’ ve yaşam deneyimi ile bir trilyon-görüntü filtreleme işlem hattını çalıştıramazsınız. Zararı çeşitli özelliklere nicelendirmek, oluşan filtreleme sisteminin kapsamını sınırlamak ve ‘kenar’ durumlarda yeni direktifleri beklemek zorundasınız (tıpkı mağdur tarafların bazen kendi özel durumlarına hitap eden yeni yasaların çıkmasını beklemek zorunda kalmaları gibi).

Bunun yerine, yeni makale, otomatik moderasyon işlem hattının kapsamını otomatik olarak genişleten ve aşırı bir şekilde ihtiyatlı bir şekilde hata yapan bir tacit mandate sunuyor, böylece herhangi bir açıklama yapanın en özel ve tekrarlanamaz tepkisi, kimsenin rahatsız olmadığı bir görüntüyü cezalandırabilir.

Ahlaki Genişleme

Makale, bir taraf tutmaktan ziyade keşif yönünde eğilimlidir, ancak bilimsel yöntemi içerir: yazarlar, daha geniş bir yelpazede açıklama yapan tepkilerini tanımlamak (kesin olarak ölçmek değil) ve bu tepkilerin cinsiyet ve diğer demografik faktörler açısından nasıl değiştiğini incelemek için bir çerçeve geliştirdiler.

Testlerin ‘harm-odaklı’ ^† analizinin yanı sıra, süreç, test katılımcılarının ilave yorumlarında ‘ahlaki akıl yürütme’ yi analiz etti. Bu katılımcılar, değiştirilmiş bir test veri kümesini içeren görüntüleri ve ilgili metinleri açıklamaya davet edildi.

Bu ‘ahlaki sentiment autorater’, Ahlaki Temeller Teorisi tarafından tanımlanan Bakım, Eşitlik, Orantılılık, Bağlılık, Otorite ve Temizlik gibi ahlaki değerleri yakalamak üzere tasarlandı – bu teori, akışkan ve gelişen doğası nedeniyle, büyük ölçekli insan puanlama sistemleri için gerekli somut tanımların oluşturulmasına aykırı.

Bu teori tarafından bilgilendirilen, yazarlar ayrıca korku, öfke, üzüntü, iğrenme, karışıklık ve gariplik gibi güvenlik boyutlarını kategorize etti.

Yazarlar, ilkin korku hakkında açıklamalarda bulunuyor:

‘Birçok açıklama yapan, “korkutucu” (örneğin, bozulmuş yüzler veya bir çocuğa yönelik bir silah gibi şiddeti sugerleyen görüntüler için) gibi terimleri kullandı, veya “rahatsız edici” (örneğin, “Mutlaka iğrenç, çok rahatsız edici ve rahatsız edici” veya “Kan gibi görünüyor” için kırmızı boya) veya “üzücü” (örneğin, “Görüntüdeki çocuk çok fazla bozulma var… Tuhaf buluyorum, çünkü çocuk yanlış tarafta oynuyor gibi görünüyor”).

‘Aşağıdaki grafik, “korku”yu en sık bahsedilen duygu olarak nicelendiriyor (233 mention, neredeyse yarısı şiddet içerikli, zararlı olmayan içerikte de ikinci en yüksek korku mention).

Zarar kategorileri boyunca emotion-related terimlerin dağılımı, çubuk yükseklikleri yorumların oranlarını gösteriyor, çubukların içinde commentaire sayıları ve her kategori üzerindeki toplam yorum sayıları.

Yeni güvenlik boyutlarının dahil edilmesine ilişkin olarak, yazarlar şunları belirtiyor:

‘Bu ortaya çıkan temalar, AI görüntü değerlendirme çerçevelerini subjektif, duygusal ve algısal unsurları entegre ederek zenginleştirmeye yönelik kritik bir ihtiyacı vurguluyor.’

Bu, tehlikeli bir yola girmek olabilir, çünkü açıklama süreçlerinin herhangi bir açıklama yapanın bir materyale karşı tepkisine dayalı olarak keyfi olarak kurallar eklemesine izin veriyor, yerine tüm açıklama yapanların tanımlanmış standartlara ve referanslara uymasını gerektiriyor.

Eğer bu fikre ekonomik bir zorunluluk atfetmek mümkün olsaydı, bu yaklaşımın ‘hiper-ölçek insan açıklaması’ na izin verdiği söylenebilir, burada işlem sürtünmesiz, katılımcılar kendi kendini düzenleyen ve kendi kurallarını ve sınırlarını belirleyenlerdir.

Standart açıklama altında, kurallar insan uzlaşısı ile belirlenir ve insan açıklama yapanlar tarafından uyulur; makalede öngörüldüğü senaryoda, bu ilk denetim katmanı kaldırılmış veya aşağı çekilmiştir: etkili bir şekilde, herhangi bir açıklama yapanın güçlü bir şekilde tepki verebileceği herhangi bir görüntü işaretlenebilir (muhtemelen çünkü uzlaşma hem pahalı hem de zaman alıcı).

Rorschach Yargıları

Açıklamanın amacı, uzman denetimi, çoklu açıklama yapanlar arasında ortak bir anlaşma veya (ideal olarak) her ikisi aracılığıyla doğru bir tanım veya açıklama elde etmektir. Bununla birlikte, sınırlı ancak iyi tanımlanmış bir zarar hiyerarşisini ‘intuitif’ ve yüksek kişisel yorumcu bir duruşa genişletmek, bir Rorschach testini açıklamaya eşdeğerdir.

Örneğin, makaleye göre bazı açıklama yapanlar, düşük görüntü kalitesini (örneğin, JPEG artifacts ve bir görüntüdeki anlamsız teknik hatalar) ‘rahatsız edici’ veya ‘zarar göstergesi’ olarak yorumladı:

‘Bu, görevin görüntü kalitesi hakkında talimat vermemesine rağmen oldu. Ayrıca, açıklama yapanlar bu kalite artifactsını anlamlı olarak yorumladı.’

‘Bir açıklama yapan, “Görüntü tamamen zararsız; sadece biraz bozulmuş bir yüzü var.” dedi. Aynı şekilde, bazı açıklama yapanlar, görüntü kalitesi artifactsını kasıtlı zarar olarak yorumladı ve hatalara duygusal anlam verdi. Örneğin, bir diğer açıklama yapan, farklı bir görüntüdeki bozulmuş bir yüzü “acının göstergesi” olarak yorumladı.’

Önceden tanımlanmış güvenlik kategorilerinin üzerinde subjektif, duygusal veya bağlamsal tepkileri yükseltmek, herhangi bir şeyi keyfi olarak zararlı olarak işaretleyebileceği ve ‘soğutma etkisi’ nin ad hoc kaldırma veya materyalin olumsuz yeniden kategorileştirilmesinin gerçek bir olasılık haline gelebileceği bir rejim açıklamasına yol açıyor.

Makale “Just a strange pic”: GenAI Görüntü Güvenlik Açıklama Görevlerinde Çeşitli Açıklama Yapanların Perspektiflerinden ‘Güvenlik’ i Değerlendirme Arxiv’de bulunabilir.

* Bir kısayol, çünkü burada merkezi konu değil; yeni yasa kapsamında, suça karışan sitelerin ya kendilerini denetlemeleri, karmaşık ve pahalı inceleme sistemleri ve yaş doğrulama teknolojileri uygulamaları (bunlar sadece en büyük siteler için ulaşılabilir) veya UK izleyicilerden domainlerini engellemeleri (yeniden kendi masrafları ile) bekleniyor.

† ‘Çocukları düşünün’ mimesi ile basit bir şekilde ifade ediliyor, bu da apparent altruistik amaçlar için birinin ahlaki ajansının özümsenmesini alaycı bir şekilde eleştiriyor.

İlk olarak Cuma, 25 Temmuz 2025 tarihinde yayımlandı

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

‘Vibe’-Dayalı Görüntü Açıklama Etiketlemenin Riskleri

Vibe-Sansür

İkili Yargı

Ahlaki Genişleme

Rorschach Yargıları

You may like