Yapay Zekâ
Gerçek Kimlikler Sentetik Veri Setlerinden Geri Kazanılabilir

2022, üretken AI’ın yıkıcı potansiyelinin geniş bir kamuoyu tarafından ilk kez dikkat çektiği anı işaret ettiyse, 2024, şirketlerin onun gücünü kullanmaya hevesli olarak, temelindeki verilerin yasal olmasıyla ilgili soruların ön plana çıktığı yıl oldu.
ABD’nin adil kullanım doktrini, akademik ve ticari araştırma sektörlerinin üretken AI’ı keşfetmesine uzun süredir izin veren örtülü akademik lisansla birlikte, artan intihal kanıtları ortaya çıktıkça, giderek daha dayanılmaz hale geldi. Son olarak, ABD, şimdilik, AI tarafından üretilen içeriğin telif hakkına sahip olmasını yasakladı.
Bu konular çoktan çözülmüş değil ve yakın zamanda çözülecek gibi de görünmüyor; 2023 yılında, kısmen artan medya ve kamu endişesi nedeniyle, ABD Telif Hakkı Ofisi, AI tarafından üretilen çıktının yasal statüsüne ilişkin bu AI üretken yönünü araştırmaya başladı ve Temmuz 2024’te ilk segmenti (dijital kopyalarla ilgili) yayınladı.
Bu arada, iş çıkarları, istedikleri modellerin onları yasal sonuçlara maruz bırakabileceğinden, kesin yasalar ve tanımlar ortaya çıktığında, pahalı modellerini kullanamadıkları için hayal kırıklığına uğruyorlar.
Kısa vadeli pahalı çözüm, üretken modelleri, şirketlerin kullanma hakkına sahip olduğu verilerle eğitmek suretiyle meşrulaştırmak oldu. Adobe’nin metin-görsel (ve şimdi metin-videо) Firefly mimarisi, esas olarak 2014 yılında Fotolia stok görüntü veritabanının satın alınmasıyla güçlendiriliyor ve tamamlayıcı olarak, telif hakkı süresini doldurmuş kamu malı verilerin kullanılmasıyla destekleniyor. Aynı zamanda, mevcut stok fotoğraf tedarikçileri gibi Getty ve Shutterstock, yeni değer verilen lisanslı verilerine, GenAI sistemlerini geliştirmek veya lisanslı içerik sağlamak için artan sayıda anlaşmayla cevap verdi.
Sentetik Çözümler
AI modelinin örtülü uzayından telif hakkı içeren verileri kaldırmak sorunlarla dolu bir iştir, bu alanda yapılan hatalar şirketler için çok maliyetli olabilir.
Bir alternatif ve çok daha ucuz çözüm, bilgisayar görme sistemleri (ve ayrıca Büyük Dil Modelleri veya LLM’ler) için sentetik veriler kullanmaktır, burada veri kümesi, hedef alanın (yüzler, kediler, kiliseler veya daha genel bir veri kümesi gibi) rastgele oluşturulmuş örneklerinden oluşur.
Bu kişi gerçekten var olmayan gibi siteler, uzun zaman önce, gerçekçi görünen fotoğrafların, Gerçekçi Karşıt Ağlar (GAN’lar) gibi GAN’lar aracılığıyla sentezlenebileceğini popülerleştirdi.
Dengeleme
Sorun, sentetik verileri üreten sistemlerin kendilerinin gerçek verilerle eğitilmiş olmasıdır. Eğer bu verilerin izleri sentetik verilere sızarsa, bu, kısıtlanmış veya yetkisiz materyalin para kazanmak için kullanıldığının kanıtı olabilir.
Bunu önlemek ve gerçekten ‘rastgele’ görüntüler üretmek için, bu modellerin iyi genelleştirilmiş olması gerekir. Genelleme, bir eğitilmiş AI modelinin, yüksek düzeyli kavramları (yüz, adam, kadın gibi) intrinsic olarak anlamasının bir ölçüsüdür.
Yüz Açıklaması
İsviçre’den yeni bir makale, sentetik verilerden orijinal, gerçek görüntülerin geri kazanılabileceğini iddia ediyor:

Örnek yüz görüntüleri, eğitim verisinden sızdırıldı. Üst satırda orijinal (gerçek) görüntüleri görüyoruz; alt satırda, gerçek görüntüleri önemli ölçüde andıran rastgele üretilen görüntüleri görüyoruz. Kaynak: https://arxiv.org/pdf/2410.24015
Yöntem, Veri ve Sonuçlar
Araştırmada, Üyelik Tahmin Saldırısı kullanıldı.
Sonuç
Son zamanlarda, medya dikkati, AI modellerinin AI tarafından üretilen verilerle eğitilmesiyle elde edilen azalan getirilere odaklandı.
Ancak İsviçre’deki yeni araştırma, AI’ı kullanarak kar etmek isteyen şirketler için daha acil bir sorun getiriyor: sentetik verilerde, yetkisiz veya korunan veri kalıplarının kalıcı olması.












