Anderson’un Açısı
Yaklaşık %80’lik Eğitim Veri Setlerinin Şirketler İçin Yasal Bir Tehlike Olabileceği

LG AI Araştırması’ndan bir recent paper, eğitim amaçlı kullanılan ve “açık” olarak nitelendirilen veri setlerinin aslında şirketler için yasal riskler taşıyabileceğini öne sürüyor. Buna göre, dört açık veri setinden yaklaşık üçü, aslında yasal riskler içeriyor.
Bu riskler, telif hakkı ihlalleri veya lisans sözleşmelerindeki kısıtlamalar gibi çeşitli yasal sorunları içerebiliyor. Eğer bu bulgular doğruysa, kamu veri setlerine güvenen şirketlerin, mevcut AI pipeline’larını yeniden değerlendirmeleri veya yasal sorunlarla karşılaşma riskini göze almaları gerekiyor.
Araştırmacılar, bu sorunu çözmek için radikal ve tartışmalı bir çözüm öneriyorlar: Veri setlerinin geçmişini hızlı ve doğru bir şekilde tarayabilen ve insan avukatların yerini alabilecek AI tabanlı uyum ajanları.
Makalede şöyle deniyor:
‘AI eğitim veri setlerinin yasal risklerini sadece lisans sözleşmelerini inceleyerek belirlemek mümkün değildir; veri setlerinin yeniden dağıtımı için kapsamlı bir analiz yapılması zorunludur.’
‘Bu analiz, insan kapasitesinin ötesinde olduğu için, AI ajanları bu boşluğu doldurabilir ve daha hızlı ve doğru bir şekilde bunu gerçekleştirebilir. Otomasyon olmadan, kritik yasal riskler büyük ölçüde incelenmemiş olarak kalır ve etik AI geliştirme ve düzenleyici uyum tehlikeye girer.’
‘AI araştırma topluluğunun, uçtan uca yasal analizi temel bir gereksinim olarak tanımaya ve AI destekli yaklaşımları benimsemeye çağırıyoruz.’
Araştırmacılar, 2.852 popüler veri setini incelediler ve bunların sadece 605’inin (%21) ticari amaçlar için yasal olarak güvenli olduğunu tespit ettiler.
Yeni makale, Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing başlığını taşıyor ve sekiz LG AI Araştırması araştırmacısı tarafından yazılmıştır.
Haklar ve Yanlışlar
Yazarlar, şirketlerin AI geliştirme alanında ilerlerken karşılaştıkları yasal belirsizliklerin zorluklarını vurguluyorlar – akademik “adil kullanım” anlayışının yerini, yasal korumaların belirsiz olduğu ve güvenli liman garantisi olmayan bir ortam alıyor.
Bir yayında değinildiği üzere, şirketler eğitim veri setlerinin kaynakları hakkında giderek daha savunmacı hale geliyor. Yazar Adam Buick şöyle diyor:
‘OpenAI, GPT-3 için ana veri kaynaklarını açıklamıştı, ancak GPT-4’ü tanıtlayan makale, sadece modelin eğitim verisinin ‘kamu olarak erişilebilen veri (örneğin internet verileri) ve üçüncü taraf sağlayıcılar tarafından lisanslanan veriler’ karışımı olduğunu açıkladı.’
‘Bu şeffaflıktan uzaklaşmanın nedenleri, AI geliştiricileri tarafından belum detaylı bir şekilde açıklanmadı. Bazı durumlarda, hiç bir açıklama yapılmadı.’
‘OpenAI, GPT-4 hakkında daha fazla ayrıntı vermemesinin nedenini, ‘rekabet ortamı ve büyük ölçekli modellerin güvenlik etkileri’ konusunda endişeler nedeniyle açıklamış, ancak rapor içinde daha fazla açıklama yapılmamıştır.’
Şeffaflık, sometimes samimi veya yanlış bir terim olabilir – örneğin, Adobe’nin amiral gemisi Firefly üretken modeli, Adobe’nin kullanma hakkına sahip olduğu stok verilerine dayanıyordu ve müşterilere sistem kullanımının yasal güvencesi konusunda güvence veriyordu. Daha sonra, bazı kanıtlar ortaya çıktı ve Firefly veri setinin aslında diğer platformlardan potansiyel olarak telif hakkı ihlali içeren verilerle “zenginleştirilmiş” olabileceği görüldü.
Bu hafta tartıştığımız gibi, lisans uyumluluğunu sağlamak için tasarlanan girişimlerin sayısı artıyor; bu girişimlerden biri, sadece esnek Creative Commons lisanslarına sahip YouTube videolarını tarayarak veri setlerini oluşturuyor.
Sorun, lisansların kendilerinin hatalı veya yanlış verilmiş olabileceği ve yeni araştırmanın da bunu ima ettiği yönünde.
Açık Kaynaklı Veri Setlerini İnceleme
NEXUS Data Compliance framework sistemi, ‘var olan yasal dayanaklara ve önemsenebilir durumlara’ dayanıyor.
NEXUS, otomatik veri uyumluluğu için AutoCompliance adlı AI destekli bir ajan kullanıyor. AutoCompliance, üç ana modülden oluşuyor: web keşfi için bir navigasyon modülü, bilgi çıkarma için bir soru-cevap (QA) modülü ve yasal risk değerlendirmesi için bir puanlama modülü.

AutoCompliance, kullanıcı tarafından sağlanan bir web sayfasıyla başlar. AI, önemli ayrıntıları çıkarır, ilgili kaynakları arar, lisans şartlarını ve bağımlılıkları tanımlar ve yasal risk puanı atar. Kaynak: https://arxiv.org/pdf/2503.02784
Bu modüller, sentetik ve insan tarafından etiketlenmiş verilerle eğitilmiş AI modelleriyle güçlendiriliyor. AutoCompliance ayrıca, verimliliği artırmak için sonuçları önbelleğe almak için bir veritabanı kullanıyor.
AutoCompliance, kullanıcı tarafından sağlanan bir veri seti URL’siyle başlar ve bu URL’i kök varlık olarak ele alır, lisans şartlarını ve bağımlılıklarını arar, bağlı veri setlerini geri izler ve bir lisans bağımlılık grafiği oluşturur. Tüm bağlantılar haritalandıktan sonra, uyumluluk puanları hesaplar ve risk sınıflandırması yapar.
Yeni çalışmada tanımlanan Data Compliance framework’ü, veri yaşam döngüsünde yer alan çeşitli varlık türlerini tanır; bunlar, AI eğitiminde temel girdi olarak kullanılan veri setleri; veri işleme yazılımı ve AI modelleri; ve veri işlemlerini kolaylaştıran Platform Hizmet Sağlayıcıları.
Sistem, yasal riskleri bu çeşitli varlıkları ve bağımlılıklarını dikkate alarak kapsamlı bir şekilde değerlendirir; sadece veri setlerinin lisanslarını değerlendirmenin ötesine geçer ve AI geliştirilmesinde yer alan bileşenlerin daha geniş bir ekosistemini içerir.

Data Compliance, veri yaşam döngüsü boyunca yasal riski değerlendirir. Veri seti ayrıntılarına ve 14 kriterlere dayalı puanlar atar, bireysel varlıkları sınıflandırır ve bağımlılıklar boyunca riski toplar.
Eğitim ve Metrikler
Araştırmacılar, Hugging Face’den en çok indirilen 1.000 veri setinin URL’lerini çıkardılar ve 216 öğeyi rastgele örnek olarak seçtiler.
EXAONE modeli, araştırmacıların özel veri setinde ince ayarlandı. Navigasyon modülü ve soru-cevap modülü sentetik verilerle, puanlama modülü ise insan tarafından etiketlenmiş verilerle eğitildi.
Beş yasal uzman, en az 31 saat benzer görevlerde eğitim gördü ve 216 test durumu için ground-truth etiketler oluşturdu. İnsan uzmanları, bağımlılıkları ve lisans şartlarını manuel olarak tanımladı, ardından bulgularını tartışarak ve birleştirdiler.
Eğitimli, insan tarafından kalibre edilmiş AutoCompliance sistemi, ChatGPT-4o ve Perplexity Pro ile test edildi. Özellikle lisans şartlarında daha fazla bağımlılık keşfedildi:

216 değerlendirme veri seti için bağımlılık ve lisans şartları tanımlama doğruluğu.
Makalede şöyle deniyor:
‘AutoCompliance, tüm diğer ajanları ve insan uzmanını önemli ölçüde geride bırakarak, her görevde %81,04 ve %95,83’lük bir doğruluk oranıyla başarılı oldu. Buna karşılık, ChatGPT-4o ve Perplexity Pro, Kaynak ve Lisans görevlerinde sırasıyla daha düşük doğruluk gösterdi.’
‘Bu sonuçlar, AutoCompliance’in üstün performansını gösteriyor ve her iki görevi de şaşırtıcı bir doğrulukla ele alabileceğini kanıtlıyor. Ayrıca, bu alanlarda AI tabanlı modeller ile insan uzmanları arasındaki önemli performans farkını da vurguluyor.’
Verimlilik açısından, AutoCompliance yaklaşımı sadece 53,1 saniyede çalıştı, insan uzmanlarının aynı görevleri gerçekleştirmesi ise 2.418 saniye sürdü.
Değerlendirme çalışması, 0,29 ABD Doları maliyetle gerçekleştirilirken, insan uzmanları için aynı görevlerin maliyeti 207 ABD Doları olarak hesaplandı. Ancak, bu maliyetin, bir GCP a2-megagpu-16gpu düğümünün aylık 14.225 ABD Doları olarak kiralanmasıyla ilişkili olduğu not edilmelidir – bu, büyük ölçekli operasyonların maliyet etkinliğini vurgulamaktadır.
Veri Seti İncelemesi
Araştırmalar için, araştırmacılar 3.612 veri setini birleştirdiler; bu, Hugging Face’den en çok indirilen 3.000 veri seti ve 2023 Data Provenance Initiative‘den 612 veri setini içeriyordu.
Makalede şöyle deniyor:
‘3.612 hedef varlık üzerinden, 17.429 benzersiz varlık tanımladık; 13.817 varlık, hedef varlıkların doğrudan veya dolaylı bağımlılıkları olarak ortaya çıktı.’
‘Ampirik analiz için, bir varlık ve lisans bağımlılık grafiğinin tek katmanlı bir yapıya sahip olduğunu (varlık bağımlılık içermiyorsa) veya çok katmanlı bir yapıya sahip olduğunu (varlık bir veya daha fazla bağımlılığa sahipse) kabul ediyoruz.’
‘3.612 hedef veri setinin, 2.086’sı (%57,8) çok katmanlı yapıya sahipken, diğer 1.526’sı (%42,2) tek katmanlı yapıya sahipti ve bağımlılık içermiyordu.’
Telif hakkı ile korunan veri setleri, sadece yasal yetki ile yeniden dağıtılabilir; bu yetki, bir lisans, telif hakkı kanunlarındaki istisnalar veya sözleşme hükümlerinden gelebilir. Yetkisiz yeniden dağıtım, telif hakkı ihlali veya sözleşme ihlali gibi yasal sonuçlara yol açabilir. Bu nedenle, uyumsuzluğun açık tanımlanması çok önemlidir.

Makaledeki Kriter 4.4’e göre tespit edilen dağıtım ihlalleri.
Çalışma, 9.905 uyumsuz veri seti yeniden dağıtım vakası tespit etti; bunların %83,5’i lisans şartları tarafından açıkça yasaklanıyordu ve yeniden dağıtım明 bir yasal ihlal oluşturuyordu, %16,5’i ise lisans koşullarında çelişkiler vardı ve yeniden dağıtım teoride mümkündü, ancak gereken şartları karşılamıyordu, bu da yasal risk oluşturuyordu.
Araştırmacılar, NEXUS’ta önerilen risk kriterlerinin evrensel olmadığını ve yargı yetkisine ve AI uygulamasına göre değişebileceğini kabul ediyorlar ve gelecekteki geliştirmelerin, değişen küresel düzenlemelere uyum sağlamak ve AI destekli yasal incelemeyi iyileştirmeye odaklanması gerektiğini belirtiyorlar.
Sonuç
Bu makale, karmaşık ve genellikle hoş olmayan bir makale, ancak endüstriyel AI benimsemesinin belki de en büyük engelini ele alıyor – görünüşte “açık” olan verilerin daha sonra çeşitli varlıklar, kişiler ve organizasyonlar tarafından iddia edilebileceği olasılığı.
DMCA ihlalleri, her vaka başına büyük para cezalarına yol açabilir. Araştırmacılar tarafından tespit edilen ihlallerin potansiyel yasal sorumluluğu gerçekten önemli.
Ayrıca, şirketlerin, data provenance’ı anlamak için gerçekçi araçlara sahip olmadıkları sürece, data provenance’ı takip etmediklerini iddia edemezler. Mevcut durumda, şirketlerin veri setlerinin geçmişini takip edebilecek araçlara sahip olmaları zor görünüyor.
Bir sistem gibi NEXUS’u oluşturmanın sorunu, bağlamın sürekli değişmesi. Bu nedenle, gerçekten küresel bir çerçeve oluşturmak, sadece çeşitli hükümetlerin birbirinden farklı motivasyonlarından değil, aynı zamanda bu hükümetlerin ve ilgili yasaların sürekli değişen durumundan dolayı zorlaşıyor.
* Makaledeki atıfların yerine hyperlinks koydum.
† Makalede altı tip tanımlanıyor, ancak son ikisi tanımlanmıyor.
İlk olarak 7 Mart 2025 Cuma günü yayınlandı












