Anderson'ın Açısı
Eğitim Veri Kümelerinin Yaklaşık %80'i Kurumsal Yapay Zeka İçin Hukuki Bir Tehlike Olabilir

LG AI Research'ün yakın zamanda yayınladığı bir makalede, yapay zeka modellerini eğitmek için kullanılan sözde 'açık' veri kümelerinin yanlış bir güvenlik hissi uyandırabileceği öne sürülüyor. 'Ticari olarak kullanılabilir' olarak etiketlenen yapay zeka veri kümelerinin neredeyse beşte dördünün aslında gizli yasal riskler barındırdığı ortaya konuluyor.
Bu tür riskler, açıklanmamış telif hakkıyla korunan materyallerin dahil edilmesinden, veri setinin bağımlılıklarının derinliklerine gömülmüş kısıtlayıcı lisanslama koşullarına kadar uzanmaktadır. Makalenin bulguları doğruysa, halka açık veri setlerine güvenen şirketlerin mevcut yapay zeka süreçlerini yeniden gözden geçirmeleri veya ileride yasal risklerle karşılaşmaları gerekebilir.
Araştırmacılar radikal ve potansiyel olarak tartışmalı bir çözüm öneriyor: Veri kümesi geçmişlerini insan avukatlardan daha hızlı ve daha doğru bir şekilde tarayabilen ve denetleyebilen yapay zeka tabanlı uyumluluk aracıları.
Kağıt şöyle diyor:
'Bu makale, yapay zeka eğitim veri kümelerinin yasal riskinin yalnızca yüzeysel lisans şartlarının incelenmesiyle belirlenemeyeceğini; uyumluluğun sağlanması için veri kümesi yeniden dağıtımının kapsamlı, uçtan uca bir analizinin şart olduğunu savunmaktadır.
'Bu tür bir analiz, karmaşıklığı ve ölçeği nedeniyle insan yeteneklerinin ötesinde olduğundan, AI ajanları bunu daha yüksek hız ve doğrulukla gerçekleştirerek bu boşluğu kapatabilir. Otomasyon olmadan, kritik yasal riskler büyük ölçüde incelenmemiş kalır ve etik AI gelişimini ve düzenlemelere uyumu tehlikeye atar.
'Yapay zeka araştırma topluluğunu, uçtan uca yasal analizi temel bir gereklilik olarak kabul etmeye ve ölçeklenebilir veri kümesi uyumluluğuna giden geçerli yol olarak yapay zeka odaklı yaklaşımları benimsemeye çağırıyoruz.'
Araştırmacıların otomatik sistemi, bireysel lisanslarına göre ticari olarak kullanılabilir görünen 2,852 popüler veri kümesini inceleyerek, tüm bileşenleri ve bağımlılıkları izlendiğinde yalnızca 605'inin (yaklaşık %21) ticarileştirme için yasal olarak güvenli olduğunu buldu.
The yeni kağıt başlıklı Gördüğünüz Lisanslara Güvenmeyin — Veri Kümesi Uyumluluğu Büyük Ölçekli Yapay Zeka Destekli Yaşam Döngüsü İzlemeyi Gerektirirve LG AI Research'teki sekiz araştırmacıdan geliyor.
Haklar ve Haksızlıklar
Yazarlar şunları vurgulamaktadır: zorluklar Şirketlerin giderek daha belirsiz bir hukuki ortamda yapay zeka geliştirme konusunda ilerleme kaydetmesiyle karşı karşıyayız. Veri seti eğitimiyle ilgili eski akademik 'adil kullanım' zihniyeti, yasal korumaların belirsiz olduğu ve güvenli limanın artık garanti edilmediği parçalanmış bir ortama dönüşüyor.
Tek bir yayın olarak işaret Son zamanlarda şirketler eğitim verilerinin kaynakları konusunda giderek daha savunmacı hale geliyor. Yazar Adam Buick yorumluyor*:
'[OpenAI] GPT-3 için ana veri kaynaklarını açıklarken, GPT-4'ü tanıtan makale ortaya yalnızca modelin eğitildiği verilerin 'kamuya açık veriler (İnternet verileri gibi) ve üçüncü taraf sağlayıcılardan lisanslı veriler' karışımı olduğu.
'Şeffaflıktan uzaklaşmanın arkasındaki motivasyonlar, yapay zeka geliştiricileri tarafından ayrıntılı olarak dile getirilmedi; çoğu durumda hiçbir açıklama yapılmadı.
'OpenAI ise GPT-4 ile ilgili daha fazla ayrıntı yayınlamama kararını, 'büyük ölçekli modellerin rekabet ortamı ve güvenlik etkileri' konusundaki endişeler temelinde gerekçelendirdi; raporda daha fazla açıklama yapılmadı.'
Şeffaflık samimiyetsiz bir terim olabilir veya basitçe yanlış bir terim olabilir; örneğin, Adobe'nin amiral gemisi Ateş böceği Adobe'nin yararlanma haklarına sahip olduğu hisse senedi verileri üzerinde eğitilen üretken model, müşterilere sistemin kullanımının yasallığı konusunda güvenceler sunuyordu. Daha sonra, bazıları kanıt ortaya çıktı Firefly veri havuzunun diğer platformlardan gelen potansiyel telif hakkıyla korunan verilerle 'zenginleştirildiği' belirtildi.
Olarak biz bu hafta başında tartışıldıVeri kümelerinde lisans uyumluluğunu güvence altına almak için tasarlanmış artan sayıda girişim bulunmaktadır; bunların arasında yalnızca esnek Creative Commons lisanslarına sahip YouTube videolarını tarayacak olan girişim de yer almaktadır.
Sorun şu ki, yeni araştırmanın da işaret ettiği gibi, lisanslar kendi başlarına hatalı veya hatalı olarak verilmiş olabilir.
Açık Kaynak Veri Kümelerini İnceleme
Bağlam sürekli değiştiğinde, yazarların Nexus'u gibi bir değerlendirme sistemi geliştirmek zordur. Bu nedenle, makalede NEXUS Veri Uyumluluğu çerçeve sisteminin 'şu anki çeşitli emsallere ve yasal dayanaklara' dayandığı belirtilmektedir.
NEXUS, AI destekli bir aracı kullanır Otomatik Uyumluluk otomatik veri uyumluluğu için. AutoCompliance üç temel modülden oluşur: web keşfi için bir gezinme modülü; bilgi çıkarma için bir soru-cevap (QA) modülü; ve yasal risk değerlendirmesi için bir puanlama modülü.

AutoCompliance, kullanıcı tarafından sağlanan bir web sayfasıyla başlar. AI, temel ayrıntıları çıkarır, ilgili kaynakları arar, lisans koşullarını ve bağımlılıkları belirler ve yasal bir risk puanı atarKaynak: https://arxiv.org/pdf/2503.02784
Bu modüller, aşağıdakiler de dahil olmak üzere ince ayarlı AI modelleri tarafından desteklenmektedir: EXAONE-3.5-32B-Talimat model, sentetik ve insan etiketli veriler üzerinde eğitildi. AutoCompliance ayrıca verimliliği artırmak için sonuçları önbelleğe almak için bir veritabanı kullanır.
AutoCompliance, kullanıcı tarafından sağlanan bir veri kümesi URL'siyle başlar ve bunu kök varlık olarak ele alır, lisans koşullarını ve bağımlılıklarını arar ve lisans bağımlılığı grafiği oluşturmak için bağlantılı veri kümelerini yinelemeli olarak izler. Tüm bağlantılar eşlendikten sonra, uyumluluk puanlarını hesaplar ve risk sınıflandırmaları atar.
Yeni çalışmada özetlenen Veri Uyumluluğu çerçevesi çeşitli† veri yaşam döngüsünde yer alan varlık türleri, şunları içerir: veri kümeleriYapay zeka eğitiminin temel girdisini oluşturan; veri işleme yazılımı ve yapay zeka modelleriVerileri dönüştürmek ve kullanmak için kullanılan; ve Platform Hizmet SağlayıcılarıVeri işlemeyi kolaylaştıran.
Sistem, bu çeşitli varlıkları ve bunların karşılıklı bağımlılıklarını göz önünde bulundurarak yasal riskleri bütünsel olarak değerlendirir ve veri kümelerinin lisanslarının ezbere değerlendirilmesinin ötesine geçerek yapay zeka geliştirmede yer alan bileşenlerin daha geniş bir ekosistemini kapsar.

Veri Uyumluluğu, tüm veri yaşam döngüsü boyunca yasal riski değerlendirir. Veri seti ayrıntılarına ve 14 kritere göre puanlar atar, bireysel varlıkları sınıflandırır ve bağımlılıklar genelinde riski toplar.
Eğitim ve Ölçümler
Yazarlar, Hugging Face'te en çok indirilen 1,000 veri kümesinin URL'lerini çıkardılar ve bir test kümesi oluşturmak için 216 öğeyi rastgele alt örneklemlediler.
EXAONE modeli ince ayar Yazarların özel veri kümesinde, gezinme modülü ve soru-cevap modülü kullanılarak sentetik verive insan etiketli verileri kullanan puanlama modülü.
Zemin gerçeği etiketleri, benzer görevlerde en az 31 saat eğitim almış beş hukuk uzmanı tarafından oluşturuldu. Bu insan uzmanlar, 216 test vakası için bağımlılıkları ve lisans koşullarını manuel olarak belirlediler, ardından bulgularını tartışma yoluyla bir araya getirdiler ve iyileştirdiler.
Eğitilmiş, insan tarafından kalibre edilmiş AutoCompliance sistemi test edildi SohbetGPT-4o ve şaşkınlık Artı, lisans şartları içerisinde daha fazla bağımlılık keşfedildi:

216 değerlendirme veri kümesi için bağımlılıkları ve lisans koşullarını belirlemede doğruluk.
Kağıt şöyle diyor:
'AutoCompliance, her görevde %81.04 ve %95.83 doğruluk elde ederek diğer tüm aracılardan ve İnsan uzmanlarından önemli ölçüde daha iyi performans gösterir. Buna karşılık, hem ChatGPT-4o hem de Perplexity Pro, sırasıyla Kaynak ve Lisans görevleri için nispeten düşük doğruluk gösterir.
'Bu sonuçlar, AutoCompliance'ın üstün performansını vurgulayarak, her iki görevi de olağanüstü bir doğrulukla yerine getirmedeki etkinliğini gösterirken, aynı zamanda bu alanlarda AI tabanlı modeller ile İnsan uzmanlar arasında önemli bir performans farkı olduğunu da ortaya koyuyor.'
Verimlilik açısından bakıldığında, AutoCompliance yaklaşımının çalışması yalnızca 53.1 saniye sürerken, aynı görevlerde eşdeğer insan değerlendirmesinin çalışması 2,418 saniye sürdü.
Ayrıca, değerlendirme çalışmasının maliyeti 0.29 ABD doları iken, insan uzmanlar için bu maliyet 207 ABD dolarıdır. Ancak, bunun aylık 2 ABD doları oranında bir GCP a16-megagpu-14,225gpu düğümü kiralamaya dayandığı unutulmamalıdır - bu tür bir maliyet etkinliğinin öncelikle büyük ölçekli bir operasyonla ilgili olduğu anlamına gelir.
Veri Kümesi Araştırması
Analiz için araştırmacılar, Hugging Face'ten en çok indirilen 3,612 veri setini 3,000'ten 612 veri setiyle birleştiren 2023 veri setini seçti. Veri Kaynak Girişimi.
Kağıt şöyle diyor:
'3,612 hedef varlıktan başlayarak toplam 17,429 adet tekil varlık tespit ettik, bunlardan 13,817 tanesi hedef varlıkların doğrudan veya dolaylı bağımlılıkları olarak ortaya çıktı.
'Deneysel analizimiz için, bir varlığın ve onun lisans bağımlılığı grafiğinin, eğer varlığın hiçbir bağımlılığı yoksa tek katmanlı bir yapıya, bir veya daha fazla bağımlılığı varsa çok katmanlı bir yapıya sahip olduğunu ele alıyoruz.
'3,612 hedef veri setinden 2,086'sı (%57.8) çok katmanlı yapılara sahipken, diğer 1,526'sı (%42.2) hiçbir bağımlılığı olmayan tek katmanlı yapılara sahipti.'
Telif hakkıyla korunan veri kümeleri yalnızca bir lisanstan, telif hakkı yasası istisnalarından veya sözleşme hükümlerinden kaynaklanabilecek yasal yetkiyle yeniden dağıtılabilir. Yetkisiz yeniden dağıtım, telif hakkı ihlali veya sözleşme ihlalleri dahil olmak üzere yasal sonuçlara yol açabilir. Bu nedenle uyumsuzluğun açıkça tanımlanması esastır.

Makalede atıfta bulunulan Veri Uyumluluğu Kriteri 4.4. kapsamında dağıtım ihlalleri bulundu.
Çalışmada, uyumsuz veri seti yeniden dağıtımına ilişkin 9,905 vaka tespit edildi ve bunlar iki kategoriye ayrıldı: %83.5'i lisans koşulları uyarınca açıkça yasaklanmıştı ve bu da yeniden dağıtımı açık bir yasal ihlal haline getiriyordu; ve %16.5'i, yeniden dağıtıma teoride izin verilen ancak gerekli koşulları karşılamayan ve daha sonra yasal risk yaratan, çelişkili lisans koşullarına sahip veri setlerini içeriyordu.
Yazarlar, NEXUS'ta önerilen risk kriterlerinin evrensel olmadığını ve yargı alanına ve yapay zeka uygulamasına göre değişebileceğini ve gelecekteki iyileştirmelerin, yapay zeka odaklı yasal incelemeyi iyileştirirken değişen küresel düzenlemelere uyum sağlamaya odaklanması gerektiğini kabul ediyor.
Sonuç
Bu, uzun ve büyük ölçüde dostça olmayan bir makale; ancak belki de yapay zekanın günümüzde endüstri tarafından benimsenmesindeki en büyük gecikme faktörüne değiniyor: Görünüşte 'açık' olan verilerin daha sonra çeşitli kuruluşlar, bireyler ve kuruluşlar tarafından talep edilme olasılığı.
DMCA uyarınca, ihlaller yasal olarak büyük para cezalarına yol açabilir vaka başına temel. İhlallerin milyonlara ulaşabildiği durumlarda, araştırmacılar tarafından keşfedilen vakalarda olduğu gibi, potansiyel yasal sorumluluk gerçekten önemlidir.
Ek olarak, yukarı akış verilerinden faydalandığı kanıtlanabilen şirketler (her zaman oldugu gibi) en azından etkili ABD pazarında cehaleti bir bahane olarak öne sürüyorlar. Ayrıca, sözde açık kaynaklı veri seti lisans anlaşmalarında gömülü olan karmaşık çıkarımlara nüfuz etmek için şu anda gerçekçi araçları da yok.
NEXUS gibi bir sistemin formüle edilmesindeki sorun, ABD içinde eyalet bazında veya AB içinde ülke bazında kalibre edilmesinin yeterince zor olmasıdır; gerçekten küresel bir çerçeve (bir tür 'veri seti kaynağı için Interpol') yaratma olasılığı, yalnızca söz konusu çeşitli hükümetlerin çatışan güdüleri tarafından değil, aynı zamanda hem bu hükümetlerin hem de bu konudaki mevcut yasalarının durumunun sürekli değişiyor olması gerçeği tarafından zayıflatılmaktadır.
* Yazarların alıntıları yerine hiperlinkleri benim kullanmam.
† Makalede altı tipten bahsediliyor ancak son iki tip tanımlanmıyor.
İlk yayın tarihi Cuma, 7 Mart 2025