Connect with us

Mevcut AI Uygulamaları Yeni Bir Nesil Telif Hakkı Trollerini Etkileyecek

Etik

Mevcut AI Uygulamaları Yeni Bir Nesil Telif Hakkı Trollerini Etkileyecek

mm

Huawei ve akademik çevreler arasındaki yeni bir araştırma işbirliği, yapay zeka ve makine öğrenimi alanındaki en önemli güncel araştırmaların çoğunun, ticari olarak öne çıktığında dava konusu olabileceğini öne sürüyor. Çünkü bu araştırmaları mümkün kılan veri kümeleri, kamu alanlarından elde edilen verilerin orijinal şartlarını saygı göstermeyen geçersiz lisanslar ile dağıtılıyor.

Bu durum, iki olası sonucu beraberinde getiriyor: çok başarılı, ticari olarak kullanılan AI algoritmalarının, telif hakları saygı gösterilmeden veri toplandığı için gelecekte fırsatçı patent trollerinin hedefi haline gelmesi; ve organizasyonların ve bireylerin, bu yasal zayıflıkları kullanarak, onaylamadıkları makine öğrenimi teknolojilerinin dağıtımını veya yayılmasını protesto edebilmesi.

Makale “Bu kamu olarak erişilebilen veri kümesini ticari AI yazılımı oluşturmak için kullanabilir miyim? Muhtemelen hayır” başlığını taşıyor ve Huawei Kanada ve Huawei Çin ile birlikte İngiltere’deki York Üniversitesi ve Kanada’daki Victoria Üniversitesi arasında bir işbirliği sonucu ortaya çıktı.

Altı Popüler Açık Kaynaklı Veri Kümesinin Beş Tanesi Yasal Olarak Kullanılamıyor

Araştırma için yazarlar, Huawei’deki bölümlerden en çok istedikleri açık kaynaklı veri kümelerini seçmelerini istedi ve yanıtlardan altı en çok istenen veri kümesini seçti: CIFAR-10 (80 milyon küçük resim veri kümesinin bir alt kümesi, çünkü çekildiği ‘küfürlü terimler’ ve ‘saldırgan resimler’ nedeniyle geri çekildi, ancak türevleri yaygınlaşıyor); ImageNet; Cityscapes (sadece orijinal materyali içerir); FFHQ; VGGFace2, ve MSCOCO.

Ticari projelerde yasal olarak kullanılabilirliklerini analiz etmek için yazarlar, her veri kümesinin lisans zincirini izlemek için yeni bir işlem hattı geliştirdi, ancak genellikle lisansları artık sona ermiş alanlardan web arşivi kayıtlarına başvurmak zorunda kaldılar ve bazı durumlarda lisans durumunu nearest disponible bilgilere göre “tahmin etmek” zorunda kaldılar.

Yazarlar tarafından geliştirilen provenance-tracing sistemi mimarisi. Kaynak: https://arxiv.org/pdf/2111.02374.pdf

Yazarlar tarafından geliştirilen provenance-tracing sistemi mimarisi. Kaynak: https://arxiv.org/pdf/2111.02374.pdf

Yazarlar, altı veri kümesinin beşinin ‘en az bir ticari kullanım bağlamında riskler içerdiğini’ buldu:

‘Gözlemlerimize göre, MS COCO hariç, hiçbir lisans, uygulayıcıların veri üzerinden eğitilen AI modelini veya eğitilen AI modelinin çıktısını ticari olarak kullanma hakkını vermiyor. Bu sonuç, uygulayıcıların bu veri kümeleri üzerinde önceden eğitilmiş modelleri bile kullanmasını etkili bir şekilde engelliyor. Kamuya açık veri kümeleri ve bu veri kümeleri üzerinde önceden eğitilmiş AI modelleri genellikle ticari olarak kullanılıyor.’*

Yazarlar ayrıca, altı veri kümesinin üçünün de ticari ürünlerde veri kümesinin değiştirilmesi durumunda lisans ihlaliyle sonuçlanabileceğini belirtiyorlar, çünkü sadece MS-COCO böyle bir değişikliği允yor. Veri artırma ve alt kümeler ve üst kümeler etkili veri kümelerinin yaygın bir uygulaması.

CIFAR-10 durumunda, orijinal derleyiciler, veri kümesini kullanan projelerin orijinal makaleye atıf yapmasını şart koşmaktan başka hiçbir geleneksel lisans formu oluşturmadı, bu da veri kümesinin yasal durumunu belirlemeyi daha da zorlaştırıyor.

Daha da önemlisi, sadece CityScapes veri kümesi orijinatörleri tarafından oluşturulan orijinal materyali içerir, diğerleri ise CIFAR-10 ve ImageNet gibi birden fazla kaynaktan “derlenen” (toplanan) verileri kullanıyor, bu da herhangi bir telif hakkı mekanizmasını (veya anlamlı bir feragatnameyi) belirlemek için her bir kaynağın araştırılması ve izlenmesi gerekiyor.

Çıkış Yok

Ticari AI şirketlerinin, telif hakkı ihlali nedeniyle davalardan korunmak için güvendikleri üç faktör var, ancak bunlar güvenilir uzun vadeli koruma sağlamıyor:

1: Ulusal Yasaların Serbest Bırakılması
Dünya çapındaki hükümetler, yüksek hacimli gerçek dünya verilerine düzenli telif hakkı uyumu ve lisanslaması gerçekçi olmayacak şekilde yarışta geri kalmamak için veri toplama etrafındaki yasaları gevşetmek zorunda kalıyor. Ancak sadece Amerika Birleşik Devletleri, Adil Kullanım Doktrini altında bu konuda tam bağışıklık sağlıyor – 2015 yılında sonuçlanan Authors Guild v. Google, Inc. davası ile onaylanan bir politika, arama devinin Google Kitapları projesi için telif hakkı materyali özgürce almasına izin verdi.

Eğer Adil Kullanım Doktrini politikası bir gün değişirse (yani, yeterli güce sahip organizasyon veya kuruluşların katılımıyla bir dava sonucu), bu, mevcut telif hakkı ihlali olan veritabanlarının kullanımını korur ancak devam eden kullanımı ve gelişimini korumaz.

Bu, Adil Kullanım Doktrinin korumasını çok geçici bir temelde bırakıyor ve potansiyel olarak, böyle bir senaryoda, ticari olarak başarılı, ticarileştirilmiş makine öğrenimi algoritmalarının, telif hakkı materyali olmadan geliştirildikleri için faaliyetlerini durdurma zorunda kalmasına neden olabilir.

Amerika Birleşik Devletleri dışında, yazarlar yeni makalede belirttiği gibi, politikalar genellikle daha az müsamahakâr. İngiltere ve Kanada, yalnızca ticari olmayan amaçlar için telif hakkı materyalinin kullanımını muaf tutuyor, Avrupa Birliği’nin Metin ve Veri Madenciliği Yasası (son resmi AI düzenleme önerileri tarafından tamamen geçersiz kılınmamış) da AI sistemlerinin telif hakkı gereksinimlerini karşılamadığı takdirde ticari kullanımını dışlıyor.

Bu son düzenlemeler, bir organizasyonun başkalarının verilerini kullanarak büyük başarılar elde etmesine izin veriyor, ancak para kazanma noktasına kadar. Bu aşamada, ürün ya yasal olarak açık hale gelecek ya da milyonlarca telif hakkı sahibi ile anlaşmalar yapılması gerekecek, birçokları artık internetin değişen doğası nedeniyle izlenemez – imkansız ve pahalı bir perspektif.

2: Caveat Emptor
Telif hakkı ihlali olan organizasyonların suçlamaları ertelemeye çalıştıkları durumlarda, yeni makale ayrıca, en popüler açık kaynaklı veri kümelerinin lisanslarının kendilerini telif hakkı suistimali iddialarına karşı otomatik olarak bağışıklık sağladığını gözlemliyor:

‘Örneğin, ImageNet lisansı, uygulayıcıları veri kümesini kullandığından kaynaklanan herhangi bir iddiaya karşı ImageNet ekibini tazmin etmeyi gerektiriyor. FFHQ, VGGFace2 ve MS COCO veri kümeleri, veri kümesinin dağıtılması veya değiştirilmesi durumunda aynı lisans altında sunulmasını gerektiriyor.’

Bu, FOSS veri kümelerini kullananların, eventual dava durumunda, telif hakkı materyalinin kullanımından kaynaklanan suçluluğu absorbe etmelerine neden oluyor (ancak bu, current “güvenli liman” iklimi bozulduğunda orijinal derleyicileri korumayabilir).

3: Belirsizlik Durch Obscurity
Makine öğrenimi topluluğunun işbirlikçi doğası, korsan veri kümelerinden yararlanan algoritmaların varlığını gizlemek için kurumsal gizlilik kullanmayı oldukça zorlaştırıyor. Uzun vadeli ticari projeler genellikle, veri kümelerinin kullanımı kaydedilen açık kaynaklı ortamlarda başlıyor, GitHub ve diğer kamu erişimi forumlarında veya projelerin kökeni ön yazılarda veya hakemli makalelerde yayımlanıyor.

Bunun böyle olmaması durumunda, model inversion artık veri kümelerinin tipik özelliklerini ortaya çıkarmak veya açıkça bazı kaynak materyallerini çıkarmak için yeterli yeteneğe sahip, bu da ya itself kanıt ya da telif hakkı ihlali şüphesi için yeterli kanıt sağlıyor, böylece geliştirme tarihine ve kullanılan veri kümelerine erişim için mahkeme emri możli kılınıyor.

Sonuç

Makale, izinsiz alınan telif hakkı materyalinin kaotik ve ad hoc kullanımını ve bir dizi lisans zincirini resmediyor, bu zincirler mantıksal olarak orijinal veri kaynağına kadar izlendiğinde, binlerce telif hakkı sahibi ile görüşmeler gerektiriyor, bunların birçoğu türev ticari çalışmaların yapılmasına izin vermeyen çeşitli lisans koşulları altında sunuluyor.

Yazarlar şöyle diyor:

‘Kamu olarak erişilebilen veri kümeleri ticari AI yazılımı oluşturmak için yaygın olarak kullanılıyor. Bunu yapmak mümkündür ve ancak kamu olarak erişilebilen veri kümesinin lisansı bunu yapma hakkını sağlar. Ancak, kamu olarak erişilebilen veri kümeleriyle ilgili lisanslarda verilen hak ve yükümlülükleri doğrulamak kolay değil. Çünkü bazen lisans belirsiz veya potansiyel olarak geçersiz.’

2 Kasım’da Singapur Yönetim Üniversitesi’ndeki Hesaplamalı Hukuk Merkezi’nden çıkan yeni bir çalışma, Yasal Veri Kümeleri Oluşturmak, veri bilimcilerinin, “vahşi batı” döneminin sona erdiğini ve Huawei makalesinin önerilerini yinelerken, veri kümesi kullanımının yasal sonuçlara yol açmaması için daha katı alışkanlıklar ve metodolojiler benimsemesi gerektiğini vurguluyor. Yazar şöyle diyor*:

‘ML veri kümelerini etkileyen yasalar kümesi büyüyecek, mevcut yasaların yetersiz koruma sağladığı endişeleri arasında. EU Yapay Zeka Yasası taslağı, AI ve veri yönetiminde önemli değişiklikler yapacak; diğer yargı bölgeleri de kendi yasalarını çıkarabilir.’

 

* İç référencelerin hyperlink’e dönüştürülmesi

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]