Povežite se s nama

Andersonov kut

Gotovo 80% skupova podataka za obuku može predstavljati pravni rizik za AI poduzeća

mm
ChatGPT i Adobe Firefly.

Nedavni rad tvrtke LG AI Research sugerira da navodno „otvoreni“ skupovi podataka koji se koriste za obuku AI modela mogu nuditi lažni osjećaj sigurnosti – otkrivši da gotovo četiri od pet skupova podataka AI označenih kao „komercijalno upotrebljivi“ zapravo sadrže skrivene pravne rizike.

Takvi rizici kreću se od uključivanja neotkrivenog materijala zaštićenog autorskim pravima do restriktivnih uvjeta licenciranja duboko skrivenih u ovisnostima skupa podataka. Ako su nalazi rada točni, tvrtke koje se oslanjaju na javne skupove podataka možda će morati preispitati svoje trenutne AI projekte ili riskirati pravnu izloženost nizvodno.

Istraživači predlažu radikalno i potencijalno kontroverzno rješenje: agenti za usklađenost temeljeni na umjetnoj inteligenciji sposobni skenirati i revidirati povijest skupova podataka brže i točnije od ljudskih odvjetnika.

U radu se navodi:

'Ovaj dokument zagovara da se pravni rizik skupova podataka za obuku umjetne inteligencije ne može odrediti samo pregledom licencnih uvjeta na površinskoj razini; temeljita, end-to-end analiza redistribucije skupa podataka ključna je za osiguravanje usklađenosti.

'Budući da takva analiza nadilazi ljudske sposobnosti zbog svoje složenosti i razmjera, agenti umjetne inteligencije mogu premostiti ovaj jaz provodeći je većom brzinom i preciznošću. Bez automatizacije, ključni pravni rizici ostaju uglavnom neispitani, ugrožavajući etički razvoj umjetne inteligencije i pridržavanje propisa.

„Pozivamo istraživačku zajednicu umjetne inteligencije da prepozna pravnu analizu od početka do kraja kao temeljni zahtjev i da usvoji pristupe utemeljene na umjetnoj inteligenciji kao održiv put do skalabilne usklađenosti skupova podataka.“

Ispitujući 2,852 popularna skupa podataka koji su se činili komercijalno upotrebljivima na temelju njihovih pojedinačnih licenci, automatizirani sustav istraživača otkrio je da je samo 605 (oko 21%) zapravo bilo pravno sigurno za komercijalizaciju nakon što su pronađene sve njihove komponente i ovisnosti.

The novom papiru naslovljen je Ne vjerujte licencama koje vidite — usklađenost skupa podataka zahtijeva praćenje životnog ciklusa velikih razmjera koje pokreće AI, a dolazi od osam istraživača u LG AI Research.

Prava i Nepravde

Autori ističu izazovi s kojima se suočavaju tvrtke koje promoviraju razvoj umjetne inteligencije u sve neizvjesnijem pravnom okruženju – budući da bivši akademski način razmišljanja o „poštenoj upotrebi“ oko obuke za skupove podataka ustupa mjesto fragmentiranom okruženju u kojem je pravna zaštita nejasna, a sigurna luka više nije zajamčena.

Kao jedna publikacija istaknuo nedavno, tvrtke postaju sve defanzivnije u pogledu izvora svojih podataka o obuci. Autor Adam Buick komentira*:

'[Iako] je OpenAI otkrio glavne izvore podataka za GPT-3, dokument predstavlja GPT-4 otkrila samo da su podaci na kojima je obučen model bili mješavina 'javno dostupnih podataka (kao što su internetski podaci) i podataka licenciranih od pružatelja usluga trećih strana'.

'Razvojnici AI-ja nisu detaljno artikulirali motive iza ovog odmaka od transparentnosti, koji u mnogim slučajevima nisu dali nikakva objašnjenja.

Sa svoje strane, OpenAI je opravdao svoju odluku da ne objavi daljnje detalje u vezi s GPT-4 na temelju zabrinutosti u vezi s 'konkurentskim okruženjem i sigurnosnim implikacijama velikih modela', bez daljnjeg objašnjenja u izvješću.

Transparentnost može biti neiskren pojam – ili jednostavno pogrešan; na primjer, Adobeov vodeći proizvod Firefly generativni model, obučen na podacima o dionicama koje je Adobe imao prava iskorištavati, navodno je korisnicima nudio uvjeravanja o zakonitosti njihove upotrebe sustava. Kasnije, neki pojavili su se dokazi da je Fireflyjeva baza podataka 'obogaćena' potencijalno zaštićenim autorskim pravima podacima s drugih platformi.

Kao što smo raspravljali ranije ovog tjedna, postoje sve veće inicijative osmišljene kako bi se osigurala usklađenost s licencama u skupovima podataka, uključujući onu koja će skidati samo YouTube videozapise s fleksibilnim licencama Creative Commons.

Problem je u tome što licence same po sebi mogu biti pogrešne ili dodijeljene greškom, kao što novo istraživanje pokazuje.

Ispitivanje skupova podataka otvorenog koda

Teško je razviti sustav evaluacije poput autorovog Nexusa kada se kontekst stalno mijenja. Stoga se u radu navodi da se okvirni sustav usklađenosti podataka NEXUS temelji na „različitim presedanima i pravnim osnovama u ovom trenutku“.

NEXUS koristi agenta vođenog umjetnom inteligencijom tzv AutoCompliance za automatiziranu usklađenost podataka. AutoCompliance se sastoji od tri ključna modula: navigacijski modul za istraživanje weba; modul za odgovaranje na pitanja (QA) za ekstrakciju informacija; i bodovni modul za procjenu pravnog rizika.

AutoCompliance počinje web stranicom koju daje korisnik. AI izdvaja ključne pojedinosti, pretražuje povezane resurse, identificira uvjete licence i ovisnosti te dodjeljuje ocjenu pravnog rizika. Izvor: https://arxiv.org/pdf/2503.02784

AutoCompliance počinje web stranicom koju daje korisnik. AI izdvaja ključne pojedinosti, pretražuje povezane resurse, identificira uvjete licence i ovisnosti te dodjeljuje ocjenu pravnog rizika. Izvor: https://arxiv.org/pdf/2503.02784

Ove module pokreću fino podešeni AI modeli, uključujući EXAONE-3.5-32B-Upute model, obučen na sintetičkim podacima i podacima označenim ljudima. AutoCompliance također koristi bazu podataka za predmemoriranje rezultata radi povećanja učinkovitosti.

AutoCompliance počinje s URL-om skupa podataka koji daje korisnik i tretira ga kao korijenski entitet, tražeći njegove uvjete licence i ovisnosti te rekurzivno prateći povezane skupove podataka kako bi se izgradio grafikon ovisnosti o licenci. Nakon što su sve veze mapirane, izračunava rezultate sukladnosti i dodjeljuje klasifikacije rizika.

Okvir usklađenosti podataka naveden u novom radu identificira različite vrste entiteta uključenih u životni ciklus podataka, uključujući skupovi podataka, koji čine temeljni ulaz za obuku umjetne inteligencije; softver za obradu podataka i AI modeli, koji se koriste za transformaciju i korištenje podataka; i Pružatelji usluga platforme, koji olakšavaju rukovanje podacima.

Sustav holistički procjenjuje pravne rizike uzimajući u obzir ove različite entitete i njihove međuovisnosti, prelazeći okvire rutinske procjene licenci skupova podataka kako bi uključio širi ekosustav komponenti uključenih u razvoj umjetne inteligencije.

Data Compliance procjenjuje pravni rizik tijekom cijelog životnog ciklusa podataka. Dodjeljuje bodove na temelju detalja skupa podataka i 14 kriterija, klasificirajući pojedinačne entitete i agregirajući rizik među ovisnostima.

Data Compliance procjenjuje pravni rizik tijekom cijelog životnog ciklusa podataka. Dodjeljuje bodove na temelju detalja skupa podataka i 14 kriterija, klasificirajući pojedinačne entitete i agregirajući rizik među ovisnostima.

Obuka i metrika

Autori su izvukli URL-ove od 1,000 najčešće preuzimanih skupova podataka na Hugging Faceu, nasumično poduzorkovavši 216 stavki kako bi sastavili testni skup.

Model EXAONE bio je fino podešen na prilagođenom skupu podataka autora, uz korištenje navigacijskog modula i modula za odgovaranje na pitanja sintetički podaci, i modul bodovanja koji koristi podatke označene ljudima.

Oznake temeljne istine izradilo je pet pravnih stručnjaka obučenih najmanje 31 sat za slične zadatke. Ovi ljudski stručnjaci ručno su identificirali ovisnosti i licencne uvjete za 216 testnih slučajeva, a zatim su prikupili i pročistili svoje nalaze kroz raspravu.

S obučenim, ljudski kalibriranim sustavom AutoCompliance koji je testiran ChatGPT-4o i Zbunjenost Štoviše, otkriveno je više ovisnosti unutar licencnih uvjeta:

Točnost u identificiranju ovisnosti i licencnih uvjeta za 216 skupova podataka za procjenu.

Točnost u identificiranju ovisnosti i licencnih uvjeta za 216 skupova podataka za procjenu.

U radu se navodi:

'AutoCompliance značajno nadmašuje sve ostale agente i stručnjaka za ljudske resurse, postižući točnost od 81.04% i 95.83% u svakom zadatku. Nasuprot tome, i ChatGPT-4o i Perplexity Pro pokazuju relativno nisku točnost za zadatke izvora i licence.

'Ovi rezultati ističu vrhunsku izvedbu AutoCompliancea, pokazujući njegovu učinkovitost u rješavanju oba zadatka s izuzetnom točnošću, dok također ukazuju na značajan jaz u izvedbi između modela temeljenih na umjetnoj inteligenciji i Human experta u ovim domenama.'

Što se tiče učinkovitosti, pristupu AutoCompliance bilo je potrebno samo 53.1 sekundu da se pokrene, za razliku od 2,418 sekundi za ekvivalentnu ljudsku procjenu na istim zadacima.

Nadalje, procjena košta 0.29 USD, u usporedbi s 207 USD za ljudske stručnjake. Međutim, treba napomenuti da se to temelji na mjesečnom najmu čvora GCP a2-megagpu-16gpu po stopi od 14,225 USD mjesečno – što znači da je ova vrsta troškovne učinkovitosti prvenstveno povezana s operacijom velikih razmjera.

Istraživanje skupa podataka

Za analizu su istraživači odabrali 3,612 skupova podataka kombinirajući 3,000 najčešće preuzimanih skupova podataka s Hugging Facea sa 612 skupova podataka iz 2023. Inicijativa za podrijetlo podataka.

U radu se navodi:

'Počevši od 3,612 ciljnih entiteta, identificirali smo ukupno 17,429 jedinstvenih entiteta, gdje se 13,817 entiteta pojavilo kao izravna ili neizravna ovisnost ciljnih entiteta.

'Za našu empirijsku analizu, smatramo da entitet i njegov grafikon ovisnosti o licenci imaju jednoslojnu strukturu ako entitet nema nikakve ovisnosti i višeslojnu strukturu ako ima jednu ili više ovisnosti.

'Od 3,612 ciljanih skupova podataka, 2,086 (57.8%) imalo je višeslojne strukture, dok je ostalih 1,526 (42.2%) imalo jednoslojne strukture bez ovisnosti.'

Skupovi podataka zaštićeni autorskim pravima mogu se redistribuirati samo uz zakonsko ovlaštenje, koje može proizaći iz licence, iznimki zakona o autorskim pravima ili uvjeta ugovora. Neovlaštena redistribucija može dovesti do pravnih posljedica, uključujući kršenje autorskih prava ili kršenje ugovora. Stoga je ključna jasna identifikacija neusklađenosti.

Kršenja distribucije utvrđena prema citiranom kriteriju 4.4. usklađenosti podataka.

Kršenja distribucije utvrđena prema citiranom kriteriju 4.4. usklađenosti podataka.

Studija je pronašla 9,905 slučajeva neusklađene redistribucije skupa podataka, podijeljenih u dvije kategorije: 83.5% bilo je izričito zabranjeno prema uvjetima licenciranja, što redistribuciju čini jasnim pravnim kršenjem; a 16.5% uključivalo je skupove podataka s proturječnim licencnim uvjetima, gdje je redistribucija bila dopuštena u teoriji, ali koji nisu ispunjavali tražene uvjete, stvarajući nizvodni pravni rizik.

Autori priznaju da kriteriji rizika predloženi u NEXUS-u nisu univerzalni i da se mogu razlikovati ovisno o jurisdikciji i primjeni umjetne inteligencije, te da bi se buduća poboljšanja trebala usredotočiti na prilagodbu promjenjivim globalnim propisima uz usavršavanje pravnog pregleda vođenog umjetnom inteligencijom.

Zaključak

Ovo je rasprostranjen i uglavnom neprijateljski dokument, ali bavi se možda najvećim faktorom usporavanja trenutnog prihvaćanja umjetne inteligencije u industriji – mogućnošću da naizgled 'otvorene' podatke kasnije potraže razni subjekti, pojedinci i organizacije.

Prema Zakonu o zaštiti autorskih prava u digitalnom tisućljeću (DMCA), kršenja zakonski mogu dovesti do velikih novčanih kazni na po-slučaju osnova. Tamo gdje se kršenja mogu mjeriti u milijunima, kao u slučajevima koje su otkrili istraživači, potencijalna pravna odgovornost doista je značajna.

Osim toga, tvrtke za koje se može dokazati da su imale koristi od podataka uzvodno ne mogu (kao i obično) kao ispriku navode neznanje, barem na utjecajnom američkom tržištu. Niti oni trenutno nemaju nikakve realistične alate s kojima bi mogli prodrijeti u labirintne implikacije zakopane u ugovorima o licenci za navodno otvoreni izvor podataka.

Problem u formuliranju sustava kao što je NEXUS je taj što bi bilo dovoljno izazovno kalibrirati ga na bazi po državi unutar SAD-a ili po naciji unutar EU; mogućnost stvaranja istinski globalnog okvira (neka vrsta 'Interpola za porijeklo skupa podataka') potkopavaju ne samo sukobljeni motivi različitih uključenih vlada, već i činjenica da se i te vlade i stanje njihovih trenutnih zakona u tom pogledu neprestano mijenjaju.

 

* Moja zamjena hiperlinkova za citate autora.
U radu je propisano šest vrsta, ali posljednja dva nisu definirana.

Prvi put objavljeno u petak, 7. ožujka 2025