Anslut dig till vÄrt nÀtverk!

Andersons vinkel

NÀstan 80 % av utbildningsdataseten kan vara en juridisk fara för Enterprise AI

mm
ChatGPT och Adobe Firefly.

En fĂ€rsk artikel frĂ„n LG AI Research antyder att till synes "öppna" datamĂ€ngder som anvĂ€nds för att trĂ€na AI-modeller kan erbjuda en falsk trygghetskĂ€nsla – man finner att nĂ€stan fyra av fem AI-datamĂ€ngder som Ă€r mĂ€rkta som "kommersiellt anvĂ€ndbara" faktiskt innehĂ„ller dolda juridiska risker.

SÄdana risker strÀcker sig frÄn inkludering av icke-offentliggjort upphovsrÀttsskyddat material till restriktiva licensvillkor djupt begravda i en datauppsÀttnings beroenden. Om rapportens resultat Àr korrekta kan företag som förlitar sig pÄ offentliga datauppsÀttningar behöva ompröva sina nuvarande AI-pipelines, eller riskera rÀttslig exponering nedströms.

Forskarna föreslÄr en radikal och potentiellt kontroversiell lösning: AI-baserade efterlevnadsagenter som kan skanna och granska datauppsÀttningshistoriker snabbare och mer exakt Àn mÀnskliga advokater.

I uppsatsen anges:

"Det hÀr dokumentet föresprÄkar att den juridiska risken med AI-utbildningsdatauppsÀttningar inte kan bestÀmmas enbart genom att granska licensvillkoren pÄ ytan; en grundlig, end-to-end-analys av omfördelning av datauppsÀttningar Àr avgörande för att sÀkerstÀlla efterlevnad.

"Eftersom en sÄdan analys Àr bortom mÀnsklig kapacitet pÄ grund av dess komplexitet och skala, kan AI-agenter överbrygga detta gap genom att utföra det med större hastighet och noggrannhet. Utan automatisering förblir kritiska juridiska risker i stort sett outforskade, vilket Àventyrar etisk AI-utveckling och regelefterlevnad.

"Vi uppmanar AI-forskargemenskapen att erkÀnna heltÀckande juridisk analys som ett grundlÀggande krav och att anta AI-drivna metoder som den gÄngbara vÀgen till skalbar datauppsÀttningsefterlevnad."

Genom att undersöka 2,852 605 populÀra datamÀngder som verkade kommersiellt anvÀndbara baserat pÄ deras individuella licenser, fann forskarnas automatiserade system att endast 21 (cirka XNUMX %) faktiskt var juridiskt sÀkra för kommersialisering nÀr alla deras komponenter och beroenden hade spÄrats.

Ocuco-landskapet nytt papper har titeln Lita inte pĂ„ licenser du ser – Dataset-efterlevnad krĂ€ver massiv AI-driven livscykelspĂ„rning, och kommer frĂ„n Ă„tta forskare vid LG AI Research.

RĂ€ttigheter och fel

Författarna lyfter fram utmaningar som företag som driver AI-utveckling framĂ„t i ett alltmer osĂ€kert rĂ€ttsligt landskap stĂ„r inför – i takt med att det tidigare akademiska tĂ€nkesĂ€ttet "rĂ€ttvis anvĂ€ndning" kring datamĂ€ngdstrĂ€ning ger vika för en splittrad miljö dĂ€r det rĂ€ttsliga skyddet Ă€r oklart och en sĂ€ker hamn inte lĂ€ngre garanteras.

Som en publikation pÄpekade nyligen har företag blivit allt mer defensiva nÀr det gÀller kÀllorna till deras utbildningsdata. Författaren Adam Buick kommenterar*:

"[Medan] OpenAI avslöjade de viktigaste datakÀllorna för GPT-3, tidningen som introducerade GPT-4 avslöjade endast att de uppgifter som modellen hade trÀnats pÄ var en blandning av "offentligt tillgÀnglig data (som internetdata) och data licensierad frÄn tredjepartsleverantörer".

"Motivationerna bakom denna övergÄng frÄn transparens har inte artikulerats i nÄgon speciell detalj av AI-utvecklare, som i mÄnga fall inte har gett nÄgon förklaring alls.

"För sin del motiverade OpenAI sitt beslut att inte slÀppa ytterligare detaljer om GPT-4 med oro kring 'konkurrenslandskapet och sÀkerhetskonsekvenserna av storskaliga modeller', utan ytterligare förklaring i rapporten."

Transparens kan vara en oĂ€rlig term – eller helt enkelt en felaktig sĂ„dan; till exempel Adobes flaggskepp Eldfluga generativ modell, utbildad pĂ„ aktiedata som Adobe hade rĂ€ttigheterna att utnyttja, pĂ„stĂ„s erbjuda kunderna försĂ€kringar om lagligheten av deras anvĂ€ndning av systemet. Senare nĂ„gra bevis framkom att Fireflys databas hade blivit "berikad" med potentiellt upphovsrĂ€ttsskyddad data frĂ„n andra plattformar.

Som vi diskuterades tidigare i veckan, finns det vÀxande initiativ utformade för att sÀkerstÀlla licensefterlevnad i datauppsÀttningar, inklusive en som bara kommer att skrapa YouTube-videor med flexibla Creative Commons-licenser.

Problemet Àr att licenserna i sig kan vara felaktiga, eller beviljade felaktigt, vilket den nya forskningen verkar tyda pÄ.

Undersöker datauppsÀttningar med öppen kÀllkod

Det Àr svÄrt att utveckla ett utvÀrderingssystem som författarnas Nexus nÀr sammanhanget stÀndigt förÀndras. DÀrför konstateras i artikeln att NEXUS Data Compliance-ramverket bygger pÄ "olika prejudikat och rÀttsliga grunder vid denna tidpunkt".

NEXUS anvÀnder en AI-driven agent som kallas AutoCompliance för automatiserad dataefterlevnad. AutoCompliance bestÄr av tre nyckelmoduler: en navigeringsmodul för webbutforskning; en frÄgesvarsmodul (QA) för informationsutvinning; och en poÀngmodul för juridisk riskbedömning.

AutoCompliance börjar med en webbsida som tillhandahÄlls av anvÀndaren. AI:n extraherar nyckeldetaljer, söker efter relaterade resurser, identifierar licensvillkor och beroenden och tilldelar en juridisk riskpoÀng. KÀlla: https://arxiv.org/pdf/2503.02784

AutoCompliance börjar med en webbsida som tillhandahÄlls av anvÀndaren. AI:n extraherar nyckeldetaljer, söker efter relaterade resurser, identifierar licensvillkor och beroenden och tilldelar en juridisk riskpoÀng. KÀlla: https://arxiv.org/pdf/2503.02784

Dessa moduler drivs av finjusterade AI-modeller, inklusive EXAONE-3.5-32B-instruktion modell, utbildad pÄ syntetisk och mÀnniskomÀrkt data. AutoCompliance anvÀnder ocksÄ en databas för att cachelagra resultat för att öka effektiviteten.

AutoCompliance börjar med en av anvÀndaren tillhandahÄllen datauppsÀttnings-URL och behandlar den som rotentiteten, söker efter dess licensvillkor och beroenden och spÄrar lÀnkade datauppsÀttningar rekursivt för att skapa en licensberoendegraf. NÀr alla anslutningar Àr kartlagda, berÀknar den efterlevnadspoÀng och tilldelar riskklassificeringar.

Ramverket för dataefterlevnad som beskrivs i det nya arbetet identifierar olika† enhetstyper som Ă€r involverade i datalivscykeln, inklusive datauppsĂ€ttningar, som utgör kĂ€rnan för AI-trĂ€ning; databehandlingsprogram och AI-modeller, som anvĂ€nds för att transformera och anvĂ€nda data; och PlattformstjĂ€nsteleverantörer, vilket underlĂ€ttar datahanteringen.

Systemet bedömer holistiskt juridiska risker genom att beakta dessa olika enheter och deras ömsesidiga beroenden, och gÄr bortom rutinerad utvÀrdering av datamÀngdernas licenser för att inkludera ett bredare ekosystem av de komponenter som Àr involverade i AI-utveckling.

Data Compliance bedömer juridisk risk över hela datalivscykeln. Den tilldelar poÀng baserat pÄ datauppsÀttningsdetaljer och pÄ 14 kriterier, klassificerar enskilda enheter och aggregerar risker över beroenden.

Data Compliance bedömer juridisk risk över hela datalivscykeln. Den tilldelar poÀng baserat pÄ datauppsÀttningsdetaljer och pÄ 14 kriterier, klassificerar enskilda enheter och aggregerar risker över beroenden.

Utbildning och statistik

Författarna extraherade webbadresserna till de 1,000 216 mest nedladdade datamÀngderna pÄ Hugging Face och tog slumpmÀssigt ut XNUMX objekt för att utgöra en testuppsÀttning.

EXAONE-modellen var finstÀmd pÄ författarnas anpassade dataset, med navigationsmodulen och frÄgesvarsmodulen som anvÀnder syntetiska data, och poÀngmodulen som anvÀnder mÀnskligt mÀrkt data.

Marksanningsetiketter skapades av fem juridiska experter som utbildats i minst 31 timmar i liknande uppgifter. Dessa mÀnskliga experter identifierade manuellt beroenden och licensvillkor för 216 testfall, aggregerade och förfinade sedan sina resultat genom diskussion.

Med det utbildade, mÀnskligt kalibrerade AutoCompliance-systemet som testats mot ChatGPT-4o och Bryderi Pro, sÀrskilt fler beroenden upptÀcktes inom licensvillkoren:

Noggrannhet vid identifiering av beroenden och licensvillkor för 216 utvÀrderingsdatauppsÀttningar.

Noggrannhet vid identifiering av beroenden och licensvillkor för 216 utvÀrderingsdatauppsÀttningar.

I uppsatsen anges:

"AutoCompliance övertrÀffar avsevÀrt alla andra agenter och mÀnskliga experter, och uppnÄr en noggrannhet pÄ 81.04 % och 95.83 % i varje uppgift. DÀremot visar bÄde ChatGPT-4o och Perplexity Pro relativt lÄg noggrannhet för kÀll- respektive licensuppgifter.

"Dessa resultat framhÀver den överlÀgsna prestandan hos AutoCompliance, och visar dess effektivitet nÀr det gÀller att hantera bÄda uppgifterna med anmÀrkningsvÀrd noggrannhet, samtidigt som de indikerar ett betydande prestandagap mellan AI-baserade modeller och mÀnskliga experter inom dessa domÀner."

NÀr det gÀller effektivitet tog AutoCompliance-metoden bara 53.1 sekunder att köra, till skillnad frÄn 2,418 XNUMX sekunder för motsvarande mÀnsklig utvÀrdering av samma uppgifter.

Vidare kostade utvĂ€rderingskörningen 0.29 USD, jĂ€mfört med 207 USD för de mĂ€nskliga experterna. Det bör dock noteras att detta Ă€r baserat pĂ„ att hyra en GCP a2-megagpu-16gpu-nod mĂ„nadsvis till en hastighet av $14,225 XNUMX per mĂ„nad – vilket betyder att denna typ av kostnadseffektivitet i första hand Ă€r relaterad till en storskalig verksamhet.

Dataset Utredning

För analysen valde forskarna ut 3,612 3,000 datamÀngder som kombinerade de 612 2023 mest nedladdade datamÀngderna frÄn Hugging Face med XNUMX dataset frÄn XNUMX DatahÀrkomstinitiativ.

I uppsatsen anges:

"FrÄn de 3,612 17,429 mÄlenheterna identifierade vi totalt 13,817 XNUMX unika enheter, dÀr XNUMX XNUMX enheter dök upp som mÄlenheternas direkta eller indirekta beroenden.

"För vÄr empiriska analys anser vi att en enhet och dess licensberoendegraf har en struktur i ett lager om enheten inte har nÄgra beroenden och en struktur med flera lager om den har ett eller flera beroenden.

"Av de 3,612 2,086 mÄldatauppsÀttningarna hade 57.8 1,526 (42.2 %) strukturer i flera lager, medan de övriga XNUMX XNUMX (XNUMX %) hade strukturer i ett lager utan beroenden."

UpphovsrÀttsskyddade datauppsÀttningar kan endast omdistribueras med laglig auktoritet, vilket kan komma frÄn en licens, undantag frÄn upphovsrÀttslagstiftningen eller avtalsvillkor. OtillÄten vidaredistribution kan leda till juridiska konsekvenser, inklusive upphovsrÀttsintrÄng eller avtalsbrott. Det Àr dÀrför viktigt att tydligt identifiera bristande efterlevnad.

DistributionsövertrÀdelser hittade under tidningens citerade kriterium 4.4. av dataefterlevnad.

DistributionsövertrÀdelser hittade under tidningens citerade kriterium 4.4. av dataefterlevnad.

Studien fann 9,905 83.5 fall av icke-kompatibel omfördelning av datauppsÀttningar, uppdelade i tvÄ kategorier: 16.5 % var uttryckligen förbjudna enligt licensvillkoren, vilket gör omfördelning till en tydlig lagövertrÀdelse; och XNUMX % inblandade datauppsÀttningar med motstridiga licensvillkor, dÀr omfördelning var tillÄten i teorin men som inte uppfyllde de villkor som krÀvs, vilket skapade nedströms juridisk risk.

Författarna medger att riskkriterierna som föreslagits i NEXUS inte Àr universella och kan variera beroende pÄ jurisdiktion och AI-tillÀmpning, och att framtida förbÀttringar bör fokusera pÄ anpassning till förÀndrade globala regler samtidigt som AI-driven juridisk granskning förfinas.

Slutsats

Detta Ă€r en prolix och till stor del ovĂ€nlig tidning, men tar upp den kanske största fördröjande faktorn i dagens industriantagande av AI – möjligheten att uppenbarligen "öppna" data senare kommer att hĂ€vdas av olika enheter, individer och organisationer.

Enligt DMCA kan övertrÀdelser juridiskt innebÀra massiva böter pÄ en per fall grund. DÀr krÀnkningar kan uppgÄ till miljontals, som i de fall som upptÀckts av forskarna, Àr det potentiella juridiska ansvaret verkligen betydande.

Dessutom kan företag som kan bevisas ha dragit nytta av uppströmsdata inte (som vanligt) hÀvdar okunnighet som en ursÀkt, Ätminstone pÄ den inflytelserika amerikanska marknaden. Inte heller har de för nÀrvarande nÄgra realistiska verktyg för att penetrera de labyrintiska implikationerna som Àr begravda i licensavtal med förment öppen kÀllkod.

Problemet med att formulera ett system som NEXUS Àr att det skulle vara tillrÀckligt utmanande att kalibrera det per stat inom USA, eller per nation inom EU; utsikterna att skapa ett verkligt globalt ramverk (ett slags "Interpol för datauppsÀttning hÀrkomst") undergrÀvs inte bara av de motstridiga motiven hos de olika regeringarna som Àr involverade, utan det faktum att bÄde dessa regeringar och tillstÄndet för deras nuvarande lagar i detta avseende stÀndigt förÀndras.

 

* Mitt ersÀttningsmedel för författarnas citat Àr hyperlÀnkar.
† Sex typer Ă€r föreskrivna i tidningen, men de tvĂ„ sista Ă€r inte definierade.

Publicerad första gÄngen fredagen den 7 mars 2025

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai