Andersons vinkel
Næsten 80% af træningsdata kan være en juridisk fare for virksomheds-AI

En ny rapport fra LG AI Research antyder, at såkaldt ‘åbne’ datasæt, der bruges til at træne AI-modeller, kan give en falsk fornemmelse af sikkerhed – og finder, at næsten fire af fem AI-datasæt, der er markeret som ‘kommercielt brugbare’, faktisk indeholder skjulte juridiske risici.
Sådanne risici kan variere fra inklusion af ikke-afslørede ophavsretsmateriale til restriktive licensbetingelser, der er gemt dybt i en datasæts afhængigheder. Hvis rapportens fund er nøjagtige, kan virksomheder, der afhænger af offentlige datasæt, være nødt til at overveje deres nuværende AI-pipelines eller risikere juridisk eksponering nedstrøms.
Forskerne foreslår en radikal og muligvis kontroversiel løsning: AI-baserede compliance-agenter, der kan scannere og auditerer datasæthistorier hurtigere og mere præcist end menneskelige advokater.
Rapporten fastslår:
‘Denne rapport fremhæver, at den juridiske risiko for AI-træningsdatasæt ikke kan bestemmes udelukkende ved at gennemgå overfladiske licensbetingelser; en grundig, end-to-end-analyse af datasæt-omfordeling er essentiel for at sikre overholdelse.
‘Da sådan en analyse er ud over menneskelige evner på grund af dens kompleksitet og omfang, kan AI-agenter brobygge denne åbning ved at udføre den med større hastighed og præcision. Uden automatisering forbliver kritiske juridiske risici stort set uundersøgte, hvilket sætter ethisk AI-udvikling og lovhåndhævelse i fare.
‘Vi opfordrer AI-forskningsfællesskabet til at anerkende end-to-end-juridisk analyse som en grundlæggende krav og til at antage AI-drevne tilgange som den livskraftige vej til skalerbar datasæt-overholdelse.’
Ved at undersøge 2.852 populære datasæt, der så ud til at være kommercielt brugbare på basis af deres enkeltlicens, fandt forskernes automatiserede system, at kun 605 (omkring 21%) faktisk var juridisk sikre for kommerciel brug, når alle deres komponenter og afhængigheder var sporet.
Den nye rapport har titlen Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing og kommer fra otte forskere fra LG AI Research.
Rettigheder og forkerte
Forfatterne fremhæver udfordringerne, som virksomheder, der fremmer AI-udvikling i et stadig mere usikkert juridisk landskab, står overfor – da den tidligere akademiske ‘fair use’-holdning omkring datasæt-træning giver plads til et fragmenteret miljø, hvor juridiske beskyttelser er uklare og sikker havn ikke længere er garanteret.
Som en publikation pegede på for nylig, bliver virksomheder mere og mere defensive omkring kilderne til deres træningsdata. Forfatter Adam Buick kommenterer*:
‘[ Mens] OpenAI afslørede de primære kilder til data for GPT-3, afslørede papiret om GPT-4 kun, at data, som modellen var trænet på, var en blanding af ‘offentligt tilgængelige data (såsom internetdata) og data licenseret fra tredjepartsudbydere’.
‘Motivationerne bag denne bevægelse væk fra gennemsigtighed er ikke blevet udtrykt i nogen særlig detalje af AI-udviklerne, der i mange tilfælde ikke har givet nogen forklaring overhovedet.
‘For sin del retfærdiggjorde OpenAI sin beslutning om ikke at offentliggøre yderligere detaljer omkring GPT-4 på baggrund af bekymringer om ‘konkurrence-landskabet og sikkerhedsimplikationerne af store skala-modeller’, uden yderligere forklaring i rapporten.’
Gennemsigtighed kan være en tvetydig term – eller blot en fejltagelse; for eksempel tilbød Adobes flagskib Firefly generative model, der var trænet på aktie-data, som Adobe havde rettighederne til at udnytte, kunderne påståede forsikringer om lovligheden af deres brug af systemet. Senere dukkede bevis op, at Firefly-data-potten var blevet ‘beriget’ med potentiel ophavsretsmæssigt beskyttet data fra andre platforme.
Som vi diskuterede tidligere på ugen, er der voksende initiativer designet til at sikre licens-overholdelse i datasæt, herunder en, der kun scraper YouTube-videoer med fleksible Creative Commons-licenser.
Problemet er, at licenserne i sig selv kan være fejlbehæftede eller tildelt fejlagtigt, som den nye forskning synes at antyde.
Eksempel på åbne datasæt
Det er svært at udvikle en vurderingssystem som forfatternes Nexus, når konteksten konstant skifter. Derfor fastslår rapporten, at NEXUS Data Compliance-rammeark er baseret på ‘forskellige præcedenser og juridiske grunde på dette tidspunkt’.
NEXUS anvender en AI-drevet agent kaldet AutoCompliance til automatiseret data-overholdelse. AutoCompliance består af tre nøglemoduler: et navigationsmodul til web-eksploration; et spørgsmål-svar-modul til informations-ekstraktion; og et scoring-modul til juridisk risikovurdering.

AutoCompliance starter med en brugerdefineret webside. AI’en ekstraherer nøgleoplysninger, søger efter relaterede ressourcer, identificerer licensbetingelser og afhængigheder og tildeler en juridisk risikovurdering. Kilde: https://arxiv.org/pdf/2503.02784
Disse moduler er drevet af fintuned AI-modeller, herunder EXAONE-3.5-32B-Instruct-modellen, der er trænet på syntetisk og menneske-læbelagt data. AutoCompliance anvender også en database til cachelagring af resultater for at forbedre effektiviteten.
AutoCompliance starter med en brugerdefineret datasæt-URL og behandler den som rod-entiteten, søger efter dens licensbetingelser og afhængigheder og sporer rekursivt tilknyttede datasæt for at opbygge en licens-afhængighedsgraf. Når alle forbindelser er kortlagt, beregner den overholdelsesscore og tildeler risikoklassificeringer.
Data Compliance-rammearket i den nye rapport identificerer forskellige† entitetstyper, der er involveret i datasætlivscyklussen, herunder datasæt, der danner det centrale input for AI-træning; data-behandlingssoftware og AI-modeller, der anvendes til at transformere og udnytte data; og Platform Service-udbydere, der faciliterer data-håndtering.
Systemet vurderer juridiske risici holistisk ved at overveje disse forskellige entiteter og deres interafhængigheder, og går ud over en rote-vurdering af datasæt-licenser til at inkludere en bredere økosystem af komponenterne, der er involveret i AI-udvikling.

Data Compliance vurderer juridisk risiko på tværs af hele datasætlivscyklussen. Den tildeler score baseret på datasætdetaljer og på 14 kriterier, klassificerer enkelt-entiteter og aggregater risiko på tværs af afhængigheder.
Træning og metrikker
Forfatterne udtrækker URL’erne for de 1.000 mest-downloadede datasæt på Hugging Face, og tilfældigt udvælger 216 items til at udgøre en test-sæt.
EXAONE-modellen blev fintuned på forfatternes brugerdefinerede datasæt, med navigation-modul og spørgsmål-svar-modul, der anvender syntetisk data, og scoring-modul, der anvender menneske-læbelagt data.
Ground-truth-mærker blev oprettet af fem juridiske eksperter, der var trænet i mindst 31 timer i lignende opgaver. Disse menneskelige eksperter identificerede manuelt afhængigheder og licensbetingelser for 216 test-tilfælde, og derefter aggregerede og forbedrede deres fund gennem diskussion.
Med det trænede, menneske-kalibrerede AutoCompliance-system testet mod ChatGPT-4o og Perplexity Pro, blev der opdaget betydeligt flere afhængigheder i licensbetingelserne:

Nøjagtighed i identificering af afhængigheder og licensbetingelser for 216 vurderingsdatasæt.
Rapporten fastslår:
‘AutoCompliance overgår alle andre agenter og menneskelige eksperter, og opnår en nøjagtighed på 81,04% og 95,83% i hver opgave. I modsætning hereto viser både ChatGPT-4o og Perplexity Pro relativt lav nøjagtighed for kilde- og licensopgaver, henholdsvis.
‘Disse resultater fremhæver den overlegne præstation af AutoCompliance, og demonstrerer dets effektivitet i at håndtere begge opgaver med bemærkelsesværdig nøjagtighed, og samtidig antyder en betydelig præstationsforskel mellem AI-baserede modeller og menneskelige eksperter i disse domæner.’
I forhold til effektivitet tog AutoCompliance-tilgangen kun 53,1 sekunder at køre, i modsætning til 2.418 sekunder for menneskelig vurdering på samme opgaver.
Yderligere kostede evalueringen 0,29 USD, i modsætning til 207 USD for de menneskelige eksperter. Det skal dog noteres, at dette er baseret på leje af en GCP a2-megagpu-16gpu-knob månedligt til en pris på 14.225 USD pr. måned – hvilket antyder, at denne type omkostningseffektivitet primært er relateret til en storstile-drift.
Datasæt-undersøgelse
Til analysen valgte forskerne 3.612 datasæt, der kombinerer de 3.000 mest-downloadede datasæt fra Hugging Face med 612 datasæt fra 2023 Data Provenance Initiative.
Rapporten fastslår:
‘Startende fra de 3.612 mål-entiteter, identificerede vi i alt 17.429 unikke entiteter, hvor 13.817 entiteter optrådte som mål-entiternes direkte eller indirekte afhængigheder.
‘Til vores empiriske analyse overvejer vi en entitet og dens licens-afhængighedsgraf som en enkelt-lagd struktur, hvis entiteten ikke har nogen afhængigheder, og en multi-lagd struktur, hvis den har en eller flere afhængigheder.’
‘Af de 3.612 mål-datasæt havde 2.086 (57,8%) multi-lagde strukturer, hvorimod de andre 1.526 (42,2%) havde enkelt-lagde strukturer med ingen afhængigheder.’
Ophavsretsligt beskyttede datasæt kan kun redistribueres med juridisk autorisation, som kan komme fra en licens, ophavsrets-love-undtagelser eller kontrakt-betingelser. Uautoriseret redistribution kan føre til juridiske konsekvenser, herunder ophavsrets-intrång eller kontrakt-brud. Derfor er tydelig identifikation af ikke-overholdelse essentiel.

Distribution-overtrædelser fundet under rapportens citerede Kriterium 4.4. for Data Compliance.
Studiet fandt 9.905 tilfælde af ikke-overholdende datasæt-redistribution, opdelt i to kategorier: 83,5% var udtrykkeligt forbudt under licensbetingelser, hvilket gjorde redistribution til en åben juridisk overtrædelse; og 16,5% involverede datasæt med modsætningsfulde licens-betingelser, hvor redistribution var tilladt i teorien, men som ikke opfyldte de krævede betingelser, og dermed skabte en juridisk risiko nedstrøms.
Forfatterne indrømmer, at risikokriterierne, der er foreslået i NEXUS, ikke er universelle og kan variere afhængigt af jurisdiktion og AI-anvendelse, og at fremtidige forbedringer bør fokusere på at tilpasse sig ændringer i globale reguleringer, samtidig med at de forbedrer AI-drevet juridisk gennemgang.
Konklusion
Dette er en prolix og stort set uvenlig rapport, men den adresserer måske den største begrænsende faktor i nuværende industriel tilpasning af AI – muligheden for, at åbenbart ‘åbne’ data senere kan kræves af forskellige enheder, personer og organisationer.
Under DMCA kan overtrædelser retligt medføre massive bøder på en pr.-sag-basis. Hvor overtrædelser kan løbe op i millioner, som i de tilfælde, som forskerne fandt, er den potentielle juridiske ansvar meget betydelig.
Derudover kan virksomheder, der kan bevises at have nydt godt af upstream-data, ikke (som sædvanligt) påstå uvidenhed som en undskyldning, i hvert fald på den indflydelsesrige amerikanske marked. De har heller ikke i øjeblikket nogen realistiske værktøjer, med hvilke de kan trænge igennem de labyrinthiske implikationer, der er gemt i påstået åbne datasæt-licensaftaler.
Problemet med at formulere et system som NEXUS er, at det ville være nok så svært at kalibrere det på en pr.-statsbasis inden for USA eller en pr.-nationsbasis inden for EU; udsigten til at skabe et virkelig globalt rammeværk (en slags ‘Interpol for datasæt-proveniens’) undermineres ikke kun af de forskellige regeringers modsætningsfulde motiver, men også af, at både disse regeringer og deres nuværende love på dette område konstant ændrer sig.
* Min erstatning af hyperlinks for forfatternes citeringer.
† Seks typer er foreskrevet i rapporten, men de sidste to er ikke defineret.
Først publiceret fredag, 7. marts 2025












