Andersons hoek

Bijna 80% van de trainingsdatasets kan een juridisch risico vormen voor enterprise AI

mm
ChatGPT and Adobe Firefly.

Een recent artikel van LG AI Research suggereert dat vermeende ‘open’ datasets die worden gebruikt voor het trainen van AI-modellen, een vals gevoel van veiligheid kunnen bieden – waarbij wordt vastgesteld dat bijna vier van de vijf AI-datasets die als ‘commercieel bruikbaar’ zijn gelabeld, eigenlijk verborgen juridische risico’s bevatten.

Dergelijke risico’s variëren van het opnemen van niet-gepubliceerd auteursrechtelijk beschermd materiaal tot beperkende licentievoorwaarden die diep in de afhankelijkheden van een dataset zijn begraven. Als de bevindingen van het artikel accuraat zijn, moeten bedrijven die afhankelijk zijn van openbare datasets, hun huidige AI-pijplijn mogelijk opnieuw overwegen, of risico lopen op juridische gevolgen.

De onderzoekers stellen een radicale en mogelijk omstreden oplossing voor: AI-gebaseerde compliance-agents die in staat zijn om dataset-geschiedenissen sneller en nauwkeuriger te scannen en te auditen dan menselijke juristen.

Het artikel staat:

‘Dit artikel bepleit dat het juridische risico van AI-trainingsdatasets niet alleen kan worden bepaald door de oppervlakkige licentievoorwaarden te bekijken; een grondige, eind-tot-eind-analyse van dataset-herdistributie is essentieel voor het waarborgen van compliance.

‘Aangezien een dergelijke analyse buiten de mogelijkheden van mensen ligt vanwege de complexiteit en omvang, kunnen AI-agents deze kloof overbruggen door het met grotere snelheid en nauwkeurigheid uit te voeren. Zonder automatisering blijven kritieke juridische risico’s grotendeels ongeëvalueerd, waardoor ethische AI-ontwikkeling en regelgevingsgevolg in gevaar komen.

‘Wij dringen er bij de AI-onderzoekscommunity op aan om eind-tot-eind juridische analyse te erkennen als een fundamentele vereiste en om AI-gedreven benaderingen te adopteren als het haalbare pad naar schaalbare dataset-compliance.’

Bij het onderzoeken van 2.852 populaire datasets die commercieel bruikbaar leken op basis van hun individuele licenties, vond het geautomatiseerde systeem van de onderzoekers dat slechts 605 (ongeveer 21%) eigenlijk juridisch veilig waren voor commercialisatie zodra alle componenten en afhankelijkheden waren getraceerd.

Het nieuwe artikel heeft als titel Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing en komt van acht onderzoekers van LG AI Research.

Rechten en verkeerd

De auteurs benadrukken de uitdagingen waarmee bedrijven te maken krijgen bij het ontwikkelen van AI in een steeds onzekerder juridisch landschap – aangezien de voormalige academische ‘fair use’-mentaliteit rond dataset-training plaatsmaakt voor een gefragmenteerd milieu waarin juridische bescherming onduidelijk is en veilige haven niet langer is gegarandeerd.

Zoals een publicatie onlangs opmerkte, worden bedrijven steeds defensiever over de bronnen van hun trainingsdata. Auteur Adam Buick merkt op*:

‘[Terwijl] OpenAI de belangrijkste bronnen van gegevens voor GPT-3 onthulde, onthulde het artikel over GPT-4 alleen dat de gegevens waarop het model was getraind, een mengsel waren van ‘openbaar beschikbare gegevens (zoals internetgegevens) en gegevens die waren gelicentieerd van derden.

‘De motivatie achter deze stap weg van transparantie is niet in detail uitgelegd door AI-ontwikkelaars, die in veel gevallen helemaal geen verklaring hebben gegeven.

‘OpenAI rechtvaardigde zijn beslissing om geen verdere details te publiceren over GPT-4 op basis van bezorgdheid over ‘de concurrentielandschap en de veiligheidsimplicaties van grote modellen’, zonder verdere uitleg in het rapport.’

Transparantie kan een oneerlijke term zijn – of gewoon een verkeerde; bijvoorbeeld, Adobe’s vlaggenschip Firefly generatief model, getraind op stockgegevens waar Adobe de rechten voor had, bood klanten vermeende garanties over de legaliteit van hun gebruik van het systeem. Later kwam bewijs aan het licht dat de Firefly-gegevenspot was ‘verrijkt’ met potentieel auteursrechtelijk beschermd materiaal van andere platforms.

Zoals we eerder deze week bespraken, zijn er groeiende initiatieven om licentiecompliance in datasets te garanderen, waaronder een initiatief dat alleen YouTube-video’s met flexibele Creative Commons-licenties zal schrapen.

Het probleem is dat de licenties op zichzelf foutief kunnen zijn, of verkeerd zijn toegekend, zoals het nieuwe onderzoek lijkt aan te geven.

Open source-datasets onderzoeken

Het is moeilijk om een evaluatiesysteem zoals dat van de auteurs te ontwikkelen wanneer de context constant verandert. Daarom staat in het artikel dat het NEXUS Data Compliance-frameworksysteem is gebaseerd op ‘verschillende precedenten en juridische gronden op dit moment’.

NEXUS maakt gebruik van een AI-gebaseerde agent genaamd AutoCompliance voor geautomatiseerde gegevenscompliance. AutoCompliance bestaat uit drie sleutelmodules: een navigatiemodule voor webexploratie; een vraagbeantwoordingsmodule (QA) voor informatie-extractie; en een scoringsmodule voor juridische risicobeoordeling.

AutoCompliance begint met een door de gebruiker verstrekte webpagina. De AI haalt belangrijke details op, zoekt naar gerelateerde bronnen, identificeert licentievoorwaarden en afhankelijkheden, en wijst een juridisch risicoscore toe. Bron: https://arxiv.org/pdf/2503.02784

AutoCompliance begint met een door de gebruiker verstrekte webpagina. De AI haalt belangrijke details op, zoekt naar gerelateerde bronnen, identificeert licentievoorwaarden en afhankelijkheden, en wijst een juridisch risicoscore toe. Bron: https://arxiv.org/pdf/2503.02784

Deze modules worden aangedreven door fijngestemde AI-modellen, waaronder het EXAONE-3.5-32B-Instruct model, getraind op synthetische en door mensen gelabelde gegevens. AutoCompliance maakt ook gebruik van een database voor het cachen van resultaten om de efficiëntie te verbeteren.

AutoCompliance begint met een door de gebruiker verstrekte dataset-URL en behandelt deze als de root-entity, zoekt naar de licentievoorwaarden en afhankelijkheden, en traceert recursief gekoppelde datasets om een licentie-afhankelijkheidsgrafiek op te bouwen. Zodra alle verbindingen zijn gekarteerd, berekent het compliance-scores en wijst risicoclassificaties toe.

Het Data Compliance-framework dat in het nieuwe werk wordt uiteengezet, identificeert verschillende entiteitstypen die betrokken zijn bij de datalevenscyclus, waaronder datasets, die de kerninput voor AI-training vormen; dataverwerkingssoftware en AI-modellen, die worden gebruikt om de gegevens te transformeren en te gebruiken; en Platform Service Providers, die datahantering faciliteren.

Het systeem beoordeelt juridische risico’s holistisch door deze verschillende entiteiten en hun onderlinge afhankelijkheden te beschouwen, en gaat verder dan de oppervlakkige evaluatie van de licenties van de datasets, om een bredere ecosystemen van de componenten die betrokken zijn bij AI-ontwikkeling te omvatten.

Data Compliance beoordeelt juridisch risico over de volledige datalevenscyclus. Het wijst scores toe op basis van datasetdetails en op 14 criteria, en classificeert individuele entiteiten en agreggeert risico over afhankelijkheden.

Data Compliance beoordeelt juridisch risico over de volledige datalevenscyclus. Het wijst scores toe op basis van datasetdetails en op 14 criteria, en classificeert individuele entiteiten en agreggeert risico over afhankelijkheden.

Training en metrics

De auteurs hebben de URLs van de top 1.000 meest gedownloade datasets op Hugging Face geëxtraheerd, en hebben 216 items willekeurig bemonsterd om een testset te vormen.

Het EXAONE-model is fijngestemd op de aangepaste dataset van de auteurs, waarbij de navigatiemodule en de vraagbeantwoordingsmodule (QA) synthetische gegevens gebruiken, en de scoringsmodule door mensen gelabelde gegevens gebruikt.

Ground-truth-labels zijn gemaakt door vijf juridische experts die ten minste 31 uur zijn getraind in soortgelijke taken. Deze menselijke experts hebben handmatig afhankelijkheden en licentievoorwaarden geïdentificeerd voor 216 testcases, en hebben hun bevindingen via discussie geaggregeerd en verfijnd.

Met het getrainde, door mensen gekalibreerde AutoCompliance-systeem, getest tegen ChatGPT-4o en Perplexity Pro, werden opvallend meer afhankelijkheden ontdekt in de licentievoorwaarden:

Nauwkeurigheid in het identificeren van afhankelijkheden en licentievoorwaarden voor 216 evaluatiedatasets.

Nauwkeurigheid in het identificeren van afhankelijkheden en licentievoorwaarden voor 216 evaluatiedatasets.

Het artikel staat:

‘AutoCompliance presteert aanzienlijk beter dan alle andere agents en menselijke experts, met een nauwkeurigheid van 81,04% en 95,83% in elke taak. In tegenstelling hiermee laten ChatGPT-4o en Perplexity Pro relatief lage nauwkeurigheid zien voor bron- en licentietaken, respectievelijk.

‘Deze resultaten benadrukken de superieure prestaties van AutoCompliance, en demonstreren de effectiviteit ervan in het afhandelen van beide taken met opmerkelijke nauwkeurigheid, en geven ook aan dat er een aanzienlijke prestatie-kloof bestaat tussen AI-gebaseerde modellen en menselijke experts in deze domeinen.’

In termen van efficiëntie nam de AutoCompliance-benadering slechts 53,1 seconden in beslag, in tegenstelling tot 2.418 seconden voor equivalent menselijke evaluatie van dezelfde taken.

Bovendien kostte de evaluatie $0,29 USD, in tegenstelling tot $207 USD voor de menselijke experts. Het moet echter worden opgemerkt dat dit gebaseerd is op het huren van een GCP a2-megagpu-16gpu-knooppunt per maand tegen een tarief van $14.225 per maand – wat aangeeft dat deze soort kosten-efficiëntie voornamelijk gerelateerd is aan een grote operatie.

Dataset-onderzoek

Voor de analyse hebben de onderzoekers 3.612 datasets geselecteerd door de 3.000 meest gedownloade datasets van Hugging Face te combineren met 612 datasets uit de Data Provenance Initiative van 2023.

Het artikel staat:

‘Vanuit de 3.612 doelentiteiten hebben we in totaal 17.429 unieke entiteiten geïdentificeerd, waarvan 13.817 entiteiten verschenen als directe of indirecte afhankelijkheden van de doelentiteiten.

‘Voor onze empirische analyse beschouwen we een entiteit en haar licentie-afhankelijkheidsgrafiek als een enkel-laags structuur als de entiteit geen afhankelijkheden heeft, en een multi-laags structuur als het een of meer afhankelijkheden heeft.

‘Van de 3.612 doeldatasets hadden 2.086 (57,8%) multi-laags structuren, terwijl de overige 1.526 (42,2%) enkel-laags structuren hadden zonder afhankelijkheden.’

Auteursrechtelijk beschermde datasets kunnen alleen worden herverdeeld met juridische autoriteit, die kan voortkomen uit een licentie, auteursrechtelijke uitzonderingen of contractvoorwaarden. Ongeautoriseerde herverdeling kan leiden tot juridische gevolgen, waaronder auteursrechtelijke inbreuk of contractuele overtredingen. Daarom is duidelijke identificatie van non-compliance essentieel.

Distributieovertredingen gevonden onder het in het artikel genoemde Criterion 4.4. van Data Compliance.

Distributieovertredingen gevonden onder het in het artikel genoemde Criterion 4.4. van Data Compliance.

De studie vond 9.905 gevallen van non-compliance bij dataset-herverdeling, onderverdeeld in twee categorieën: 83,5% waren uitdrukkelijk verboden onder licentievoorwaarden, waardoor herverdeling een duidelijke juridische overtreding was; en 16,5% betroffen datasets met conflicterende licentievoorwaarden, waarbij herverdeling in theorie was toegestaan, maar niet voldeden aan de vereiste voorwaarden, waardoor downstream-juridisch risico ontstond.

De auteurs geven toe dat de risicocriteria die in NEXUS worden voorgesteld, niet universeel zijn en kunnen variëren per rechtsgebied en AI-toepassing, en dat toekomstige verbeteringen zich moeten richten op het aanpassen aan veranderende wereldwijde regelgeving, en het verfijnen van AI-gedreven juridische beoordeling.

Conclusie

Dit is een omvangrijk en grotendeels onvriendelijk artikel, maar het behandelt misschien het grootste remmende factor in de huidige industrie-adoptie van AI – de mogelijkheid dat ogenschijnlijk ‘open’ gegevens later door verschillende entiteiten, individuen en organisaties kunnen worden opgeëist.

Onder de DMCA kunnen overtredingen juridisch gezien enorme boetes met zich meebrengen per geval. Waar overtredingen in de miljoenen kunnen lopen, zoals in de gevallen die door de onderzoekers zijn ontdekt, is de potentiële juridische aansprakelijkheid echt aanzienlijk.

Bovendien kunnen bedrijven die kunnen worden bewezen te hebben geprofiteerd van upstream-gegevens, niet (zoals gebruikelijk) onwetendheid als excuus aanvoeren, ten minste niet in de invloedrijke Amerikaanse markt. Zij hebben ook op dit moment geen realistische instrumenten om de doolhof van implicaties die in ogenschijnlijk open-source dataset-licentieovereenkomsten zijn begraven, te doorgronden.

Het probleem bij het formuleren van een systeem zoals NEXUS is dat het al moeilijk genoeg zou zijn om het te kalibreren op basis van een per staat in de VS, of per natie in de EU; het perspectief van het creëren van een echt wereldwijd kader (een soort ‘Interpol voor dataset-provenance’) wordt ondermijnd, niet alleen door de tegenstrijdige motieven van de diverse overheden die zijn betrokken, maar ook door het feit dat zowel deze overheden als de staat van hun huidige wetten in dit opzicht constant veranderen.

 

* Mijn vervanging van hyperlinks voor de citaten van de auteurs.
Zes typen worden in het artikel voorgeschreven, maar de laatste twee zijn niet gedefinieerd.

Eerst gepubliceerd op vrijdag 7 maart 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.