Connect with us

Web-Scraped AI-Datasets en Privacy: Waarom CommonPool een Kijkje Waard is

Kunstmatige intelligentie

Web-Scraped AI-Datasets en Privacy: Waarom CommonPool een Kijkje Waard is

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

Kunstmatige Intelligentie (AI) is onderdeel geworden van het dagelijks leven. Het is zichtbaar in medische chatbots die patiënten begeleiden en in generatieve tools die artiesten, schrijvers en ontwikkelaars helpen. Deze systemen lijken geavanceerd, maar zijn afhankelijk van één essentiële bron: data.

De meeste data die worden gebruikt om AI-systemen te trainen, komen van het openbare internet. Geautomatiseerde programma’s verzamelen grote hoeveelheden tekst, afbeeldingen en audio van online platforms. Deze verzamelingen vormen de basis van bekende modellen zoals GPT-4, Stable Diffusion en vele anderen. Deze enorme verzameling roept echter onopgeloste zorgen op over privacy, eigendom en geïnformeerde toestemming.

De markt voor trainingsdatasets weerspiegelt de omvang van deze activiteit. Momenteel wordt de wereldwijde waarde van AI-datasets geschat op 3,2 miljard dollar. Volgens prognoses kan deze waarde tegen 2034 groeien tot 16,3 miljard dollar, met een jaarlijkse groeipercentage van 20,5 procent. Achter deze cijfers schuilt een belangrijke uitdaging. Een aanzienlijk deel van het verzamelde materiaal wordt zonder expliciete toestemming verkregen. Het bevat vaak persoonlijke gegevens, auteursrechtelijk beschermde werken en andere gevoelige inhoud die nooit bedoeld was voor machine learning-systemen.

Als reactie op deze problemen worden alternatieve benaderingen van gegevensbeheer onderzocht. Een voorbeeld is CommonPool, dat in april 2023 werd uitgebracht als onderdeel van de DataComp-benchmark. Het is een grote dataset van 12,8 miljard afbeelding-tekstparen, ontworpen voor multimodale AI-onderzoek. In tegenstelling tot traditionele schraapinspanningen, past het filtermethoden toe, legt het de nadruk op transparantie en omvat het communityparticipatie in de ontwikkeling. Hoewel het nog steeds onderwerp van discussie is, geeft CommonPool aan dat er een poging wordt gedaan om meer verantwoorde en controleerbare praktijken voor AI-trainingsdata op te bouwen. Dergelijke initiatieven benadrukken de behoefte aan ethische normen in de toekomst van kunstmatige intelligentie.

De Rol van Web-Scraped Data in de Vooruitgang van Kunstmatige Intelligentie

Data is centraal voor AI, met systeemprestaties die nauw verbonden zijn met de hoeveelheid en variëteit van de beschikbare informatie voor training. In recente jaren is web scraping een standaardmethode geworden voor het samenstellen van grote datasets in grote hoeveelheden. Door het verzamelen van openbaar toegankelijke online inhoud, hebben onderzoekers en ontwikkelaars enorme en diverse gegevensbronnen verkregen.

Een populair voorbeeld is Common Crawl, dat tegen 2025 petabytes aan tekst heeft opgeslagen die zijn verzameld door maandelijkse crawls van meer dan 250 terabyte elk. Deze dataset wordt op grote schaal gebruikt voor het trainen van op tekst gebaseerde AI-modellen. Een ander voorbeeld is LAION-5B, dat ongeveer 5,85 miljard afbeelding-tekstparen bevat. Het is belangrijk geweest voor toepassingen zoals Stable Diffusion, die realistische afbeeldingen kan creëren op basis van geschreven prompts.

Deze datasets zijn waardevol omdat ze de modelnauwkeurigheid verhogen, de generalisatie verbeteren door middel van gevarieerde inhoud en het mogelijk maken dat kleinere groepen, waaronder universiteiten, deel kunnen nemen aan AI-ontwikkeling. De Stanford AI Index 2025 toont aan dat de meeste geavanceerde modellen nog steeds afhankelijk zijn van geschraapte data, met datasets die snel in omvang groeien. Deze vraag heeft ook zware investeringen aangewakkerd, tot meer dan 57 miljard dollar in 2024 voor datacenters en rekenkracht.

Tegelijkertijd is web scraping niet vrij van uitdagingen. Het roept vragen op over privacy, eigendom en juridische rechten, aangezien een groot deel van de verzamelde inhoud oorspronkelijk niet is gemaakt voor machinegebruik. Rechtszaken en beleidsdiscussies laten zien dat deze uitdagingen steeds dringender worden. De toekomst van AI-gegevensverzameling zal afhankelijk zijn van het vinden van een balans tussen vooruitgang en ethische verantwoordelijkheid.

Het Privacyprobleem met Geschraapte Data

Web scraping-tools verzamelen informatie zonder een duidelijke scheiding tussen algemene inhoud en gevoelige details. Naast tekst en afbeeldingen, vangen ze vaak Persoonlijk Identificeerbare Informatie (PII) zoals namen, e-mailadressen en faciale fotografie.

Een audit van de CommonPool-dataset in juli 2025 onthulde dat zelfs na filtering, 0,1% van de samples nog steeds identificeerbare gezichten, overheids-ID’s en documenten zoals cv’s en paspoorten bevatten. Hoewel het percentage klein lijkt, vertaalt het zich bij een schaal van miljarden records in honderden miljoenen getroffen personen. Beoordelingen en veiligheidsaudits bevestigen dat de aanwezigheid van dergelijk materiaal niet ongebruikelijk is en dat de risico’s identiteitsdiefstal, gerichte intimidatie en ongewenste blootstelling van privégegevens omvatten.

Juridische geschillen nemen ook toe omdat zorgen over gegevensbezit en eerlijke gebruik naar de rechtbanken gaan. Tussen 2023 en 2024 werden bedrijven zoals OpenAI en Stability AI aangeklaagd voor het gebruik van persoonlijke en auteursrechtelijk beschermde gegevens zonder toestemming. In februari 2025 oordeelde een Amerikaanse federale rechtbank dat het trainen van AI op niet-geautoriseerde persoonlijke informatie inbreuk vormt. Dit vonnis heeft meer collectieve acties aangewakkerd. Auteursrecht is een ander groot probleem. Veel geschraapte datasets bevatten boeken, artikelen, kunst en code. Schrijvers en artiesten beweren dat hun werk zonder toestemming of betaling wordt gebruikt. De lopende zaak New York Times v. OpenAI vraagt zich af of AI-systemen beschermd materiaal onwettig reproduceren. Visuele artiesten hebben soortgelijke klachten ingediend, waarin zij beweren dat AI hun individuele stijl kopieert. In juni 2025 steunde een Amerikaanse rechtbank een AI-bedrijf onder het fair use-beleid, maar experts zeggen dat de uitspraken inconsistent zijn en het juridische kader nog steeds onduidelijk is.

Het gebrek aan toestemming bij AI-training heeft het publieke vertrouwen ondermijnd. Veel mensen ontdekken dat hun blogs, creatief werk of code zijn opgenomen in datasets zonder hun medeweten. Dit heeft ethische zorgen opgeroepen en roept op tot meer transparantie. Als reactie daarop bewegen overheden naar strengere toezicht door middel van wetten die de eerlijke ontwikkeling van AI-modellen en de zorgvuldige gebruik van gegevens bevorderen.

Waarom Geschraapte Datasets Moeilijk te Vervangen Zijn

Zelfs met zorgen over privacy en toestemming, blijven geschraapte datasets noodzakelijk voor AI-training. De reden is schaal. Moderne AI-modellen vereisen triljoenen tokens van tekst, afbeeldingen en andere media. Het opbouwen van dergelijke datasets alleen door middel van gelicenceerde of gecuratede bronnen zou honderden miljoenen dollars kosten. Dit is niet praktisch voor de meeste startups of universiteiten.

Hoge kosten zijn niet de enige uitdaging met gecuratede datasets. Ze ontbreken vaak aan diversiteit en richten zich op specifieke talen, regio’s of gemeenschappen. Deze smalle dekking maakt AI-modellen minder evenwichtig. In tegenstelling tot geschraapte data, die, ondanks lawaaierig en onvolmaakt, een bredere reeks culturen, onderwerpen en standpunten vastlegt. Deze diversiteit stelt AI-systemen in staat om beter te presteren wanneer ze in de praktijk worden toegepast.

Het risico is echter dat strikte regelgeving de toegang tot geschraapte data kan beperken. Als dit gebeurt, kunnen kleinere organisaties moeite hebben om concurrerend te blijven. Grote bedrijven met private of eigendomsdatasets, zoals Google of Meta, zullen hun vooruitgang blijven boeken. Deze onevenwichtigheid kan de concurrentie verminderen en de open innovatie in AI vertragen.

Voorlopig zijn geschraapte datasets centraal in AI-onderzoek. Tegelijkertijd verkennen projecten zoals CommonPool manieren om uitgebreide, ethisch verkregen collecties op te bouwen. Deze inspanningen zijn noodzakelijk om het AI-ecosysteem meer open, eerlijk en verantwoordelijk te houden.

CommonPool: Naar Verantwoorde Grote-Schaal Data-Engineering

CommonPool is een van de meest technisch ambitieuze pogingen om een open, grote-schaal multimodale dataset op te bouwen. Met ongeveer 12,8 miljard afbeelding-tekstparen, komt het overeen met de schaal van LAION-5B, maar integreert het sterker data-engineering en governance-mechanisme. Het belangrijkste ontwerpdoel was niet alleen om de schaal te maximaliseren, maar ook om te worden afgestemd op principes van reproduceerbaarheid, gegevensherkomst en regelgevingsconformiteit.

De constructie van de CommonPool-dataset volgt een gestructureerde driedelige pijplijn. De eerste fase omvat het extraheren van ruwe monsters uit Common Crawl-snapshots verzameld tussen 2014 en 2022. Zowel afbeeldingen als de bijbehorende tekst, zoals onderschriften of omliggende passages, worden verzameld. Om semantische overeenstemming te evalueren, passen de beheerders CLIP-gebaseerde overeenkomstbeoordeling toe, waarbij paren met zwakke overeenstemming tussen afbeelding- en tekstweergaven worden verwijderd. Deze vroege filterstap vermindert de ruis aanzienlijk in vergelijking met naïeve schraappijpen.

In de tweede fase ondergaat de dataset grootschalige deduplicatie. Perceptuele hashing en MinHash-technieken worden gebruikt om near-duplicaat-afbeeldingen te identificeren en te verwijderen, waardoor redundantie de modeltraining niet kan domineren. Additionele filters worden toegepast om beschadigde bestanden, gebroken links en lage resolutie-afbeeldingen uit te sluiten. Op dit punt omvat de pijplijn ook tekstnormalisatie en automatische taalidentificatie, waardoor het mogelijk wordt om domeinspecifieke of taalspecifieke subsets te creëren voor gerichte onderzoeken.

De derde fase richt zich op veiligheid en conformiteit. Geautomatiseerde gezichtsdetectie en vervaagding worden toegepast, terwijl kindgerelateerde beelden en persoonlijke identificatoren zoals namen, e-mailadressen en postadressen worden verwijderd. De pijplijn probeert ook om auteursrechtelijk beschermde materialen te detecteren. Hoewel geen enkele geautomatiseerde methode perfecte filtering kan garanderen op web-schaal, vertegenwoordigen deze waarborgen een aanzienlijke technische verbetering in vergelijking met LAION-5B, waar filtering voornamelijk beperkt was tot volwassen inhoud en toxiciteitheuristieken.

Behalve data-verwerking introduceert CommonPool een governance-model dat het onderscheidt van statische dataset-releases. Het wordt onderhouden als een levende dataset met versie-releases, gestructureerde metadata en gedocumenteerde update-cycli. Elk monster bevat licentie-informatie waar beschikbaar, waardoor conformiteit met auteursrechtregels wordt ondersteund. Een takedown-protocol stelt individuen en instellingen in staat om de verwijdering van gevoelige inhoud aan te vragen, waardoor zorgen worden aangepakt die worden opgeroepen door de EU AI-wet en verwante regelgevingskaders. Metadata zoals bron-URL’s en filterresultaten verbeteren transparantie en reproduceerbaarheid, waardoor onderzoekers kunnen traceren en uitsluitingsbeslissingen nemen.

Benchmarkresultaten van de DataComp-initiatief illustreren de technische effecten van deze ontwerpkeuzes. Toen identieke visie-taalarchitecturen werden getraind op LAION-5B en CommonPool, produceerde de laatste modellen met meer stabiele downstream-prestaties, met name op fijne ophaal- en zero-shot classificatie-taken. Deze resultaten suggereren dat de hogere overeenstemmingskwaliteit van CommonPool compenseert voor enkele van de schaaleffecten van minder gefilterde datasets. Desondanks onthulden onafhankelijke audits in 2025 resterende risico’s: ongeveer 0,1% van de dataset bevatte nog steeds onvervaagde gezichten, gevoelige persoonlijke documenten en medische dossiers. Dit benadrukt de beperkingen van zelfs state-of-the-art geautomatiseerde filterpijpen.

CommonPool Vergelijken met Traditionele Web-Scraped Datasets

In tegenstelling tot eerdere grote web-gebaseerde datasets zoals LAION-5B (5,85 miljard samples), COYO-700M (700 miljoen samples) en WebLI (400 miljoen samples), legt CommonPool de nadruk op structuur, reproduceerbaarheid en governance. Het behoudt metadata zoals URL’s en tijdstempels, waardoor traceerbaarheid en gedeeltelijke licentiecontroles worden ondersteund. Bovendien past het CLIP-gebaseerde semantische filtering toe om lage kwaliteit of zwak gealigneerde afbeelding-tekstparen te verwijderen, waardoor de gegevenskwaliteit wordt verbeterd.

In vergelijking met LAION-5B en COYO, die zijn samengesteld uit Common Crawl met beperkte filtering en zonder gedetailleerde licentiedocumentatie, bevatten deze datasets vaak gevoelige materialen, waaronder medische dossiers, identiteitsdocumenten en onvervaagde gezichten. WebLI, die intern door OpenAI wordt gebruikt, ontbreekt ook aan transparantie, aangezien het nooit is vrijgegeven voor externe beoordeling of replicatie.

CommonPool probeert deze problemen aan te pakken door PII en NSFW-inhoud uit te sluiten, terwijl het erkent dat volledige gebruikers-toestemming nog steeds onopgelost is. Dit maakt het in vergelijking met eerdere alternatieven relatief betrouwbaarder en ethischer.

De Bottom Line

De ontwikkeling van CommonPool weerspiegelt een belangrijke overgang in de manier waarop grote-schaal AI-datasets worden opgevat en onderhouden. Terwijl eerdere collecties zoals LAION-5B en COYO de prioriteit gaven aan schaal met beperkt toezicht, demonstreert CommonPool dat transparantie, filtering en governance kunnen worden geïntegreerd in datasetconstructie zonder de bruikbaarheid voor onderzoek te ondermijnen.

Door metadata te behouden, semantische overeenstemmingscontroles toe te passen en privacy-waarborgen in te bedden, biedt het een meer reproduceerbare en aanspreekbare bron. Tegelijkertijd herinneren onafhankelijke audits ons eraan dat geautomatiseerde waarborgen de risico’s niet volledig kunnen elimineren, waardoor de behoefte aan voortdurende waakzaamheid wordt benadrukt.

Dr. Assad Abbas, een gewaardeerde associate professor aan de COMSATS University Islamabad, Pakistan, heeft zijn Ph.D. behaald aan de North Dakota State University, USA. Zijn onderzoek richt zich op geavanceerde technologieën, waaronder cloud-, fog- en edge computing, big data analytics en AI. Dr. Abbas heeft substantiële bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften en conferenties. Hij is ook de oprichter van MyFastingBuddy.