Connect with us

Web-Scraped AI-Datasets og Privatliv: Hvorfor CommonPool Fortjener et Kig

Kunstig intelligens

Web-Scraped AI-Datasets og Privatliv: Hvorfor CommonPool Fortjener et Kig

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

Kunstig Intelligens (AI) er blevet en del af hverdagslivet. Det er synligt i medicinske chatbots, der vejleder patienter, og i generative værktøjer, der assisterer kunstnere, forfattere og udviklere. Disse systemer ser avancerede ud, men de afhænger af en enkelt essentiel ressource: data.

De fleste af de data, der bruges til at træne AI-systemer, kommer fra den offentlige internet. Automatiserede programmer indsamler store mængder af tekst, billeder og lyd fra online-platforme. Disse samlinger danner grundlaget for velkendte modeller som GPT-4, Stable Diffusion og mange andre. Denne enorme samling rejser dog uløste bekymringer om privatliv, ejerskab og informeret samtykke.

Markedet for træningsdata afspejler omfanget af denne aktivitet. For tiden er den globale værdi af AI-datasets estimeret til 3,2 milliarder dollars. Ifølge projectioner kan den vokse til 16,3 milliarder dollars i 2034, med en årlig vækstrate på 20,5 procent. Bag disse tal ligger en vigtig udfordring. En betydelig del af det indsamlede materiale erhverves uden eksplitt tilladelse. Det indeholder ofte personlige data, ophavsretsligt beskyttet værk og anden følsomt indhold, der aldrig var tiltænkt maskinlæringsystemer.

Som svar på disse problemer udforskes alternative tilgange til datastyring. Et eksempel er CommonPool, der blev udgivet i april 2023 som en del af DataComp-benchmarket. Det er en stor dataset på 12,8 milliarder billed-tekstpar designet til multimodal AI-forskning. I modsætning til traditionelle skrabeindsats er det udviklet med filtermetoder, fremhæver transparens og inkluderer samarbejde i dets udvikling. Selv om det stadig er genstand for debat, indikerer CommonPool et forsøg på at opbygge mere ansvarlige og gennemskuelige praksis for AI-træningsdata. Sådanne initiativer fremhæver behovet for etiske standarder i fremtiden for kunstig intelligens.

Rollen for Web-Skrabede Data i Fremme af Kunstig Intelligens

Data er central for AI, med systemets præstation tæt knyttet til mængden og variationen af information tilgængelig for træning. I de seneste år er web-skrabning blevet en standardmetode til at samle store datasets i stor skala. Ved at indsamle offentligt tilgængeligt online-indhold har forskere og udviklere erhvervet enorme og diverse dataressourcer.

Et populært eksempel er Common Crawl, der i 2025 har lagret petabytes af tekst indsamlet gennem månedlige crawl af mere end 250 terabytes hver. Denne dataset bruges bredt til træning af tekstbaserede AI-modeller. Et andet eksempel er LAION-5B, der indeholder omkring 5,85 milliarder billed-tekstpar. Det har været vigtigt for anvendelser som Stable Diffusion, der kan skabe realistiske billeder fra skrevne prompts.

Disse datasets er værdifulde, fordi de øger modelpræcision, forbedrer generalisering gennem varieret indhold og tillader mindre grupper, herunder universiteter, at deltage i AI-udvikling. Stanford AI Index 2025 viser, at de fleste avancerede modeller stadig afhænger af skrabede data, med datasets, der vokser hurtigt i størrelse. Denne efterspørgsel har også drevet tung investering, op til over 57 milliarder dollars i 2024 for datacentre og beregningskraft.

Samtidig er web-skrabning ikke fri for udfordringer. Det rejser spørgsmål om privatliv, ejerskab og juridiske rettigheder, da meget af det indsamlede indhold ikke oprindeligt var skabt til maskinbrug. Retssager og politiske diskussioner viser, at disse udfordringer bliver mere presserende. Fremtiden for AI-dataindsamling afhænger af at finde en balance mellem fremgang og etisk ansvar.

Privatlivsproblemet med Skrabede Data

Web-skrabningstools indsamler information uden en klar adskillelse mellem almindeligt indhold og følsomme detaljer. Sammen med tekst og billeder indfanger de ofte Personligt Identificerbare Information (PII) som navne, e-mail-adresser og ansigtsfotografier.

En revision af CommonPool-datasettet i juli 2025 afslørede, at selv efter filtrering indeholdt 0,1% af eksemplerne stadig identificerbare ansigter, regerings-id og dokumenter som CV’er og pas. Selv om procentdelen synes lille, svarer det til hundredvis af millioner af berørte personer på skalaen af milliarder af poster. Gennemgang og sikkerhedsrevisioner bekræfter, at tilstedeværelsen af sådant materiale ikke er usædvanligt, og risikoen omfatter identitetstyveri, målrettet chikane og uønsket eksponering af privat data.

Retslige tvister er også stigende, da bekymringer om dataejerskab og fair brug kommer ind i retssalerne. Mellem 2023 og 2024 stod selskaber som OpenAI og Stability AI over for sager for at bruge personlige og ophavsretsligt beskyttede data uden samtykke. I februar 2025 afgjorde en amerikansk føderal domstol, at træning af AI på ulicenseret personlig information udgør krænkelse. Denne afgørelse har opmuntret til flere gruppesager. Ophavsret er et andet stort problem. Mange skrabede datasets indeholder bøger, artikler, kunst og kode. Forfattere og kunstnere påstår, at deres værk bruges uden godkendelse eller betaling. Den pågående sag New York Times v. OpenAI stiller spørgsmål om, hvorvidt AI-systemer ulovligt reproducerer beskyttet indhold. Visuelle kunstnere har rejst lignende klager, idet de påstår, at AI kopierer deres individuelle stil. I juni 2025 støttede en amerikansk domstol et AI-selskab under fair brug, men eksperter siger, at afgørelserne forbliver inkonsistente, og den retslige ramme er stadig uklar.

Mangel på samtykke i AI-træning har svækket offentligt tillid. Mange mennesker opdager, at deres blogs, kreative arbejde eller kode er inkluderet i datasets uden deres viden. Dette har rejst etiske bekymringer og opfordringer til mere transparens. I respons er regeringer på vej mod strengere tilsyn gennem love, der fremmer retfærdig udvikling af AI-modeller og omhyggelig brug af data.

Hvorfor Skrabede Datasets Er Svære at Erstatte

Selv med bekymringer om privatliv og samtykke forbliver skrabede datasets nødvendige for AI-træning. Årsagen er skalaen. Moderne AI-modeller kræver billioner af tokens fra tekst, billeder og andre medier. At opbygge sådanne datasets kun gennem licenserede eller kuraterede kilder ville koste hundredvis af millioner af dollars. Dette er ikke praktisk for de fleste startups eller universiteter.

Høj omkostning er ikke den eneste udfordring med kuraterede datasets. De mangler ofte diversitet og fokuserer på bestemte sprog, regioner eller fællesskaber. Denne snævre dækning gør AI-modellerne mindre balancerede. I modsætning hertil fanger skrabede data, på trods af at være støjende og uperfekte, en bredere række af kulturer, emner og synspunkter. Denne diversitet ermögiller AI-systemer at fungere bedre, når de anvendes i virkelighedssituationer.

Risikoen er dog, at strenge reguleringer kan begrænse adgangen til skrabede data. Hvis dette sker, kan mindre organisationer have svært ved at konkurrere. Store selskaber med private eller ejede datasets, som Google eller Meta, vil fortsætte med at avancere. Denne ubalance kan reducere konkurrencen og langsommere åbne innovation i AI.

For nu er skrabede datasets centrale for AI-forskning. Samtidig udforsker projekter som CommonPool måder at opbygge omfattende, etisk kildesamlinger på. Disse bestræbelser er nødvendige for at holde AI-økosystemet mere åbent, retfærdigt og ansvarligt.

CommonPool: Mod Ansvarlig Storskala Dataingeniørarbejde

CommonPool er et af de mest teknisk ambitiøse forsøg på at opbygge en åben, storskala multimodal dataset. Med omkring 12,8 milliarder billed-tekstpar svarer det til skalaen af LAION-5B, men integrerer stærkere dataingeniørarbejde og styreformer. Det centrale designmål var ikke kun at maksimere skalaen, men også at tilpasse sig principperne om reproducerbarhed, dataherkomst og lovmæssig overholdelse.

Opbygningen af CommonPool-datasettet følger en struktureret tretrinsrørledning. Første trin indebærer udtrækning af råprøver fra Common Crawl-snapshots indsamlet mellem 2014 og 2022. Både billeder og deres associerede tekst, såsom undertekster eller omgivende passager, indsamles. For at evaluere semantisk tilpasning anvendes CLIP-baseret ligningsskoring, og par med svag korrespondance mellem billed- og tekst-embeddings afvises. Dette tidlige filtertrin reducerer betydeligt støj i forhold til naive skrabe-pipelines.

I andet trin undergår datasettet storskala-deduplikation. Perceptuel hashing og MinHash-teknikker anvendes til at identificere og fjerne næsten duplikatbilleder, og forhindrer, at redundans dominerer modeltræning. Yderligere filtre anvendes til at udelukke korrupte filer, ødelagte links og lavopløselige billeder. I dette trin inkluderer pipeline også tekstnormalisering og automatisk sprogidentifikation, hvilket ermögiller oprettelse af domænespecifikke eller sprog-specifikke undermængder til målrettet forskning.

Tredje trin fokuserer på sikkerhed og overholdelse. Automatisk ansigtsdetektion og udslettelse anvendes, mens børnebilleder og personlige identifikatorer som navne, e-mail-adresser og postadresser fjernes. Pipeline forsøger også at detektere ophavsretsligt beskyttet materiale. Selv om ingen automatisk metode kan garantere perfekt filtrering i web-skala, repræsenterer disse sikkerhedsforanstaltninger en betydelig teknisk forbedring i forhold til LAION-5B, hvor filtrering primært var begrænset til voksenindhold og giftighedshærværk.

Ud over dataprocessering introducerer CommonPool en styreform, der adskiller det fra statiske dataset-udgivelser. Det opretholdes som en levende dataset med versionerede udgivelser, struktureret metadata og dokumenterede opdateringscykler. Hver prøve inkluderer licensinformation, hvor tilgængelig, og understøtter overholdelse af ophavsretsregler. En fjernelsesprotokol ermögiller, at personer og institutioner kan anmode om fjernelse af følsomt indhold, og løser bekymringer rejst af EU’s AI-lov og relaterede reguleringer. Metadata som kilde-URL’er og filterkarakterer forbedrer gennemsigtighed og reproducerbarhed, og ermögiller forskere at spore inklusions- og eksklusionsbeslutninger.

Benchmarkresultater fra DataComp-initiativet illustrerer de tekniske effekter af disse designvalg. Når identiske vision-sprog-arkitekturer blev trænet på LAION-5B og CommonPool, producerede sidstnævnte modeller med mere stabil downstream-præstation, især på fine-grainede indhentnings- og zero-shot-klassificeringstasks. Disse resultater antyder, at CommonPools højere tilpasningskvalitet kompenserer for nogle af skalefordelene ved mindre filtrerede datasets. Alligevel afslørede uafhængige revisioner i 2025 resterende risici: omkring 0,1% af datasettet indeholdt stadig uudslettede ansigter, følsomme personlige dokumenter og medicinske journaler. Dette fremhæver grænserne for selv de mest avancerede automatiserede filterpipelines.

Sammenligning af CommonPool med Traditionelle Web-Skrabede Datasets

I modsætning til tidligere store web-skrabede datasets som LAION-5B (5,85 milliarder prøver), COYO-700M (700M prøver) og WebLI (400M prøver) fremhæver CommonPool struktur, reproducerbarhed og styre. Det opretholder metadata som URL’er og tidsstempel, hvilket understøtter sporing og delvis licenskontrol. Derudover anvender det CLIP-baseret semantisk filtrering til at fjerne lavkvalitets- eller svagt tilknyttede billed-tekstpar, hvilket resulterer i forbedret datakvalitet.

I sammenligning blev LAION-5B og COYO samlet fra Common Crawl med begrænset filtrering og uden detaljeret licensdokumentation. Disse datasets indeholder ofte følsomt materiale, herunder medicinske journaler, identitetsdokumenter og uudslettede ansigter. WebLI, der bruges internt af OpenAI, mangler også gennemsigtighed, da det aldrig blev udgivet til ekstern gennemgang eller reproduktion.

CommonPool søger at løse disse problemer ved at udelukke personlige og NSFW-indhold, mens det erkender, at fuldt bruger-samtykke forbliver uløst. Dette gør det mere pålideligt og etisk tilretteligt end tidligere alternativer.

Bottom Line

Udviklingen af CommonPool repræsenterer en vigtig overgang i, hvordan store AI-datasets konceptualiseres og opretholdes. Mens tidligere samlinger som LAION-5B og COYO prioriterede skala med begrænset tilsyn, demonstrerer CommonPool, at gennemsigtighed, filtrering og styre kan integreres i dataset-konstruktion uden at underminere brugbarhed for forskning.

Ved at opretholde metadata, anvende semantisk tilpasningskontrol og indbygge privatlivssikkerhedsforanstaltninger tilbyder det en mere reproducerbar og ansvarlig ressource. Samtidig minder uafhængige revisioner os om, at automatiserede sikkerhedsforanstaltninger ikke kan eliminere risici fuldstændigt, og fremhæver behovet for fortsat vagtsomhed.

Dr. Assad Abbas, en fast ansat lektor ved COMSATS University Islamabad, Pakistan, har erhvervet sin ph.d. fra North Dakota State University, USA. Hans forskning fokuserer på avancerede teknologier, herunder cloud, fog og edge computing, big data analytics og AI. Dr. Abbas har leveret væsentlige bidrag med publikationer i anerkendte videnskabelige tidsskrifter og konferencer. Han er også grundlægger af MyFastingBuddy.