Connect with us

Inteligență artificială

Seturi de date extrase din web și inteligentă artificială: De ce CommonPool merită o privire

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

Inteligentă Artificială (AI) a devenit o parte a vieții de zi cu zi. Este vizibilă în chatbot-urile medicale care ghidează pacienții și în instrumentele generative care asistă artiști, scriitori și dezvoltatori. Aceste sisteme par avansate, dar depind de o singură resursă esențială: datele.

Majoritatea datelor utilizate pentru antrenarea sistemelor AI provin de pe internetul public. Programe automate colectează volume mari de text, imagini și audio de pe platforme online. Aceste colecții formează baza unor modele cunoscute, cum ar fi GPT-4, Stable Diffusion și multe altele. Această colecție vastă, cu toate acestea, ridică îngrijorări nerezolvate cu privire la confidențialitate, proprietate și consimțământ informat.

Piața seturilor de date de antrenare reflectă amploarea acestei activități. În prezent, valoarea globală a seturilor de date AI este estimată la 3,2 miliarde de dolari. Conform proiecțiilor, aceasta poate crește la 16,3 miliarde de dolari până în 2034, cu o rată anuală de creștere de 20,5%. În spatele acestor cifre se află o provocare importantă. O parte semnificativă a materialului colectat este obținut fără permisiune explicită. Acesta conține adesea date personale, lucrări protejate de drepturi de autor și alte conținuturi sensibile care nu au fost niciodată destinate sistemelor de învățare automată.

Ca răspuns la aceste probleme, se explorează abordări alternative de guvernanță a datelor. Un exemplu este CommonPool, lansat în aprilie 2023, ca parte a benchmark-ului DataComp. Acesta este un set de date mare de 12,8 miliarde de perechi imagine-text, destinat cercetării AI multimodal. În contrast cu eforturile tradiționale de extragere, acesta aplică metode de filtrare, pune accentul pe transparență și include participarea comunității în dezvoltarea sa. Deși rămâne subiect de dezbatere, CommonPool indică o încercare de a construi practici mai responsabile și mai verificabile pentru datele de antrenare AI. Astfel de inițiative subliniază nevoia de standarde etice în viitorul inteligenței artificiale.

Rolul datelor extrase din web în avansarea inteligenței artificiale

Datele sunt centrale pentru AI, cu performanța sistemului strâns legată de cantitatea și varietatea informațiilor disponibile pentru antrenare. În ultimii ani, extragerea din web a devenit o metodă standard pentru asamblarea seturilor de date mari la scară. Prin colectarea conținutului online accesibil public, cercetătorii și dezvoltatorii au obținut resurse de date vaste și diverse.

Un exemplu popular este Common Crawl, care până în 2025 a stocat petabytes de text colectate prin crawls lunare de peste 250 de terabytes fiecare. Acest set de date este utilizat pe scară largă pentru antrenarea modelului text-based AI. Un alt exemplu este LAION-5B, care conține aproximativ 5,85 miliarde de perechi imagine-text. Acesta a fost important pentru aplicații precum Stable Diffusion, care poate crea imagini realiste din prompturi scrise.

Aceste seturi de date sunt valoroase pentru că cresc acuratețea modelului, îmbunătățesc generalizarea prin conținut variat și permit grupurilor mai mici, inclusiv universităților, să participe la dezvoltarea AI. Indicele AI Stanford 2025 arată că majoritatea modelului avansat încă se bazează pe date extrase, cu seturi de date care cresc rapid în dimensiune. Această cerere a condus și la investiții masive, ajungând la peste 57 miliarde de dolari în 2024 pentru centre de date și putere de calcul.

În același timp, extragerea din web nu este lipsită de provocări. Acesta ridică întrebări cu privire la confidențialitate, proprietate și drepturi legale, deoarece o parte semnificativă a conținutului colectat nu a fost creat inițial pentru utilizare de către mașini. Cazurile din instanță și discuțiile politice arată că aceste provocări devin tot mai urgente. Viitorul colectării de date AI va depinde de găsirea unui echilibru între progres și responsabilitate etică.

Problema confidențialității cu datele extrase

Uneltele de extragere din web colectează informații fără o separare clară între conținutul general și detaliile sensibile. Împreună cu textul și imaginile, acestea capturează adesea Informații Personale Identificabile (PII) precum nume, adrese de e-mail și fotografii cu fețe.

O audit al setului de date CommonPool în iulie 2025 a arătat că, chiar și după filtrare, 0,1% din probe conțineau fețe neblurate, documente de identificare guvernamentală și documente precum CV-uri și pașapoarte. Deși procentul pare mic, la scară de miliarde de înregistrări, acesta se traduce în sute de milioane de persoane afectate. Revizuiri și audituri de securitate confirmă că prezența unor astfel de materiale nu este neobișnuită, iar riscurile includ furt de identitate, hărțuire țintită și expunerea ne dorită a datelor personale.

Litigiile legale sunt, de asemenea, în creștere, pe măsură ce îngrijorările cu privire la proprietatea datelor și utilizarea corectă se mută în instanțe. Între 2023 și 2024, companii precum OpenAI și Stability AI au fost acționate în justiție pentru utilizarea datelor personale și a drepturilor de autor fără consimțământ. În februarie 2025, un tribunal federal din SUA a hotărât că antrenarea AI pe informații personale nelicențiate constituie o încălcare a drepturilor de autor. Această decizie a încurajat mai multe cauze colective. Dreptul de autor este o altă problemă majoră. Multe seturi de date extrase conțin cărți, articole, artă și cod. Scriitorii și artiștii susțin că lucrările lor sunt utilizate fără aprobare sau plată. Cazul în curs New York Times v. OpenAI pune sub semnul întrebării dacă sistemele AI reproduc conținut protejat în mod ilegal. Artiștii vizuali au ridicat plângeri similare, susținând că AI copiază stilul lor individual. În iunie 2025, un tribunal din SUA a susținut o companie de AI sub pretextul utilizării corecte, dar experții spun că hotărârile rămân inconsistente și cadrul legal este încă neclar.

Lipsa consimțământului în antrenarea AI a slăbit încrederea publică. Mulți oameni descoperă că blogurile, lucrările creative sau codul lor sunt incluse în seturi de date fără cunoștința lor. Acest lucru a ridicat îngrijorări etice și a solicitat mai multă transparență. Ca răspuns, guvernele se îndreaptă spre o supraveghere mai strictă prin legi care promovează dezvoltarea corectă a modelului AI și utilizarea atentă a datelor.

De ce seturile de date extrase sunt greu de înlocuit

Chiar și cu îngrijorările cu privire la confidențialitate și consimțământ, seturile de date extrase rămân necesare pentru antrenarea AI. Motivul este scala. Modelele AI moderne necesită trilioane de tokeni din text, imagini și alte medii. Construirea unor astfel de seturi de date numai prin surse licențiate sau curate ar costa sute de milioane de dolari. Acest lucru nu este practic pentru majoritatea startup-urilor sau universităților.

Costul ridicat nu este singura provocare cu seturile de date curate. Acestea adesea lipsesc de diversitate și tind să se concentreze pe anumite limbi, regiuni sau comunități. Această acoperire îngustă face ca modelele AI să fie mai puțin echilibrate. În contrast, datele extrase, în ciuda faptului că sunt zgomotoase și imperfecte, captează o gamă mai largă de culturi, subiecte și perspective. Această diversitate permite sistemelor AI să performeze mai bine atunci când sunt aplicate în lumea reală.

Riscul, cu toate acestea, este că reglementările stricte pot restricționa accesul la datele extrase. Dacă se întâmplă acest lucru, organizațiile mai mici pot lupta să concureze. Companiile mari cu seturi de date private sau proprietare, cum ar fi Google sau Meta, vor continua să progreseze. Acest dezechilibru ar putea reduce concurența și încetini inovația deschisă în AI.

Pentru moment, seturile de date extrase sunt centrale pentru cercetarea AI. În același timp, proiecte precum CommonPool explorează modalități de a construi colecții extinse, obținute în mod etic. Aceste eforturi sunt necesare pentru a menține ecosistemul AI mai deschis, corect și responsabil.

CommonPool: Înspre o inginerie de date la scară largă și responsabilă

CommonPool este unul dintre cele mai ambițioase eforturi tehnice de a construi un set de date multimodal deschis și la scară largă. Cu aproximativ 12,8 miliarde de perechi imagine-text, acesta se potrivește cu scala LAION-5B, dar integrează mecanisme mai puternice de inginerie a datelor și de guvernanță. Obiectivul principal de design nu a fost doar să maximizeze scala, ci și să se alinieze cu principiile de reprodusibilitate, proveniență a datelor și conformitate regulamentară.

Construirea setului de date CommonPool urmează un pipeline structurat în trei etape. Prima etapă implică extragerea mostrelor brute din instantanele Common Crawl colectate între 2014 și 2022. Atât imaginile, cât și textul asociat, cum ar fi subtitrările sau pasajele înconjurătoare, sunt adunate. Pentru a evalua alinierea semantică, administratorii aplică scoruri de similitudine bazate pe CLIP, eliminând perechile cu corespondență slabă între încorporările de imagine și text. Acest pas de filtrare inițial reduce semnificativ zgomotul în comparație cu pipeline-urile naive de extragere.

În a doua etapă, setul de date suferă o deduplicare la scară largă. Se utilizează tehnici de hashing percepțional și MinHash pentru a identifica și a elimina imaginile aproape duplicate, prevenind redundanța de a domina antrenamentul modelului. Se aplică filtre suplimentare pentru a exclude fișiere corupte, linkuri rupte și imagini de rezoluție scăzută. În acest punct, pipeline-ul include, de asemenea, normalizarea textului și identificarea automată a limbii, permițând crearea de subseturi specifice de domeniu sau limbă pentru cercetări țintite.

A treia etapă se concentrează pe siguranță și conformitate. Se aplică detectarea și blurarea fețelor automate, în timp ce imaginile cu copii și identificatorii personali, cum ar fi numele, adresele de e-mail și adresele poștale, sunt eliminați. Pipeline-ul încearcă, de asemenea, să detecteze materiale protejate de drepturi de autor. Deși nicio metodă automată nu poate garanta o filtrare perfectă la scară web, aceste măsuri de siguranță reprezintă o îmbunătățire tehnică semnificativă în comparație cu LAION-5B, unde filtrarea a fost limitată în principal la conținut pentru adulți și heuristici de toxicitate.

Dincolo de procesarea datelor, CommonPool introduce un model de guvernanță care îl deosebește de lansările de seturi de date statice. Acesta este menținut ca un set de date viu, cu lansări versionate, metadate structurate și cicluri de actualizare documentate. Fiecare probă include informații de licențiere acolo unde sunt disponibile, sprijinind conformitatea cu reglementările privind drepturile de autor. Un protocol de retragere permite persoanelor și instituțiilor să solicite eliminarea conținutului sensibil, abordând îngrijorările ridicate de Actul UE privind IA și cadrele de reglementare conexe. Metadatele, cum ar fi URL-urile și scorurile de filtrare, îmbunătățesc transparența și reprodusibilitatea, permițând cercetătorilor să urmărească deciziile de incluziune și excludere.

Rezultatele benchmark-ului din inițiativa DataComp ilustrează efectele tehnice ale acestor alegeri de design. Când arhitecturi de viziune-lingvistică identice au fost antrenate pe LAION-5B și CommonPool, cel din urmă a produs modele cu performanță mai stabilă în aval, în special la sarcinile de recuperare fină și clasificare zero-shot. Aceste rezultate sugerează că calitatea mai bună a alinierii CommonPool compensează parțial avantajele de scară ale seturilor de date mai puțin filtrate. Cu toate acestea, auditurile independente din 2025 au arătat riscuri reziduale: aproximativ 0,1% din setul de date conținea încă fețe neblurate, documente personale sensibile și înregistrări medicale. Acest lucru subliniază limitele chiar și ale pipeline-urilor de filtrare automate de ultimă generație.

În general, CommonPool reprezintă o schimbare în ingineria seturilor de date de la prioritizarea scalei brute la echilibrarea scalei, calității și conformității. Pentru cercetători, oferă o bază reprodusibilă și comparativ mai sigură pentru preantrenarea la scară largă. Pentru regulatori, demonstrează că mecanismele de confidențialitate și responsabilitate pot fi integrate direct în construcția setului de date. În contrast cu LAION, CommonPool ilustrează cum pipeline-urile de filtrare, practicile de guvernanță și cadrele de benchmark pot transforma datele web la scară largă într-o resursă mai robustă tehnic și mai etic responsabilă pentru AI multimodal.

Compararea CommonPool cu seturile de date extrase din web tradiționale

În contrast cu seturile de date extrase din web la scară largă, cum ar fi LAION-5B (5,85 miliarde de probe), COYO-700M (700 de milioane de probe) și WebLI (400 de milioane de probe), CommonPool pune accentul pe structură, reprodusibilitate și guvernanță. Acesta păstrează metadate, cum ar fi URL-urile și timestamp-urile, care sprijină trasabilitatea și verificările parțiale de licență. În plus, aplică filtrarea semantică bazată pe CLIP pentru a elimina perechile imagine-text de calitate scăzută sau slab aliniate, rezultând o calitate a datelor îmbunătățită.

În comparație, LAION-5B și COYO au fost asamblate din Common Crawl cu filtrare limitată și fără documentație de licențiere detaliată. Aceste seturi de date conțin adesea material sensibil, inclusiv înregistrări medicale, documente de identificare și fețe neblurate. WebLI, utilizat intern de OpenAI, lipsește, de asemenea, de transparență, deoarece nu a fost lansat pentru revizuire sau replicare externă.

CommonPool încearcă să abordeze aceste probleme prin excluderea informațiilor personale și a conținutului NSFW, în timp ce recunoaște că consimțământul utilizatorului rămâne nerezolvat. Acest lucru îl face mai fiabil și mai aliniat etic decât alternativele anterioare.

Concluzia

Dezvoltarea CommonPool reflectă o tranziție importantă în modul în care seturile de date AI la scară largă sunt concepute și menținute. În timp ce colecțiile anterioare, cum ar fi LAION-5B și COYO, au prioritizat scala cu supraveghere limitată, CommonPool demonstrează că transparența, filtrarea și guvernanța pot fi integrate în construcția setului de date fără a submina utilitatea pentru cercetare.

Prin păstrarea metadatelor, aplicarea verificărilor de aliniere semantică și integrarea măsurilor de siguranță, oferă o resursă mai reprodusibilă și mai responsabilă. În același timp, auditurile independente ne reamintesc că măsurile automate de siguranță nu pot elimina complet riscurile, subliniind nevoia de vigilență continuă.

Dr. Assad Abbas, un profesor asociat titular la Universitatea COMSATS Islamabad, Pakistan, a obținut doctoratul de la Universitatea de Stat din Dakota de Nord, USA. Cercetările sale se axează pe tehnologii avansate, inclusiv calculul în cloud, fog și edge, analiza datelor mari și inteligența artificială. Dr. Abbas a făcut contribuții substanțiale prin publicații în reviste științifice și conferințe reputabile. El este, de asemenea, fondatorul MyFastingBuddy.