Inteligență artificială

Sunt Seturile De Date Hiperscale Sub-Curate Mai Rele Decât Însăși Internetul?

Published October 6, 2021

Updated April 28, 2026

Martin Anderson

Cercetători din Irlanda, Regatul Unit și Statele Unite au avertizat că creșterea seturilor de date hiperscale pentru antrenarea inteligenței artificiale amenință să propage cele mai rele aspecte ale surselor de internet, susținând că un set de date academice recent lansat conține ‘imagini și texte problematice și explicite de viol, pornografie, stereotipuri maligne, insulte rasiale și etnice și alte conținuturi extrem de problematice’.

Cercetătorii cred că o nouă valură de seturi de date multimodale masive sub-curate sau filtrate incorect sunt, probabil, mai dăunătoare în capacitatea lor de a întări efectele unor astfel de conținuturi negative, deoarece seturile de date păstrează imagini și alte conținuturi care ar fi putut fi eliminate de pe platformele online prin plângeri ale utilizatorilor, moderare locală sau algoritmi.

Ei observă, de asemenea, că poate dura ani – în cazul puternicului set de date ImageNet, un deceniu întreg – pentru ca plângerile legate de conținutul setului de date să fie abordate, și că aceste revizuiri ulterioare nu sunt întotdeauna reflectate nici măcar în seturile de date noi derivate din ele.

Articolul studiu, intitulat Seturi de date multimodale: misoginie, pornografie și stereotipuri maligne, provine de la cercetători de la University College Dublin & Lero, Universitatea din Edinburgh și Șeful științific al platformei de autentificare UnifyID.

Deși lucrarea se concentrează pe lansarea recentă a setului de date CLIP-filtrat LAION-400M, autorii argumentează împotriva tendinței generale de a arunca cantități tot mai mari de date în cadrul inteligenței artificiale, cum ar fi modelul de limbaj neural GPT-3, și susțin că impulsul axat pe rezultate către o inferență mai bună (și chiar către Inteligența Artificială Generală [AGI]) duce la utilizarea ad-hoc a surselor de date dăunătoare cu supraveghere neglijentă a drepturilor de autor; potențialul de a provoca și promova prejudicii; și capacitatea de a nu numai perpetua date ilegale care ar fi putut dispărea altfel din domeniul public, ci și de a incorpora modelele morale ale unor astfel de date în implementările de inteligență artificială descendente.

LAION-400M

Luna trecută, setul de date LAION-400M a fost lansat, adăugându-se la numărul tot mai mare de seturi de date multimodale și lingvistice care se bazează pe Common Crawl repository, care extrage internetul în mod indiscriminat și transferă responsabilitatea pentru filtrare și curățare proiectelor care îl utilizează. Setul de date derivat conține 400 de milioane de perechi text-imagine.

LAION-400M este o variantă open source a setului de date WIT (WebImageText) închis al Google AI, lansat în martie 2021, și prezintă perechi text-imagine, unde o imagine din baza de date a fost asociată cu textul însoțitor explicit sau metadate (de exemplu, textul alt al unei imagini într-o galerie web). Acest lucru permite utilizatorilor să efectueze recuperarea imaginilor pe baza textului, dezvăluind asocierile pe care le-a format inteligența artificială subiacentă despre aceste domenii (de exemplu, ‘animal’, ‘bicicletă’, ‘persoană’, ‘bărbat’, ‘femeie’).

Această relație între imagine și text, și similaritatea cosinus care poate încorpora prejudecăți în rezultatele interogării, stau la baza apelului articolului pentru metodologii îmbunătățite, deoarece interogări foarte simple către baza de date LAION-400M pot dezvălui prejudecăți.

De exemplu, imaginea pionierului astronaut Eileen Collins din biblioteca scitkit-image recuperează două titluri asociate în LAION-400M: ‘Acesta este un portret al unui astronaut cu drapelul american’ și ‘Acesta este o fotografie a unei gospodine zâmbitoare într-un costum portocaliu cu drapelul american’.

Astronautul american Eileen Collins primește două interpretări foarte diferite ale realizărilor sale ca primă femeie în spațiu sub LAION-400M. Sursă: https://arxiv.org/pdf/2110.01963.pdf

Similaritățile cosinus care fac ca oricare dintre aceste titluri să fie probabil aplicabile sunt foarte aproape una de alta, iar autorii susțin că o astfel de proximitate ar face sistemele de inteligență artificială care utilizează LAION-400M relativ probabil să prezinte oricare dintre ele ca un titlu potrivit.

Pornografia Reapare Din Nou

LAION-400M a făcut disponibilă o interfață căutabilă disponibilă, unde debifarea butonului ‘căutare sigură’ dezvăluie amploarea în care imagini și asocieri textuale pornografice domină etichetele și clasele. De exemplu, căutarea pentru ‘călugăriță’ (NSFW dacă ulterior dezactivați modul sigur) în baza de date returnează rezultate în mare parte legate de groază, cosplay și costume, cu foarte puține călugărițe reale disponibile.

Dezactivarea modului Sigur pe aceeași căutare dezvăluie o mulțime de imagini pornografice legate de termen, care împing orice imagini non-pornografice în josul paginii de rezultate, dezvăluind amploarea în care LAION-400M a atribuit o greutate mai mare imaginilor pornografice, deoarece acestea sunt prevalente pentru termenul ‘călugăriță’ în sursele online.

Activarea implicită a modului Sigur în interfața de căutare online este înșelătoare, deoarece reprezintă o ciudățenie a interfeței, un filtru care nu va fi necesarmente activat în sistemele de inteligență artificială derivate, dar care a fost generalizat în domeniul ‘călugăriță’ într-un mod care nu este atât de ușor de filtrat sau de distins de rezultatele (relativ) SFW în ceea ce privește utilizarea algoritmică.

Articolul prezintă exemple estompate în materialele suplimentare de la sfârșit. Nu pot fi prezentate aici, din cauza limbajului din textul care însoțește fotografiile estompate, dar cercetătorii observă efortul pe care l-a necesitat examinarea și estomparea imaginilor asupra lor și recunosc provocarea de a curăța un astfel de material pentru supravegherea umană a bazelor de date de mare scară:

‘Noi (precum și colegii noștri care ne-au ajutat) am experimentat diferite niveluri de disconfort, greață și durere de cap în timpul procesului de sondezare a setului de date. În plus, acest tip de muncă întâmpină în mod disproporționat critici negative semnificative în sfera academică a inteligenței artificiale la lansare, ceea ce nu numai că adaugă o povară emoțională suplimentară sarcinii deja grele de a studia și analiza astfel de seturi de date, dar încurajează, de asemenea, lucrări similare viitoare, în detrimentul domeniului inteligenței artificiale și al societății în general.’

Cercetătorii susțin că, deși curățarea umană în buclă este scumpă și are costuri personale asociate, sistemele de filtrare automate proiectate pentru a elimina sau a aborda un astfel de material nu sunt în mod evident adecvate sarcinii, deoarece sistemele de procesare a limbajului natural au dificultăți în izolarea sau discountarea materialului ofensiv care poate domina un set de date extras și ulterior poate fi perceput ca semnificativ din cauza volumului pur.

Închiderea Conținutului Interzis și Eliminarea Protecției Drepturilor de Autor

Articolul susține că seturile de date sub-curate de acest tip sunt ‘foarte probabil’ să perpetueze exploatarea indivizilor minoritari și abordează dacă astfel de proiecte de date cu sursă deschisă au dreptul, din punct de vedere legal sau moral, să transfere răspunderea pentru materialul respectiv asupra utilizatorului final:

‘Indivizii pot șterge datele lor de pe un site web și presupune că au dispărut pentru totdeauna, în timp ce acestea pot exista încă pe serverele mai multor cercetători și organizații. Există o întrebare cu privire la cine este responsabil pentru eliminarea acestor date din utilizarea setului de date? În cazul LAION-400M, creatorii au delegat această sarcină utilizatorului setului de date. Având în vedere că astfel de procese sunt intenționat complexe și că utilizatorul mediu lipsește de cunoștințele tehnice pentru a-și șterge datele, este o abordare rezonabilă?’

Ei susțin, de asemenea, că LAION-400M poate să nu fie potrivit pentru lansare sub modelul de licență adoptat Creative Common CC-BY 4.0, în ciuda beneficiilor potențiale pentru democratizarea seturilor de date de mare scară, care anterior erau domeniul exclusiv al companiilor bine finanțate, cum ar fi Google și OpenAI.

Domeniul LAION-400M afirmă că ‘imaginile setului de date sunt sub drepturile lor de autor’ – un mecanism ‘trecut’ în mare măsură facilitat de hotărârile instanțelor și de ghidurile guvernamentale din ultimii ani care aprobă în general extragerea web-ului pentru scopuri de cercetare. Sursă: https://rom1504.github.io/clip-retrieval/

Autorii sugerează că voluntarii ‘grass-roots’ (adică voluntari) ar putea aborda unele dintre problemele setului de date, și că cercetătorii ar putea dezvolta tehnici de filtrare îmbunătățite.

‘Cu toate acestea, drepturile subiectului de date rămân nefundamentate aici. Este iresponsabil și periculos să minimalizați prejudiciile inerente în astfel de seturi de date de mare scară și să încurajați utilizarea lor în medii industriale și comerciale. Răspunderea schemei de licențiere sub care este furnizat setul de date revine în întregime creatorului setului de date.’

Problemele Democratizării Datelor Hiperscale

Articolul susține că seturile de date vizuo-lingvistice de această scară, cum ar fi LAION-400M, erau anterior indisponibile în afara companiilor de tehnologie de mare scară și a instituțiilor de cercetare limitate care dețin resursele pentru a le colecta, curăța și procesa. Ei salută spiritul noii lansări, în timp ce critică execuția acesteia.

Autorii susțin că definiția acceptată a ‘democratizării’, așa cum se aplică seturilor de date hiperscale cu sursă deschisă, este prea limitată și ‘nu ține cont de drepturile, bunăstarea și interesele indivizilor vulnerabili și comunităților, mulți dintre care sunt probabil să sufere cel mai rău de impactul descendent al acestui set de date și al modelelor antrenate pe el’.

Deoarece dezvoltarea modelelor deschise de scară GPT-3 este, în cele din urmă, destinată a fi distribuită milioanelor (și, prin proxy, posibil miliardelor) de utilizatori din întreaga lume, și deoarece proiectele de cercetare pot adopta seturi de date înainte ca acestea să fie editate sau eliminate ulterior, perpetuând orice probleme care ar fi trebuit să fie abordate în modificări, autorii susțin că lansarea neglijentă a seturilor de date sub-curate nu ar trebui să devină o trăsătură obișnuită în învățarea automată cu sursă deschisă.

Punerea Geniului Înapoi în Sticlă

Unele seturi de date care au fost suprimate mult după ce conținutul lor a trecut, poate în mod iremediabil, în proiecte de inteligență artificială pe termen lung, au inclus setul de date Duke MTMC (Multi-Target, Multi-Camera), care a fost în cele din urmă retras din cauza îngrijorărilor repetate din partea organizațiilor pentru drepturile omului cu privire la utilizarea sa de către autoritățile represive din China; Microsoft Celeb (MS-Celeb-1M), un set de date de 10 milioane de imagini cu ‘celebrități’, care s-a dovedit a include jurnaliști, activiști, factori de decizie și scriitori, a căror expunere a datelor biometrice în lansare a fost puternic criticată; și setul de date Tiny Images, retras în 2020 pentru ‘prejudecăți, imagini ofensatoare și jignitoare, și terminologie peiorativă’.

În ceea ce privește seturile de date care au fost revizuite, mai degrabă decât retrase, după critici, exemplele includ setul de date extrem de popular ImageNet, care, după cum observă cercetătorii, a durat zece ani (2009-2019) pentru a acționa asupra criticilor repetate cu privire la confidențialitate și clase neimaginabile.

Articolul observă că LAION-400M inversează, în esență, chiar și aceste îmbunătățiri lente, ‘ignorând în mare măsură’ reviziile menționate anterior în reprezentarea ImageNet în noua lansare, și identifică o tendință mai largă în acest sens*:

‘Acest lucru este evidențiat în apariția unor seturi de date mai mari, cum ar fi setul de date Tencent ML-images (în februarie 2020) care cuprinde majoritatea acestor clase neimaginabile, disponibilitatea continuă a modelelor antrenate pe setul de date complet ImageNet-21k în depozite cum ar fi TF-hub, utilizarea continuă a setului de date ne filtrat ImageNet-21k în cele mai recente modele SotA (cum ar fi Google EfficientNetV2 și CoAtNet models) și anunțurile explicite care permit utilizarea setului de date ne filtrat ImageNet-21k pentru antrenare în concursuri reputabile cum ar fi LVIS Challenge 2021.

‘Subliniem această observație crucială: O echipă de statutul ImageNet, care gestionează mai puțin de 15 milioane de imagini, a luptat și a eșuat în aceste încercări de detoxifiere până acum.

‘Scară eforturilor atente necesare pentru a detoxifia în mod cuprinzător acest set de date multimodal masiv și modelele descendente antrenate pe acest set de date, care cuprinde potențial miliarde de perechi imagine-text, va fi în mod inevitabil astronomică.’

Related Topics:AI bias Bias data analysis research