Conectează-te cu noi

Monoculturi de date în inteligența artificială: amenințări la adresa diversității și inovației

Inteligența artificială

Monoculturi de date în inteligența artificială: amenințări la adresa diversității și inovației

mm

Inteligența artificială remodelează lumea, de la transformarea asistenței medicale la reformarea educației. Face față provocărilor de lungă durată și deschide posibilități pe care nu le-am crezut niciodată posibile. Datele sunt în centrul acestei revoluții – combustibilul care alimentează fiecare model AI. Este ceea ce permite acestor sisteme să facă predicții, să găsească tipare și să ofere soluții care ne afectează viața de zi cu zi.

Dar, în timp ce această abundență de date stimulează inovația, dominația seturilor de date uniforme - adesea denumite monoculturi de date - prezintă riscuri semnificative pentru diversitate și creativitate în dezvoltarea AI. Este ca și monocultură agricolă, în care plantarea aceleiași culturi pe câmpuri mari lasă ecosistemul fragil și vulnerabil la dăunători și boli. În IA, bazarea pe seturi de date uniforme creează modele rigide, părtinitoare și adesea nesigure.

Acest articol analizează conceptul de monoculturi de date, examinând ce sunt acestea, de ce persistă, riscurile pe care le aduc și pașii pe care îi putem lua pentru a construi sisteme AI care sunt mai inteligente, mai echitabile și mai incluzive.

Înțelegerea monoculturii de date

O monocultură de date apare atunci când un singur set de date sau un set restrâns de surse de date domină instruirea sistemelor AI. Recunoașterea facială este un exemplu bine documentat de monocultură de date în AI. Studiu de la MIT Media Lab a descoperit că modelele instruite în principal pe imagini ale unor indivizi cu tenul mai deschis s-au luptat cu fețele cu tenul mai închis. Ratele de eroare pentru femeile cu pielea mai închisă au ajuns la 34.7%, comparativ cu doar 0.8% pentru bărbații cu pielea mai deschisă. Aceste rezultate evidențiază impactul datelor de antrenament care nu au inclus suficientă diversitate în tonurile pielii.

Probleme similare apar și în alte domenii. De exemplu, modelele de limbă mari (LLM), cum ar fi GPT de la OpenAI și Bard de la Google, sunt instruite pe seturi de date care se bazează în mare măsură pe conținutul în limba engleză provenit în principal din contexte occidentale. Această lipsă de diversitate îi face mai puțin precisi în înțelegerea limbii și a nuanțelor culturale din alte părți ale lumii. Țări precum India sunt în curs de dezvoltare LLM care reflectă mai bine limbile locale și valorile culturale.

Această problemă poate fi critică, mai ales în domenii precum asistența medicală. De exemplu, un instrument de diagnostic medical instruit în principal pe date de la populațiile europene poate avea rezultate slabe în regiuni cu diferiți factori genetici și de mediu.

De unde provin monoculturile de date

Monoculturile de date în IA apar dintr-o varietate de motive. Seturi de date populare precum IMAGEnet și NUCĂ DE COCOS sunt masive, ușor accesibile și utilizate pe scară largă. Dar ele reflectă adesea o viziune îngustă, centrată pe Occident. Colectarea de date diverse nu este ieftină, așa că multe organizații mai mici se bazează pe aceste seturi de date existente. Această încredere întărește lipsa de varietate.

Standardizarea este, de asemenea, un factor cheie. Cercetătorii folosesc adesea seturi de date recunoscute pe scară largă pentru a-și compara rezultatele, descurajând neintentionat explorarea surselor alternative. Această tendință creează o buclă de feedback în care toată lumea optimizează pentru aceleași criterii de referință în loc să rezolve problemele din lumea reală.

Uneori, aceste probleme apar din cauza supravegherii. Creatorii de seturi de date ar putea să oprească în mod neintenționat anumite grupuri, limbi sau regiuni. De exemplu, versiunile timpurii ale asistenților vocali precum Siri nu au gestionat bine accentele non-occidentale. Motivul a fost că dezvoltatorii nu au inclus suficiente date din acele regiuni. Aceste dezvăluiri creează instrumente care nu reușesc să răspundă nevoilor unui public global.

De ce este important

Pe măsură ce AI își asumă roluri mai proeminente în luarea deciziilor, monoculturile de date pot avea consecințe în lumea reală. Modelele AI pot întări discriminarea atunci când moștenesc părtiniri din datele lor de antrenament. O algoritm de angajare instruit pe date din industriile dominate de bărbați ar putea favoriza în mod neintenționat candidații de sex masculin, excluzând femeile calificate din considerare.

Reprezentarea culturală este o altă provocare. Sistemele de recomandare precum Netflix și Spotify au adesea favorizat Preferințe occidentale, eliminând conținutul din alte culturi. Această discriminare limitează experiența utilizatorului și limitează inovația prin păstrarea ideilor înguste și repetitive.

Sistemele AI pot deveni fragile atunci când sunt instruite pe date limitate. În timpul pandemiei de COVID-19, modelele medicale s-au instruit pe date pre-pandemie a eșuat pentru a se adapta la complexitatea unei crize globale de sănătate. Această rigiditate poate face sistemele AI mai puțin utile atunci când se confruntă cu situații neașteptate.

Monocultura de date poate duce și la probleme etice și legale. Companii precum Twitter și Apple s-au confruntat cu reacții publice pentru algoritmi părtinitori. Instrumentul Twitter de tăiere a imaginilor a fost acuzat de rădăcini rasiale, în timp ce algoritmul de credit al Apple Card ar fi a oferit limite inferioare femeilor. Aceste controverse afectează încrederea în produse și ridică întrebări cu privire la responsabilitatea în dezvoltarea AI.

Cum să remediați monoculturile de date

Rezolvarea problemei monoculturii de date necesită extinderea gamei de date utilizate pentru antrenarea sistemelor AI. Această sarcină necesită dezvoltarea instrumentelor și tehnologiilor care facilitează colectarea datelor din diverse surse. Proiecte ca Vocea comună a Mozilla, de exemplu, colectează mostre de voce de la oameni din întreaga lume, creând un set de date mai bogat, cu accente și limbi diferite – în mod similar, inițiative precum Data pentru IA a UNESCO se concentrează pe includerea comunităților subreprezentate.

Stabilirea liniilor directoare etice este un alt pas crucial. Cadre precum Declarația de la Toronto promovează transparența și incluziunea pentru a se asigura că sistemele AI sunt echitabile prin proiectare. Politici puternice de guvernare a datelor inspirate de GDPR reglementările pot face, de asemenea, o mare diferență. Acestea necesită o documentare clară a surselor de date și țin organizațiile responsabile pentru asigurarea diversității.

Platformele open-source pot face, de asemenea, diferența. De exemplu, Fața îmbrățișatăDepozitul de seturi de date al lui permite cercetătorilor să acceseze și să partajeze diverse date. Acest model de colaborare promovează ecosistemul AI, reducând dependența de seturi de date restrânse. Transparența joacă, de asemenea, un rol important. Folosind AI explicabil sistemele și implementarea controalelor regulate pot ajuta la identificarea și corectarea distorsiunilor. Această explicație este vitală pentru a menține modelele atât corecte, cât și adaptabile.

Construirea de echipe diverse ar putea fi pasul cel mai de impact și cel mai simplu. Echipele cu medii variate sunt mai bune în identificarea punctelor moarte în date și în proiectarea sistemelor care funcționează pentru o gamă mai largă de utilizatori. Echipele incluzive conduc la rezultate mai bune, făcând AI mai strălucitoare și mai corectă.

Linia de jos

AI are un potențial incredibil, dar eficacitatea sa depinde de calitatea datelor. Monoculturile de date limitează acest potențial, producând sisteme părtinitoare, inflexibile, deconectate de nevoile din lumea reală. Pentru a depăși aceste provocări, dezvoltatorii, guvernele și comunitățile trebuie să colaboreze pentru a diversifica seturile de date, a implementa practici etice și a promova echipe incluzive.
Abordând direct aceste probleme, putem crea IA mai inteligentă și mai echitabilă, reflectând diversitatea lumii pe care își propune să o servească.

Dr. Tehseen Zia este profesor asociat titular la Universitatea COMSATS din Islamabad, deținând un doctorat în inteligență artificială la Universitatea de Tehnologie din Viena, Austria. Specializat în inteligență artificială, învățare automată, știință a datelor și viziune pe computer, el a adus contribuții semnificative cu publicații în reviste științifice de renume. Dr. Tehseen a condus, de asemenea, diverse proiecte industriale în calitate de investigator principal și a servit ca consultant AI.