ciot Modelele de inteligență artificială instruite pe date părtinitoare sexuale au performanțe mai proaste la diagnosticarea bolii - Unite.AI
Conectează-te cu noi

Farmaceutice

Modelele de inteligență artificială instruite pe date părtinitoare de sex au rezultate mai proaste la diagnosticarea bolii

mm

Publicat

 on

Recent, a studiu publicat în jurnalul PNAS și condus de cercetători din Argentina, a sugerat că prezența datelor de antrenament în funcție de sex duce la o performanță mai proastă a modelului la diagnosticarea bolilor și a altor probleme medicale. După cum a raportat Statsnews, echipa de cercetători a experimentat modele de antrenament în care pacienții de sex feminin au fost în mod semnificativ subreprezentați sau excluși cu totul și a constatat că algoritmul a funcționat substanțial mai rău atunci când le-a diagnosticat. Același lucru a fost valabil și pentru incidentele în care pacienții de sex masculin au fost excluși sau subreprezentați.

În ultima jumătate de deceniu, pe măsură ce modelele AI și învățarea automată au devenit mai omniprezente, s-a acordat mai multă atenție problemelor seturilor de date părtinitoare și modelelor de învățare automată părtinitoare care rezultă din acestea. Prejudecățile de date în învățarea automată poate duce la aplicații AI incomode, dăunătoare social și exclusive, dar când vine vorba de aplicații medicale, viețile pot fi pe linie. Cu toate acestea, în ciuda cunoașterii problemei, puține studii au încercat să cuantifice cât de dăunătoare pot fi seturile de date părtinitoare. Studiul efectuat de echipa de cercetare a constatat că prejudecățile datelor ar putea avea efecte mai extreme decât au estimat anterior mulți experți.

Una dintre cele mai populare utilizări ale AI în ultimii ani, în contexte medicale, a fost utilizarea modelelor AI pentru a diagnostica pacienții pe baza imaginilor medicale. Echipa de cercetare a analizat modele utilizate pentru a detecta prezența diferitelor afecțiuni medicale, cum ar fi pneumonia, cardiomegalia sau herniile de la raze X. Echipele de cercetare au studiat trei arhitecturi de model open-source: Inception-v3, ResNet și DenseNet-121. Modelele au fost instruite pe radiografii toracice extrase din două seturi de date open-source provenite de la Universitatea Stanford și de la National Institutes of Health. Deși seturile de date în sine sunt destul de echilibrate când vine vorba de reprezentarea sexului, cercetătorii au denaturat artificial datele împărțindu-le în subseturi în care a existat un dezechilibru de sex.

Echipa de cercetare a creat cinci seturi de date de antrenament diferite, fiecare compus din rapoarte diferite de scanări ale pacientului de sex masculin/femeie. Cele cinci seturi de antrenament au fost defalcate după cum urmează:

  • Toate imaginile erau cu pacienți de sex masculin
  • Toate imaginile erau cu paciente de sex feminin
  • 25% bărbați și 75% femei
  • 75% femei și 25% bărbați
  • Jumătate bărbați și jumătate femei

După ce modelul a fost antrenat pe unul dintre subseturi, a fost testat pe o colecție de scanări de la pacienți atât bărbați, cât și femei. A existat o tendință notabilă care a fost prezentă în diferitele afecțiuni medicale, acuratețea modelelor a fost mult mai proastă atunci când datele de antrenament au fost semnificativ denaturate în funcție de sex. Un lucru interesant de remarcat este că, dacă un sex a fost suprareprezentat în datele de antrenament, acel sex nu părea să beneficieze de suprareprezentare. Indiferent dacă modelul a fost antrenat sau nu pe date distorsionate pentru un sex sau altul, nu a avut performanțe mai bune pe acel sex în comparație cu atunci când a fost antrenat pe un set de date inclusiv.

Autorul principal al studiului, Enzo Ferrante, a fost citat de Statnews explicând că studiul subliniază cât de important este ca datele de instruire să fie diverse și reprezentative pentru toate populațiile în care intenționați să testați modelul.

Nu este complet clar de ce modelele instruite pe un sex tind să aibă performanțe mai proaste atunci când sunt implementate pe alt sex. Unele dintre discrepanțe s-ar putea datora diferențelor fiziologice, dar diverși factori sociali și culturali ar putea explica, de asemenea, o parte din diferență. De exemplu, femeile pot avea tendința de a primi raze X într-un stadiu diferit de progresie a bolii în comparație cu bărbații. Dacă acest lucru ar fi adevărat, ar putea afecta caracteristicile (și, prin urmare, modelele învățate de model) găsite în imaginile de antrenament. Dacă acesta este cazul, este mult mai dificil pentru cercetători să-și depășească seturile de date, deoarece părtinirea ar fi inclusă în setul de date prin mecanismele de colectare a datelor.

Chiar și cercetătorii care acordă o atenție deosebită diversității datelor, uneori, nu au de ales decât să lucreze cu date care sunt denaturate sau părtinitoare. Situațiile în care există o diferență între modul în care sunt diagnosticate condițiile medicale vor duce adesea la dezechilibru de date. De exemplu, datele despre pacienții cu cancer de sân sunt colectate aproape în întregime de la femei. În mod similar, autismul se manifestă diferit între femei și bărbați și, ca urmare, afecțiunea este diagnosticată într-o rată mult mai mare la băieți decât la fete.

Cu toate acestea, este extrem de important ca cercetătorii să controleze datele distorsionate și părtinirea datelor în orice mod pot. În acest scop, studiile viitoare îi vor ajuta pe cercetători să cuantifice impactul datelor părtinitoare.

Blogger și programator cu specialități în Invatare mecanica și Invatare profunda subiecte. Daniel speră să-i ajute pe alții să folosească puterea AI pentru binele social.