Lideri de opinie

Pregătirea datelor umane pentru învățarea automată este intensivă din punct de vedere al resurselor: Aceste două abordări sunt critice pentru reducerea costurilor

Published March 7, 2022

Updated April 5, 2026

Dattaraj Rao

De: Dattaraj Rao, Șef Data Scientist, Persistent Systems

Ca și orice sistem care depinde de intrările de date, învățarea automată (ML) este supusă axiomei “gunoi la intrare, gunoi la ieșire”. Datele curate și etichetate cu acuratețe sunt fundamentul pentru construirea oricărui model ML. Un algoritm de antrenare ML înțelege modele din datele de bază și de acolo, învață modalități de a generaliza datele nevizualizate. Dacă calitatea datelor dvs. de antrenare este scăzută, atunci va fi foarte dificil pentru algoritmul ML să învețe continuu și să extrapoleze.

Gândiți-vă la acest lucru în termeni de antrenare a unui câine. Dacă nu reușiți să antrenați corect câinele cu comenzi comportamentale fundamentale (intrări) sau faceți acest lucru incorect/inexact, nu vă puteți aștepta ca câinele să învețe și să se extindă prin observație în comportamente pozitive mai complexe, deoarece intrările de bază erau lipsă sau defectuoase, din start.

Atunci când antrenați un model ML, crearea de date de calitate necesită un expert în domeniu să petreacă timp pentru a annota datele. Acest lucru poate include selectarea unei ferestre cu obiectul dorit într-o imagine sau atribuirea unei etichete unei intrări de text sau a unui înregistrări de bază de date. În special pentru datele nestructurate, cum ar fi imagini, videoclipuri și text, calitatea anotării joacă un rol major în determinarea calității modelului. De obicei, datele neetichetate, cum ar fi imagini și text brute, sunt abundente – dar etichetarea este acolo unde efortul trebuie să fie optimizat. Acesta este partea “omul în buclă” a ciclului de viață ML și de obicei este cea mai scumpă și intensivă parte a oricărui proiect ML.

Uneltele de anotare a datelor, cum ar fi Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS și DataRobot human-in-the-loop, se îmbunătățesc constant în calitate și oferă interfețe intuitive pentru experții în domeniu. Cu toate acestea, minimizarea timpului necesar experților în domeniu pentru a annota date rămâne o provocare semnificativă pentru întreprinderi astăzi – în special într-un mediu în care talentul în știința datelor este limitat, dar în mare cerere. Aici intervin două abordări noi pentru pregătirea datelor.

Învățarea activă

Învățarea activă este o metodă prin care un model ML solicită activ un expert în domeniu pentru anotări specifice. Aici, accentul nu este pe obținerea unei anotări complete pe date neetichetate, ci doar pe obținerea punctelor de date anotate corect, astfel încât modelul să poată învăța mai bine. Luați, de exemplu, sănătatea și științele vieții, o companie de diagnostic care se specializează în detectarea timpurie a cancerului pentru a ajuta clinicienii să ia decizii informate și bazate pe date despre îngrijirea pacienților. Ca parte a procesului de diagnostic, aceștia trebuie să anoteze imagini CT cu tumori care trebuie evidențiate.

După ce modelul ML învață din câteva imagini cu blocuri de tumori marcate, cu învățarea activă, modelul va solicita utilizatorilor să anoteze doar imagini unde este nesigur de prezența unei tumori. Acestea vor fi puncte de frontieră, care, atunci când sunt anotate, vor crește încrederea modelului. În cazul în care modelul este încrezător peste un anumit prag, va face o auto-anotare, mai degrabă decât să solicite utilizatorului să anoteze. Acesta este modul în care învățarea activă încearcă să ajute la construirea unor modele precise, reducând în același timp timpul și efortul necesar pentru a annota date. Cadrele precum modAL pot ajuta la creșterea performanței de clasificare, solicitând inteligent experților în domeniu să eticheteze cele mai informative instanțe.

Supervizarea slabă

Supervizarea slabă este o abordare în care datele zgomotoase și imprecise sau conceptele abstracte pot fi utilizate pentru a oferi indicații pentru etichetarea unei cantități mari de date ne_supervizate. Această abordare utilizează de obicei etichetări slabe și încearcă să le combine într-o abordare de ansamblu pentru a construi date anotate de calitate. Efortul este de a încorpora cunoștințe de domeniu într-o activitate de etichetare automată.

De exemplu, dacă un furnizor de servicii internet (ISP) are nevoie de un sistem pentru a marca seturi de e-mail ca spam sau non-spam, putem scrie reguli slabe, cum ar fi verificarea frazelor “ofertă”, “felicitări”, “gratuit”, etc., care sunt de obicei asociate cu e-mailurile spam. Alte reguli ar putea fi e-mailuri de la anumite modele de adrese de sursă, care pot fi căutate prin expresii regulate. Aceste funcții slabe ar putea fi combinate apoi de un cadru de supervizare slabă, cum ar fi Snorkel și Skweak, pentru a construi date de antrenare de calitate îmbunătățită.

ML în esență se referă la ajutarea companiilor să scaleze procesele exponențial în moduri care sunt fizic imposibile de realizat manual. Cu toate acestea, ML nu este o magie și încă se bazează pe oameni pentru a) seta și antrena modelele corespunzător de la început și b) interveni atunci când este necesar pentru a se asigura că modelul nu devine atât de înclinațional încât rezultatele să nu mai fie utile și pot fi contraproductive sau negative.

Scopul este de a găsi modalități care să ajute la optimizarea și automatizarea părților implicate ale oamenilor pentru a crește timpul de piață și rezultatele, dar rămânând în limitele acurateței optime. Este universal acceptat că obținerea de date anotate de calitate este cea mai scumpă, dar extrem de importantă parte a unui proiect ML. Acesta este un spațiu în evoluție, iar multe eforturi sunt în desfășurare pentru a reduce timpul petrecut de experții în domeniu și pentru a îmbunătăți calitatea anotărilor de date. Explorarea și utilizarea învățării active și a supervizării slabe este o strategie solidă pentru a realiza acest lucru în multiple industrii și cazuri de utilizare.

Dattaraj Rao

Dattaraj Rao, Șeful științific al datelor la Persistent Systems, este autorul cărții “Keras to Kubernetes: Călătoria unui model de învățare automată către producție.” La Persistent Systems, Dattaraj conduce Laboratorul de cercetare AI care explorează algoritmi de ultimă generație în Viziunea calculatorului, Înțelegerea limbajului natural, programarea probabilistică, Învățarea prin întărire, Inteligența explicabilă, etc. și demonstrează aplicabilitatea în domeniile sănătății, bancare și industriale. Dattaraj deține 11 brevete în învățarea automată și viziunea calculatorului.

Unite.AI

Pregătirea datelor umane pentru învățarea automată este intensivă din punct de vedere al resurselor: Aceste două abordări sunt critice pentru reducerea costurilor

Învățarea activă

Supervizarea slabă

You may like