stub Inimandmete ettevalmistamine masinõppeks on ressursimahukas: need kaks lähenemisviisi on kulude vähendamiseks kriitilise tähtsusega – Unite.AI
Ühenda meile

Mõttejuhid

Inimandmete ettevalmistamine masinõppeks on ressursimahukas: need kaks lähenemisviisi on kulude vähendamiseks kriitilise tähtsusega

mm

avaldatud

 on

Autor: Dattaraj Rao, andmeteadlane Püsivad süsteemid

Nagu iga andmesisendist sõltuva süsteemi puhul, kehtib masinõppe (ML) puhul „prügi sisse-prügi välja” aksioomile. Puhtad ja täpselt märgistatud andmed on mis tahes ML-mudeli loomise aluseks. ML-i treeningalgoritm mõistab tõepõhiste andmete põhjal mustreid ja õpib sealt edasi viise, kuidas nähtamatutel andmetel üldistada. Kui teie treeningandmete kvaliteet on madal, on ML-algoritmil väga raske pidevalt õppida ja ekstrapoleerida.

Mõelge sellele lemmikloomakoera koolitamise mõttes. Kui teil ei õnnestu koera põhiliste käitumuslike käskude (sisenditega) õigesti treenida või teete seda valesti/ebatäpselt, ei saa te kunagi eeldada, et koer õpib ja avardub vaatluse kaudu keerukamateks positiivseteks käitumisteks, kuna alussisendid puudusid või olid vigased. koos. Õige väljaõpe on ajamahukas ja isegi kulukas, kui kaasate asjatundja, kuid kasu on suurepärane, kui teete seda kohe algusest peale.

ML-mudeli koolitamisel nõuab kvaliteetsete andmete loomine, et domeeniekspert kulutaks aega andmete annoteerimiseks. See võib hõlmata pildil soovitud objektiga akna valimist või tekstikirjele või andmebaasikirjele sildi määramist. Eelkõige struktureerimata andmete puhul, nagu pildid, videod ja tekst, mängib annotatsiooni kvaliteet mudeli kvaliteedi määramisel suurt rolli. Tavaliselt on märgistamata andmeid, nagu töötlemata pildid ja tekst, külluses, kuid sildistamine on koht, kus tuleb pingutusi optimeerida. See on in-the-loop osa ML elutsüklist ja on tavaliselt kõigi ML-projektide kõige kallim ja töömahukam osa.

Andmete märkimise tööriistad, nagu Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS ja DataRobot, parandavad pidevalt kvaliteeti ja pakuvad domeeniekspertidele intuitiivseid liideseid. Domeeniekspertide andmete märkimiseks kuluva aja minimeerimine on aga praegu ettevõtete jaoks endiselt suur väljakutse – eriti keskkonnas, kus andmeteaduse anded on piiratud, kuid nende järele on suur nõudlus. Siin tulevad mängu kaks uut lähenemist andmete ettevalmistamisele.

Aktiivne õppimine

Aktiivõpe on meetod, mille puhul ML-mudel küsib domeenieksperdilt aktiivselt konkreetseid märkusi. Siin ei keskenduta märgistamata andmete täieliku märkuse hankimisele, vaid õigete andmepunktide märkimisele, et mudel saaks paremini õppida. Võtke näiteks tervishoid ja bioteadused, diagnostikaettevõte, mis on spetsialiseerunud vähi varajasele avastamisele, et aidata arstidel teha teadlikke andmepõhiseid otsuseid patsiendihoolduse kohta. Diagnoosiprotsessi osana peavad nad märkima CT-skaneerimise kujutisi kasvajatega, mida tuleb esile tõsta.

Pärast seda, kui ML-mudel õpib mõnest pildist, millel on märgitud kasvajaplokid, koos aktiivse õppimisega, palub mudel kasutajatel teha märkusi ainult siis, kui ta pole kasvaja olemasolus kindel. Need on piiripunktid, mis märkustega suurendavad mudeli usaldusväärsust. Kui mudel on kindlast künnisest enesekindel, teeb ta ise märkuse, mitte ei palu kasutajal märkusi teha. Nii püüab aktiivne õpe aidata luua täpseid mudeleid, vähendades samal ajal andmete märkimiseks kuluvat aega ja vaeva. Sellised raamistikud nagu modAL võivad aidata suurendada klassifitseerimise jõudlust, tehes arukalt päringuid domeeniekspertidelt, et märgistada kõige informatiivsemad eksemplarid.

Nõrk järelevalve

Nõrk järelevalve on lähenemisviis, mille puhul saab kasutada mürarikkaid ja ebatäpseid andmeid või abstraktseid kontseptsioone, et anda viiteid suure hulga järelevalveta andmete märgistamiseks. See lähenemisviis kasutab tavaliselt nõrku märgistajaid ja proovib neid kombineerida, et luua kvaliteetseid annoteeritud andmeid. Püüe on püüda lisada domeeniteadmised automatiseeritud märgistamistegevusse.

Näiteks kui Interneti-teenuse pakkuja (ISP) vajas süsteemi, mis märgistaks meiliandmed rämpspostiks või mitte, võiksime kirjutada nõrgad reeglid, nagu näiteks fraaside nagu "pakkumine", "palju õnne", "tasuta" jne kontrollimine, mis on enamasti seotud rämpspostiga. Teised reeglid võivad olla meilid kindlatest lähteaadresside mustritest, mida saab regulaaravaldiste abil otsida. Neid nõrku funktsioone saab seejärel kombineerida nõrga järelevalveraamistikuga, nagu Snorkel ja Skweak, et luua parema kvaliteediga koolitusandmeid.

ML-i keskmes on aidata ettevõtetel protsesse eksponentsiaalselt skaleerida viisil, mida on füüsiliselt võimatu käsitsi saavutada. Kuid ML ei ole maagia ja tugineb endiselt inimestele, kes a) seadistavad ja koolitavad modellid algusest peale korralikult ning b) sekkuvad vajaduse korral tagamaks, et mudel ei kalduks nii kaugele, et tulemused ei oleks enam kasulikud ja võib olla kahjulik või negatiivne.

Eesmärk on leida viise, mis aitavad ühtlustada ja automatiseerida inimeste osalust, et suurendada turule jõudmise aega ja tulemusi, kuid jäädes samas optimaalse täpsuse piiresse. On üldtunnustatud, et kvaliteetsete annoteeritud andmete hankimine on ML-projekti kõige kallim, kuid äärmiselt oluline osa. See on arenev ruum ja tehakse palju tööd, et vähendada domeeniekspertide aega ja parandada andmemärkuste kvaliteeti. Aktiivse õppimise ja nõrga järelevalve uurimine ja kasutamine on kindel strateegia selle saavutamiseks mitmes tööstusharus ja kasutusjuhtumites.

Dattaraj Rao, peaandmeteadlane aadressil Püsivad süsteemid, on raamatu “Keras to Kubernetes: The Journey of a Machine Learning Model to Production” autor. Püsivates süsteemides juhib Dattaraj AI uurimislaborit, mis uurib arvutinägemise, loomuliku keele mõistmise, tõenäosusliku programmeerimise, õppimise tugevdamise, seletatava tehisintellekti jne tipptasemel algoritme ning demonstreerib rakendatavust tervishoius, panganduses ja tööstuses. Dattarajil on masinõppe ja arvutinägemise valdkonnas 11 patenti.