Tankeledere
Forberedelse av menneskelige data for maskinlæring er ressurskrevende: Disse to tilnærmingene er kritiske for å redusere kostnadene

Av: Dattaraj Rao, Chief Data Scientist, Persistent Systems
Som med alle systemer som avhenger av datainndata, er maskinlæring (ML) underlagt aksiomet “skrald-inn-skrald-ut”. Rent og nøyaktig merket data er grunnlaget for å bygge noen ML-modell. En ML-treningsalgoritme forstår mønster fra grunn-sannhetsdata og lærer deretter å generalisere på usette data. Hvis kvaliteten på din treningsdata er lav, vil det være svært vanskelig for ML-algoritmen å fortsette å lære og ekstrapolere.
Tenk på det i sammenheng med å trene en hund. Hvis du ikke ordentlig trener hunden med grunnleggende atferdskommandoer (inndata) eller gjør det feil/uvæskt, kan du aldri forvente at hunden skal lære og utvide gjennom observasjon til mer komplekse positive atferd, fordi de underliggende inndataene var fraværende eller feilaktige fra starten. Ordentlig trening er tidkrevende og kan være kostbar hvis du bringer inn en ekspert, men gevinsten er stor hvis du gjør det riktig fra starten.
Når du trener en ML-modell, krever opprettelse av kvalitetsdata at en domekspert bruker tid på å annotere dataene. Dette kan inkludere å velge et vindu med det ønskede objektet i et bilde eller å tildele en merking til en tekstinnføring eller en databasepost. Spesielt for ustrukturerte data som bilder, videoer og tekst, spiller annoteringskvalitet en stor rolle i å bestemme modellkvalitet. Vanligvis er umerkede data som rå bilder og tekst rikelig tilgjengelig – men merking er der innsatsen må optimeres. Dette er den menneskelige delen av ML-livssyklusen og er vanligvis den mest kostbare og arbeidskrevende delen av noen ML-prosjekt.
Dataannoteringsverktøy som Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS og DataRobot human-in-the-loop forbedrer kontinuerlig i kvalitet og tilbyr intuitive grensesnitt for domeksperter. likevel er det å minimere tiden som domeksperter må bruke på å annotere data fortsatt en betydelig utfordring for bedrifter i dag – spesielt i en omgang hvor datavitenskapelig talent er begrenset, men likevel høyt etterspurt. Her kommer to nye tilnærminger til dataforberedelse inn i bildet.
Aktiv læring
Aktiv læring er en metode hvor en ML-modell aktivt spør en domekspert om bestemte annoteringer. Her er fokuset ikke på å få en fullstendig annotering på umerkede data, men bare å få de riktige datapunktene annotert så modellen kan lære bedre. Ta for eksempel helse- og livsvitenskap, et diagnostisk selskap som spesialiserer seg på tidlig kreftdiagnose for å hjelpe kliniske beslutningstagere med å ta informerte, datadrevne beslutninger om pasientbehandling. Som en del av deres diagnostiske prosess, må de annotere CT-skanningsbilder med svulster som må markeres.
Etter at ML-modellen har lært fra noen bilder med tumorblokker merket, vil modellen med aktiv læring bare spør brukerne om å annotere bilder hvor den er usikker på svulstens tilstedeværelse. Disse vil være grensepunkter, som, når de er annotert, vil øke modellens tillit. Hvor modellen er trygg over en bestemt terskel, vil den gjøre en selv-annotering i stedet for å be brukeren om å annotere. Dette er hvordan aktiv læring prøver å hjelpe med å bygge nøyaktige modeller samtidig som det reduserer tiden og innsatsen som kreves for å annotere data. Rammer som modAL kan hjelpe til å øke klassifiseringsytelsen ved å inteligent spørre domeksperter om å merke de mest informative eksemplene.
Svakt tilsyn
Svakt tilsyn er en tilnærming hvor støyende og upresise data eller abstrakte konsepter kan brukes til å gi indikasjoner for å merke en stor mengde uovervåket data. Denne tilnærmingen bruker vanligvis svake merker og prøver å kombinere disse i en ensembletilnærming for å bygge kvalitetsmerket data. Innsatsen er å prøve å inkorporere domekunnskap i en automatisert merkingaktivitet.
For eksempel, hvis en internettleverandør (ISP) trengte et system for å flagge e-postdatasett som spam eller ikke-spam, kunne vi skrive svake regler som å sjekke for fraser som “tilbud”, “gratulerer”, “gratis” osv., som vanligvis er forbundet med spam-e-post. Andre regler kunne være e-post fra bestemte mønster av kildeadresser som kan søkes med regulære uttrykk. Disse svake funksjonene kunne deretter kombineres av et svakt tilsynsrammeverk som Snorkel og Skweak for å bygge forbedret kvalitets treningdata.
ML i sin kjernel er om å hjelpe selskaper med å skala prosesser eksponentielt på måter som er fysisk umulig å oppnå manuelt. likevel er ML ikke magi og avhenger fortsatt av mennesker for å a) sette opp og trene modellene ordentlig fra starten og b) gripe inn når det er nødvendig for å sikre at modellen ikke blir for skjev til å være nyttig og kan være kontraproduktiv eller negativ.
Målet er å finne måter som hjelper med å strømlinje og automatisere deler av den menneskelige innsatsen for å øke tid-til-marked og resultater, men samtidig holde seg innenfor rammene av optimal nøyaktighet. Det er universelt akseptert at å få kvalitetsmerket data er den mest kostbare, men ekstremt viktige delen av et ML-prosjekt. Dette er et utviklingsområde, og mye innsats er i gang for å redusere tiden som domeksperter må bruke og forbedre kvaliteten på dataannoteringer. Å utforske og utnytte aktiv læring og svakt tilsyn er en solid strategi for å oppnå dette på tvers av flere bransjer og brukstilfeller.










