tynkä Ihmisen datan valmistelu koneoppimista varten vaatii resursseja: nämä kaksi lähestymistapaa ovat kriittisiä kustannusten vähentämisessä - Unite.AI
Liity verkostomme!

Ajatusten johtajat

Ihmisen datan valmistelu koneoppimiseen vaatii resursseja: nämä kaksi lähestymistapaa ovat kriittisiä kustannusten vähentämisessä

mm

Julkaistu

 on

Kirjoittaja: Dataraj Rao, johtava tietotutkija Pysyvät järjestelmät

Kuten kaikki järjestelmät, jotka ovat riippuvaisia ​​tietojen syötöstä, koneoppiminen (ML) on aksiooman "roskat sisään-jätteissä" alainen. Puhtaat ja tarkasti merkityt tiedot ovat perusta minkä tahansa ML-mallin rakentamiselle. ML-harjoittelualgoritmi ymmärtää kuvioita pohjatotuusdatasta ja oppii sieltä tapoja yleistää näkymättömään dataan. Jos harjoitustietojesi laatu on heikko, ML-algoritmin on erittäin vaikea oppia jatkuvasti ja ekstrapoloida.

Ajattele sitä lemmikkikoiran koulutuksen kannalta. Jos et kouluta koiraa kunnolla peruskäyttäytymiskäskyillä (syötteitä) tai teet sen väärin/epätarkasti, et voi koskaan odottaa koiran oppivan ja laajentuvan havainnoinnin kautta monimutkaisempiin positiivisiin käyttäytymismalleihin, koska taustalla olevat syötteet puuttuivat tai olivat puutteellisia. kanssa. Kunnollinen koulutus vie aikaa ja jopa kallista, jos otat mukaan asiantuntijan, mutta tulos on suuri, jos teet sen heti alusta alkaen.

Kun opetetaan ML-mallia, laadukkaan datan luominen edellyttää, että toimialueen asiantuntija käyttää aikaa tietojen merkitsemiseen. Tämä voi sisältää ikkunan valitsemisen, jossa on haluttu objekti kuvassa, tai nimikkeen määrittämistä tekstimerkinnälle tai tietokantatietueelle. Erityisesti jäsentämättömän datan, kuten kuvien, videoiden ja tekstin, kohdalla huomautusten laadulla on tärkeä rooli mallin laadun määrittämisessä. Yleensä merkitsemätöntä dataa, kuten raakakuvia ja tekstiä, on runsaasti – mutta merkintöjä on optimoitava. Tämä on in-the-loop-osa ML-elinkaaressa ja yleensä kallein ja työvoimavaltaisin osa minkä tahansa ML-projektin.

Tietojen merkintätyökalut, kuten Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS ja DataRobot human-in-the-loop parantavat jatkuvasti laatua ja tarjoavat intuitiivisia käyttöliittymiä toimialueen asiantuntijoille. Kuitenkin, alan asiantuntijoiden tietojen merkitsemiseen tarvittavan ajan minimoiminen on edelleen merkittävä haaste yrityksille tänä päivänä – varsinkin ympäristössä, jossa datatieteen osaaminen on rajallista, mutta kysyntää on paljon. Tässä tulee esiin kaksi uutta lähestymistapaa tietojen valmisteluun.

Aktiivinen oppiminen

Aktiivinen oppiminen on menetelmä, jossa ML-malli kysyy aktiivisesti toimialueen asiantuntijalta tiettyjä huomautuksia. Tässä ei keskitytä täydellisen merkinnän saamiseen merkitsemättömistä tiedoista, vaan vain oikeiden tietopisteiden merkitsemisestä, jotta malli voi oppia paremmin. Otetaan esimerkiksi Healthcare & Life Sciences, diagnostiikkayritys, joka on erikoistunut syövän varhaiseen havaitsemiseen auttaakseen lääkäreitä tekemään tietoon perustuvia päätöksiä potilaiden hoidosta. Osana diagnoosiprosessiaan heidän on merkittävä CT-skannauskuviin kasvaimia, jotka on korostettava.

Kun ML-malli oppii muutamasta kuvasta, joissa kasvainlohkot on merkitty aktiivisen oppimisen avulla, malli pyytää käyttäjiä vain kommentoimaan kuvia, joissa se ei ole varma kasvaimen olemassaolosta. Nämä ovat rajapisteitä, jotka annotoituna lisäävät mallin luotettavuutta. Jos malli on varma, että se ylittää tietyn kynnyksen, se tekee itsehuomautuksen sen sijaan, että pyytäisi käyttäjää kommentoimaan. Näin aktiivinen oppiminen yrittää auttaa luomaan tarkkoja malleja ja vähentää samalla tietojen merkitsemiseen kuluvaa aikaa ja vaivaa. Kehykset, kuten modAL, voivat auttaa parantamaan luokittelun suorituskykyä tekemällä älykkäästi kyselyitä toimialueen asiantuntijoille merkitsemään informatiivisimmat esiintymät.

Heikko valvonta

Heikko valvonta on lähestymistapa, jossa meluisan ja epätarkan datan tai abstraktien käsitteiden avulla voidaan antaa viitteitä suuren valvomattoman tiedon merkitsemiseen. Tämä lähestymistapa käyttää yleensä heikkoja merkintöjä ja yrittää yhdistää ne kokonaislähestymistapaksi laadukkaan annotoidun datan rakentamiseksi. Pyrkimyksenä on yhdistää toimialuetieto automatisoituun merkintätoimintaan.

Jos esimerkiksi Internet-palveluntarjoaja (ISP) tarvitsi järjestelmän merkitsemään sähköpostitietojoukot roskapostiksi tai ei roskapostiksi, voisimme kirjoittaa heikkoja sääntöjä, kuten tarkistaa ilmauksia, kuten "tarjous", "onnittelut", "ilmainen" jne. jotka liittyvät enimmäkseen roskapostiin. Muita sääntöjä voivat olla sähköpostit tietyistä lähdeosoitteista, joita voidaan etsiä säännöllisillä lausekkeilla. Nämä heikot toiminnot voitaisiin sitten yhdistää heikkoon valvontakehykseen, kuten Snorkeliin ja Skweakiin, laadukkaamman harjoitusdatan luomiseksi.

ML:n ytimessä on yritysten auttaminen skaalata prosesseja eksponentiaalisesti tavoilla, joita on fyysisesti mahdotonta saavuttaa manuaalisesti. ML ei kuitenkaan ole taikuutta ja luottaa edelleen siihen, että ihmiset a) asettavat ja kouluttavat mallit kunnolla alusta alkaen ja b) puuttuvat tarvittaessa asiaan varmistaakseen, että malli ei vääristy niin pitkälle, että tulokset eivät enää ole hyödyllisiä ja voi olla haitallista tai negatiivista.

Tavoitteena on löytää tapoja, jotka auttavat virtaviivaistamaan ja automatisoimaan osia ihmisen osallistumisesta markkinoille tulon ja tulosten lisäämiseksi, mutta samalla pysyttelevät optimaalisen tarkkuuden suojakaiteissa. On yleisesti hyväksyttyä, että laadukkaan annotoidun tiedon saaminen on kallein, mutta erittäin tärkeä osa ML-projektia. Tämä on kehittyvä tila, ja paljon työtä tehdään verkkoalueen asiantuntijoiden käyttämän ajan vähentämiseksi ja datamerkintöjen laadun parantamiseksi. Aktiivisen oppimisen ja heikon ohjauksen tutkiminen ja hyödyntäminen on vankka strategia tämän saavuttamiseksi useilla toimialoilla ja käyttötapauksissa.

Dataraj Rao, johtava tietotutkija osoitteessa Pysyvät järjestelmät, on kirjoittanut kirjan "Keras to Kubernetes: The Journey of a Machine Learning Model to Production". Persistent Systemsissä Dattaraj johtaa tekoälyn tutkimuslaboratoriota, joka tutkii huippuluokan algoritmeja tietokonenäön, luonnollisen kielen ymmärtämisen, todennäköisyyspohjaisen ohjelmoinnin, vahvistusoppimisen, selittävän tekoälyn jne. alalla ja osoittaa soveltuvuuden terveydenhuollon, pankkitoiminnan ja teollisuuden aloilla. Dattarajilla on 11 patenttia koneoppimisessa ja tietokonenäössä.