stubbur Seiglu > Nákvæmni: Hvers vegna 'líkan seiglu' ætti að vera hið sanna mæligildi fyrir rekstrarhæfingu líkana - Unite.AI
Tengja við okkur

Artificial Intelligence

Seiglu > Nákvæmni: Hvers vegna "líkan seiglu" ætti að vera sanna mælikvarðinn til að hagnýta líkön

mm
Uppfært on

eftir Ingo Mierswa, Stofnandi, forseti og aðalgagnafræðingur hjá RapidMiner.

Gagnafræði hefur tekið miklum framförum á síðustu tveimur árum og margar stofnanir nota háþróaða greiningu eða vélanámslíkön til að fá dýpri innsýn í ferlana og, í sumum tilfellum, jafnvel til að spá fyrir um líklegar niðurstöður í framtíðinni. Fyrir önnur „vísindi“ er oft ekki ljóst hvort verkefni muni skila árangri eða ekki, og það hafa verið skýrslur um það allt að 87% gagnavísindaverkefna komast aldrei í framleiðslu. Þó að ekki sé hægt að búast við 100% árangurshlutfalli eru nokkur mynstur í gagnavísindaverkefnum sem leiða til hærri árangurs en ætti að teljast viðunandi á þessu sviði. Þessi erfiðu mynstur virðast vera til óháð tilteknum atvinnugreinum eða notkunartilvikum, sem bendir til þess að það sé alhliða vandamál í gagnavísindum sem þarf að taka á.

Að mæla árangur vélanáms

Gagnafræðingar sem búa til vélanám (ML) líkön treysta á vel skilgreind stærðfræðileg viðmið til að mæla hversu vel slík líkön standa sig. Hver þessara viðmiðana er notuð fer aðallega eftir gerð líkans. Gerum ráð fyrir að líkan ætti að spá fyrir um flokka eða flokka fyrir nýjar aðstæður - til dæmis hvort viðskiptavinur er að fara að hætta eða ekki. Í aðstæðum eins og þessum myndu gagnafræðingar nota mælingar eins og nákvæmni (hversu oft líkanið er rétt) eða nákvæmni (hversu oft viðskiptavinir eru í raun að hrynja ef við spáum fyrir um straum).

Gagnafræðingar þurfa hlutlæg viðmið eins og þetta vegna þess að hluti af starfi þeirra er að hagræða þessum matsviðmiðum til að framleiða besta líkanið. Reyndar, við hliðina á því að undirbúa gögnin til að vera tilbúin fyrir líkanagerð, er bygging og stilling á þessum gerðum þar sem gagnafræðingar eyða mestum tíma sínum.

Gallinn við þetta er að gagnafræðingar einbeita sér í raun ekki mikið að því að setja þessar gerðir í framleiðslu, sem er vandamál af fleiri en einni ástæðu. Fyrst og fremst er ekki hægt að nota líkön sem gefa ekki árangursríkar niðurstöður til að skapa viðskiptaáhrif fyrir stofnanirnar sem nota þau. Í öðru lagi, vegna þess að þessar stofnanir hafa eytt tíma og peningum í að þróa, þjálfa og hagnýta líkön sem hafa ekki skilað árangri þegar þau eru keyrð gegn „raunverulegum“ gögnum, eru líklegri en ekki til að telja ML og önnur gagnavísindaverkfæri gagnslaus fyrir fyrirtæki sitt. og neita að halda áfram með framtíðarverkefni í gagnavísindum.

Sannleikurinn er sá að gagnafræðingar hafa einfaldlega gaman af því að fínstilla líkan og eyða miklum tíma í þetta. En án viðskiptaáhrifa er þessum tíma ekki varið skynsamlega, sem er sérstaklega sárt í ljósi þess hversu af skornum skammti gagnafræðingar eru í heiminum í dag.

Netflix verðlaunin og framleiðslubilun

Við höfum séð þetta fyrirbæri offjárfestingar í líkanasmíði en ekki í rekstri líkana spila á undanförnum árum. The Netflix verðlaunin var opin samkeppni um besta samvinnusíualgrímið til að spá fyrir um einkunnir notenda fyrir kvikmyndir. Ef þú myndir gefa nýrri kvikmynd háa einkunn, þá hefur þú líklega haft gaman af þessari mynd – þannig að með því að nota þetta einkunnakerfi mun Netflix mæla með ákveðnum titlum fyrir þig og ef þú hefur gaman af efninu sem mælt er með muntu líklega vera lengur sem viðskiptavinur Netflix. Aðalverðlaunin voru samtals 1 milljón Bandaríkjadala, veitt teyminu sem gat bætt eigin reiknirit Netflix um að minnsta kosti 10%.

Áskorunin hófst árið 2006 og á næstu þremur árum leiddi framlag yfir 40,000 gagnavísindateyma á heimsvísu til áhrifamikillar framfara um meira en 10% fyrir árangur með titli. Hins vegar fyrirmyndir sigurliðsins voru aldrei teknar í notkun. Netflix sagði að „aukningin á nákvæmni virtist ekki réttlæta átakið sem þarf til að koma þessum gerðum í framleiðslu.

Hvers vegna ákjósanlegur er ekki alltaf ákjósanlegur

Nákvæmni líkans og önnur viðmið í gagnafræði hafa lengi verið notuð sem mælikvarði til að mæla árangur líkans áður en viðkomandi líkan er sett í framleiðslu. Eins og við höfum séð komast margar gerðir aldrei á þetta stig – sem er sóun á auðlindum, bæði hvað varðar orku og tíma.

En það eru fleiri vandamál með þessa menningu offjárfestingar í líkanabreytingum. Hið fyrra er óviljandi offitun á prófunargögnin, sem mun leiða til líköna sem líta vel út fyrir stjórnandi gagnafræðinginn, en standa sig í raun undir einu sinni í framleiðslu - stundum jafnvel valda skaða. Þetta gerist af tveimur ástæðum:

  1. Það er vel þekkt misræmi á milli prófunarvillu og þess sem þú munt sjá í framleiðslu
  2. Viðmið um áhrif fyrirtækja og frammistöðu í gagnavísindum eru oft tengd, en „ákjósanleg“ líkön skila ekki alltaf mestu áhrifunum

Fyrsti liðurinn hér að ofan er einnig kallaður "offita á prófunarsettið.” Það er vel þekkt fyrirbæri, sérstaklega meðal þátttakenda í gagnavísindakeppnum eins og frá Kaggle. Fyrir þessar keppnir geturðu séð sterkari útgáfu af þessu fyrirbæri þegar á milli opinberra og einkarekinna topplistanna. Reyndar gæti þátttakandi unnið opinbera stigatöfluna í Kaggle-keppni án alltaf jafnvel að lesa gögnin. Að sama skapi getur sigurvegarinn í einkarekstrinum og heildarkeppninni ekki framleitt líkan sem getur viðhaldið frammistöðu sinni á öðru gagnasafni en því sem það hefur verið metið á.

Nákvæmni er ekki jöfn viðskiptaáhrif

Of lengi höfum við samþykkt þessa framkvæmd, sem leiðir til hægrar aðlögunar líkana að prófunargagnasöfnum. Fyrir vikið reynist það sem lítur út fyrir að vera besta módelið í besta falli miðlungs:

  • Mælingar eins og forspárnákvæmni eru oft ekki jöfn viðskiptaáhrif
  • Ekki er hægt að þýða aukningu á nákvæmni um 1% í 1% betri viðskiptaafkomu
  • Það eru tilvik þar sem líkan sem skilar litlum árangri er betri en önnur, með tilliti til viðskiptaáhrifa
  • Einnig þarf að taka tillit til annarra þátta eins og viðhalds, stigahraða eða styrkleika gegn breytingum með tímanum (kallað „seiglu“).

Þetta síðasta atriði er sérstaklega mikilvægt. Bestu módelin munu ekki bara vinna keppnir eða líta vel út í gagnafræðistofunni heldur haldast við í framleiðslu og standa sig vel á ýmsum prófunarsettum. Þessi líkön eru það sem við vísum til sem seigur líkön.

Svíf og mikilvægi seiglu

Allar gerðir versna með tímanum. Spurningin er bara hversu hratt þetta gerist og hversu vel líkanið stendur sig enn við breyttar aðstæður. Ástæðan fyrir þessari hnignun er sú staðreynd að heimurinn er ekki kyrrstæður. Þess vegna breytast gögnin sem líkanið er notað á einnig með tímanum. Ef þessar breytingar gerast hægt köllum við þetta „hugtaksrek“. Ef breytingarnar gerast skyndilega köllum við þetta „hugtaksbreyting“. Til dæmis geta viðskiptavinir breytt neysluhegðun sinni hægt með tímanum, eftir að hafa orðið fyrir áhrifum af þróun og/eða markaðssetningu. Hneigðarlíkön virka kannski ekki lengur á ákveðnum tímapunkti. Þessum breytingum er hægt að hraða verulega við ákveðnar aðstæður. COVID-19, til dæmis, hefur ýtt undir sölu á hlutum eins og salernispappír og sótthreinsiefnum - óvænt mikil aukning á tilteknum vörum sem geta kastað slíku líkani algjörlega út af laginu.

Seigur líkan er kannski ekki besta líkanið byggt á mælingum eins og nákvæmni eða nákvæmni en mun skila sér vel á fjölbreyttari gagnasöfnum. Af þessum sökum mun það einnig skila betri árangri yfir lengri tíma og er því betur í stakk búið til að skila viðvarandi viðskiptaáhrifum.

Línuleg og aðrar gerðir af einföldum gerðum eru oft seigurri vegna þess að það er erfiðara að ofhæfa þeim við ákveðið prófunarsett eða augnablik í tíma. Öflugri líkön geta og ætti að nota sem „áskorun“ fyrir einfaldara líkan, sem gerir gagnafræðingum kleift að sjá hvort það geti líka staðist með tímanum. En þetta ætti að vera notað við endapunktinn, ekki upphaf líkanferðarinnar.

Þó að formlegt KPI til að mæla seiglu hafi ekki enn verið kynnt á sviði gagnavísinda, þá eru nokkrar leiðir þar sem gagnafræðingar geta metið hversu seigur líkön þeirra eru:

  • Minni staðalfrávik í krossprófunarkeyrslu þýða að afköst líkansins voru minna háð sérstöðu mismunandi prófunarsettanna
  • Jafnvel þó að gagnafræðingar séu ekki að framkvæma fulla krossfullgildingu geta þeir notað tvö mismunandi gagnasett fyrir prófanir og staðfestingu. Minni misræmi á milli villuhlutfalls fyrir prófið og staðfestingargagnasett gefur til kynna meiri seiglu
  • Ef rétt er fylgst með líkaninu í framleiðslu má sjá villuhlutfall með tímanum. Samkvæmni villuhlutfalls með tímanum er gott merki um seiglu líkansins.
  • Ef valmódelvöktunarlausnin gerir grein fyrir reki, ættu gagnafræðingar einnig að huga að því hversu vel líkanið hefur áhrif á það inntaksrek.

Breyting á menningu gagnavísinda

Eftir að líkan hefur verið notað á aðgerðastigi eru enn ógnir við nákvæmni líkansins. Síðustu tvö atriðin hér að ofan varðandi seiglu líkana krefjast nú þegar réttrar eftirlits með gerðum í framleiðslu. Sem upphafspunktur fyrir breytta menningu í gagnafræði er fyrirtækjum vel ráðlagt að fjárfesta í réttri líkanavöktun og að byrja að draga gagnafræðinga til ábyrgðar fyrir skort á frammistöðu eftir að líkön eru sett í framleiðslu. Þetta mun strax breyta menningunni úr fyrirmyndarmenningu í verðmætaskapandi og viðhalda menningu á sviði gagnavísinda.

Eins og nýlegir heimsviðburðir hafa sýnt okkur breytist heimurinn hratt. Núna, meira en nokkru sinni fyrr, þurfum við að smíða seigur líkön – ekki bara nákvæm – til að ná mikilvægum viðskiptaáhrifum með tímanum. Kaggle, til dæmis, stendur fyrir áskorun um að hvetja gagnafræðinga um allan heim til að hjálpa til við að byggja fyrirmyndarlausnir til að nota í alþjóðlegri baráttu gegn COVID-19. Ég geri ráð fyrir að farsælustu módelin sem framleidd eru vegna þessarar áskorunar verði þau seigustu, ekki þau nákvæmustu, þar sem við höfum séð hversu hratt COVID-19 gögn geta breyst á einum degi.

Gagnafræði ætti að snúast um að finna sannleikann, ekki að framleiða „besta“ líkanið. Með því að halda okkur við hærra staðall um seiglu fram yfir nákvæmni munu gagnafræðingar geta skilað meiri viðskiptaáhrifum fyrir stofnanir okkar og hjálpað til við að móta framtíðina á jákvæðan hátt.

Ingo Mierswa er gamalreyndur gagnafræðingur frá því hann byrjaði að þróast RapidMiner við gervigreindardeild TU Dortmund háskólans í Þýskalandi. Mierswa, vísindamaðurinn, hefur skrifað fjölda margverðlaunaðra rita um forspárgreiningar og stór gögn. Mierswa, frumkvöðullinn, er stofnandi RapidMiner. Hann er ábyrgur fyrir stefnumótandi nýsköpun og fæst við allar stórar spurningar um tækni RapidMiner. Undir hans stjórn hefur RapidMiner vaxið allt að 300% á ári fyrstu sjö árin. Árið 2012 var hann í forsvari fyrir alþjóðlegri stefnumótun með opnun skrifstofur í Bandaríkjunum sem og Bretlandi og Ungverjalandi. Eftir tvær umferðir af fjársöfnun, kaupin á Radoop og stuðning við stöðu RapidMiner hjá leiðandi greiningarfyrirtækjum eins og Gartner og Forrester, leggur Ingo mikinn metnað í að koma með besta lið heims til RapidMiner.