stub Vastupidavus > Täpsus: miks peaks „mudeli vastupidavus” olema mudelite kasutuselevõtu tõeline mõõdik – Unite.AI
Ühenda meile

Tehisintellekt

Vastupidavus > Täpsus: miks peaks mudeli vastupidavus olema mudelite kasutuselevõtu tõeline mõõdik

mm
Ajakohastatud on

Autor Ingo Mierswa, asutaja, president ja andmeteadlane RapidMiner.

Andmeteadus on viimase paari aasta jooksul teinud suuri edusamme ja paljud organisatsioonid kasutavad täiustatud analüüsi või masinõppe mudeleid, et saada protsessidest sügavamat ülevaadet ja mõnel juhul isegi ennustada tõenäolisi tulemusi tulevikuks. Teiste "teaduste" puhul pole sageli selge, kas projekt on edukas või mitte, ja on teatatud, et koguni 87% andmeteaduse projektidest ei jõua kunagi tootmisse. Kuigi 100% edukuse määra ei saa oodata, on andmeteaduse projektides mõned mustrid, mis viivad kõrgema edukuse määrani, kui selles valdkonnas vastuvõetav peaks olema. Tundub, et need probleemsed mustrid eksisteerivad sõltumatult mis tahes konkreetsest tööstusharust või kasutusjuhtumist, mis viitab sellele, et andmeteaduses on universaalne probleem, millega tuleb tegeleda.

Masinõppe edukuse mõõtmine

Andmeteadlased, kes loovad masinõppe (ML) mudeleid, tuginevad täpselt määratletud matemaatilistele kriteeriumidele, et mõõta, kui hästi sellised mudelid toimivad. Millist neist kriteeriumidest kohaldatakse, sõltub peamiselt mudeli tüübist. Oletame, et mudel peaks ennustama klasse või kategooriaid uute olukordade jaoks – näiteks selle kohta, kas klient hakkab loobuma või mitte. Sellistes olukordades kasutaksid andmeteadlased selliseid mõõtmisi nagu täpsus (kui sageli mudel on õige) või täpsus (kui sageli kliendid tegelikult segavad, kui prognoosime lüngatust).

Andmeteadlased vajavad selliseid objektiivseid kriteeriume, kuna osa nende tööst on nende hindamiskriteeriumide optimeerimine parima mudeli saamiseks. Tegelikult on modelleerimiseks valmis andmete ettevalmistamise kõrval ka nende mudelite koostamine ja häälestamine kus andmeteadlased veedavad suurema osa oma ajast.

Selle negatiivne külg on see, et andmeteadlased ei keskendu tegelikult nende mudelite tootmisse panemisele, mis on probleem rohkem kui ühel põhjusel. Esiteks ei saa mudeleid, mis ei anna edukaid tulemusi, kasutada neid juurutavatele organisatsioonidele ärimõju tekitamiseks. Teiseks, kuna need organisatsioonid on kulutanud aega ja raha selliste mudelite väljatöötamisele, koolitamisele ja kasutuselevõtule, mis ei ole "reaalse maailma" andmetega kokku puutudes tulemusi andnud, peavad nad tõenäolisemalt ML ja muid andmeteaduse tööriistu oma organisatsiooni jaoks kasutuks. ja keelduvad tulevaste andmeteaduse algatustega edasi liikumast.

Tõde on see, et andmeteadlased lihtsalt naudivad mudelite kohandamist ja kulutavad sellele palju aega. Kuid ilma ärimõjuta ei kulutata seda aega targalt, mis on eriti valus, arvestades seda, kui vähe ressursse on andmeteadlastel tänapäeva maailmas.

Netflixi auhind ja tootmise ebaõnnestumine

Viimastel aastatel oleme näinud mudelite koostamisse üleinvesteerimist, mitte mudelite kasutuselevõttu. The Netflixi auhind oli avatud konkurss parima koostööpõhise filtreerimisalgoritmi leidmiseks, et ennustada filmide kasutajate hinnanguid. Kui andsite uuele filmile kõrge hinnangu, siis see film teile tõenäoliselt meeldis – nii et seda hindamissüsteemi kasutades soovitab Netflix teile teatud pealkirju ja kui teile meeldib soovitatud sisu, jääte tõenäoliselt kauemaks Netflixi kliendiks. Peaauhinnaks oli 1M USD, mis anti meeskonnale, kes suutis Netflixi enda algoritmi vähemalt 10% parandada.

Väljakutse sai alguse 2006. aastal ja järgmise kolme aasta jooksul on üle 40,000 10 andmeteaduse meeskonna panuse üle maailma saavutanud muljetavaldava, enam kui XNUMX% edu pealkirjade soovitamisel. Küll aga võidumeeskonna modellid pole kunagi kasutusele võetud. Netflix ütles, et "täpsuse suurenemine ei õigustanud nende mudelite tootmisse toomiseks vajalikke jõupingutusi."

Miks optimaalne pole alati optimaalne

Mudeli täpsust ja muid andmeteaduse kriteeriume on pikka aega kasutatud mõõdikuna mudeli edukuse mõõtmiseks enne kõnealuse mudeli tootmist. Nagu nägime, ei jõua paljud mudelid isegi sellesse etappi – see on ressursside raiskamine nii energia kui ka ajakulu osas.

Kuid selle mudeli muutmisse üleinvesteerimise kultuuriga on rohkem probleeme. Esimene on katseandmete tahtmatu ülepaigutamine, mille tulemuseks on mudelid, mis näevad juhtivale andmeteadlasele head välja, kuid tegelikult toimivad tootmises kehvemini – mõnikord isegi kahju. See juhtub kahel põhjusel:

  1. Testimisvea ja tootmises nähtava vea vahel on üldtuntud lahknevus
  2. Ärimõju ja andmeteaduse tulemuslikkuse kriteeriumid on sageli korrelatsioonis, kuid "optimaalsed" mudelid ei anna alati suurimat mõju

Esimest ülaltoodud punkti nimetatakse ka "testikomplekti liigne sobitamine.” See on hästi tuntud nähtus, eriti sellistel andmeteaduse võistlustel osalejate seas nagu need Kaagutama. Nende võistluste puhul näete selle nähtuse tugevamat versiooni juba avaliku ja erasektori edetabelite vahel. Tegelikult võis osaleja Kaggle'i võistlusel avaliku edetabeli võita ilma kunagi isegi andmeid lugenud. Samamoodi ei pruugi privaatse edetabeli ja kogu võistluse võitja olla loonud mudelit, mis suudaks säilitada oma jõudlust mis tahes muus andmekogumis peale selle, mille alusel seda on hinnatud.

Täpsus ei võrdu ärimõjuga

Liiga kaua oleme seda tava aktsepteerinud, mis viib mudelite aeglasele kohandamisele katseandmekogumitega. Selle tulemusel osutub parim mudel parimal juhul keskpäraseks:

  • Sellised mõõtmised nagu ennustav täpsus ei võrdu sageli ärimõjuga
  • 1% täpsuse paranemist ei saa tõlkida 1% võrra paremaks äritulemuseks
  • On juhtumeid, kus halvasti toimiv mudel ületab ärimõju osas teisi
  • Arvesse tuleb võtta ka muid tegureid, nagu hooldus, hindamiskiirus või vastupidavus aja jooksul toimuvatele muutustele (nn vastupidavus).

See viimane punkt on eriti oluline. Parimad mudelid ei võida mitte ainult võistlusi ega näe andmeteaduslaboris head välja, vaid peavad ka tootmises vastu ja toimivad hästi mitmesugustes testikomplektides. Neid mudeleid nimetame elastseteks mudeliteks.

Triiv ja vastupidavuse tähtsus

Kõik mudelid halvenevad aja jooksul. Küsimus on vaid selles, kui kiiresti see juhtub ja kui hästi mudel muutunud oludes ikkagi toimib. Selle halvenemise põhjuseks on asjaolu, et maailm ei ole staatiline. Seetõttu muutuvad ajas ka andmed, millele mudelit rakendatakse. Kui need muutused toimuvad aeglaselt, nimetame seda "kontseptsiooni triiviks". Kui muutused toimuvad järsult, nimetame seda "kontseptsiooni nihkeks". Näiteks võivad kliendid oma tarbimiskäitumist aja jooksul aeglaselt muuta, kuna neid on mõjutanud trendid ja/või turundus. Kalduvusmudelid ei pruugi teatud hetkel enam töötada. Neid muutusi saab teatud olukordades drastiliselt kiirendada. Näiteks COVID-19 on toonud kaasa selliste kaupade nagu tualettpaber ja desinfitseerimisvahendid – teatud toodete ootamatu järsk tõus, mis võib sellise mudeli kursist täiesti kõrvale lükata.

Elastne mudel ei pruugi olla parim mudel, mis põhineb sellistel mõõtmistel nagu täpsus või täpsus, kuid toimib hästi laiema hulga andmekogumite puhul. Sel põhjusel toimib see paremini ka pikema aja jooksul ja suudab seetõttu paremini pakkuda püsivat ärimõju.

Lineaarsed ja muud tüüpi lihtsad mudelid on sageli vastupidavamad, kuna neid on keerulisem üle sobitada konkreetse testikomplekti või ajahetkega. Võimsamaid mudeleid saab ja tuleks kasutada lihtsama mudeli väljakutsujatena, võimaldades andmeteadlastel näha, kas see võib ka aja jooksul vastu pidada. Kuid seda tuleks kasutada modelleerimisteekonna lõpp-punktis, mitte alguses.

Kuigi ametlikku KPI-d vastupidavuse mõõtmiseks ei ole andmeteaduse valdkonnas veel kasutusele võetud, on andmeteadlastel mitmeid viise, kuidas hinnata nende mudelite vastupidavust:

  • Väiksemad standardhälbed ristvalideerimisel tähendavad, et mudeli jõudlus sõltus vähem erinevate testikomplektide spetsiifikast
  • Isegi kui andmeteadlased ei teosta täielikku ristvalideerimist, võivad nad testimiseks ja valideerimiseks kasutada kahte erinevat andmekogumit. Väiksem lahknevus testi- ja valideerimisandmete kogumite veamäärade vahel näitab suuremat vastupidavust
  • Kui mudelit tootmises korralikult jälgitakse, on aja jooksul näha veamäärasid. Veamäärade järjepidevus ajas on hea märk mudeli vastupidavuse kohta.
  • Kui valitud mudeliseire lahendus arvestab triiviga, peaksid andmeteadlased pöörama tähelepanu ka sellele, kui hästi see sisenditriiv mudelit mõjutab.

Andmeteaduse kultuuri muutmine

Pärast seda, kui mudel on kasutuselevõtu etapis kasutusele võetud, on mudeli täpsus endiselt ohus. Viimased kaks punkti, mis puudutavad mudelite vastupidavust, nõuavad juba tootmises olevate mudelite korralikku jälgimist. Andmeteaduse kultuurimuutuse lähtepunktina on ettevõtetel soovitatav investeerida korralikku mudelite jälgimisse ja hakata andmeteadlasi pärast mudelite tootmisse panemist vastutama puuduliku jõudluse eest. See muudab koheselt kultuuri mudelit loovast kultuurist andmeteaduse valdkonna väärtust loovaks ja säilitavaks kultuuriks.

Nagu hiljutised sündmused maailmas on näidanud, muutub maailm kiiresti. Nüüd rohkem kui kunagi varem peame looma vastupidavaid mudeleid – mitte ainult täpseid –, et jäädvustada aja jooksul olulist ärimõju. Näiteks Kaggle korraldab väljakutset ergutada andmeteadlasi kogu maailmas, et aidata luua mudellahendusi, mida kasutada ülemaailmses võitluses COVID-19 vastu. Eeldan, et selle väljakutse tulemusel valminud kõige edukamad mudelid on kõige vastupidavamad, mitte kõige täpsemad, kuna oleme näinud, kui kiiresti võivad COVID-19 andmed ühe päevaga muutuda.

Andmeteadus peaks seisnema tõe leidmises, mitte "parima" mudeli loomises. Pidades kinni kõrgemast täpsuse vastupidavuse standardist, saavad andmeteadlased meie organisatsioonidele rohkem ärimõju avaldada ja tulevikku positiivselt kujundada.

Ingo Mierswa on arendamise alustamisest saadik tööstuse veteranandmeteadlane RapidMiner Saksamaal TLÜ Dortmundi ülikooli tehisintellekti osakonnas. Teadlane Mierswa on kirjutanud arvukalt auhinnatud väljaandeid ennustava analüütika ja suurandmete kohta. Ettevõtja Mierswa on RapidMineri asutaja. Ta vastutab strateegilise innovatsiooni eest ja tegeleb kõigi RapidMineri tehnoloogiatega seotud suurte küsimustega. Tema juhtimisel on RapidMiner esimese seitsme aasta jooksul kasvanud kuni 300% aastas. 2012. aastal juhtis ta rahvusvahelise strateegia elluviimist, avades kontorid nii USA-s kui ka Ühendkuningriigis ja Ungaris. Pärast kahte rahakogumisvooru, Radoopi omandamist ja RapidMineri positsioneerimise toetamist juhtivate analüütikute ettevõtetega, nagu Gartner ja Forrester, tunneb Ingo suurt uhkust maailma parima meeskonna toomise üle RapidMineri.