Liity verkostomme!

Tekoäly

Joustavuus > Tarkkuus: Miksi "mallin kestävyyden" tulisi olla todellinen mittari mallien käyttöönottamiseksi

mm

Kirjailija: Ingo Mierswa, perustaja, presidentti ja päätietotutkija at RapidMiner.

Tietotiede on edistynyt huomattavasti viimeisten parin vuoden aikana, ja monet organisaatiot käyttävät kehittyneitä analyysi- tai koneoppimismalleja saadakseen syvempiä näkemyksiä prosesseista ja joissakin tapauksissa jopa ennustaakseen todennäköisiä tulevaisuuden tuloksia. Muiden "tieteiden" osalta ei useinkaan ole selvää, onnistuuko projekti vai ei, ja on raportoitu, että peräti 87 % datatieteen projekteista ei koskaan pääse tuotantoon. Vaikka 100 %:n onnistumisastetta ei voida odottaa, datatieteen projekteissa on joitakin malleja, jotka johtavat korkeampiin onnistumisprosentteihin kuin alalla pitäisi hyväksyä. Nämä ongelmalliset mallit näyttävät olevan olemassa riippumatta tietystä toimialasta tai käyttötapauksesta, mikä viittaa siihen, että datatieteessä on yleinen ongelma, johon on puututtava.

Koneoppimisen onnistumisen mittaaminen

Koneoppimismalleja (ML) luovat datatieteilijät luottavat hyvin määriteltyihin matemaattisiin kriteereihin mitatakseen tällaisten mallien suorituskykyä. Mitä näistä kriteereistä sovelletaan, riippuu pääasiassa mallin tyypistä. Oletetaan, että mallin pitäisi ennustaa luokkia tai luokkia uusia tilanteita varten – esimerkiksi, onko asiakas vaihtumassa vai ei. Tällaisissa tilanteissa datatutkijat käyttäisivät mittauksia, kuten tarkkuutta (kuinka usein malli on oikea) tai tarkkuutta (kuinka usein asiakkaat todella vaikeuttavat, jos ennustamme vaihtuvuutta).

Datatieteilijät tarvitsevat tämän kaltaisia ​​objektiivisia kriteerejä, koska osa heidän työtään on optimoida nämä arviointikriteerit parhaan mallin tuottamiseksi. Itse asiassa sen lisäksi, että tiedot valmistetaan mallintamista varten, kyseisten mallien rakentaminen ja viritys on jossa datatieteilijät viettävät suurimman osan ajastaan.

Tämän haittapuoli on, että datatieteilijät eivät itse asiassa keskity paljon näiden mallien ottamiseksi tuotantoon, mikä on ongelma useammasta kuin yhdestä syystä. Ensinnäkin malleja, jotka eivät tuota onnistuneita tuloksia, ei voida käyttää liiketoiminnallisten vaikutusten tuottamiseen niitä käyttöön ottaville organisaatioille. Toiseksi, koska nämä organisaatiot ovat käyttäneet aikaa ja rahaa sellaisten mallien kehittämiseen, kouluttamiseen ja käyttöön ottamiseen, jotka eivät ole tuottaneet tuloksia "todellisen maailman" dataa vastaan, he todennäköisemmin kuin eivät pidä ML:ää ja muita datatieteen työkaluja organisaatiolleen hyödyttöminä. ja kieltäytyvät siirtymästä eteenpäin tulevien tietotieteen aloitteiden kanssa.

Totuus on, että datatieteilijät vain nauttivat mallien säätämisestä ja viettävät siihen paljon aikaa. Mutta ilman liiketoimintavaikutuksia tätä aikaa ei käytetä viisaasti, mikä on erityisen tuskallista, kun otetaan huomioon, kuinka niukkoja resursseja datatieteilijöillä on nykymaailmassa.

Netflix-palkinto ja tuotannon epäonnistuminen

Olemme nähneet tämän ilmiön, jossa yli-investoidaan mallien rakentamiseen eikä mallien operatiiviseen käyttöön, käyvän viime vuosina. The Netflix-palkinto oli avoin kilpailu parhaasta yhteistoiminnallisesta suodatusalgoritmista, joka ennustaa käyttäjien arvioita elokuville. Jos annoit uudelle elokuvalle korkean arvosanan, pidit todennäköisesti tästä elokuvasta – joten tätä luokitusjärjestelmää käyttämällä Netflix suosittelee sinulle tiettyjä nimikkeitä, ja jos pidät suositellusta sisällöstä, pysyt todennäköisesti pidempään Netflixin asiakkaana. Pääpalkintona oli miljoona dollaria, joka annettiin tiimille, joka pystyi parantamaan Netflixin omaa algoritmia vähintään 1 %.

Haaste alkoi vuonna 2006, ja kolmen seuraavan vuoden aikana yli 40,000 10 datatieteen tiimin panos maailmanlaajuisesti johti vaikuttavaan, yli XNUMX %:n parannukseen nimisuositusten menestyksessä. Voittajan joukkueen mallit kuitenkin ei koskaan otettu käyttöön. Netflix sanoi, että "tarkkuuden kasvu ei näyttänyt oikeuttavan ponnisteluja näiden mallien tuomiseksi tuotantoon."

Miksi optimaalinen ei aina ole optimaalinen

Mallin tarkkuutta ja muita datatieteen kriteerejä on käytetty pitkään mittarina mallin menestyksen mittaamiseen ennen kyseisen mallin tuotantoa. Kuten olemme nähneet, monet mallit eivät pääse edes tähän vaiheeseen – mikä on resurssien tuhlausta sekä energian että ajan suhteen.

Mutta tässä mallien säätämiseen ylisijoittamisen kulttuurissa on enemmän ongelmia. Ensimmäinen on tahaton ylisovitus testitietoihin, mikä johtaa malleihin, jotka näyttävät hyviltä johtavan datatieteilijän silmissä, mutta jotka itse asiassa ovat tehottomia kerran tuotannossa – joskus jopa aiheuttaen vahinkoa. Tämä tapahtuu kahdesta syystä:

  1. Testausvirheen ja tuotannossa havaittavan virheen välillä on tunnettu ero
  2. Liiketoiminnan vaikutuksen ja datatieteen suorituskyvyn kriteerit korreloivat usein, mutta "optimaaliset" mallit eivät aina tuota suurinta vaikutusta

Yllä olevaa ensimmäistä kohtaa kutsutaan myös "ylisovitus testisarjaan.” Se on hyvin tunnettu ilmiö, varsinkin datatieteen kilpailujen osallistujien keskuudessa Kaggle. Näissä kilpailuissa voit nähdä vahvemman version tästä ilmiöstä jo julkisten ja yksityisten tulostaulukoiden välillä. Itse asiassa osallistuja voi voittaa julkisen tulostaulukon Kaggle-kilpailussa ilman sitä koskaan edes lukenut dataa. Vastaavasti yksityisen tulostaulukon ja kokonaiskilpailun voittaja ei ehkä ole tuottanut mallia, joka pystyy säilyttämään suorituskykynsä muillakin tiedoilla kuin siinä, jolla se on arvioitu.

Tarkkuus ei vastaa liiketoimintavaikutusta

Olemme liian kauan hyväksyneet tämän käytännön, mikä johtaa mallien hitaaseen mukauttamiseen testausaineistoihin. Tämän seurauksena se mikä näyttää parhaalta mallilta, osoittautuu parhaimmillaan keskinkertaiseksi:

  • Mittaukset, kuten ennustetarkkuus, eivät usein vastaa liiketoimintavaikutuksia
  • Yhden prosentin tarkkuuden parannusta ei voida kääntää 1 prosentin parempaan liiketoimintatulokseen
  • On tapauksia, joissa heikosti suorituskykyinen malli ylittää muut, mitä tulee liiketoimintaan
  • Myös muut tekijät, kuten ylläpito, pisteytysnopeus tai kestävyys ajan kuluessa tapahtuvia muutoksia vastaan ​​(kutsutaan "resilienssiksi"), on otettava huomioon.

Tämä viimeinen kohta on erityisen tärkeä. Parhaat mallit eivät vain voita kilpailuja tai näytä hyviltä datatieteen laboratoriossa, vaan kestävät tuotannossa ja suoriutuvat hyvin erilaisissa testisarjoissa. Näitä malleja kutsumme joustaviksi malleiksi.

Drift ja resilienssin merkitys

Kaikki mallit heikkenevät ajan myötä. Ainoa kysymys on, kuinka nopeasti tämä tapahtuu ja kuinka hyvin malli edelleen toimii muuttuneissa olosuhteissa. Syynä tähän huononemiseen on se, että maailma ei ole staattinen. Siksi myös tiedot, joihin mallia sovelletaan, muuttuvat ajan myötä. Jos nämä muutokset tapahtuvat hitaasti, kutsumme tätä "käsitteen ajautumiseksi". Jos muutokset tapahtuvat äkillisesti, kutsumme tätä "käsitemuutokseksi". Asiakkaat voivat esimerkiksi muuttaa kulutuskäyttäytymistään hitaasti ajan myötä trendien ja/tai markkinoinnin vaikutuksesta. Taipumusmallit eivät ehkä enää toimi tietyssä vaiheessa. Nämä muutokset voivat nopeutua voimakkaasti tietyissä tilanteissa. Esimerkiksi COVID-19 on johtanut vessapaperin ja desinfiointiaineiden kaltaisten tuotteiden myyntiin – tiettyjen tuotteiden odottamaton voimakas kasvu, mikä voi viedä tällaisen mallin täysin pois kurssista.

Kimmoisa malli ei ehkä ole paras malli, joka perustuu tarkkuuteen tai tarkkuuteen, mutta se toimii hyvin useissa tietosarjoissa. Tästä syystä se toimii paremmin myös pidemmällä aikavälillä ja pystyy siten paremmin tuottamaan kestävää liiketoimintaa.

Lineaariset ja muun tyyppiset yksinkertaiset mallit ovat usein joustavampia, koska niitä on vaikeampi sovittaa tiettyyn testisarjaan tai tiettyyn hetkeen. Tehokkaampia malleja voidaan ja pitäisi käyttää "haastoina" yksinkertaisemmassa mallissa, jolloin datatutkijat voivat nähdä, kestääkö se myös ajan myötä. Mutta tätä tulisi käyttää loppupisteessä, ei mallinnusmatkan alussa.

Vaikka muodollista KPI:tä joustavuuden mittaamiseksi ei ole vielä otettu käyttöön datatieteen alalla, on useita tapoja, joilla datatieteilijät voivat arvioida malliensa kestävyyttä:

  • Pienemmät standardipoikkeamat ristiinvalidointiajossa tarkoittavat, että mallin suorituskyky riippui vähemmän eri testisarjojen erityispiirteistä
  • Vaikka datatieteilijät eivät suorittaisi täydellisiä ristiinvalidointeja, he voivat käyttää kahta erilaista tietojoukkoa testeihin ja validointiin. Pienempi ero testi- ja validointitietojoukkojen virhesuhteiden välillä osoittaa parempaa joustavuutta
  • Jos mallia valvotaan kunnolla tuotannossa, virheprosentit näkyvät ajan myötä. Virhesuhteiden johdonmukaisuus ajan myötä on hyvä merkki mallin kestävyydestä.
  • Jos valittu mallinseurantaratkaisu ottaa huomioon ajautumisen, datatieteilijöiden tulee myös kiinnittää huomiota siihen, kuinka hyvin tämä syöteryömymä vaikuttaa malliin.

Tietotieteen kulttuurin muuttaminen

Sen jälkeen kun malli on otettu käyttöön toimintavaiheessa, mallin tarkkuuteen kohdistuu edelleen uhkia. Kaksi viimeistä kohtaa mallien kestävyydestä edellyttävät jo tuotannossa olevien mallien kunnollista seurantaa. Lähtökohtana tietotieteen kulttuurin muutokselle yritysten kannattaa panostaa asianmukaiseen mallien seurantaan ja alkaa saada datatieteilijöitä vastuuseen suorituskyvyn puutteesta mallien tuotantoon tultua. Tämä muuttaa välittömästi kulttuurin mallinrakennuskulttuurista datatieteen alan arvoa luovaksi ja ylläpitäväksi kulttuuriksi.

Kuten viimeaikaiset maailmantapahtumat ovat osoittaneet, maailma muuttuu nopeasti. Nyt enemmän kuin koskaan meidän on rakennettava kestäviä malleja – ei vain tarkkoja – vangitaksemme merkityksellisiä liiketoimintavaikutuksia ajan mittaan. Esimerkiksi Kaggle isännöi haastetta saada datatutkijat ympäri maailmaa auttamaan rakentamaan malliratkaisuja, joita voidaan käyttää maailmanlaajuisessa taistelussa COVID-19:ää vastaan. Odotan, että tämän haasteen tuloksena tuotetut menestyneimmät mallit ovat kestävimmät, eivät tarkimpia, sillä olemme nähneet kuinka nopeasti COVID-19-tiedot voivat muuttua yhdessä päivässä.

Datatieteen pitäisi olla totuuden löytämistä, ei "parhaan" mallin tuottamista. Noudattamalla korkeampaa kestävyyttä tarkkuuden suhteen datatutkijat voivat tuoda enemmän liiketoimintaa organisaatioillemme ja auttaa muokkaamaan tulevaisuutta positiivisesti.

Ingo Mierswa on alan kokenut datatieteilijä kehityksen aloittamisesta lähtien RapidMiner TU Dortmundin yliopiston tekoälyosastolla Saksassa. Mierswa, tiedemies, on kirjoittanut lukuisia palkittuja julkaisuja ennustavasta analytiikasta ja big datasta. Mierswa, yrittäjä, on RapidMinerin perustaja. Hän vastaa strategisista innovaatioista ja käsittelee kaikkia RapidMinerin teknologioihin liittyviä isoja kysymyksiä. Hänen johdollaan RapidMiner on kasvanut jopa 300 % vuodessa seitsemän ensimmäisen vuoden aikana. Vuonna 2012 hän johti kansainvälistymisstrategiaa avaamalla toimistot Yhdysvaltoihin sekä Isoon-Britanniaan ja Unkariin. Kahden varainhankintakierroksen, Radoopin hankinnan ja RapidMinerin sijoittamisen tukemisen jälkeen johtavien analyytikkoyritysten, kuten Gartnerin ja Forresterin, kanssa Ingo on ylpeä saadessaan tuoda maailman parhaan joukkueen RapidMineriin.