Povežite se s nama

Umjetna inteligencija

Otpornost > Točnost: Zašto bi "otpornost modela" trebala biti prava metrika za operacionalizaciju modela

mm

Autor: Ingo Mierswa, osnivač, predsjednik i glavni znanstvenik za podatke u RapidMiner.

Znanost o podacima postigla je velik napredak u posljednjih nekoliko godina i mnoge organizacije koriste naprednu analizu ili modele strojnog učenja kako bi došle do dubljih uvida u procese i, u nekim slučajevima, čak i za predviđanje mogućih ishoda za budućnost. Za druge "znanosti" često nije jasno hoće li projekt biti uspješan ili ne, a bilo je izvješća da čak 87% projekata znanosti o podacima nikada ne dospije u proizvodnju. Iako se ne može očekivati ​​stopa uspjeha od 100%, postoje neki obrasci u projektima znanosti o podacima koji dovode do viših stopa uspjeha nego što bi se trebalo smatrati prihvatljivim na terenu. Čini se da ti problematični obrasci postoje neovisno o bilo kojoj određenoj industriji ili slučaju upotrebe, što sugerira da postoji univerzalni problem u znanosti o podacima koji se mora riješiti.

Mjerenje uspjeha strojnog učenja

Znanstvenici koji se bave podacima koji stvaraju modele strojnog učenja (ML) oslanjaju se na dobro definirane matematičke kriterije za mjerenje izvedbe takvih modela. Koji se od tih kriterija primjenjuje uglavnom ovisi o vrsti modela. Pretpostavimo da bi model trebao predvidjeti klase ili kategorije za nove situacije — na primjer, hoće li kupac napustiti ili ne. U ovakvim situacijama, znanstvenici za podatke koristili bi mjere kao što su točnost (koliko je često model točan) ili preciznost (koliko često kupci zapravo odustaju ako predvidimo odljev).

Znanstvenici koji se bave podacima trebaju ovakve objektivne kriterije jer je dio njihovog posla optimizirati te evaluacijske kriterije kako bi proizveli najbolji model. Zapravo, pored pripreme podataka da budu spremni za modeliranje, izgradnja i podešavanje tih modela je gdje podatkovni znanstvenici provode većinu svog vremena.

Loša strana ovoga je da se znanstvenici koji se bave podacima zapravo ne fokusiraju mnogo na stavljanje tih modela u proizvodnju, što je problem iz više od jednog razloga. Prvo i najvažnije, modeli koji ne daju uspješne rezultate ne mogu se koristiti za stvaranje poslovnog učinka za organizacije koje ih primjenjuju. Drugo, budući da su te organizacije potrošile vrijeme i novac na razvoj, obuku i operacionalizaciju modela koji nisu dali uspješne rezultate kada se usporede s podacima iz "stvarnog svijeta", vjerojatnije je da će ML i druge znanstvene alate za podatke smatrati beskorisnima za svoju organizaciju i odbijaju krenuti naprijed s budućim inicijativama znanosti o podacima.

Istina je da podatkovni znanstvenici jednostavno uživaju u dotjerivanju modela i troše puno vremena na to. Ali bez utjecaja na poslovanje, ovo se vrijeme ne troši mudro, što je posebno bolno s obzirom na to koliko su znanstvenici rijetki resurs podataka u današnjem svijetu.

Netflixova nagrada i neuspjeh produkcije

Vidjeli smo da se ovaj fenomen pretjeranog ulaganja u izgradnju modela, a ne u operacionalizaciju modela, pojavljuje posljednjih godina. The Netflixova nagrada bilo je otvoreno natjecanje za najbolji algoritam kolaborativnog filtriranja za predviđanje korisničkih ocjena za filmove. Ako biste novom filmu dali visoku ocjenu, vjerojatno ste uživali u njemu – stoga će vam korištenjem ovog sustava ocjenjivanja Netflix preporučiti određene naslove i ako uživate u preporučenom sadržaju, vjerojatno ćete dulje ostati kao korisnik Netflixa. Glavna nagrada bila je svota od 1 milijuna USD, koju je dobio tim koji je uspio poboljšati vlastiti Netflixov algoritam za najmanje 10%.

Izazov je započeo 2006. i tijekom sljedeće tri godine, doprinosi više od 40,000 timova za podatkovnu znanost na globalnoj razini doveli su do impresivnog poboljšanja od više od 10% za uspješnost preporuke naslova. Međutim, modeli pobjedničkog tima nikada nisu operacionalizirani. Netflix je rekao da "povećanje točnosti ne opravdava napor potreban da se ti modeli uvedu u proizvodnju."

Zašto optimalno nije uvijek optimalno

Točnost modela i drugi kriteriji znanosti o podacima dugo su se koristili kao metrika za mjerenje uspjeha modela prije stavljanja predmetnog modela u proizvodnju. Kao što smo vidjeli, mnogi modeli nikada niti ne dođu do ove faze – što je gubitak resursa, kako u smislu energije tako i utrošenog vremena.

No postoji više problema s ovom kulturom pretjeranog ulaganja u dotjerivanje modela. Prvi je nenamjerno pretjerano prilagođavanje testnim podacima, što će rezultirati modelima koji izgledaju dobro znanstveniku koji upravlja podacima, ali zapravo imaju slabije rezultate u proizvodnji – ponekad čak i uzrokujući štetu. To se događa iz dva razloga:

  1. Postoji dobro poznata razlika između pogreške testiranja i one koju ćete vidjeti u proizvodnji
  2. Kriteriji učinka na poslovanje i znanosti o podacima često su povezani, ali "optimalni" modeli ne daju uvijek najveći učinak

Prva gornja točka također se naziva "prekomjerno opremanje ispitnog skupa.” To je dobro poznat fenomen, posebno među sudionicima natjecanja u znanosti o podacima poput onih iz Kaggle. Za ova natjecanja možete vidjeti jaču verziju ovog fenomena već između javnih i privatnih ljestvica. Zapravo, sudionik bi mogao osvojiti javnu ljestvicu najboljih u Kaggle natjecanju bez ikada čak i čitanje podataka. Slično tome, pobjednik privatne ploče s najboljim rezultatima i ukupnog natjecanja možda nije proizveo model koji može održati svoju izvedbu na bilo kojem drugom skupu podataka osim onog na kojem je procijenjen.

Točnost nije jednaka poslovnom utjecaju

Predugo smo prihvaćali ovu praksu, što dovodi do spore prilagodbe modela testnim skupovima podataka. Kao rezultat toga, ono što izgleda kao najbolji model ispada u najboljem slučaju osrednje:

  • Mjerenja poput točnosti predviđanja često nisu jednaka poslovnom utjecaju
  • Poboljšanje točnosti za 1% ne može se prevesti u 1% bolji poslovni ishod
  • Postoje slučajevi u kojima model s lošom izvedbom nadmašuje druge s obzirom na poslovni učinak
  • Moraju se uzeti u obzir i drugi čimbenici kao što su održavanje, brzina bodovanja ili otpornost na promjene tijekom vremena (koje se nazivaju "otpornost").

Ova zadnja točka je posebno važna. Najbolji modeli neće samo pobjeđivati ​​na natjecanjima ili izgledati dobro u laboratoriju za podatkovnu znanost, već će se održati u proizvodnji i dobro se ponašati na raznim testnim setovima. Ove modele nazivamo otpornim modelima.

Drift i važnost otpornosti

Svi se modeli s vremenom kvare. Jedino je pitanje koliko se brzo to događa i koliko dobro model još uvijek radi u promijenjenim okolnostima. Razlog za ovo pogoršanje je činjenica da svijet nije statičan. Stoga se i podaci na koje se model primjenjuje mijenjaju tijekom vremena. Ako se te promjene događaju sporo, to nazivamo "odmakom koncepta". Ako se promjene dogode naglo, to nazivamo "promjenom koncepta". Na primjer, kupci mogu polagano mijenjati svoje potrošačko ponašanje tijekom vremena, pod utjecajem trendova i/ili marketinga. Modeli sklonosti možda više neće funkcionirati u određenom trenutku. Te se promjene mogu drastično ubrzati u određenim situacijama. Na primjer, COVID-19 je potaknuo prodaju artikala kao što su toaletni papir i dezinfekcijska sredstva — neočekivani nagli porast određenih proizvoda koji takav model može potpuno skrenuti s kursa.

Otporni model možda nije najbolji model temeljen na mjerama kao što su točnost ili preciznost, ali će imati dobre rezultate na širem rasponu skupova podataka. Iz tog razloga, također će imati bolje rezultate tijekom duljeg vremenskog razdoblja i stoga je bolje u mogućnosti pružiti održivi poslovni učinak.

Linearni i drugi tipovi jednostavnih modela često su otporniji jer ih je teže prilagoditi određenom ispitnom skupu ili trenutku u vremenu. Snažniji modeli mogu se i trebaju koristiti kao "izazivači" za jednostavniji model, omogućujući znanstvenicima da vide može li se i on održati tijekom vremena. Ali ovo bi se trebalo primijeniti na krajnjoj točki, a ne na početku manekenskog putovanja.

Iako službeni KPI za mjerenje otpornosti još nije uveden u područje znanosti o podacima, postoji nekoliko načina na koje znanstvenici koji se bave podacima mogu procijeniti koliko su njihovi modeli otporni:

  • Manje standardne devijacije u unakrsnoj validaciji znače da izvedba modela manje ovisi o specifičnostima različitih skupova testova
  • Čak i ako znanstvenici podataka ne provode potpune unakrsne provjere, mogu koristiti dva različita skupa podataka za testove i provjeru valjanosti. Manja razlika između stopa pogrešaka za skupove podataka testa i validacije ukazuje na veću otpornost
  • Ako se model ispravno prati u proizvodnji, stope pogrešaka mogu se vidjeti tijekom vremena. Konzistentnost stopa pogreške tijekom vremena dobar je znak otpornosti modela.
  • Ako odabrano rješenje za praćenje modela uzme u obzir drift, znanstvenici koji se bave podacima također bi trebali obratiti pozornost na to koliko dobro na model utječe taj ulazni drift.

Promjena kulture znanosti o podacima

Nakon što je model implementiran u fazi operacionalizacije, još uvijek postoje prijetnje točnosti modela. Zadnje dvije gornje točke u vezi s otpornošću modela već zahtijevaju odgovarajuće praćenje modela u proizvodnji. Kao polazište za promjenu kulture u podatkovnoj znanosti, tvrtkama se savjetuje da ulažu u pravilno praćenje modela i da počnu smatrati podatkovne znanstvenike odgovornima za nedostatak performansi nakon što modeli budu pušteni u proizvodnju. To će odmah promijeniti kulturu iz kulture izgradnje modela u kulturu stvaranja i održavanja vrijednosti za područje znanosti o podacima.

Kao što su nam nedavni svjetski događaji pokazali, svijet se brzo mijenja. Sada, više nego ikad, moramo izgraditi otporne modele - ne samo točne - kako bismo zabilježili značajan poslovni utjecaj tijekom vremena. Kaggle je, na primjer, domaćin izazova za poticanje znanstvenika koji se bave podacima diljem svijeta da pomognu u izgradnji modela rješenja koja će se koristiti u globalnoj borbi protiv COVID-19. Predviđam da će najuspješniji modeli proizvedeni kao rezultat ovog izazova biti najotporniji, a ne najprecizniji, budući da smo vidjeli koliko se brzo podaci o bolesti COVID-19 mogu promijeniti u jednom danu.

Znanost o podacima trebala bi se baviti pronalaženjem istine, a ne stvaranjem "najboljeg" modela. Držeći se višeg standarda otpornosti u odnosu na točnost, znanstvenici za podatke moći će ostvariti veći poslovni utjecaj za naše organizacije i pomoći u pozitivnom oblikovanju budućnosti.

Ingo Mierswa veteran je podatkovni znanstvenik od početka razvoja RapidMiner na Odsjeku za umjetnu inteligenciju Sveučilišta TU Dortmund u Njemačkoj. Mierswa, znanstvenica, autor je brojnih nagrađivanih publikacija o prediktivnoj analitici i velikim podacima. Mierswa, poduzetnik, osnivač je RapidMinera. Odgovoran je za strateške inovacije i bavi se svim pitanjima široke slike oko RapidMinerovih tehnologija. Pod njegovim vodstvom RapidMiner je rastao do 300% godišnje tijekom prvih sedam godina. Godine 2012. predvodio je strategiju go-international s otvaranjem ureda u SAD-u te Ujedinjenom Kraljevstvu i Mađarskoj. Nakon dva kruga prikupljanja sredstava, akvizicije Radoopa i podrške pozicioniranju RapidMinera kod vodećih analitičkih tvrtki kao što su Gartner i Forrester, Ingo je vrlo ponosan što je doveo najbolji tim na svijetu u RapidMiner.