stomp Veerkracht > Nauwkeurigheid: waarom 'modelveerkracht' de ware maatstaf zou moeten zijn voor het operationaliseren van modellen - Unite.AI
Verbind je met ons

Artificial Intelligence

Veerkracht > Nauwkeurigheid: waarom 'modelveerkracht' de ware maatstaf zou moeten zijn voor het operationaliseren van modellen

mm
Bijgewerkt on

Door Ingo Mierswa, Oprichter, President & Chief Data Scientist bij RapidMiner.

De datawetenschap heeft de afgelopen jaren grote vooruitgang geboekt en veel organisaties gebruiken geavanceerde analyse- of machine learning-modellen om diepere inzichten in de processen te krijgen en, in sommige gevallen, zelfs om waarschijnlijke uitkomsten voor de toekomst te voorspellen. Voor andere ‘wetenschappen’ is het vaak niet duidelijk of een project succesvol zal zijn of niet, en daar zijn berichten over maar liefst 87% van de data science-projecten komt nooit in productie. Hoewel een slagingspercentage van 100% niet kan worden verwacht, zijn er enkele patronen in datawetenschapsprojecten die leiden tot hogere slagingspercentages dan in het veld als acceptabel zou moeten worden beschouwd. Die problematische patronen lijken onafhankelijk van een bepaalde branche of use case te bestaan, wat suggereert dat er een universeel probleem is in de datawetenschap dat moet worden aangepakt.

Het succes van machine learning meten

Datawetenschappers die machine learning (ML)-modellen maken, vertrouwen op goed gedefinieerde wiskundige criteria om te meten hoe goed dergelijke modellen presteren. Welke van die criteria wordt toegepast, hangt vooral af van het type model. Laten we aannemen dat een model klassen of categorieën voor nieuwe situaties moet voorspellen, bijvoorbeeld of een klant gaat afhaken of niet. In dergelijke situaties zouden datawetenschappers metingen gebruiken zoals nauwkeurigheid (hoe vaak het model correct is) of precisie (hoe vaak klanten daadwerkelijk karnen als we verloop voorspellen).

Datawetenschappers hebben dit soort objectieve criteria nodig, omdat het een deel van hun taak is om die evaluatiecriteria te optimaliseren om het beste model te produceren. In feite is het bouwen en afstemmen van die modellen niet alleen het voorbereiden van de gegevens om modellering klaar te maken waar datawetenschappers het grootste deel van hun tijd doorbrengen.

De keerzijde hiervan is dat datawetenschappers zich eigenlijk niet veel richten op het in productie nemen van die modellen, wat om meer dan één reden een probleem is. Eerst en vooral kunnen modellen die geen succesvolle resultaten opleveren, niet worden gebruikt om zakelijke impact te genereren voor de organisaties die ze inzetten. Ten tweede, omdat deze organisaties tijd en geld hebben besteed aan het ontwikkelen, trainen en operationaliseren van modellen die geen succesvolle resultaten hebben opgeleverd wanneer ze worden vergeleken met gegevens uit de 'echte wereld', zullen ze ML en andere tools voor datawetenschap waarschijnlijk als nutteloos beschouwen voor hun organisatie. en weigeren verder te gaan met toekomstige datawetenschapsinitiatieven.

De waarheid is dat datawetenschappers gewoon genieten van het aanpassen van modellen en hier veel tijd aan besteden. Maar zonder impact op het bedrijf wordt deze tijd niet verstandig besteed, wat bijzonder pijnlijk is gezien de schaarse hulpbron die datawetenschappers in de wereld van vandaag hebben.

De Netflix-prijs en productiestoring

We hebben dit fenomeen van overinvesteren in modelbouw en niet in het operationaliseren van modellen de afgelopen jaren zien spelen. De Netflix-prijs was een open competitie voor het beste collaboratieve filteralgoritme om gebruikersbeoordelingen voor films te voorspellen. Als je een nieuwe film een ​​hoge beoordeling zou geven, heb je waarschijnlijk van deze film genoten. Met dit beoordelingssysteem zal Netflix je dus bepaalde titels aanbevelen en als je van de aanbevolen inhoud geniet, blijf je waarschijnlijk langer klant van Netflix. De hoofdprijs was een bedrag van 1 miljoen USD, dat werd toegekend aan het team dat erin slaagde het eigen algoritme van Netflix met minstens 10% te verbeteren.

De uitdaging begon in 2006 en in de daaropvolgende drie jaar leidden de bijdragen van meer dan 40,000 datawetenschapsteams wereldwijd tot een indrukwekkende verbetering van meer dan 10% voor het succes van titelaanbevelingen. Echter, de modellen van het winnende team nooit geoperationaliseerd. Netflix zei dat "de toename in nauwkeurigheid de inspanning die nodig was om die modellen in productie te brengen niet leek te rechtvaardigen."

Waarom optimaal niet altijd optimaal is

Modelnauwkeurigheid en andere gegevenswetenschapscriteria worden al lang gebruikt als maatstaf voor het meten van het succes van een model voordat het model in kwestie in productie wordt genomen. Zoals we hebben gezien, halen veel modellen dit stadium niet eens – wat een verspilling van middelen is, zowel qua energie als qua tijdsbesteding.

Maar er zijn meer problemen met deze cultuur van overinvestering in het aanpassen van modellen. De eerste is een onbedoelde overfitting van de testgegevens, wat zal resulteren in modellen die er goed uitzien voor de leidende datawetenschapper, maar in feite ondermaats presteren als ze eenmaal in productie zijn - soms zelfs schadelijk. Dit gebeurt om twee redenen:

  1. Er is een bekende discrepantie tussen een testfout en wat u in de productie zult zien
  2. De criteria voor bedrijfsimpact en datawetenschap zijn vaak gecorreleerd, maar 'optimale' modellen leveren niet altijd de grootste impact op

Het eerste punt hierboven wordt ook wel “overfitting op de testset.” Het is een bekend fenomeen, vooral onder deelnemers aan data science-wedstrijden zoals die van Kaggle. Voor deze competities zie je al een sterkere versie van dit fenomeen tussen de publieke en de private leaderboards. Een deelnemer zou zelfs het openbare klassement in een Kaggle-competitie kunnen winnen zonder ooit zelfs maar de gegevens lezen. Evenzo heeft de winnaar van het privéklassement en de algehele competitie mogelijk geen model geproduceerd dat zijn prestaties kan handhaven op een andere dataset dan waarop het is geëvalueerd.

Nauwkeurigheid staat niet gelijk aan zakelijke impact

We hebben deze praktijk te lang geaccepteerd, wat leidt tot de trage aanpassing van modellen aan testdatasets. Als gevolg hiervan blijkt wat het beste model lijkt op zijn best middelmatig te zijn:

  • Metingen zoals voorspellende nauwkeurigheid staan ​​vaak niet gelijk aan zakelijke impact
  • Een verbetering van de nauwkeurigheid met 1% kan niet worden vertaald in een 1% beter bedrijfsresultaat
  • Er zijn gevallen waarin een slecht presterend model beter presteert dan andere, wat betreft de zakelijke impact
  • Er moet ook rekening worden gehouden met andere factoren, zoals onderhoud, scoresnelheid of robuustheid tegen veranderingen in de loop van de tijd ('veerkracht' genoemd).

Dit laatste punt is bijzonder belangrijk. De beste modellen zullen niet alleen wedstrijden winnen of er goed uitzien in het data science lab, maar ook standhouden in de productie en goed presteren op verschillende testsets. Deze modellen zijn wat we veerkrachtige modellen noemen.

Drift en het belang van veerkracht

Alle modellen verslechteren na verloop van tijd. De vraag is alleen hoe snel dit gaat en hoe goed het model onder de gewijzigde omstandigheden nog presteert. De reden voor deze achteruitgang is het feit dat de wereld niet statisch is. Daarom veranderen de gegevens waarop het model wordt toegepast ook in de loop van de tijd. Als deze veranderingen langzaam plaatsvinden, noemen we dit 'concept drift'. Als de veranderingen abrupt plaatsvinden, noemen we dit 'conceptverschuiving'. Klanten kunnen bijvoorbeeld hun consumptiegedrag in de loop van de tijd langzaam veranderen onder invloed van trends en/of marketing. Het kan zijn dat propensitymodellen op een gegeven moment niet meer werken. Deze veranderingen kunnen in bepaalde situaties drastisch worden versneld. COVID-19 heeft bijvoorbeeld de verkoop van artikelen zoals toiletpapier en ontsmettingsmiddelen gestimuleerd - een onverwachte sterke toename van bepaalde producten die zo'n model volledig uit de koers kan gooien.

Een veerkrachtig model is misschien niet het beste model op basis van metingen als nauwkeurigheid of precisie, maar het zal goed presteren op een breder scala aan datasets. Om deze reden zal het ook beter presteren over een langere periode en is het daarom beter in staat om duurzame bedrijfsimpact te leveren.

Lineaire en andere soorten eenvoudige modellen zijn vaak veerkrachtiger omdat het moeilijker is om ze te overfitten voor een specifieke testset of een specifiek moment in de tijd. Krachtigere modellen kunnen en moeten worden gebruikt als "uitdagers" voor een eenvoudiger model, zodat datawetenschappers kunnen zien of het ook in de loop van de tijd stand kan houden. Maar dit moet worden gebruikt aan het eindpunt, niet aan het begin van de modellenreis.

Hoewel een formele KPI voor het meten van veerkracht nog niet is geïntroduceerd op het gebied van datawetenschap, zijn er verschillende manieren waarop datawetenschappers kunnen evalueren hoe veerkrachtig hun modellen zijn:

  • Kleinere standaarddeviaties in een kruisvalidatierun betekenen dat de modelprestaties minder afhingen van de specifieke kenmerken van de verschillende testsets
  • Zelfs als datawetenschappers geen volledige kruisvalidaties uitvoeren, kunnen ze twee verschillende datasets gebruiken voor tests en validatie. Minder discrepantie tussen foutpercentages voor de test- en validatiedatasets duidt op een hogere veerkracht
  • Als het model tijdens de productie goed wordt gecontroleerd, kunnen foutenpercentages in de loop van de tijd worden gezien. De consistentie van foutpercentages in de loop van de tijd is een goed teken voor de veerkracht van het model.
  • Als de gekozen oplossing voor modelbewaking rekening houdt met drift, moeten datawetenschappers er ook op letten hoe goed het model wordt beïnvloed door die inputdrift.

De cultuur van datawetenschap veranderen

Nadat een model is ingezet in de operationaliseringsfase, zijn er nog steeds bedreigingen voor de nauwkeurigheid van een model. De laatste twee bovenstaande punten met betrekking tot de veerkracht van modellen vereisen al een goede monitoring van modellen in productie. Als startpunt voor een cultuurverandering in datawetenschap doen bedrijven er goed aan om te investeren in goede modelmonitoring en om datawetenschappers verantwoordelijk te houden voor het gebrek aan prestaties nadat modellen in productie zijn genomen. Dit zal de cultuur onmiddellijk veranderen van een cultuur van modelbouw naar een cultuur die waarde creëert en in stand houdt op het gebied van datawetenschap.

Zoals recente wereldgebeurtenissen ons hebben laten zien, verandert de wereld snel. We moeten nu meer dan ooit veerkrachtige modellen bouwen - niet alleen nauwkeurige modellen - om in de loop van de tijd een betekenisvolle zakelijke impact vast te leggen. Kaggle organiseert bijvoorbeeld een uitdaging om datawetenschappers over de hele wereld te stimuleren om te helpen bij het bouwen van modeloplossingen voor gebruik in de wereldwijde strijd tegen COVID-19. Ik verwacht dat de meest succesvolle modellen die als resultaat van deze uitdaging worden geproduceerd, de meest veerkrachtige zullen zijn, niet de meest nauwkeurige, aangezien we hebben gezien hoe snel COVID-19-gegevens in één dag kunnen veranderen.

Datawetenschap zou moeten gaan over het vinden van de waarheid, niet over het produceren van het 'beste' model. Door onszelf te houden aan een hogere standaard van veerkracht dan nauwkeurigheid, kunnen datawetenschappers meer zakelijke impact hebben voor onze organisaties en helpen om de toekomst positief vorm te geven.

Ingo Mierswa is een doorgewinterde datawetenschapper in de industrie sinds ze begon met ontwikkelen RapidMiner bij de afdeling Kunstmatige Intelligentie van de TU Dortmund University in Duitsland. Mierswa, de wetenschapper, heeft talloze bekroonde publicaties op zijn naam staan ​​over voorspellende analyses en big data. Mierswa, de ondernemer, is de oprichter van RapidMiner. Hij is verantwoordelijk voor strategische innovatie en behandelt alle grote vragen rond de technologieën van RapidMiner. Onder zijn leiding is RapidMiner de eerste zeven jaar gegroeid tot 300% per jaar. In 2012 leidde hij de go-international-strategie met de opening van kantoren in de VS, het VK en Hongarije. Na twee fondsenwervingsrondes, de overname van Radoop en het ondersteunen van de positionering van RapidMiner bij toonaangevende analistenfirma's zoals Gartner en Forrester, is Ingo er trots op om 's werelds beste team naar RapidMiner te halen.