Connect with us

Succesvolle machine learning-ontwikkeling vereist een nieuw paradigma – Thought Leaders

Thought leaders

Succesvolle machine learning-ontwikkeling vereist een nieuw paradigma – Thought Leaders

mm

Door Victor Thu, president, Datatron

Initiatieven met machine learning kunnen niet op dezelfde manier worden behandeld als projecten met conventionele software. Het is belangrijk om snel te handelen zodat je dingen kunt testen, problemen kunt oplossen en ze opnieuw kunt testen. Met andere woorden, je moet in staat zijn om snel te falen – en dat moet vroeg in het proces gebeuren. Wachten tot later in het proces om problemen te vinden kan heel duur en tijdrovend zijn.

AI vereist een nieuwe aanpak

Bij de ontwikkeling van software met de traditionele methode, gebruik je beslissingslogica. Om zo precies mogelijk te zijn, voeg je logica toe die de software in staat stelt om goed te functioneren. Er (typisch) is geen behoefte aan wijzigingen nadat de logica van de toepassing is ontwikkeld, behalve voor bugfixes. Het is een zeer methodische ontwikkelingsproces; je gaat stap voor stap verder door ervoor te zorgen dat elke stap in het proces accuraat is voordat je naar de volgende stap gaat. Het is een bewezen strategie dieconsistent zijn effectiviteit heeft aangetoond voor softwareontwikkeling.

Maar je kunt deze strategie niet gebruiken voor AI/ML-projecten, omdat het gewoon niet werkt. In plaats daarvan moet je de capaciteit hebben om snel en vaak te itereren om succes te behalen met een ML-project. Aangezien ML een initiële training vereist en een proces is, moet je het benaderen met de kennis dat het niet accuraat zal zijn de eerste keer dat het wordt ingezet.

Dit proces vereist meerdere iteraties. De realiteit is dat je eerste model 99% van de tijd onverwachte resultaten zal tegenkomen. Zelfs als je maanden besteedt aan het trainen van je model in het lab, zal het ongetwijfeld veranderen zodra het in aanraking komt met echte gegevens en verkeer.

Streef niet naar onmiddellijke perfectie

Dus, om een model te testen en te bepalen welke wijzigingen nodig zijn, moet je het snel in productie kunnen brengen. Je kunt dan eventuele aanpassingen maken, het opnieuw uitbrengen en verfijnen. Om deze reden moet je niet te veel moeite steken in het proberen om je model perfect te maken voordat je het in productie test; de eerste poging zal niet perfect zijn, en niemand zou dat moeten verwachten.

Terwijl het model in het lab wordt ontwikkeld, kunnen de extra verbeteringen van 92% naar 95% nauwkeurigheid niet significant zijn voor sommige use cases. Waarom niet? Alleen een klein deel van de trainingsgegevens is gebruikt om je AI-model te trainen. Je kunt veel tijd en geld investeren om die extra beetje nauwkeurigheid te krijgen, terwijl je de voordelen van je model intussen misloopt.

Effectieve stappen in ML-implementatie

Omdat er een kans is dat een model faalt of onjuiste voorspellingen doet, zijn ML-wetenschappers soms terughoudend om een model in productie te brengen. Het is logisch, tot op zekere hoogte. Je hebt een systeem nodig dat je in staat stelt om gebeurtenissen in real-time te bekijken. Met deze aanpak kun je je model onmiddellijk terugtrekken en bijwerken en vervolgens snel een nieuw model uitbrengen. In plaats van vast te zitten in “analyseparalyse”, is dit de meest efficiënte manier om machine learning-modellen in productie te brengen.

Het is veel beter om het model gewoon te lanceren en het een beetje levenservaring te laten opdoen. Dit elimineert niet de noodzaak voor de datawetenschappers om het model zo nauwkeurig mogelijk te maken vanaf het begin. Maar zodra je die eerste versie hebt voltooid, moet je onmiddellijk beginnen met het verzamelen van die belangrijke gegevens.

Je kunt je modellen in A/B-testmodus of schaduwmodus tegen echte gegevens uitvoeren als onderdeel van dit proces. Op die manier kun je de prestaties van de verschillende modellen vergelijken en veel gegevens en bewijs hebben voordat je besluit welk model je wilt promoveren of degraderen.

Het opbouwen van een lokaal model in plaats van te focussen op het creëren van een enkel globaal model om het gedrag voor de macro-omgeving te voorspellen, is een andere best practice. Met een lokaal model kun je gegevens uit specifieke situaties gebruiken, zodat het model zich zo gedraagt als het hoort voor elke van die situaties. Dit bespaart tijd, gegevens en inspanning in vergelijking met een alomvattend model dat een aanzienlijke hoeveelheid van deze middelen zou vereisen om ervoor te zorgen dat het werkt.

Het bepalen van de vraag naar maatwerk-sneakers zal hier als voorbeeld dienen. Het globale model zou van toepassing kunnen zijn op de rest van Noord-Amerika als het was gebaseerd op de bevolking van New York City. Maar het zou waarschijnlijk niet nauwkeurig de vraag in andere delen van het land vertegenwoordigen. Een lokaal modelstrategie had je in staat gesteld om hogere winstmarges te behalen, die je nu misloopt.

Modellen vereisen natuurlijk regelmatige updates. Modellen vereisen voortdurende updates, omdat de gegevens van de omgeving altijd veranderen, in tegenstelling tot traditionele software die eenmaal kan worden ingesteld en verlaten. ML-modellen verslechteren in de loop van de tijd als ze niet regelmatig worden geïtereerd. Dit moet plaatsvinden tijdens de levensduur van het model en moet zorgvuldig worden gevolgd.

Het nieuwe paradigma van machine learning

Het vergelijken van machine learning-modellen met conventionele software is onverstandig. Maar ML-experts profiteren van een snelle implementatietechniek voor AI/ML-modellen, net zoals software-ontwikkelaars dat hebben gedaan met DevOps. Voor ML-projecten heb je een systeem nodig dat het mogelijk maakt om modellen snel te lanceren. Je moet in staat zijn om verschillende modellen te vergelijken, waarbij je effectief één model dat live is, vergelijkt met een model dat dat niet is. Deze en de andere bovengenoemde best practices zullen je helpen om analyseparalyse te omzeilen en snel en vroeg te falen, zodat je je machine learning kunt schalen.

Victor Thu is president van Datatron. Gedurende zijn carrière heeft Victor zich gespecialiseerd in productmarketing, go-to-market en productmanagement in C-level en directeursfuncties voor bedrijven zoals Petuum, VMware en Citrix.