Suivez nous sur

Résilience > Précision : pourquoi la « résilience du modèle » devrait être la véritable mesure pour opérationnaliser les modèles

Intelligence Artificielle

Résilience > Précision : pourquoi la « résilience du modèle » devrait être la véritable mesure pour opérationnaliser les modèles

mm

Par Ingo Mierswa, Fondateur, Président & Chief Data Scientist chez RapidMiner.

La science des données a fait de grands progrès au cours des deux dernières années et de nombreuses organisations utilisent des modèles d'analyse avancés ou d'apprentissage automatique pour obtenir des informations plus approfondies sur les processus et, dans certains cas, même pour prédire les résultats probables pour l'avenir. Pour les autres « sciences », il n’est souvent pas clair si un projet réussira ou non, et certains rapports indiquent que jusqu'à 87 % des projets de science des données n'arrivent jamais en production. Bien qu'on ne puisse pas s'attendre à un taux de réussite de 100 %, certains modèles de projets de science des données conduisent à des taux de réussite plus élevés que ceux qui devraient être jugés acceptables sur le terrain. Ces modèles problématiques semblent exister indépendamment de toute industrie ou cas d'utilisation particulier, ce qui suggère qu'il existe un problème universel dans la science des données qui doit être résolu.

Mesurer le succès de l'apprentissage automatique

Les scientifiques des données qui créent des modèles d'apprentissage automatique (ML) s'appuient sur des critères mathématiques bien définis pour mesurer les performances de ces modèles. Lequel de ces critères est appliqué dépend principalement du type de modèle. Supposons qu'un modèle doive prédire des classes ou des catégories pour de nouvelles situations, par exemple, si un client va se désabonner ou non. Dans de telles situations, les scientifiques des données utiliseraient des mesures telles que l'exactitude (la fréquence à laquelle le modèle est correct) ou la précision (la fréquence à laquelle les clients sont réellement désabonnés si nous prévoyons un désabonnement).

Les scientifiques des données ont besoin de critères objectifs comme celui-ci, car une partie de leur travail consiste à optimiser ces critères d'évaluation pour produire le meilleur modèle. En fait, en plus de préparer les données pour qu'elles soient prêtes pour la modélisation, la construction et le réglage de ces modèles sont où les data scientists passent le plus clair de leur temps.

L'inconvénient est que les scientifiques des données ne se concentrent pas vraiment sur la mise en production de ces modèles, ce qui est un problème pour plus d'une raison. Tout d'abord, les modèles qui ne produisent pas de bons résultats ne peuvent pas être utilisés pour générer un impact commercial pour les organisations qui les déploient. Deuxièmement, parce que ces organisations ont consacré du temps et de l'argent à développer, former et opérationnaliser des modèles qui n'ont pas produit de résultats avec succès lorsqu'ils sont exécutés sur des données du "monde réel", elles sont plus susceptibles qu'improbables de considérer le ML et d'autres outils de science des données comme inutiles pour leur organisation. et refuser d'aller de l'avant avec de futures initiatives de science des données.

La vérité est que les data scientists aiment simplement peaufiner les modèles et y passent beaucoup de temps. Mais sans impact commercial, ce temps n'est pas dépensé à bon escient, ce qui est particulièrement douloureux compte tenu de la rareté des data scientists dans le monde d'aujourd'hui.

Le prix Netflix et l'échec de la production

On a vu ce phénomène de surinvestissement dans la construction de modèles et non dans l'opérationnalisation des modèles se jouer ces dernières années. Le Prix ​​Netflix était un concours ouvert pour le meilleur algorithme de filtrage collaboratif pour prédire les notes des utilisateurs pour les films. Si vous deviez donner une note élevée à un nouveau film, vous avez probablement apprécié ce film - donc en utilisant ce système de notation, Netflix vous recommandera certains titres et si vous appréciez le contenu recommandé, vous resterez probablement plus longtemps en tant que client de Netflix. Le grand prix était la somme de 1M USD, remis à l'équipe qui a réussi à améliorer l'algorithme de Netflix d'au moins 10%.

Le défi a commencé en 2006 et au cours des trois années suivantes, les contributions de plus de 40,000 10 équipes de science des données dans le monde ont conduit à une amélioration impressionnante de plus de XNUMX % du succès des recommandations de titres. Cependant, les modèles de l'équipe gagnante n'ont jamais été opérationnalisés. Netflix a déclaré que "l'augmentation de la précision ne semblait pas justifier l'effort nécessaire pour mettre ces modèles en production".

Pourquoi optimal n'est pas toujours optimal

La précision du modèle et d'autres critères de science des données ont longtemps été utilisés comme métrique pour mesurer le succès d'un modèle avant de mettre le modèle en question en production. Comme nous l'avons vu, de nombreux modèles n'arrivent même jamais à ce stade – ce qui est un gaspillage de ressources, tant en termes d'énergie que de temps passé.

Mais il y a plus de problèmes avec cette culture de surinvestissement dans le peaufinage des modèles. Le premier est un surajustement par inadvertance des données de test, qui se traduira par des modèles qui semblent bons pour le spécialiste des données de gestion, mais qui sont en fait sous-performants une fois en production, causant même parfois des dommages. Ceci arrive pour deux raisons:

  1. Il existe un écart bien connu entre l'erreur de test et celle que vous verrez en production
  2. Les critères d'impact commercial et de performance de la science des données sont souvent corrélés, mais les modèles "optimaux" n'ont pas toujours le plus grand impact

Le premier point ci-dessus est également appelé "surajustement à l'ensemble de test.” C'est un phénomène bien connu, en particulier parmi les participants à des concours de science des données comme ceux de Kaggle. Pour ces compétitions, vous pouvez déjà voir une version plus forte de ce phénomène entre les classements public et privé. En fait, un participant pourrait remporter le classement public d'un concours Kaggle sans jamais même lire les données. De même, le gagnant du classement privé et du concours général peut ne pas avoir produit un modèle capable de maintenir ses performances sur un autre ensemble de données que celui sur lequel il a été évalué.

La précision n'est pas synonyme d'impact commercial

Pendant trop longtemps, nous avons accepté cette pratique, qui conduit à la lenteur de l'adaptation des modèles aux ensembles de données de test. Du coup, ce qui ressemble au meilleur modèle s'avère au mieux médiocre :

  • Des mesures telles que la précision prédictive ne correspondent souvent pas à l'impact commercial
  • Une amélioration de la précision de 1 % ne peut pas se traduire par 1 % de meilleurs résultats commerciaux
  • Il existe des cas où un modèle peu performant surpasse les autres, en ce qui concerne l'impact sur l'entreprise
  • D'autres facteurs tels que la maintenance, la vitesse de notation ou la résistance aux changements dans le temps (appelés « résilience ») doivent également être pris en compte.

Ce dernier point est particulièrement important. Les meilleurs modèles ne gagneront pas seulement des compétitions ou auront fière allure dans le laboratoire de science des données, mais ils résisteront à la production et fonctionneront bien sur une variété d'ensembles de test. Ces modèles sont ce que nous appelons des modèles résilients.

La dérive et l'importance de la résilience

Tous les modèles se détériorent avec le temps. La seule question est de savoir à quelle vitesse cela se produit et dans quelle mesure le modèle fonctionne toujours dans les nouvelles circonstances. La raison de cette détérioration est le fait que le monde n'est pas statique. Par conséquent, les données auxquelles le modèle est appliqué changent également au fil du temps. Si ces changements se produisent lentement, nous appelons cela « la dérive conceptuelle ». Si les changements se produisent brusquement, nous appelons cela « changement de concept ». Par exemple, les clients peuvent modifier lentement leur comportement de consommation au fil du temps, après avoir été influencés par les tendances et/ou le marketing. Les modèles de propension peuvent ne plus fonctionner à un certain point. Ces changements peuvent être considérablement accélérés dans certaines situations. Le COVID-19, par exemple, a entraîné la vente d'articles comme le papier hygiénique et les désinfectants - une forte augmentation inattendue de certains produits qui peuvent complètement dérouter un tel modèle.

Un modèle résilient n'est peut-être pas le meilleur modèle basé sur des mesures telles que l'exactitude ou la précision, mais il fonctionnera bien sur une plus large gamme d'ensembles de données. Pour cette raison, il sera également plus performant sur une plus longue période et est donc mieux à même d'avoir un impact commercial durable.

Les modèles linéaires et autres types de modèles simples sont souvent plus résistants car il est plus difficile de les suradapter à un ensemble de tests ou à un moment précis. Des modèles plus puissants peuvent et doivent être utilisés comme « challengers » pour un modèle plus simple, permettant aux data scientists de voir s'il peut également tenir dans le temps. Mais cela devrait être utilisé au point final, pas au début du voyage de modélisation.

Bien qu'un KPI formel pour mesurer la résilience n'ait pas encore été introduit dans le domaine de la science des données, il existe plusieurs façons pour les scientifiques des données d'évaluer la résilience de leurs modèles :

  • Des écarts-types plus petits dans une exécution de validation croisée signifient que les performances du modèle dépendent moins des spécificités des différents ensembles de tests
  • Même si les scientifiques des données n'effectuent pas de validations croisées complètes, ils peuvent utiliser deux ensembles de données différents pour les tests et la validation. Moins d'écart entre les taux d'erreur pour les ensembles de données de test et de validation indique une plus grande résilience
  • Si le modèle est correctement surveillé en production, les taux d'erreur peuvent être observés au fil du temps. La constance des taux d'erreur dans le temps est un bon signe pour la résilience du modèle.
  • Si la solution de surveillance de modèle choisie tient compte de la dérive, les scientifiques des données doivent également prêter attention à la manière dont le modèle est impacté par cette dérive d'entrée.

Changer la culture de la science des données

Une fois qu'un modèle a été déployé au stade de l'opérationnalisation, des menaces pèsent toujours sur l'exactitude d'un modèle. Les deux derniers points ci-dessus concernant la résilience des modèles nécessitent déjà un suivi adéquat des modèles en production. Comme point de départ d'un changement de culture dans la science des données, les entreprises sont bien avisées d'investir dans une surveillance appropriée des modèles et de commencer à tenir les scientifiques des données responsables du manque de performance après la mise en production des modèles. Cela changera immédiatement la culture d'une culture de construction de modèles à une culture de création de valeur et de maintien pour le domaine de la science des données.

Comme les événements mondiaux récents nous l'ont montré, le monde change rapidement. Aujourd'hui plus que jamais, nous devons créer des modèles résilients, et pas seulement des modèles précis, pour saisir l'impact commercial significatif au fil du temps. Kaggle, par exemple, organise un défi pour galvaniser les scientifiques des données du monde entier afin d'aider à créer des solutions modèles à utiliser dans la lutte mondiale contre le COVID-19. Je prévois que les modèles les plus réussis produits à la suite de ce défi seront les plus résistants, pas les plus précis, car nous avons vu à quelle vitesse les données COVID-19 peuvent changer en une seule journée.

La science des données devrait consister à trouver la vérité, et non à produire le « meilleur » modèle. En nous tenant à un niveau plus élevé de résilience plutôt que de précision, les scientifiques des données seront en mesure d'avoir plus d'impact commercial pour nos organisations et de contribuer à façonner positivement l'avenir.

Ingo Mierswa est un scientifique des données vétéran de l'industrie depuis qu'il a commencé à développer RapidMiner à la Division de l'Intelligence Artificielle de l'Université TU Dortmund en Allemagne. Mierswa, le scientifique, est l'auteur de nombreuses publications primées sur l'analyse prédictive et les mégadonnées. Mierswa, l'entrepreneur, est le fondateur de RapidMiner. Il est responsable de l'innovation stratégique et traite de toutes les grandes questions concernant les technologies de RapidMiner. Sous sa direction, RapidMiner a connu une croissance de 300 % par an au cours des sept premières années. En 2012, il a dirigé la stratégie d'internationalisation avec l'ouverture de bureaux aux États-Unis ainsi qu'au Royaume-Uni et en Hongrie. Après deux levées de fonds, l'acquisition de Radoop et le soutien du positionnement de RapidMiner auprès de cabinets d'analystes de premier plan comme Gartner et Forrester, Ingo est très fier d'avoir amené la meilleure équipe du monde à RapidMiner.