Connect with us

Ingo Mierswa, Fondateur & Président de RapidMiner, Inc – Série d’entretiens

Intelligence artificielle

Ingo Mierswa, Fondateur & Président de RapidMiner, Inc – Série d’entretiens

mm

Ingo Mierswa est le Fondateur & Président de RapidMiner, Inc. RapidMiner apporte l’intelligence artificielle à l’entreprise grâce à une plateforme de science des données ouverte et extensible. Conçue pour les équipes d’analyse, RapidMiner unifie l’ensemble du cycle de vie de la science des données, de la préparation des données à l’apprentissage automatique jusqu’à la mise en production de modèles prédictifs. Plus de 625 000 professionnels de l’analyse utilisent les produits RapidMiner pour stimuler les revenus, réduire les coûts et éviter les risques.

Quelle a été votre inspiration pour lancer RapidMiner ?

J’ai travaillé dans le secteur de la consultance en science des données pendant de nombreuses années et j’ai constaté qu’il y avait un besoin pour une plateforme plus intuitive et plus accessible pour les personnes sans formation formelle en science des données. De nombreuses solutions existantes à l’époque reposaient sur la programmation et les scripts, et elles n’étaient tout simplement pas conviviales. De plus, cela rendait difficile la gestion et la maintenance des solutions développées dans ces plateformes. Fondamentalement, j’ai réalisé que ces projets n’avaient pas à être si difficiles, nous avons donc commencé à créer la plateforme RapidMiner pour permettre à quiconque de devenir un excellent scientifique des données.

Pouvez-vous discuter de la gouvernance transparente actuellement utilisée par RapidMiner ?

Lorsque vous ne pouvez pas expliquer un modèle, il est très difficile de l’ajuster, de le faire confiance et de le traduire. Une grande partie du travail de science des données consiste à communiquer les résultats aux autres afin que les parties prenantes puissent comprendre comment améliorer les processus. Cela nécessite de la confiance et une compréhension approfondie. Les problèmes de confiance et de traduction peuvent également rendre très difficile la mise en production d’un modèle. Nous luttons contre ce problème de plusieurs manières :

En tant que plateforme de science des données visuelle, RapidMiner cartographie naturellement une explication pour toutes les pipelines de données et les modèles dans un format très consommable qui peut être compris par les scientifiques des données ou les non-scientifiques des données. Cela rend les modèles transparents et aide les utilisateurs à comprendre le comportement du modèle et à évaluer ses forces et ses faiblesses, ainsi que à détecter les préjugés potentiels.

En outre, tous les modèles créés sur la plateforme sont accompagnés d’extenses visualisations pour que l’utilisateur – généralement l’utilisateur qui crée le modèle – puisse acquérir des connaissances sur le modèle, comprendre le comportement du modèle et évaluer les préjugés du modèle.

RapidMiner fournit également des explications de modèles – même lorsqu’ils sont en production : pour chaque prédiction créée par un modèle, RapidMiner génère et ajoute les facteurs d’influence qui ont conduit ou influencé les décisions prises par ce modèle en production.

Enfin – et cela est très important pour moi personnellement, car j’ai poussé cela avec nos équipes d’ingénierie il y a quelques années – RapidMiner fournit également une fonctionnalité de simulateur de modèle extrêmement puissante, qui permet aux utilisateurs de simuler et d’observer le comportement du modèle en fonction des données d’entrée fournies par l’utilisateur. Les données d’entrée peuvent être définies et modifiées très facilement, permettant à l’utilisateur de comprendre le comportement prédictif des modèles dans divers cas hypothétiques ou du monde réel. Le simulateur affiche également les facteurs qui influencent la décision du modèle. L’utilisateur – dans ce cas, même un utilisateur commercial ou un expert de domaine – peut comprendre le comportement du modèle, valider la décision du modèle par rapport aux résultats réels ou aux connaissances de domaine, et identifier les problèmes. Le simulateur permet de simuler le monde réel et de jeter un coup d’œil dans le futur – dans votre futur, en fait.

Comment RapidMiner utilise-t-il l’apprentissage profond ?

L’utilisation de l’apprentissage profond par RapidMiner est quelque chose dont nous sommes très fiers. L’apprentissage profond peut être très difficile à appliquer et les non-scientifiques des données ont souvent du mal à configurer ces réseaux sans support d’expert. RapidMiner rend ce processus aussi simple que possible pour les utilisateurs de tous types. L’apprentissage profond fait, par exemple, partie de notre produit d’apprentissage automatique (ML) appelé RapidMiner Go. Ici, l’utilisateur n’a pas besoin de connaître quoi que ce soit sur l’apprentissage profond pour utiliser ces types de modèles sophistiqués. En outre, les utilisateurs avancés peuvent aller plus loin et utiliser des bibliothèques d’apprentissage profond populaires comme Tensorflow, Keras ou DeepLearning4J directement à partir des flux de travail visuels qu’ils créent avec RapidMiner. C’est comme jouer avec des blocs et simplifie l’expérience pour les utilisateurs ayant moins de compétences en science des données. Grâce à cette approche, nos utilisateurs peuvent créer des architectures de réseau flexibles avec différentes fonctions d’activation et un nombre d’instances et de nœuds définis par l’utilisateur, plusieurs couches avec différents nombres de nœuds, et choisir parmi différentes techniques d’entraînement.

Quel autre type d’apprentissage automatique est utilisé ?

Tous ! Nous proposons des centaines d’algorithmes d’apprentissage différents dans le cadre de la plateforme RapidMiner – tout ce que vous pouvez appliquer dans les langages de programmation de science des données les plus utilisés, Python et R. Parmi eux, RapidMiner propose des méthodes pour Naive Bayes, la régression telle que les modèles linéaires généralisés, le regroupement tel que k-Means, FP-Growth, les arbres de décision, les forêts aléatoires, l’apprentissage profond parallèle et les arbres de boosting de gradient. Ceux-ci et bien d’autres font partie de la bibliothèque de modélisation de RapidMiner et peuvent être utilisés avec un simple clic.

Pouvez-vous discuter de la façon dont le modèle Auto connaît les valeurs optimales à utiliser ?

RapidMiner AutoModel utilise une automatisation intelligente pour accélérer tout ce que les utilisateurs font et garantir que des modèles précis et solides sont construits. Cela comprend la sélection d’instances et la suppression automatique des valeurs aberrantes, l’ingénierie de fonctionnalités pour les types de données complexes tels que les dates ou les textes, et l’ingénierie de fonctionnalités automatisée multi-objectif pour sélectionner les fonctionnalités optimales et en construire de nouvelles. Le modèle Auto inclut également d’autres méthodes de nettoyage de données pour résoudre les problèmes courants de données tels que les valeurs manquantes, le profilage de données en évaluant la qualité et la valeur des colonnes de données, la normalisation de données et diverses autres transformations.

Le modèle Auto extrait également des métadonnées de qualité de données – par exemple, à quel point une colonne se comporte comme un ID ou s’il y a beaucoup de valeurs manquantes. Ces métadonnées sont utilisées en plus des métadonnées de base pour automatiser et aider les utilisateurs à « utiliser les valeurs optimales » et à résoudre les problèmes de qualité des données.

Pour plus de détails, nous avons tout cartographié dans notre plan Auto Model. (Image ci-dessous pour plus de contexte)

Il y a quatre phases de base où l’automatisation est appliquée :

– Préparation des données : analyse automatique des données pour identifier les problèmes de qualité courants tels que les corrélations, les valeurs manquantes et la stabilité.
– Sélection et optimisation automatiques de modèles, y compris la validation complète et la comparaison des performances, qui suggèrent les meilleures techniques d’apprentissage automatique pour les données données et détermine les paramètres optimaux.
– Simulation de modèle pour aider à déterminer les actions spécifiques (prescriptives) à prendre pour atteindre le résultat souhaité prédit par le modèle.
– Dans la phase de déploiement et d’exploitation du modèle, les utilisateurs sont présentés des facteurs tels que la dérive, les préjugés et l’impact commercial, automatiquement sans travail supplémentaire requis.

Les préjugés informatiques sont un problème avec tout type d’IA, y a-t-il des contrôles en place pour empêcher les préjugés de se glisser dans les résultats ?

Oui, cela est extrêmement important pour une science des données éthique. Les fonctionnalités de gouvernance mentionnées précédemment garantissent que les utilisateurs peuvent toujours voir exactement quelles données ont été utilisées pour la construction de modèles, comment elles ont été transformées et si des préjugés existent dans la sélection des données. En outre, nos fonctionnalités de détection de dérive sont un autre outil puissant pour détecter les préjugés. Si un modèle en production démontre une grande dérive dans les données d’entrée, cela peut être un signe que le monde a changé de manière significative. Cependant, cela peut également être un indicateur qu’il y avait un préjugé grave dans les données de formation. À l’avenir, nous envisageons d’aller encore plus loin et de construire des modèles d’apprentissage automatique qui peuvent être utilisés pour détecter les préjugés dans d’autres modèles.

Pouvez-vous discuter du RapidMiner AI Cloud et de la façon dont il se différencie des produits concurrents ?

Les exigences pour un projet de science des données peuvent être importantes, complexes et gourmandes en calcul, ce qui a rendu l’utilisation de la technologie cloud une stratégie très attractive pour les scientifiques des données. Malheureusement, les différentes plateformes de science des données basées sur le cloud lient les utilisateurs aux services et offres de stockage de données du fournisseur de cloud en question.

Le RapidMiner AI Cloud est simplement notre service de livraison de la plateforme RapidMiner dans le cloud. L’offre peut être adaptée à l’environnement de chaque client, indépendamment de sa stratégie cloud. Cela est important ces jours-ci, car l’approche des entreprises en matière de gestion des données cloud évolue très rapidement dans le climat actuel. La flexibilité est vraiment ce qui distingue le RapidMiner AI Cloud. Il peut s’exécuter dans n’importe quel service cloud, pile cloud privée ou dans un environnement hybride. Nous sommes portables cloud, agnostiques cloud, multi-cloud – appelez-le comme vous le souhaitez.

Le RapidMiner AI Cloud est également très peu contraignant, car nous proposons la possibilité de gérer tout ou partie du déploiement pour les clients afin qu’ils puissent se concentrer sur l’exécution de leur entreprise avec l’IA, et non l’inverse. Il y a même une option à la demande, qui permet de lancer un environnement selon les besoins pour les projets courts.

RapidMiner Radoop élimine certaines des complexités derrière la science des données, pouvez-vous nous dire comment Radoop bénéficie aux développeurs ?

Radoop est principalement destiné aux non-développeurs qui souhaitent exploiter le potentiel des grandes données. RapidMiner Radoop exécute les flux de travail RapidMiner directement à l’intérieur de Hadoop de manière sans code. Nous pouvons également intégrer le moteur d’exécution RapidMiner dans Spark afin qu’il soit facile de pousser des flux de travail complets dans Spark sans la complexité qui découle des approches axées sur le code.

Une entité gouvernementale serait-elle en mesure d’utiliser RapidMiner pour analyser les données afin de prédire les épidémies potentielles, de la même manière que BlueDot ?

En tant que plateforme générale de science des données et d’apprentissage automatique, RapidMiner est conçue pour rationaliser et améliorer le processus de création et de gestion de modèles, quelle que soit la matière ou le domaine au centre du problème de science des données / apprentissage automatique. Même si notre focus n’est pas sur la prédiction des épidémies, avec les bonnes données, un expert de domaine (comme un virologue ou un épidémiologiste, dans ce cas) pourrait utiliser la plateforme pour créer un modèle qui pourrait prédire avec précision les épidémies. En fait, de nombreux chercheurs utilisent RapidMiner – et notre plateforme est gratuite à des fins académiques.

Y a-t-il autre chose que vous aimeriez partager sur RapidMiner ?

Essayez-le ! Vous pourriez être surpris de la facilité avec laquelle la science des données peut être et de la façon dont une bonne plateforme peut améliorer la productivité de vous et de votre équipe.

Je vous remercie pour cette excellente interview. Les lecteurs qui souhaitent en savoir plus doivent visiter RapidMiner.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.