Interviews
Ingo Mierswa, fondateur et président de RapidMiner, Inc - Série d'interviews

Ingo Mierswa est le fondateur et président de RapidMiner, Inc. RapidMiner apporte l’intelligence artificielle à l’entreprise via une plateforme de science des données ouverte et extensible. Conçu pour les équipes d'analyse, RapidMiner unifie l'ensemble du cycle de vie de la science des données, de la préparation des données à l'apprentissage automatique. prédictive déploiement du modèle. Plus de 625,000 XNUMX professionnels de l'analyse utilisent les produits RapidMiner pour générer des revenus, réduire les coûts et éviter les risques.
Quelle a été votre inspiration derrière le lancement de RapidMiner ?
J'ai travaillé dans le domaine du conseil en science des données pendant de nombreuses années et j'ai vu le besoin d'une plate-forme plus intuitive et accessible aux personnes sans formation formelle en science des données. De nombreuses solutions existantes à l'époque reposaient sur le codage et les scripts et n'étaient tout simplement pas conviviales. De plus, cela rendait difficile la gestion et la maintenance des données des solutions développées au sein de ces plateformes. Fondamentalement, j'ai réalisé que ces projets n'avaient pas besoin d'être si difficiles, alors nous avons commencé à créer la plateforme RapidMiner pour permettre à n'importe qui d'être un grand scientifique des données.
Pouvez-vous discuter de la gouvernance en toute transparence actuellement utilisée par RapidMiner ?
Lorsque vous ne pouvez pas expliquer un modèle, il est assez difficile d'accorder, de faire confiance et de traduire. Une grande partie du travail de science des données consiste à communiquer les résultats à d'autres afin que les parties prenantes puissent comprendre comment améliorer les processus. Cela nécessite de la confiance et une profonde compréhension. De plus, les problèmes de confiance et de traduction peuvent rendre très difficile le dépassement des exigences de l'entreprise pour mettre un modèle en production. Nous menons cette bataille de différentes manières :
En tant que plate-forme de science des données visuelles, RapidMiner élabore intrinsèquement une explication pour tous les pipelines de données et modèles dans un format hautement consommable qui peut être compris par les scientifiques des données ou non. Il rend les modèles transparents et aide les utilisateurs à comprendre le comportement du modèle, à évaluer ses forces et ses faiblesses et à détecter les biais potentiels.
De plus, tous les modèles créés dans la plate-forme sont accompagnés de visualisations étendues pour l'utilisateur - généralement l'utilisateur créant le modèle - pour obtenir des informations sur le modèle, comprendre le comportement du modèle et évaluer les biais du modèle.
RapidMiner fournit également des explications sur le modèle, même en production : pour chaque prédiction créée par un modèle, RapidMiner génère et ajoute les facteurs d'influence qui ont conduit ou influencé les décisions prises par ce modèle en production.
Enfin - et c'est très important pour moi personnellement car je dirigeais cela avec nos équipes d'ingénieurs il y a quelques années - RapidMiner fournit également une capacité de simulation de modèle extrêmement puissante, qui permet aux utilisateurs de simuler et d'observer le comportement du modèle en fonction des données d'entrée fournies. par l'utilisateur. Les données d'entrée peuvent être définies et modifiées très facilement, ce qui permet à l'utilisateur de comprendre le comportement prédictif des modèles sur divers cas hypothétiques ou réels. Le simulateur affiche également les facteurs qui influencent la décision du modèle. L'utilisateur – dans ce cas même un utilisateur métier ou un expert du domaine – peut comprendre le comportement du modèle, valider la décision du modèle par rapport aux résultats réels ou aux connaissances du domaine et identifier les problèmes. Le simulateur vous permet de simuler le monde réel et de jeter un coup d'œil vers l'avenir, en fait vers votre avenir.
Comment RapidMiner utilise-t-il l'apprentissage en profondeur ?
L'utilisation par RapidMiner de l'apprentissage en profondeur est quelque chose dont nous sommes très fiers. L'apprentissage profond peut être très difficile à appliquer et les non-scientifiques des données ont souvent du mal à mettre en place ces réseaux sans l'aide d'experts. RapidMiner rend ce processus aussi simple que possible pour les utilisateurs de tous types. L'apprentissage profond fait, par exemple, partie de notre produit d'apprentissage automatique automatique (ML) appelé RapidMiner Go. Ici, l’utilisateur n’a pas besoin de connaître quoi que ce soit en matière d’apprentissage profond pour utiliser ce type de modèles sophistiqués. De plus, les utilisateurs expérimentés peuvent aller plus loin et utiliser des bibliothèques d'apprentissage en profondeur populaires telles que Tensorflow, Keras ou DeepLearning4J directement à partir des flux de travail visuels qu'ils créent avec RapidMiner. Cela revient à jouer avec des éléments de base et simplifie l'expérience pour les utilisateurs ayant moins de compétences en science des données. Grâce à cette approche, nos utilisateurs peuvent créer des architectures de réseau flexibles avec différentes fonctions d'activation et un nombre de couches et de nœuds défini par l'utilisateur, plusieurs couches avec différents nombres de nœuds, et choisir parmi différentes techniques de formation.
Quel autre type d'apprentissage automatique est utilisé ?
Tous! Nous proposons des centaines d'algorithmes d'apprentissage différents dans le cadre de la plate-forme RapidMiner - tout ce que vous pouvez appliquer dans les langages de programmation de science des données largement utilisés Python et R. Entre autres, RapidMiner propose des méthodes pour Naive Bayes, la régression telle que les modèles linéaires généralisés, le regroupement tel comme k-Means, FP-Growth, arbres de décision, forêts aléatoires, apprentissage en profondeur parallélisé et arbres boostés par gradient. Ceux-ci et bien d'autres font tous partie de la bibliothèque de modélisation de RapidMiner et peuvent être utilisés en un seul clic.
Pouvez-vous expliquer comment le modèle automatique connaît les valeurs optimales à utiliser ?
RapidMiner AutoModel utilise une automatisation intelligente pour accélérer tout ce que les utilisateurs font et garantir la création de modèles précis et sonores. Cela inclut la sélection d'instances et la suppression automatique des valeurs aberrantes, l'ingénierie des fonctionnalités pour les types de données complexes tels que les dates ou les textes, et l'ingénierie complète des fonctionnalités automatisées à objectifs multiples pour sélectionner les fonctionnalités optimales et en créer de nouvelles. Auto Model inclut également d'autres méthodes de nettoyage des données pour résoudre les problèmes courants dans les données tels que les valeurs manquantes, le profilage des données en évaluant la qualité et la valeur des colonnes de données, la normalisation des données et diverses autres transformations.
Auto Model extrait également les métadonnées de qualité des données - par exemple, dans quelle mesure une colonne se comporte comme un ID ou s'il y a beaucoup de valeurs manquantes. Ces métadonnées sont utilisées en plus des métadonnées de base pour automatiser et aider les utilisateurs à « utiliser les valeurs optimales » et à traiter les problèmes de qualité des données.
Pour plus de détails, nous avons tout cartographié dans notre Auto Model Blueprint. (Image ci-dessous pour plus de contexte)
Il y a quatre phases de base où l'automatisation est appliquée :
– Préparation des données : analyse automatique des données pour identifier les problèmes de qualité courants tels que les corrélations, les valeurs manquantes et la stabilité.
– Sélection et optimisation automatisées des modèles, y compris la validation complète et la comparaison des performances, qui suggèrent les meilleures techniques d'apprentissage automatique pour des données données et déterminent les paramètres optimaux.
– Simulation de modèle pour aider à déterminer les actions spécifiques (prescriptives) à prendre afin d'atteindre le résultat souhaité prédit par le modèle.
– Dans la phase de déploiement et d'exploitation du modèle, les utilisateurs voient automatiquement des facteurs tels que la dérive, les biais et l'impact sur l'entreprise, sans travail supplémentaire requis.
Le biais informatique est un problème avec tout type d'IA, y a-t-il des contrôles en place pour empêcher le biais de se propager dans les résultats ?
Oui, c'est en effet extrêmement important pour la science des données éthiques. Les fonctionnalités de gouvernance mentionnées précédemment garantissent que les utilisateurs peuvent toujours voir exactement quelles données ont été utilisées pour la création de modèles, comment elles ont été transformées et s'il existe un biais dans la sélection des données. De plus, nos fonctionnalités de détection de dérive sont un autre outil puissant pour détecter les biais. Si un modèle en production présente de nombreuses dérives dans les données d'entrée, cela peut être le signe que le monde a radicalement changé. Cependant, cela peut également être un indicateur qu'il y avait un biais important dans les données de formation. À l'avenir, nous envisageons d'aller encore plus loin et de construire des modèles d'apprentissage automatique qui peuvent être utilisés pour détecter les biais dans d'autres modèles.
Pouvez-vous discuter de RapidMiner AI Cloud et de la manière dont il se différencie des produits concurrents ?
Les exigences d'un projet de science des données peuvent être importantes, complexes et intensives en calcul, ce qui a fait de l'utilisation de la technologie cloud une stratégie si attrayante pour les scientifiques des données. Malheureusement, les différentes plates-formes natives de science des données basées sur le cloud vous lient aux services cloud et aux offres de stockage de données de ce fournisseur de cloud particulier.
Le RapidMiner AI Cloud est simplement notre prestation de services cloud de la plate-forme RapidMiner. L'offre peut être adaptée à l'environnement de n'importe quel client, quelle que soit sa stratégie cloud. C'est important de nos jours, car l'approche de la plupart des entreprises en matière de gestion des données dans le cloud évolue très rapidement dans le climat actuel. La flexibilité est vraiment ce qui distingue RapidMiner AI Cloud. Il peut s'exécuter dans n'importe quel service cloud, pile de cloud privé ou dans une configuration hybride. Nous sommes cloud portable, cloud agnostic, multi-cloud – quel que soit le nom que vous préférez lui donner.
RapidMiner AI Cloud est également très simple, car bien sûr, nous offrons la possibilité de gérer tout ou partie du déploiement pour les clients afin qu'ils puissent se concentrer sur la gestion de leur entreprise avec l'IA, et non l'inverse. Il existe même une option à la demande, qui vous permet de créer un environnement selon vos besoins pour des projets courts.
RapidMiner Radoop élimine une partie de la complexité de la science des données, pouvez-vous nous dire comment Radoop profite aux développeurs ?
Radoop est principalement destiné aux non-développeurs qui souhaitent exploiter le potentiel du Big Data. RapidMiner Radoop exécute les flux de travail RapidMiner directement dans Hadoop sans code. Nous pouvons également intégrer le moteur d'exécution RapidMiner dans Spark afin qu'il soit facile de pousser des flux de travail complets dans Spark sans la complexité liée aux approches centrées sur le code.
Une entité gouvernementale pourrait-elle utiliser RapidMiner pour analyser les données afin de prédire les pandémies potentielles, de la même manière que BlueDot fonctionne ?
En tant que plate-forme générale de science des données et d'apprentissage automatique, RapidMiner est destinée à rationaliser et à améliorer le processus de création et de gestion de modèles, quel que soit le sujet ou le domaine au centre du problème de science des données/apprentissage automatique. Bien que notre objectif ne soit pas de prédire les pandémies, avec les bonnes données, un expert en la matière (comme un virologue ou un épidémiologiste, dans ce cas) pourrait utiliser la plateforme pour créer un modèle capable de prédire avec précision les pandémies. En fait, de nombreux chercheurs utilisent RapidMiner - et notre plateforme est gratuite à des fins académiques.
Y a-t-il autre chose que vous aimeriez partager Ă propos de RapidMiner ?
Essaie! Vous serez peut-être surpris de voir à quel point la science des données peut être simple et à quel point une bonne plateforme peut améliorer votre productivité et celle de votre équipe.
Merci pour cet excellent intervieweur, les lecteurs qui souhaitent en savoir plus devraient visiter RapidMiner.