Künstliche Intelligenz
Ingo Mierswa, Gründer & Präsident bei RapidMiner, Inc – Interviewreihe

Ingo Mierswa ist der Gründer & Präsident bei RapidMiner, Inc. RapidMiner bringt künstliche Intelligenz in das Unternehmen durch eine offene und erweiterbare Data-Science-Plattform. Für Analyse-Teams entwickelt, vereint RapidMiner den gesamten Data-Science-Lebenszyklus von der Datenbereitung bis zum maschinellen Lernen bis zur prädiktiven Modellbereitstellung. Mehr als 625.000 Analyse-Experten verwenden RapidMiner-Produkte, um Umsatz zu erzielen, Kosten zu senken und Risiken zu vermeiden.
Was war Ihre Inspiration hinter der Gründung von RapidMiner?
Ich hatte viele Jahre im Data-Science-Beratungsgeschäft gearbeitet und sah einen Bedarf an einer Plattform, die intuitiver und zugänglicher für Menschen ohne formale Ausbildung in Data Science war. Viele der bestehenden Lösungen zu dieser Zeit basierten auf Codierung und Skripten und waren einfach nicht benutzerfreundlich. Darüber hinaus machte es die Daten schwierig zu verwalten und die Lösungen, die innerhalb dieser Plattformen entwickelt wurden, zu warten. Im Grunde genommen erkannte ich, dass diese Projekte nicht so schwierig sein mussten, also begannen wir, die RapidMiner-Plattform zu erstellen, um es jedem zu ermöglichen, ein großartiger Data Scientist zu sein.
Können Sie die vollständige Transparenz der Governance erläutern, die derzeit von RapidMiner verwendet wird?
Wenn Sie ein Modell nicht erklären können, ist es ziemlich schwierig, es zu optimieren, zu vertrauen und zu übersetzen. Ein großer Teil der Data-Science-Arbeit ist die Kommunikation der Ergebnisse mit anderen, damit Stakeholder verstehen, wie sie Prozesse verbessern können. Dies erfordert Vertrauen und tiefes Verständnis. Auch Probleme mit Vertrauen und Übersetzung können es sehr schwierig machen, die corporate-Anforderungen zu überwinden, um ein Modell in die Produktion zu bringen. Wir kämpfen gegen diese Schlacht auf mehrere Arten:
Als visuelle Data-Science-Plattform zeichnet RapidMiner automatisch eine Erklärung für alle Datenpipelines und -modelle in einem hoch konsumierbaren Format auf, das von Data Scientists oder Nicht-Data-Scientists verstanden werden kann. Es macht Modelle transparent und hilft Benutzern, das Modellverhalten und seine Stärken und Schwächen zu verstehen und potenzielle Voreingenommenheiten zu erkennen.
Darüber hinaus kommen alle im RapidMiner-Plattform erstellten Modelle mit umfangreichen Visualisierungen für den Benutzer – in der Regel den Benutzer, der das Modell erstellt – um Modell-Einblicke zu gewinnen, das Modellverhalten zu verstehen und Modell-Voreingenommenheiten zu bewerten.
RapidMiner bietet auch Modell-Erklärungen – sogar wenn es sich in der Produktion befindet: Für jede Vorhersage, die von einem Modell erstellt wird, generiert RapidMiner die Einflussfaktoren, die zu oder beeinflusst haben, die Entscheidungen getroffen haben, die von diesem Modell in der Produktion getroffen wurden.
Schließlich – und das ist mir persönlich sehr wichtig, da ich es mit unseren Ingenieursteams vor ein paar Jahren vorangetrieben habe – bietet RapidMiner auch eine extrem leistungsstarke Modell-Simulationsfunktion, die es Benutzern ermöglicht, das Modellverhalten zu simulieren und zu beobachten, basierend auf den von den Benutzern bereitgestellten Eingabedaten. Eingabedaten können sehr einfach festgelegt und geändert werden, sodass der Benutzer das prädiktive Verhalten der Modelle in verschiedenen hypothetischen oder realen Fällen verstehen kann. Der Simulator zeigt auch die Faktoren an, die die Entscheidung des Modells beeinflussen. Der Benutzer – in diesem Fall sogar ein Geschäftsanwender oder Domänenexperte – kann das Modellverhalten verstehen, die Entscheidung des Modells gegen reale Ergebnisse oder Domänenwissen überprüfen und Probleme identifizieren. Der Simulator ermöglicht es Ihnen, die reale Welt zu simulieren und in Ihre Zukunft zu blicken – in Ihre Zukunft, um genau zu sein.
Wie verwendet RapidMiner Deep Learning?
RapidMiners Verwendung von Deep Learning ist etwas, worauf wir sehr stolz sind. Deep Learning kann sehr schwierig anzuwenden sein, und Nicht-Data-Scientists haben oft Schwierigkeiten, diese Netzwerke ohne Expertenunterstützung einzurichten. RapidMiner macht diesen Prozess so einfach wie möglich für Benutzer aller Arten. Deep Learning ist beispielsweise Teil unseres Auto-Machine-Learning-Produkts (ML) namens RapidMiner Go. Hier muss der Benutzer nichts über Deep Learning wissen, um diese Art von komplexen Modellen zu nutzen. Darüber hinaus können Power-Benutzer tiefer eintauchen und beliebte Deep-Learning-Bibliotheken wie Tensorflow, Keras oder DeepLearning4J direkt aus den visuellen Workflows verwenden, die sie mit RapidMiner erstellen. Dies ist wie das Spielen mit Bausteinen und vereinfacht die Erfahrung für Benutzer mit weniger Data-Science-Fähigkeiten. Durch diesen Ansatz können unsere Benutzer flexible Netzarchitekturen mit verschiedenen Aktivierungsfunktionen und benutzerdefinierten Anzahl von Schichten und Knoten, mehrere Schichten mit unterschiedlicher Anzahl von Knoten und wählen aus verschiedenen Trainingsmethoden erstellen.
Welche andere Art von maschinellem Lernen wird verwendet?
Alle! Wir bieten Hunderte von verschiedenen Lernalgorithmen als Teil der RapidMiner-Plattform an – alles, was Sie in den weit verbreiteten Data-Science-Programmiersprachen Python und R anwenden können. Unter anderem bietet RapidMiner Methoden für Naive Bayes, Regression wie Generalized Linear Models, Clustering wie k-Means, FP-Growth, Entscheidungsbäume, Random Forests, Parallelized Deep Learning und Gradient Boosted Trees. Diese und viele mehr sind Teil der Modellbibliothek von RapidMiner und können mit einem einzigen Klick verwendet werden.
Können Sie erläutern, wie das Auto-Modell die optimalen Werte kennt, die verwendet werden sollen?
RapidMiner AutoModel verwendet intelligente Automatisierung, um alles zu beschleunigen, was Benutzer tun, und stellt sicher, dass genaue, solide Modelle erstellt werden. Dies umfasst Instanzenauswahl und automatisches Ausreißer-Entfernen, Feature-Engineering für komplexe Datentypen wie Daten oder Texte und vollständiges multiobjektives automatisches Feature-Engineering, um die optimalen Funktionen auszuwählen und neue zu erstellen. Auto-Modell umfasst auch andere Datenreinigungsmethoden, um häufige Probleme in Daten wie fehlende Werte, Datenprofilierung durch Bewertung der Qualität und des Wertes von Datenkolonnen, Datennormalisierung und verschiedene andere Transformationen zu beheben.
Auto-Modell extrahiert auch Datenqualitäts-Metadaten – beispielsweise, wie sehr eine Spalte wie eine ID verhält oder ob es viele fehlende Werte gibt. Diese Metadaten werden zusammen mit den grundlegenden Metadaten verwendet, um Benutzern bei der Verwendung der optimalen Werte und der Bewältigung von Datenqualitätsproblemen zu helfen.
Für weitere Details haben wir alles in unserem Auto-Modell-Blueprint aufgezeichnet. (Bild unten für zusätzlichen Kontext)
Es gibt vier grundlegende Phasen, in denen die Automatisierung angewendet wird:
– Datenbereitung: Automatische Analyse von Daten, um häufige Qualitätsprobleme wie Korrelationen, fehlende Werte und Stabilität zu identifizieren.
– Automatisierte Modellauswahl und -optimierung, einschließlich vollständiger Validierung und Leistungsvergleich, die die besten maschinellen Lernmethoden für die gegebenen Daten vorschlägt und die optimalen Parameter bestimmt.
– Modellsimulation, um die spezifischen (präskriptiven) Maßnahmen zu bestimmen, die ergriffen werden müssen, um das gewünschte Ergebnis vorherzusagen, das vom Modell vorhergesagt wird.
– In der Modellbereitstellungs- und Betriebsphase werden Benutzern Faktoren wie Drift, Voreingenommenheit und Geschäftsauswirkung automatisch ohne zusätzliche Arbeit angezeigt.

Computer-Voreingenommenheit ist ein Problem bei jeder Art von KI, gibt es Kontrollen, um zu verhindern, dass Voreingenommenheit in die Ergebnisse einfließt?
Ja, das ist wirklich sehr wichtig für ethische Data Science. Die vorher erwähnten Governance-Features stellen sicher, dass Benutzer immer genau sehen können, welche Daten für die Modellerstellung verwendet wurden, wie sie transformiert wurden und ob es Voreingenommenheit in der Datenauswahl gibt. Darüber hinaus sind unsere Funktionen zur Drift-Erkennung ein weiteres leistungsstarkes Werkzeug, um Voreingenommenheit zu erkennen. Wenn ein Modell in der Produktion eine große Drift in den Eingabedaten zeigt, kann dies ein Zeichen dafür sein, dass sich die Welt dramatisch verändert hat. Es kann jedoch auch ein Indikator dafür sein, dass es eine starke Voreingenommenheit in den Trainingsdaten gab. In Zukunft planen wir, noch einen Schritt weiter zu gehen und maschinelle Lernmodelle zu erstellen, die zur Erkennung von Voreingenommenheit in anderen Modellen verwendet werden können.
Können Sie den RapidMiner AI Cloud und wie er sich von konkurrierenden Produkten unterscheidet, erläutern?
Die Anforderungen an ein Data-Science-Projekt können groß, komplex und rechenintensiv sein, was die Verwendung von Cloud-Technologie für Data-Scientists so attraktiv gemacht hat. Leider binden die verschiedenen nativen Cloud-basierten Data-Science-Plattformen Sie an die Cloud-Dienste und DatenSpeicher-Angebote des jeweiligen Cloud-Anbieters.
Der RapidMiner AI Cloud ist einfach unsere Cloud-Service-Lieferung der RapidMiner-Plattform. Das Angebot kann an die Umgebung jedes Kunden angepasst werden, unabhängig von seiner Cloud-Strategie. Dies ist wichtig in diesen Tagen, da sich die Herangehensweise der meisten Unternehmen an die Cloud-Datenverwaltung sehr schnell entwickelt. Flexibilität ist wirklich das, was den RapidMiner AI Cloud von anderen unterscheidet. Er kann in jedem Cloud-Service, privaten Cloud-Stack oder in einer Hybrid-Umgebung ausgeführt werden. Wir sind cloud-portabel, cloud-agnostisch, multi-cloud – wie Sie es bevorzugen.
RapidMiner AI Cloud ist auch sehr wenig Aufwand, da wir die Möglichkeit bieten, den gesamten oder einen Teil der Bereitstellung für Kunden zu verwalten, damit sie sich auf das Betreiben ihres Geschäfts mit KI konzentrieren können, nicht umgekehrt. Es gibt sogar eine On-Demand-Option, die es Ihnen ermöglicht, eine Umgebung aufzusetzen, wenn Sie sie benötigen, für kurze Projekte.
RapidMiner Radoop eliminiert einige der Komplexität hinter Data Science, können Sie erläutern, wie Radoop Entwicklern nützt?
Radoop ist hauptsächlich für Nicht-Entwickler gedacht, die das Potenzial von Big Data nutzen möchten. RapidMiner Radoop führt RapidMiner-Workflows direkt innerhalb von Hadoop in einer codefreien Weise aus. Wir können auch den RapidMiner-Ausführungs-Engine in Spark einbetten, sodass es einfach ist, vollständige Workflows in Spark zu übertragen, ohne die Komplexität, die von codezentrierten Ansätzen ausgeht.
Könnte eine Regierungsbehörde RapidMiner verwenden, um Daten zu analysieren und mögliche Pandemien vorherzusagen, ähnlich wie BlueDot?
Als allgemeine Data-Science- und Machine-Learning-Plattform ist RapidMiner dazu gedacht, den Modell-Erstellungs- und -Verwaltungsprozess zu rationalisieren und zu verbessern, unabhängig davon, welches Thema oder welche Domäne im Mittelpunkt des Data-Science- oder Machine-Learning-Problems steht. Obwohl unser Fokus nicht auf der Vorhersage von Pandemien liegt, könnte ein Fachexperte (wie ein Virologe oder Epidemiologe in diesem Fall) mit den richtigen Daten die Plattform verwenden, um ein Modell zu erstellen, das Pandemien genau vorhersagen kann. Tatsächlich verwenden viele Forscher RapidMiner – und unsere Plattform ist kostenlos für akademische Zwecke.
Gibt es noch etwas, das Sie über RapidMiner teilen möchten?
Probieren Sie es aus! Sie werden überrascht sein, wie einfach Data Science sein kann und wie sehr eine gute Plattform die Produktivität von Ihnen und Ihrem Team verbessern kann.
Vielen Dank für dieses großartige Interview, Leser, die mehr erfahren möchten, sollten RapidMiner besuchen.












