mozzicone Ingo Mierswa, fondatore e presidente di RapidMiner, Inc - Serie di interviste - Unite.AI
Seguici sui social

interviste

Ingo Mierswa, fondatore e presidente di RapidMiner, Inc – Serie di interviste

mm
aggiornato on

Ingo Mierswa è il fondatore e presidente di RapidMiner, Inc. Rapid Miner porta l'intelligenza artificiale nell'azienda attraverso una piattaforma di data science aperta ed estensibile. Progettato per i team di analisi, RapidMiner unifica l'intero ciclo di vita della scienza dei dati, dalla preparazione dei dati all'apprendimento automatico predittiva distribuzione del modello. Più di 625,000 professionisti dell'analisi utilizzano i prodotti RapidMiner per generare entrate, ridurre i costi ed evitare rischi.

Qual è stata la tua ispirazione per il lancio di RapidMiner?

Ho lavorato per molti anni nel settore della consulenza sulla scienza dei dati e ho visto la necessità di una piattaforma più intuitiva e accessibile per le persone senza un'istruzione formale nella scienza dei dati. Molte delle soluzioni esistenti all'epoca si basavano su codifica e scripting e semplicemente non erano facili da usare. Inoltre, rendeva difficile la gestione e la manutenzione dei dati per le soluzioni sviluppate all'interno di tali piattaforme. Fondamentalmente, mi sono reso conto che questi progetti non dovevano essere così difficili, quindi abbiamo iniziato a creare la piattaforma RapidMiner per consentire a chiunque di essere un grande data scientist.

Puoi discutere della governance della piena trasparenza attualmente utilizzata da RapidMiner?

Quando non puoi spiegare un modello, è piuttosto difficile sintonizzarlo, fidarsi e tradurre. Gran parte del lavoro di data science è la comunicazione dei risultati ad altri in modo che le parti interessate possano capire come migliorare i processi. Ciò richiede fiducia e profonda comprensione. Inoltre, i problemi di affidabilità e traduzione possono rendere molto difficile superare i requisiti aziendali per mettere in produzione un modello. Stiamo combattendo questa battaglia in diversi modi:

In qualità di piattaforma di data science visiva, RapidMiner traccia intrinsecamente una spiegazione per tutte le pipeline e i modelli di dati in un formato altamente consumabile che può essere compreso da data scientist o non data scientist. Rende i modelli trasparenti e aiuta gli utenti a comprendere il comportamento del modello e a valutarne i punti di forza e di debolezza e a rilevare potenziali pregiudizi.

Inoltre, tutti i modelli creati nella piattaforma sono dotati di visualizzazioni estese per l'utente, in genere l'utente che crea il modello, per ottenere informazioni dettagliate sul modello, comprendere il comportamento del modello e valutare i pregiudizi del modello.

RapidMiner fornisce anche spiegazioni del modello, anche durante la produzione: per ogni previsione creata da un modello, RapidMiner genera e aggiunge i fattori di influenza che hanno portato o influenzato le decisioni prese da quel modello in produzione.

Infine - e questo è molto importante per me personalmente mentre lo stavo guidando con i nostri team di ingegneri un paio di anni fa - RapidMiner fornisce anche una capacità di simulatore di modello estremamente potente, che consente agli utenti di simulare e osservare il comportamento del modello in base ai dati di input forniti dall'utente. I dati di input possono essere impostati e modificati molto facilmente, consentendo all'utente di comprendere il comportamento predittivo dei modelli su vari casi ipotetici o reali. Il simulatore visualizza anche i fattori che influenzano la decisione del modello. L'utente, in questo caso anche un utente aziendale o un esperto di dominio, può comprendere il comportamento del modello, convalidare la decisione del modello rispetto ai risultati reali o alla conoscenza del dominio e identificare i problemi. Il simulatore ti consente di simulare il mondo reale e dare uno sguardo al futuro, al tuo futuro, appunto.

In che modo RapidMiner utilizza il deep learning?

L'uso del deep learning da parte di RapidMiner è qualcosa di cui siamo molto orgogliosi. Il deep learning può essere molto difficile da applicare e i non esperti di dati spesso hanno difficoltà a creare tali reti senza il supporto di esperti. RapidMiner rende questo processo il più semplice possibile per utenti di tutti i tipi. Il deep learning fa, ad esempio, parte del nostro prodotto di Auto machine learning (ML) chiamato RapidMiner Go. In questo caso l’utente non ha bisogno di sapere nulla sul deep learning per utilizzare questi tipi di modelli sofisticati. Inoltre, gli utenti esperti possono approfondire e utilizzare le librerie di deep learning più diffuse come Tensorflow, Keras o DeepLearning4J direttamente dai flussi di lavoro visivi che stanno creando con RapidMiner. È come giocare con gli elementi costitutivi e semplifica l'esperienza per gli utenti con meno competenze di data science. Attraverso questo approccio i nostri utenti possono costruire architetture di rete flessibili con diverse funzioni di attivazione e numero di livelli e nodi definito dall'utente, più livelli con diverso numero di nodi e scegliere tra diverse tecniche di training.

Quale altro tipo di apprendimento automatico viene utilizzato?

Tutti loro! Offriamo centinaia di algoritmi di apprendimento diversi come parte della piattaforma RapidMiner: tutto ciò che puoi applicare nei linguaggi di programmazione di data science ampiamente utilizzati Python e R. Tra gli altri, RapidMiner offre metodi per Naive Bayes, regressione come modelli lineari generalizzati, clustering come come k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning e Gradient Boosted Trees. Questi e molti altri fanno tutti parte della libreria di modellazione di RapidMiner e possono essere utilizzati con un solo clic.

Puoi discutere di come il modello automatico conosce i valori ottimali da utilizzare?

RapidMiner AutoModel utilizza l'automazione intelligente per accelerare tutto ciò che gli utenti fanno e garantire la creazione di modelli precisi e affidabili. Ciò include la selezione dell'istanza e la rimozione automatica dei valori anomali, la progettazione delle funzionalità per tipi di dati complessi come date o testi e la progettazione completa delle funzionalità automatizzate multi-obiettivo per selezionare le funzionalità ottimali e crearne di nuove. Auto Model include anche altri metodi di pulizia dei dati per risolvere problemi comuni nei dati come valori mancanti, profilazione dei dati valutando la qualità e il valore delle colonne di dati, normalizzazione dei dati e varie altre trasformazioni.

Auto Model estrae anche metadati sulla qualità dei dati, ad esempio quanto una colonna si comporta come un ID o se ci sono molti valori mancanti. Questi metadati vengono utilizzati in aggiunta ai metadati di base per automatizzare e assistere gli utenti nell'"utilizzo dei valori ottimali" e nell'affrontare problemi di qualità dei dati.

Per maggiori dettagli, abbiamo mappato tutto nel nostro Auto Model Blueprint. (Immagine sotto per un contesto extra)

Ci sono quattro fasi fondamentali in cui viene applicata l'automazione:

– Preparazione dei dati: analisi automatica dei dati per identificare problemi di qualità comuni come correlazioni, valori mancanti e stabilità.
– Selezione e ottimizzazione automatizzate del modello, inclusa la convalida completa e il confronto delle prestazioni, che suggerisce le migliori tecniche di apprendimento automatico per determinati dati e determina i parametri ottimali.
– Simulazione del modello per aiutare a determinare le azioni specifiche (prescrittive) da intraprendere per ottenere il risultato desiderato previsto dal modello.
– Nella fase operativa e di implementazione del modello, agli utenti vengono mostrati automaticamente fattori quali deviazioni, bias e impatto aziendale, senza necessità di lavoro aggiuntivo.

La distorsione del computer è un problema con qualsiasi tipo di intelligenza artificiale, esistono controlli per evitare che la distorsione si insinui nei risultati?

Sì, questo è davvero estremamente importante per la scienza dei dati etici. Le funzionalità di governance menzionate in precedenza assicurano che gli utenti possano sempre vedere esattamente quali dati sono stati utilizzati per la creazione del modello, come sono stati trasformati e se vi sono distorsioni nella selezione dei dati. Inoltre, le nostre funzionalità per il rilevamento della deriva sono un altro potente strumento per rilevare i bias. Se un modello in produzione mostra molta deriva nei dati di input, questo può essere un segno che il mondo è cambiato radicalmente. Tuttavia, può anche essere un indicatore della presenza di gravi distorsioni nei dati di addestramento. In futuro, stiamo considerando di fare anche un ulteriore passo avanti e costruire modelli di apprendimento automatico che possono essere utilizzati per rilevare i bias in altri modelli.

Puoi discutere di RapidMiner AI Cloud e di come si differenzia dai prodotti concorrenti?

I requisiti per un progetto di data science possono essere grandi, complessi e ad alta intensità di calcolo, il che è ciò che ha reso l'uso della tecnologia cloud una strategia così interessante per i data scientist. Sfortunatamente, le varie piattaforme di data science basate su cloud native ti legano ai servizi cloud e alle offerte di archiviazione dei dati di quel particolare fornitore di cloud.

RapidMiner AI Cloud è semplicemente la nostra fornitura di servizi cloud della piattaforma RapidMiner. L'offerta può essere adattata all'ambiente di qualsiasi cliente, indipendentemente dalla sua strategia cloud. Questo è importante in questi giorni poiché l'approccio della maggior parte delle aziende alla gestione dei dati nel cloud si sta evolvendo molto rapidamente nel clima attuale. La flessibilità è davvero ciò che distingue RapidMiner AI Cloud. Può essere eseguito in qualsiasi servizio cloud, stack di cloud privato o in una configurazione ibrida. Siamo portabili nel cloud, indipendenti dal cloud, multi-cloud, come preferisci chiamarlo.

RapidMiner AI Cloud è anche una seccatura molto bassa, poiché, naturalmente, offriamo la possibilità di gestire tutto o parte dell'implementazione per i clienti in modo che possano concentrarsi sulla gestione della propria attività con l'IA, non viceversa. C'è anche un'opzione su richiesta, che ti consente di creare un ambiente secondo necessità per progetti brevi.

RapidMiner Radoop elimina parte della complessità dietro la scienza dei dati, puoi dirci in che modo Radoop avvantaggia gli sviluppatori?  

Radoop è principalmente per i non sviluppatori che vogliono sfruttare il potenziale dei big data. RapidMiner Radoop esegue i flussi di lavoro RapidMiner direttamente all'interno di Hadoop in modo privo di codice. Possiamo anche incorporare il motore di esecuzione RapidMiner in Spark, quindi è facile trasferire flussi di lavoro completi in Spark senza la complessità che deriva dagli approcci incentrati sul codice.

Un'entità governativa sarebbe in grado di utilizzare RapidMiner per analizzare i dati per prevedere potenziali pandemie, in modo simile a come BlueDot opera?

In quanto piattaforma generale di scienza dei dati e apprendimento automatico, RapidMiner ha lo scopo di semplificare e migliorare il processo di creazione e gestione del modello, indipendentemente dall'argomento o dal dominio al centro del problema di scienza dei dati/apprendimento automatico. Sebbene il nostro obiettivo non sia la previsione delle pandemie, con i dati giusti un esperto in materia (come un virologo o un epidemiologo, in questo caso) potrebbe utilizzare la piattaforma per creare un modello in grado di prevedere con precisione le pandemie. In effetti, molti ricercatori usano RapidMiner e la nostra piattaforma è gratuita per scopi accademici.

C'è qualcos'altro che vorresti condividere su RapidMiner?

Provaci! Potresti essere sorpreso di quanto possa essere semplice la scienza dei dati e di quanto una buona piattaforma possa migliorare te e la produttività del tuo team.

Grazie per questo grande intervistatore, i lettori che desiderano saperne di più dovrebbero visitare Rapid Miner.

Socio fondatore di unite.AI e membro di Consiglio tecnologico di Forbes, Antonio è un futurista che è appassionato del futuro dell'intelligenza artificiale e della robotica.

È anche il Fondatore di Titoli.io, un sito web che si concentra sugli investimenti in tecnologie dirompenti.