Intelligenza artificiale
Ingo Mierswa, Fondatore & Presidente di RapidMiner, Inc – Serie di Interviste

Ingo Mierswa è il Fondatore & Presidente di RapidMiner, Inc. RapidMiner porta l’intelligenza artificiale alle imprese attraverso una piattaforma di data science aperta e estensibile. Progettata per i team di analisi, RapidMiner unifica l’intero ciclo di vita della data science dalla preparazione dei dati all’apprendimento automatico alla previsione del modello di distribuzione. Più di 625.000 professionisti dell’analisi utilizzano i prodotti RapidMiner per guidare i ricavi, ridurre i costi e evitare i rischi.
Qual è stata la tua ispirazione dietro il lancio di RapidMiner?
Ho lavorato nel settore della consulenza di data science per molti anni e ho visto la necessità di una piattaforma più intuitiva e accessibile per le persone senza una formazione formale in data science. Molte delle soluzioni esistenti all’epoca si basavano sulla codifica e sulla gestione e non erano semplici da usare. Inoltre, rendeva difficile la gestione e la manutenzione delle soluzioni sviluppate all’interno di quelle piattaforme. Fondamentalmente, ho capito che quei progetti non dovevano essere così difficili, quindi abbiamo iniziato a creare la piattaforma RapidMiner per consentire a chiunque di essere un grande scienziato dei dati.
Puoi discutere della governance della trasparenza attualmente utilizzata da RapidMiner?
Quando non si può spiegare un modello, è molto difficile tararlo, fidarsi e tradurlo. Molto del lavoro di data science è la comunicazione dei risultati agli altri in modo che gli stakeholder possano capire come migliorare i processi. Ciò richiede fiducia e una profonda comprensione. Inoltre, problemi di fiducia e traduzione possono rendere molto difficile superare i requisiti aziendali per mettere un modello in produzione. Stiamo combattendo questa battaglia in diversi modi:
Come piattaforma di data science visiva, RapidMiner mappa automaticamente una spiegazione per tutte le pipeline di dati e i modelli in un formato altamente consumabile che può essere compreso da scienziati dei dati o non scienziati dei dati. Rende i modelli trasparenti e aiuta gli utenti a comprendere il comportamento del modello e a valutare i punti di forza e di debolezza e a rilevare potenziali pregiudizi.
Inoltre, tutti i modelli creati nella piattaforma vengono forniti con estensive visualizzazioni per l’utente – di solito l’utente che crea il modello – per ottenere informazioni sul modello, comprendere il comportamento del modello e valutare i pregiudizi del modello.
RapidMiner fornisce anche spiegazioni dei modelli – anche quando sono in produzione: per ogni previsione creata da un modello, RapidMiner genera e aggiunge i fattori di influenza che hanno portato o influenzato le decisioni prese da quel modello in produzione.
Infine – e questo è molto importante per me personalmente, poiché stavo guidando questo con i nostri team di ingegneria alcuni anni fa – RapidMiner fornisce anche una capacità di simulazione del modello estremamente potente, che consente agli utenti di simulare e osservare il comportamento del modello in base ai dati di input forniti dall’utente. I dati di input possono essere impostati e modificati molto facilmente, consentendo all’utente di comprendere il comportamento predittivo dei modelli in vari casi ipotetici o del mondo reale. Il simulatore visualizza anche i fattori che influenzano la decisione del modello. L’utente – in questo caso anche un utente aziendale o un esperto di dominio – può comprendere il comportamento del modello, convalidare la decisione del modello rispetto ai risultati reali o alla conoscenza del dominio e identificare problemi. Il simulatore consente di simulare il mondo reale e di guardare nel futuro – nel tuo futuro, in effetti.
Come utilizza RapidMiner l’apprendimento profondo?
L’utilizzo di RapidMiner dell’apprendimento profondo è qualcosa di cui siamo molto orgogliosi. L’apprendimento profondo può essere molto difficile da applicare e gli scienziati dei dati non esperti spesso lottano per impostare quelle reti senza supporto esperto. RapidMiner rende questo processo il più semplice possibile per gli utenti di tutti i tipi. L’apprendimento profondo, ad esempio, fa parte del nostro prodotto di apprendimento automatico (ML) chiamato RapidMiner Go. Qui l’utente non deve sapere nulla di apprendimento profondo per utilizzare quei tipi di modelli sofisticati. Inoltre, gli utenti potenti possono andare più a fondo e utilizzare librerie di apprendimento profondo popolari come Tensorflow, Keras o DeepLearning4J direttamente dai flussi di lavoro visivi che stanno costruendo con RapidMiner. Ciò è come giocare con i blocchi e semplifica l’esperienza per gli utenti con meno competenze di data science. Attraverso questo approccio, i nostri utenti possono costruire architetture di rete flessibili con diverse funzioni di attivazione e numero di nodi e layer definiti dall’utente, più layer con diversi numeri di nodi e scegliere tra diverse tecniche di formazione.
Quali altri tipi di apprendimento automatico vengono utilizzati?
Tutti! Offriamo centinaia di diversi algoritmi di apprendimento come parte della piattaforma RapidMiner – tutto ciò che puoi applicare nei linguaggi di programmazione di data science più utilizzati Python e R. Tra gli altri, RapidMiner offre metodi per Naive Bayes, regressione come Modelli Lineari Generalizzati, clustering come k-Means, FP-Growth, Alberi Decisionali, Random Forest, Parallelized Deep Learning e Gradient Boosted Trees. Questi e molti altri fanno parte della libreria di modellazione di RapidMiner e possono essere utilizzati con un solo clic.
Puoi discutere come Auto Model conosce i valori ottimali da utilizzare?
RapidMiner AutoModel utilizza l’automazione intelligente per accelerare tutto ciò che fanno gli utenti e assicurare che i modelli siano precisi e solidi. Ciò include la selezione delle istanze e la rimozione automatica degli outlier, l’ingegneria delle funzioni per tipi di dati complessi come date o testi e l’ingegneria delle funzioni automatica multi-obiettivo per selezionare le funzioni ottimali e costruirne di nuove. Auto Model include anche altri metodi di pulizia dei dati per risolvere problemi comuni nei dati come valori mancanti, profili di dati valutando la qualità e il valore delle colonne di dati, normalizzazione dei dati e varie altre trasformazioni.
Auto Model estrae anche i metadati di qualità dei dati – ad esempio, quanto una colonna si comporta come un ID o se ci sono molti valori mancanti. Questi metadati vengono utilizzati in aggiunta ai metadati di base nell’automatizzazione e nell’assistenza degli utenti nell’utilizzo dei “valori ottimali” e nel gestire i problemi di qualità dei dati.
Per maggiori dettagli, abbiamo mappato tutto nel nostro Auto Model Blueprint. (Immagine qui sotto per ulteriore contesto)
Ci sono quattro fasi di base in cui l’automatizzazione viene applicata:
– Preparazione dei dati: analisi automatica dei dati per identificare problemi di qualità comuni come correlazioni, valori mancanti e stabilità.
– Selezione e ottimizzazione automatica del modello, inclusa la convalida completa e il confronto delle prestazioni, che suggerisce le migliori tecniche di apprendimento automatico per i dati dati e determina i parametri ottimali.
– Simulazione del modello per aiutare a determinare le azioni specifiche (prescrittive) da intraprendere per raggiungere il risultato desiderato previsto dal modello.
– Nella fase di distribuzione e operazioni del modello, agli utenti vengono mostrati fattori come deriva, pregiudizio e impatto aziendale, automaticamente senza alcun lavoro aggiuntivo richiesto.

Il pregiudizio del computer è un problema con qualsiasi tipo di IA, ci sono controlli in atto per prevenire che il pregiudizio si insinui nei risultati?
Sì, questo è estremamente importante per la data science etica. Le funzionalità di governance menzionate in precedenza assicurano che gli utenti possano sempre vedere esattamente quali dati sono stati utilizzati per la costruzione del modello, come sono stati trasformati e se c’è pregiudizio nella selezione dei dati. Inoltre, le nostre funzionalità per la rilevazione della deriva sono un altro potente strumento per rilevare il pregiudizio. Se un modello in produzione dimostra una grande deriva nei dati di input, ciò può essere un segno che il mondo è cambiato drasticamente. Tuttavia, può anche essere un indicatore che c’era un grave pregiudizio nei dati di formazione. In futuro, stiamo considerando di andare ancora oltre e costruire modelli di apprendimento automatico che possano essere utilizzati per rilevare il pregiudizio in altri modelli.
Puoi discutere del RapidMiner AI Cloud e come si differenzia dai prodotti concorrenti?
I requisiti per un progetto di data science possono essere grandi, complessi e intensivi in termini di calcolo, il che ha reso l’utilizzo della tecnologia cloud una strategia attraente per gli scienziati dei dati. Purtroppo, le varie piattaforme di data science basate su cloud native legano l’utente ai servizi cloud e alle offerte di archiviazione dei dati di quel particolare fornitore di cloud.
Il RapidMiner AI Cloud è semplicemente la nostra offerta di servizio cloud della piattaforma RapidMiner. L’offerta può essere personalizzata per qualsiasi ambiente del cliente, indipendentemente dalla loro strategia cloud. Ciò è importante questi giorni poiché l’approccio della maggior parte delle aziende alla gestione dei dati cloud sta evolvendo molto rapidamente nell’attuale clima. La flessibilità è davvero ciò che distingue RapidMiner AI Cloud. Può essere eseguito in qualsiasi servizio cloud, stack cloud privato o in un ambiente ibrido. Siamo portabili cloud, agnostici cloud, multi-cloud – qualsiasi cosa si preferisca chiamarlo.
RapidMiner AI Cloud è anche molto a basso disturbo, poiché naturalmente offriamo la possibilità di gestire tutta o parte della distribuzione per i clienti in modo che possano concentrarsi sull’esecuzione del loro business con l’IA, non viceversa. C’è anche un’opzione on-demand, che consente di avviare un ambiente secondo necessità per progetti brevi.
RapidMiner Radoop elimina alcune delle complessità dietro la data science, puoi dirci come Radoop beneficia gli sviluppatori?
Radoop è principalmente per non sviluppatori che desiderano sfruttare il potenziale dei big data. RapidMiner Radoop esegue i flussi di lavoro di RapidMiner direttamente all’interno di Hadoop in modo senza codice. Possiamo anche incorporare il motore di esecuzione di RapidMiner in Spark in modo che sia facile spingere i flussi di lavoro completi in Spark senza la complessità che deriva dagli approcci basati sul codice.
Un’entità governativa potrebbe utilizzare RapidMiner per analizzare i dati per prevedere potenziali pandemie, simile a come BlueDot opera?
Come piattaforma di data science e apprendimento automatico generale, RapidMiner è destinata a semplificare e migliorare il processo di creazione e gestione del modello, indipendentemente dal soggetto o dal dominio al centro del problema di data science/apprendimento automatico. Sebbene il nostro focus non sia sulla previsione delle pandemie, con i dati giusti un esperto del settore (come un virologo o un epidemiologo, in questo caso) potrebbe utilizzare la piattaforma per creare un modello che potrebbe prevedere con precisione le pandemie. In effetti, molti ricercatori utilizzano RapidMiner – e la nostra piattaforma è gratuita per scopi accademici.
C’è qualcos’altro che ti piacerebbe condividere su RapidMiner?
Provalo! Potresti essere sorpreso da quanto la data science possa essere facile e da quanto una buona piattaforma possa migliorare la produttività tua e del tuo team.
Grazie per questa grande intervista, i lettori che desiderano saperne di più possono visitare RapidMiner.












