entrevistes

Ingo Mierswa, fundador i president de RapidMiner, Inc - Sèrie d'entrevistes

actualitzat on Desembre 9, 2022

Ingo Mierswa és el fundador i president de RapidMiner, Inc. RapidMiner aporta intel·ligència artificial a l'empresa mitjançant una plataforma de ciència de dades oberta i extensible. Creat per a equips d'anàlisi, RapidMiner unifica tot el cicle de vida de la ciència de dades, des de la preparació de dades fins a l'aprenentatge automàtic i predictiu desplegament del model. Més de 625,000 professionals de l'anàlisi utilitzen els productes RapidMiner per generar ingressos, reduir costos i evitar riscos.

Quina va ser la teva inspiració per llançar RapidMiner?

Havia treballat al negoci de consultoria en ciència de dades durant molts anys i vaig veure la necessitat d'una plataforma que fos més intuïtiva i accessible per a persones sense una educació formal en ciència de dades. Moltes de les solucions existents en aquell moment es basaven en codificació i scripts i simplement no eren fàcils d'utilitzar. A més, va dificultar la gestió i el manteniment de les dades de les solucions que es van desenvolupar dins d'aquestes plataformes. Bàsicament, em vaig adonar que aquests projectes no havien de ser tan difícils, així que vam començar a crear la plataforma RapidMiner per permetre que qualsevol persona fos un gran científic de dades.

Pot parlar de la governança de transparència total que està utilitzant actualment RapidMiner?

Quan no pots explicar un model, és bastant difícil afinar, confiar i traduir. Gran part del treball de la ciència de dades és la comunicació dels resultats a altres persones perquè les parts interessades puguin entendre com millorar els processos. Això requereix confiança i comprensió profunda. A més, els problemes de confiança i traducció poden dificultar molt la superació dels requisits corporatius per posar un model en producció. Lluitem aquesta batalla de diferents maneres:

Com a plataforma de ciència de dades visuals, RapidMiner traça inherentment una explicació per a tots els pipelines i models de dades en un format altament consumible que poden ser entès pels científics de dades o per als que no són científics de dades. Fa que els models siguin transparents i ajuda els usuaris a entendre el comportament del model i a avaluar-ne els punts forts i febles i detectar possibles biaixos.

A més, tots els models creats a la plataforma inclouen visualitzacions àmplies per a l'usuari, normalment l'usuari que crea el model, per obtenir informació sobre el model, comprendre el comportament del model i avaluar els biaixos del model.

RapidMiner també proporciona explicacions del model, fins i tot quan està en producció: per a cada predicció creada per un model, RapidMiner genera i afegeix els factors d'influència que han conduït o influït en les decisions preses per aquest model en producció.

Finalment, i això és molt important per a mi personalment, ja que ho conduïa amb els nostres equips d'enginyeria fa un parell d'anys, RapidMiner també ofereix una capacitat de simulador de models extremadament potent, que permet als usuaris simular i observar el comportament del model basant-se en les dades d'entrada proporcionades. per part de l'usuari. Les dades d'entrada es poden configurar i canviar molt fàcilment, permetent a l'usuari entendre el comportament predictiu dels models en diversos casos hipotètics o del món real. El simulador també mostra factors que influeixen en la decisió del model. L'usuari, en aquest cas, fins i tot un usuari empresarial o un expert del domini, pot entendre el comportament del model, validar la decisió del model amb resultats reals o coneixement del domini i identificar problemes. El simulador us permet simular el món real i mirar al futur, de fet, al vostre futur.

Com utilitza RapidMiner l'aprenentatge profund?

L'ús de RapidMiner de l'aprenentatge profund de les quals estem molt orgullosos. L'aprenentatge profund pot ser molt difícil d'aplicar i els que no són científics de dades sovint tenen dificultats per configurar aquestes xarxes sense el suport d'experts. RapidMiner fa que aquest procés sigui el més senzill possible per a usuaris de tot tipus. L'aprenentatge profund és, per exemple, part del nostre producte d'aprenentatge automàtic automàtic (ML) anomenat RapidMiner Go. Aquí l'usuari no necessita saber res sobre l'aprenentatge profund per fer ús d'aquest tipus de models sofisticats. A més, els usuaris avançats poden aprofundir i utilitzar biblioteques populars d'aprenentatge profund com Tensorflow, Keras o DeepLearning4J directament des dels fluxos de treball visuals que estan creant amb RapidMiner. Això és com jugar amb blocs de construcció i simplifica l'experiència per als usuaris amb menys habilitats en ciència de dades. Mitjançant aquest enfocament, els nostres usuaris poden crear arquitectures de xarxa flexibles amb diferents funcions d'activació i un nombre definit per l'usuari de capes i nodes, múltiples capes amb diferents nombres de nodes i triar entre diferents tècniques d'entrenament.

Quin altre tipus d'aprenentatge automàtic s'utilitza?

Tots ells! Oferim centenars d'algorismes d'aprenentatge diferents com a part de la plataforma RapidMiner: tot el que podeu aplicar als llenguatges de programació de ciència de dades àmpliament utilitzats Python i R. Entre d'altres, RapidMiner ofereix mètodes per a Naive Bayes, regressió com ara models lineals generalitzats, agrupacions com ara com k-Means, FP-Growth, arbres de decisió, boscos aleatoris, aprenentatge profund paral·lelitzat i arbres augmentats amb gradient. Aquests i molts més formen part de la biblioteca de modelatge de RapidMiner i es poden utilitzar amb un sol clic.

Podeu parlar de com el model automàtic coneix els valors òptims que s'han d'utilitzar?

RapidMiner AutoModel utilitza l'automatització intel·ligent per accelerar tot el que fan els usuaris i garantir que es creen models precisos i sonors. Això inclou la selecció d'instàncies i l'eliminació automàtica de valors atípics, l'enginyeria de funcions per a tipus de dades complexos, com ara dates o textos, i l'enginyeria de funcions automatitzada multiobjectiu per seleccionar les funcions òptimes i construir-ne de noves. Auto Model també inclou altres mètodes de neteja de dades per solucionar problemes habituals a les dades, com ara els valors que falten, l'elaboració de perfils de dades mitjançant l'avaluació de la qualitat i el valor de les columnes de dades, la normalització de dades i altres transformacions.

Auto Model també extreu metadades de qualitat de les dades, per exemple, quant es comporta una columna com un identificador o si hi ha molts valors que falten. Aquestes metadades s'utilitzen a més de les metadades bàsiques per automatitzar i ajudar els usuaris a "utilitzar els valors òptims" i tractar problemes de qualitat de les dades.

Per obtenir més detalls, ho hem traçat tot al nostre model d'automòbil. (Imatge a continuació per a més context)

Hi ha quatre fases bàsiques on s'aplica l'automatització:

– Preparació de dades: anàlisi automàtica de dades per identificar problemes de qualitat habituals com correlacions, valors que falten i estabilitat.
– Selecció i optimització automatitzada de models, inclosa la validació completa i la comparació del rendiment, que suggereix les millors tècniques d'aprenentatge automàtic per a dades donades i determina els paràmetres òptims.
– Simulació del model per ajudar a determinar les accions específiques (prescriptives) a prendre per aconseguir el resultat desitjat previst pel model.
– En la fase de desplegament i operacions del model, els usuaris se'ls mostren factors com la deriva, el biaix i l'impacte empresarial, automàticament sense necessitat de treball addicional.

El biaix de l'ordinador és un problema amb qualsevol tipus d'IA, hi ha controls per evitar que el biaix s'incrementi en els resultats?

Sí, això és extremadament important per a la ciència de dades ètiques. Les funcions de govern esmentades abans garanteixen que els usuaris sempre puguin veure exactament quines dades s'han utilitzat per a la creació de models, com es van transformar i si hi ha biaix en la selecció de dades. A més, les nostres funcions per a la detecció de deriva són una altra eina poderosa per detectar biaixos. Si un model en producció demostra una gran deriva en les dades d'entrada, això pot ser un signe que el món ha canviat dràsticament. Tanmateix, també pot ser un indicador que hi va haver un sever biaix en les dades d'entrenament. En el futur, estem considerant fer un pas més i construir models d'aprenentatge automàtic que es puguin utilitzar per detectar biaix en altres models.

Podeu parlar del RapidMiner AI Cloud i de com es diferencia dels productes de la competència?

Els requisits per a un projecte de ciència de dades poden ser grans, complexos i intensius en càlcul, fet que ha fet que l'ús de la tecnologia del núvol sigui una estratègia tan atractiva per als científics de dades. Malauradament, les diferents plataformes natives de ciència de dades basades en núvol us lliguen als serveis al núvol i a les ofertes d'emmagatzematge de dades d'aquest proveïdor de núvol en particular.

RapidMiner AI Cloud és simplement la nostra prestació de serveis al núvol de la plataforma RapidMiner. L'oferta es pot adaptar a l'entorn de qualsevol client, independentment de la seva estratègia al núvol. Això és important en aquests dies, ja que l'enfocament de la majoria de les empreses a la gestió de dades al núvol està evolucionant molt ràpidament en el clima actual. La flexibilitat és realment el que diferencia a RapidMiner AI Cloud. Es pot executar en qualsevol servei al núvol, pila de núvols privats o en una configuració híbrida. Som portàtils al núvol, agnòstics al núvol, multinúvol, com vulguis dir-ho.

RapidMiner AI Cloud també té molt poca molèstia, ja que, per descomptat, oferim la possibilitat de gestionar la totalitat o part del desplegament per als clients perquè puguin centrar-se a gestionar el seu negoci amb IA, no al revés. Fins i tot hi ha una opció sota demanda, que us permet crear un entorn segons sigui necessari per a projectes curts.

RapidMiner Radoop elimina part de la complexitat que hi ha darrere de la ciència de dades, ens pots dir com beneficia Radoop als desenvolupadors?

Radoop és principalment per a no desenvolupadors que volen aprofitar el potencial de les grans dades. RapidMiner Radoop executa els fluxos de treball de RapidMiner directament dins de Hadoop sense codi. També podem incrustar el motor d'execució RapidMiner a Spark perquè sigui fàcil impulsar fluxos de treball complets a Spark sense la complexitat que prové dels enfocaments centrats en el codi.

Una entitat governamental podria utilitzar RapidMiner per analitzar dades per predir possibles pandèmies, de manera similar a com? BlueDot opera?

Com a plataforma general de ciència de dades i aprenentatge automàtic, RapidMiner està pensat per racionalitzar i millorar el procés de creació i gestió de models, independentment de la matèria o domini que es trobi al centre del problema de la ciència de dades/aprenentatge automàtic. Tot i que el nostre enfocament no és predir pandèmies, amb les dades adequades un expert en la matèria (com un viròleg o epidemiòleg, en aquest cas) podria utilitzar la plataforma per crear un model que pogués predir les pandèmies amb precisió. De fet, molts investigadors utilitzen RapidMiner, i la nostra plataforma és gratuïta amb finalitats acadèmics.

Hi ha alguna cosa més que t'agradaria compartir sobre RapidMiner?

Prova-ho! Potser us sorprendrà la facilitat que pot ser la ciència de dades i fins a quin punt una bona plataforma pot millorar la vostra productivitat i la del vostre equip.

Gràcies per aquest gran entrevistador, els lectors que vulguin aprendre més haurien de visitar RapidMiner.