Intervjuji

Ingo Mierswa, ustanovitelj in predsednik podjetja RapidMiner, Inc – serija intervjujev

Posodobljeno on December 9, 2022

Ingo Mierswa je ustanovitelj in predsednik podjetja RapidMiner, Inc. RapidMiner prinaša umetno inteligenco v podjetje prek odprte in razširljive platforme podatkovne znanosti. RapidMiner, izdelan za analitične ekipe, združuje celoten življenjski cikel podatkovne znanosti od priprave podatkov do strojnega učenja do napovedno uvedba modela. Več kot 625,000 analitičnih strokovnjakov uporablja izdelke RapidMiner za povečanje prihodkov, zmanjšanje stroškov in izogibanje tveganjem.

Kaj je bil vaš navdih za zagon RapidMinerja?

Dolga leta sem delal v svetovalnem podjetju za podatkovno znanost in videl sem potrebo po platformi, ki je bolj intuitivna in dostopna za ljudi brez formalne izobrazbe o podatkovni znanosti. Številne obstoječe rešitve so se takrat zanašale na kodiranje in skriptiranje in enostavno niso bile uporabniku prijazne. Poleg tega je otežilo upravljanje podatkov in vzdrževanje rešitev, ki so bile razvite znotraj teh platform. V bistvu sem ugotovil, da ti projekti niso tako težki, zato smo začeli ustvarjati platformo RapidMiner, ki bo vsakomur omogočila, da postane odličen podatkovni znanstvenik.

Ali lahko razpravljate o upravljanju popolne preglednosti, ki ga trenutno uporablja RapidMiner?

Ko modela ne znaš razložiti, ga je precej težko uglasiti, zaupati in prevesti. Veliko dela na področju podatkovne znanosti je sporočanje rezultatov drugim, da lahko zainteresirane strani razumejo, kako izboljšati procese. To zahteva zaupanje in globoko razumevanje. Prav tako lahko težave z zaupanjem in prevodom zelo otežijo premagovanje zahtev podjetja, da se model začne proizvajati. To bitko bijemo na več različnih načinov:

Kot platforma za vizualno znanost o podatkih RapidMiner sam po sebi načrtuje razlago za vse podatkovne kanale in modele v zelo potrošnem formatu, ki ga lahko razumejo podatkovni znanstveniki ali nepodatkovni znanstveniki. Modele naredi pregledne in uporabnikom pomaga pri razumevanju vedenja modela ter ocenjevanju njegovih prednosti in slabosti ter odkrivanju morebitnih pristranskosti.

Poleg tega imajo vsi modeli, ustvarjeni na platformi, obsežne vizualizacije za uporabnika – običajno uporabnika, ki ustvarja model – za pridobitev vpogledov v model, razumevanje vedenja modela in oceno pristranskosti modela.

RapidMiner ponuja tudi razlage modela – tudi ko je v proizvodnji: za vsako napoved, ki jo ustvari model, RapidMiner ustvari in doda faktorje vpliva, ki so privedli do ali vplivali na odločitve, ki jih je ta model sprejel v proizvodnji.

Končno – in to je zame osebno zelo pomembno, saj sem to vodil z našimi inženirskimi ekipami pred nekaj leti – RapidMiner ponuja tudi izjemno zmogljivo zmožnost simulatorja modela, ki uporabnikom omogoča simulacijo in opazovanje obnašanja modela na podlagi posredovanih vhodnih podatkov. s strani uporabnika. Vhodne podatke je mogoče nastaviti in spremeniti zelo enostavno, kar uporabniku omogoča razumevanje napovednega obnašanja modelov na različnih hipotetičnih ali resničnih primerih. Simulator prikazuje tudi dejavnike, ki vplivajo na odločitev modela. Uporabnik – v tem primeru celo poslovni uporabnik ali strokovnjak za domeno – lahko razume vedenje modela, potrdi odločitev modela glede na dejanske rezultate ali poznavanje domene in prepozna težave. Simulator vam omogoča simulacijo resničnega sveta in pogled v prihodnost – pravzaprav v vašo prihodnost.

Kako RapidMiner uporablja globoko učenje?

RapidMinerjeva uporaba globokega učenja je nekaj, na kar smo zelo ponosni. Globoko učenje je lahko zelo težko uporabiti in tisti, ki se ne ukvarjajo s podatki, se pogosto spopadajo z vzpostavitvijo teh omrežij brez podpore strokovnjakov. RapidMiner naredi ta postopek čim bolj preprost za uporabnike vseh vrst. Globoko učenje je na primer del našega izdelka za samodejno strojno učenje (ML), imenovanega RapidMiner Go. Tukaj uporabniku ni treba vedeti ničesar o globokem učenju, da bi lahko uporabil te vrste sofisticiranih modelov. Poleg tega se lahko napredni uporabniki poglobijo in uporabljajo priljubljene knjižnice za globoko učenje, kot so Tensorflow, Keras ali DeepLearning4J, neposredno iz vizualnih delovnih tokov, ki jih gradijo z RapidMinerjem. To je kot igranje z gradniki in poenostavlja izkušnjo za uporabnike z manj znanji podatkovne znanosti. S tem pristopom lahko naši uporabniki zgradijo prilagodljive omrežne arhitekture z različnimi aktivacijskimi funkcijami in uporabniško določenim številom plasti in vozlišč, več plasti z različnim številom vozlišč in izbirajo med različnimi tehnikami usposabljanja.

Katera druga vrsta strojnega učenja se uporablja?

Vse! Ponujamo na stotine različnih učnih algoritmov kot del platforme RapidMiner – vse, kar lahko uporabite v široko uporabljanih programskih jezikih znanosti o podatkih Python in R. Med drugim RapidMiner ponuja metode za Naive Bayes, regresijo, kot so generalizirani linearni modeli, združevanje v gruče, kot kot so k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning in Gradient Boost Trees. Ti in številni drugi so vsi del knjižnice za modeliranje RapidMinerja in jih je mogoče uporabiti z enim klikom.

Ali lahko razpravljate o tem, kako Auto Model pozna optimalne vrednosti, ki jih je treba uporabiti?

RapidMiner AutoModel uporablja inteligentno avtomatizacijo, da pospeši vse, kar počnejo uporabniki, in zagotovi izdelavo natančnih, zvočnih modelov. To vključuje izbiro primerkov in samodejno odstranjevanje izstopajočih vrednosti, inženiring funkcij za kompleksne tipe podatkov, kot so datumi ali besedila, in popolno avtomatizirano inženirstvo funkcij z več cilji za izbiro optimalnih funkcij in izdelavo novih. Samodejni model vključuje tudi druge metode čiščenja podatkov za odpravljanje pogostih težav v podatkih, kot so manjkajoče vrednosti, profiliranje podatkov z ocenjevanjem kakovosti in vrednosti podatkovnih stolpcev, normalizacija podatkov in različne druge transformacije.

Samodejni model izvleče tudi meta podatke o kakovosti podatkov – na primer, koliko se stolpec obnaša kot ID ali ali obstaja veliko manjkajočih vrednosti. Ti metapodatki se uporabljajo poleg osnovnih metapodatkov pri avtomatizaciji in pomoči uporabnikom pri „uporabi optimalnih vrednosti“ in pri reševanju težav s kakovostjo podatkov.

Za več podrobnosti smo vse začrtali v našem načrtu Auto Model. (Slika spodaj za dodaten kontekst)

Obstajajo štiri osnovne faze, v katerih se uporablja avtomatizacija:

– Priprava podatkov: samodejna analiza podatkov za prepoznavanje pogostih težav s kakovostjo, kot so korelacije, manjkajoče vrednosti in stabilnost.
– Samodejna izbira in optimizacija modela, vključno s popolno validacijo in primerjavo zmogljivosti, ki predlaga najboljše tehnike strojnega učenja za dane podatke in določa optimalne parametre.
– Simulacija modela za pomoč pri določanju posebnih (predpisanih) ukrepov, ki jih je treba izvesti, da bi dosegli želeni rezultat, ki ga napoveduje model.
– V fazi uvajanja in delovanja modela so uporabnikom samodejno prikazani dejavniki, kot so odklon, pristranskost in vpliv na poslovanje, brez dodatnega dela.

Računalniška pristranskost je težava pri kateri koli vrsti umetne inteligence. Ali obstajajo kakršni koli nadzori, ki preprečujejo, da bi se pristranskost prikradla v rezultate?

Da, to je res izjemno pomembno za etično podatkovno znanost. Prej omenjene funkcije upravljanja zagotavljajo, da lahko uporabniki vedno natančno vidijo, kateri podatki so bili uporabljeni za izdelavo modela, kako so bili preoblikovani in ali je pri izbiri podatkov prišlo do pristranskosti. Poleg tega so naše funkcije za zaznavanje zanašanja še eno močno orodje za zaznavanje pristranskosti. Če model v proizvodnji kaže veliko premikanja vhodnih podatkov, je to lahko znak, da se je svet dramatično spremenil. Lahko pa je tudi pokazatelj, da je prišlo do resne pristranskosti podatkov o usposabljanju. V prihodnosti razmišljamo, da bi šli še korak dlje in zgradili modele strojnega učenja, ki jih je mogoče uporabiti za odkrivanje pristranskosti v drugih modelih.

Ali lahko razpravljate o RapidMiner AI Cloud in o tem, kako se razlikuje od konkurenčnih izdelkov?

Zahteve za projekt podatkovne znanosti so lahko velike, zapletene in računalniško intenzivne, zaradi česar je uporaba tehnologije v oblaku tako privlačna strategija za podatkovne znanstvenike. Na žalost vas različne domače podatkovne znanstvene platforme, ki temeljijo na oblaku, povezujejo s storitvami v oblaku in ponudbami za shranjevanje podatkov tega določenega ponudnika v oblaku.

RapidMiner AI Cloud je preprosto naša storitev v oblaku, ki zagotavlja platformo RapidMiner. Ponudbo je mogoče prilagoditi okolju katere koli stranke, ne glede na njeno strategijo v oblaku. To je dandanes pomembno, saj se pristop večine podjetij k upravljanju podatkov v oblaku v trenutnih razmerah zelo hitro razvija. Prilagodljivost je tisto, kar ločuje RapidMiner AI Cloud. Lahko deluje v kateri koli storitvi v oblaku, skladu v zasebnem oblaku ali v hibridni nastavitvi. Smo prenosljivi v oblaku, smo neodvisni od oblakov, uporabljamo več oblakov – kakor koli temu raje rečete.

RapidMiner AI Cloud je tudi zelo malo težav, saj seveda ponujamo možnost upravljanja celotne ali dela uvedbe za stranke, tako da se lahko osredotočijo na vodenje svojega poslovanja z AI, in ne obratno. Obstaja celo možnost na zahtevo, ki vam omogoča, da zavrtite okolje, kot je potrebno za kratke projekte.

RapidMiner Radoop odpravi nekaj zapletenosti podatkovne znanosti. Ali nam lahko poveste, kako Radoop koristi razvijalcem?

Radoop je namenjen predvsem nerazvijalcem, ki želijo izkoristiti potencial velikih podatkov. RapidMiner Radoop izvaja poteke dela RapidMiner neposredno znotraj Hadoopa na način brez kode. Izvršilni mehanizem RapidMiner lahko vgradimo tudi v Spark, tako da je enostavno potisniti celotne poteke dela v Spark brez zapletenosti, ki izhaja iz pristopov, osredotočenih na kodo.

Ali bi vladni subjekt lahko uporabil RapidMiner za analizo podatkov za napovedovanje morebitnih pandemij, podobno kot BlueDot deluje?

Kot splošna platforma za podatkovno znanost in strojno učenje je RapidMiner namenjen racionalizaciji in izboljšanju procesa ustvarjanja in upravljanja modela, ne glede na to, katera tema ali domena je v središču problema podatkovne znanosti/strojnega učenja. Čeprav se ne osredotočamo na napovedovanje pandemije, bi lahko s pravimi podatki strokovnjak za zadevo (na primer virolog ali epidemiolog v tem primeru) uporabil platformo za ustvarjanje modela, ki bi lahko natančno napovedal pandemije. Pravzaprav veliko raziskovalcev uporablja RapidMiner – in naša platforma je brezplačna za akademske namene.

Ali želite še kaj povedati o RapidMinerju?

Poskusi! Morda boste presenečeni, kako enostavna je lahko znanost o podatkih in koliko lahko dobra platforma izboljša vašo produktivnost in produktivnost vaše ekipe.

Hvala za tega odličnega anketarja, bralci, ki želijo izvedeti več, naj obiščejo RapidMiner.