Intervjui

Ingo Mierswa, osnivač i predsjednik tvrtke RapidMiner, Inc – serija intervjua

Ažurirano on Prosinac 9, 2022

Ingo Mierswa je osnivač i predsjednik tvrtke RapidMiner, Inc. RapidMiner donosi umjetnu inteligenciju u poduzeće kroz otvorenu i proširivu platformu znanosti o podacima. Napravljen za analitičke timove, RapidMiner objedinjuje cijeli životni ciklus podatkovne znanosti od pripreme podataka do strojnog učenja do prediktivni implementacija modela. Više od 625,000 stručnjaka za analitiku koristi RapidMiner proizvode za povećanje prihoda, smanjenje troškova i izbjegavanje rizika.

Koja je bila vaša inspiracija iza pokretanja RapidMinera?

Godinama sam radio u konzultantskom poslu u području znanosti o podacima i vidio sam potrebu za platformom koja je intuitivnija i pristupačnija ljudima bez formalnog obrazovanja u znanosti o podacima. Mnoga od postojećih rješenja u to vrijeme oslanjala su se na kodiranje i skriptiranje i jednostavno nisu bila prilagođena korisniku. Nadalje, otežalo je upravljanje podacima i održavanje rješenja koja su razvijena unutar tih platformi. Uglavnom, shvatio sam da ovi projekti ne moraju biti tako teški pa smo počeli stvarati platformu RapidMiner kako bismo omogućili svakome da bude izvrstan podatkovni znanstvenik.

Možete li razgovarati o upravljanju potpunom transparentnošću koje trenutno koristi RapidMiner?

Kada ne možete objasniti model, prilično ga je teško ugoditi, vjerovati i prevesti. Puno rada na području znanosti o podacima sastoji se od priopćavanja rezultata drugima kako bi dionici mogli razumjeti kako poboljšati procese. To zahtijeva povjerenje i duboko razumijevanje. Također, problemi s povjerenjem i prijevodom mogu jako otežati prevladavanje korporativnih zahtjeva da se model pusti u proizvodnju. Ovu bitku vodimo na nekoliko različitih načina:

Kao vizualna podatkovna znanstvena platforma, RapidMiner inherentno mapira objašnjenje za sve podatkovne kanale i modele u vrlo potrošnom formatu koji mogu razumjeti podatkovni znanstvenici ili ne-znanstvenici. Čini modele transparentnima i pomaže korisnicima u razumijevanju ponašanja modela i procjeni njegovih prednosti i slabosti te otkrivanju potencijalnih pristranosti.

Osim toga, svi modeli stvoreni na platformi dolaze s opsežnim vizualizacijama za korisnika – obično korisnik koji kreira model – kako bi stekao uvid u model, razumio ponašanje modela i procijenio pristranosti modela.

RapidMiner također pruža objašnjenja modela – čak i kada je u proizvodnji: Za svako predviđanje koje je stvorio model, RapidMiner generira i dodaje čimbenike utjecaja koji su doveli ili utjecali na odluke koje je taj model donio u proizvodnji.

Konačno – a to je meni osobno jako važno jer sam ovo radio s našim inženjerskim timovima prije nekoliko godina – RapidMiner također pruža iznimno moćnu sposobnost simulatora modela, koja korisnicima omogućuje simulaciju i promatranje ponašanja modela na temelju dostavljenih ulaznih podataka od strane korisnika. Ulazni podaci mogu se postavljati i mijenjati vrlo jednostavno, omogućujući korisniku razumijevanje prediktivnog ponašanja modela na raznim hipotetskim ili stvarnim slučajevima. Simulator također prikazuje faktore koji utječu na odluku modela. Korisnik – u ovom slučaju čak i poslovni korisnik ili stručnjak za domenu – može razumjeti ponašanje modela, potvrditi odluku modela u odnosu na stvarne rezultate ili znanje o domeni i identificirati probleme. Simulator vam omogućuje simulaciju stvarnog svijeta i pogled u budućnost – zapravo u vašu budućnost.

Kako RapidMiner koristi duboko učenje?

RapidMinerova upotreba dubinskog učenja je nešto na što smo jako ponosni. Duboko učenje može biti vrlo teško primijeniti i oni koji se ne bave podacima često se bore s postavljanjem tih mreža bez stručne podrške. RapidMiner čini ovaj proces što je moguće jednostavnijim za korisnike svih vrsta. Duboko učenje je, na primjer, dio našeg proizvoda automatskog strojnog učenja (ML) pod nazivom RapidMiner Go. Ovdje korisnik ne mora znati ništa o dubokom učenju da bi koristio te vrste sofisticiranih modela. Osim toga, napredni korisnici mogu ići dublje i koristiti popularne biblioteke za duboko učenje kao što su Tensorflow, Keras ili DeepLearning4J izravno iz vizualnih radnih procesa koje grade pomoću RapidMinera. Ovo je poput igranja s kockama i pojednostavljuje iskustvo za korisnike s manje vještina u području znanosti o podacima. Ovim pristupom naši korisnici mogu izgraditi fleksibilne mrežne arhitekture s različitim funkcijama aktivacije i korisnički definiranim brojem slojeva i čvorova, više slojeva s različitim brojem čvorova i birati između različitih tehnika obuke.

Koja se druga vrsta strojnog učenja koristi?

Svi oni! Nudimo stotine različitih algoritama za učenje kao dio platforme RapidMiner – sve što možete primijeniti u široko korištenim programskim jezicima znanosti o podacima Python i R. Između ostalog, RapidMiner nudi metode za Naive Bayes, regresiju kao što su generalizirani linearni modeli, klasteriranje kao kao što su k-Means, FP-Growth, Decision Trees, Random Forest, Parallelized Deep Learning i Gradient Boost Trees. Ovi i mnogi drugi dio su biblioteke za modeliranje RapidMinera i mogu se koristiti jednim klikom.

Možete li raspraviti o tome kako Auto Model zna koje optimalne vrijednosti treba koristiti?

RapidMiner AutoModel koristi inteligentnu automatizaciju kako bi ubrzao sve što korisnici rade i osigurao izradu točnih, zvučnih modela. To uključuje odabir instance i automatsko uklanjanje odstupanja, inženjering značajki za složene tipove podataka kao što su datumi ili tekstovi, i potpuni automatizirani inženjering značajki s više ciljeva za odabir optimalnih značajki i konstruiranje novih. Auto Model također uključuje druge metode čišćenja podataka za ispravljanje uobičajenih problema u podacima kao što su vrijednosti koje nedostaju, profiliranje podataka procjenom kvalitete i vrijednosti stupaca podataka, normalizacija podataka i razne druge transformacije.

Automatski model također izvlači metapodatke o kvaliteti podataka – na primjer, koliko se stupac ponaša kao ID ili postoji li mnogo vrijednosti koje nedostaju. Ovi se metapodaci koriste uz osnovne metapodatke u automatizaciji i pomaganju korisnicima u 'korištenju optimalnih vrijednosti' i rješavanju problema s kvalitetom podataka.

Za više detalja, sve smo to mapirali u našem Auto Model Planu. (Slika ispod za dodatni kontekst)

Postoje četiri osnovne faze u kojima se primjenjuje automatizacija:

– Priprema podataka: Automatska analiza podataka za prepoznavanje uobičajenih problema s kvalitetom kao što su korelacije, vrijednosti koje nedostaju i stabilnost.
– Automatizirani odabir i optimizacija modela, uključujući punu provjeru valjanosti i usporedbu performansi, koja predlaže najbolje tehnike strojnog učenja za dane podatke i određuje optimalne parametre.
– Simulacija modela koja pomaže u određivanju specifičnih (propisanih) radnji koje treba poduzeti kako bi se postigao željeni ishod predviđen modelom.
– U fazi implementacije modela i operacija, korisnicima se prikazuju čimbenici kao što su drift, pristranost i poslovni utjecaj, automatski bez dodatnog rada.

Računalna pristranost problem je s bilo kojom vrstom umjetne inteligencije, postoje li ikakve kontrole koje bi spriječile pristranost da se pojavi u rezultatima?

Da, ovo je doista iznimno važno za etičku znanost o podacima. Prethodno spomenute značajke upravljanja osiguravaju da korisnici uvijek mogu točno vidjeti koji su podaci korišteni za izgradnju modela, kako su transformirani i postoji li pristranost u odabiru podataka. Osim toga, naše značajke za otkrivanje pomaka još su jedan moćan alat za otkrivanje pristranosti. Ako model u proizvodnji pokazuje puno odstupanja u ulaznim podacima, to može biti znak da se svijet dramatično promijenio. Međutim, to također može biti pokazatelj da je postojala velika pristranost u podacima o obuci. U budućnosti razmišljamo o tome da idemo korak dalje i izradimo modele strojnog učenja koji se mogu koristiti za otkrivanje pristranosti u drugim modelima.

Možete li razgovarati o RapidMiner AI Cloudu i kako se razlikuje od konkurentskih proizvoda?

Zahtjevi za projekt znanosti o podacima mogu biti veliki, složeni i računalno intenzivni, što je učinilo korištenje tehnologije u oblaku tako privlačnom strategijom za podatkovne znanstvenike. Nažalost, razne izvorne podatkovne znanstvene platforme temeljene na oblaku povezuju vas s uslugama u oblaku i ponudama za pohranu podataka tog određenog dobavljača oblaka.

RapidMiner AI Cloud jednostavno je isporuka naše usluge u oblaku platforme RapidMiner. Ponuda se može prilagoditi okruženju svakog korisnika, bez obzira na njihovu strategiju u oblaku. Ovo je važno ovih dana budući da se pristup većine tvrtki upravljanju podacima u oblaku vrlo brzo razvija u trenutnoj klimi. Fleksibilnost je ono što izdvaja RapidMiner AI Cloud. Može raditi u bilo kojoj usluzi u oblaku, privatnom oblaku ili u hibridnoj postavci. Mi smo prijenosni u oblaku, agnostici smo u oblaku, multi-cloud – kako god to više volite zvati.

RapidMiner AI Cloud također je vrlo jednostavan, jer naravno nudimo mogućnost upravljanja cijelom ili dijelom implementacije za klijente kako bi se mogli usredotočiti na vođenje svog poslovanja s AI, a ne obrnuto. Postoji čak i opcija na zahtjev, koja vam omogućuje da okrenete okruženje prema potrebi za kratke projekte.

RapidMiner Radoop eliminira neke od složenosti iza znanosti o podacima, možete li nam reći kako Radoop koristi programerima?

Radoop je uglavnom za programere koji ne žele iskoristiti potencijal velikih podataka. RapidMiner Radoop izvršava RapidMiner tijekove rada izravno unutar Hadoopa na način bez kodiranja. Također možemo ugraditi izvršni mehanizam RapidMiner u Spark tako da je jednostavno gurnuti kompletne tijekove rada u Spark bez složenosti koja proizlazi iz pristupa usmjerenih na kod.

Bi li državno tijelo moglo koristiti RapidMiner za analizu podataka za predviđanje potencijalnih pandemija, slično Plava točka djeluje?

Kao opća platforma za podatkovnu znanost i strojno učenje, RapidMiner je namijenjen pojednostavljenju i poboljšanju procesa stvaranja i upravljanja modelima, bez obzira na predmet ili domenu u središtu problema znanosti o podacima/strojnog učenja. Iako naš fokus nije na predviđanju pandemija, s pravim podacima stručnjak za predmet (poput virologa ili epidemiologa, u ovom slučaju) mogao bi koristiti platformu za stvaranje modela koji bi mogao točno predvidjeti pandemije. Zapravo, mnogi istraživači koriste RapidMiner – a naša je platforma besplatna za akademske svrhe.

Postoji li još nešto što biste željeli podijeliti o RapidMineru?

Pokušati! Možda ćete se iznenaditi koliko laka znanost o podacima može biti i koliko dobra platforma može poboljšati vašu produktivnost i produktivnost vašeg tima.

Hvala vam na ovom sjajnom intervjueru, čitatelji koji žele saznati više trebali bi posjetiti RapidMiner.

Srodne teme:analitika računalna pristranost znanost o podacima rapidminer

Sljedeći

Budućnost bodovanja govora – voditelji mišljenja

Ne propustite

Istraživači razvijaju metodu za komunikaciju umjetnih neuronskih mreža s biološkim

Antoine Tardif

Osnivač unite.AI i član udruge Forbesovo tehnološko vijeće, Antoine je a futurist koji je strastven prema budućnosti umjetne inteligencije i robotike.

Također je i osnivač Vrijednosni papiri.io, web stranica koja se fokusira na ulaganje u disruptivnu tehnologiju.