Anslut dig till vÄrt nÀtverk!

Intervjuer

Ingo Mierswa, grundare och VD pĂ„ RapidMiner, Inc – Intervjuserie

mm

Ingo Mierswa Ă€r grundare och VD pĂ„ RapidMiner, Inc. RapidMiner ger artificiell intelligens till företaget genom en öppen och utbyggbar datavetenskaplig plattform. RapidMiner Ă€r byggd för analysteam och förenar hela datavetenskapens livscykel frĂ„n dataförberedelser till maskininlĂ€rning till prediktiva modellinstallation. Mer Ă€n 625,000 XNUMX analytiker anvĂ€nder RapidMiner-produkter för att driva intĂ€kter, minska kostnaderna och undvika risker.

Vad var din inspiration bakom lanseringen av RapidMiner?

Jag hade arbetat inom datavetenskapskonsultbranschen i mÄnga Är och jag sÄg ett behov av en plattform som var mer intuitiv och lÀttillgÀnglig för mÀnniskor utan formell utbildning i datavetenskap. MÄnga av de befintliga lösningarna vid den tiden förlitade sig pÄ kodning och skript och de var helt enkelt inte anvÀndarvÀnliga. Dessutom gjorde det data svÄrt att hantera och underhÄlla de lösningar som utvecklades inom dessa plattformar. I grund och botten insÄg jag att dessa projekt inte behövde vara sÄ svÄra, sÄ vi började skapa RapidMiner-plattformen för att lÄta vem som helst vara en stor dataforskare.

Kan du diskutera den fullstÀndiga transparensstyrningen som för nÀrvarande anvÀnds av RapidMiner?

NÀr du inte kan förklara en modell Àr det ganska svÄrt att stÀlla in, lita pÄ och översÀtta. Mycket datavetenskapligt arbete Àr att kommunicera resultaten till andra sÄ att intressenter kan förstÄ hur man kan förbÀttra processer. Detta krÀver tillit och djup förstÄelse. Dessutom kan problem med förtroende och översÀttning göra det mycket svÄrt att övervinna företagets krav för att fÄ en modell i produktion. Vi utkÀmpar denna strid pÄ nÄgra olika sÀtt:

Som en plattform för visuell datavetenskap kartlÀgger RapidMiner i sig en förklaring för alla datapipelines och modeller i ett mycket förbrukningsbart format som kan förstÄs av datavetare eller icke-dataforskare. Det gör modeller transparenta och hjÀlper anvÀndare att förstÄ modellbeteende och utvÀrdera dess styrkor och svagheter och upptÀcka potentiella fördomar.

Dessutom kommer alla modeller som skapas i plattformen med omfattande visualiseringar för anvĂ€ndaren – vanligtvis anvĂ€ndaren som skapar modellen – för att fĂ„ modellinsikter, förstĂ„ modellbeteende och utvĂ€rdera modellfördomar.

RapidMiner tillhandahĂ„ller ocksĂ„ modellförklaringar – Ă€ven nĂ€r de Ă€r i produktion: För varje förutsĂ€gelse som skapas av en modell genererar och lĂ€gger RapidMiner till de pĂ„verkansfaktorer som har lett till eller pĂ„verkat de beslut som tagits av den modellen i produktionen.

Slutligen – och detta Ă€r mycket viktigt för mig personligen eftersom jag körde detta med vĂ„ra ingenjörsteam för ett par Ă„r sedan – RapidMiner tillhandahĂ„ller ocksĂ„ en extremt kraftfull modellsimulatorfunktion, som tillĂ„ter anvĂ€ndare att simulera och observera modellens beteende baserat pĂ„ indata som tillhandahĂ„lls av anvĂ€ndaren. Indata kan stĂ€llas in och Ă€ndras mycket enkelt, vilket gör att anvĂ€ndaren kan förstĂ„ modellernas prediktiva beteende i olika hypotetiska eller verkliga fall. Simulatorn visar ocksĂ„ faktorer som pĂ„verkar modellens beslut. AnvĂ€ndaren – i det hĂ€r fallet Ă€ven en affĂ€rsanvĂ€ndare eller domĂ€nexpert – kan förstĂ„ modellbeteende, validera modellens beslut mot verkliga resultat eller domĂ€nkunskap och identifiera problem. Simulatorn lĂ„ter dig simulera den verkliga vĂ€rlden och se in i framtiden – i din framtid, faktiskt.

Hur anvÀnder RapidMiner djupinlÀrning?

RapidMiners anvÀndning av djupinlÀrning Àr nÄgot vi Àr mycket stolta över. Deep learning kan vara mycket svÄrt att tillÀmpa och icke-dataforskare kÀmpar ofta med att sÀtta upp dessa nÀtverk utan expertstöd. RapidMiner gör denna process sÄ enkel som möjligt för anvÀndare av alla typer. Deep learning Àr till exempel en del av vÄr produkt för automatisk maskininlÀrning (ML) som heter RapidMiner Go. HÀr behöver anvÀndaren inte veta nÄgot om djupinlÀrning för att kunna anvÀnda sig av den typen av sofistikerade modeller. Dessutom kan avancerade anvÀndare gÄ djupare och anvÀnda populÀra djupinlÀrningsbibliotek som Tensorflow, Keras eller DeepLearning4J direkt frÄn de visuella arbetsflöden de bygger med RapidMiner. Det hÀr Àr som att leka med byggstenar och förenklar upplevelsen för anvÀndare med fÀrre kunskaper inom datavetenskap. Genom detta tillvÀgagÄngssÀtt kan vÄra anvÀndare bygga flexibla nÀtverksarkitekturer med olika aktiveringsfunktioner och anvÀndardefinierat antal lager och noder, flera lager med olika antal noder och vÀlja mellan olika trÀningstekniker.

Vilken annan typ av maskininlÀrning anvÀnds?

Allihopa! Vi erbjuder hundratals olika inlĂ€rningsalgoritmer som en del av RapidMiner-plattformen – allt du kan anvĂ€nda i de mycket anvĂ€nda datavetenskapliga programmeringssprĂ„ken Python och R. RapidMiner erbjuder bland annat metoder för naiva Bayes, regression som generaliserade linjĂ€ra modeller, klustring av t.ex. som k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning och Gradient Boosted Trees. Dessa och mĂ„nga fler Ă€r alla en del av RapidMiners modelleringsbibliotek och kan anvĂ€ndas med ett enda klick.

Kan du diskutera hur Automodellen vet vilka optimala vÀrden som ska anvÀndas?

RapidMiner AutoModel anvÀnder intelligent automation för att accelerera allt anvÀndarna gör och sÀkerstÀlla att korrekta ljudmodeller byggs. Detta inkluderar val av instanser och automatisk borttagning av extremvÀrden, funktionsteknik för komplexa datatyper som datum eller texter, och fullstÀndig automatiserad funktionsteknik med flera mÄl för att vÀlja de optimala funktionerna och konstruera nya. Auto Model inkluderar Àven andra datarensningsmetoder för att ÄtgÀrda vanliga problem i data som saknade vÀrden, dataprofilering genom att bedöma kvaliteten och vÀrdet pÄ datakolumner, datanormalisering och olika andra transformationer.

Auto Model extraherar ocksĂ„ metadata för datakvalitet – till exempel hur mycket en kolumn beter sig som ett ID eller om det finns mĂ„nga saknade vĂ€rden. Denna metadata anvĂ€nds utöver den grundlĂ€ggande metadatan för att automatisera och hjĂ€lpa anvĂ€ndare att "anvĂ€nda de optimala vĂ€rdena" och hantera datakvalitetsfrĂ„gor.

För mer detaljer har vi kartlagt det hela i vÄr Auto Model Blueprint. (Bild nedan för extra sammanhang)

Det finns fyra grundlÀggande faser dÀr automatiseringen tillÀmpas:

– Dataprep: Automatisk analys av data för att identifiera vanliga kvalitetsproblem som korrelationer, saknade vĂ€rden och stabilitet.
– Automatiserat modellval och optimering, inklusive fullstĂ€ndig validering och prestandajĂ€mförelse, som föreslĂ„r de bĂ€sta maskininlĂ€rningsteknikerna för given data och bestĂ€mmer de optimala parametrarna.
– Modellsimulering för att hjĂ€lpa till att bestĂ€mma de specifika (preskriptiva) Ă„tgĂ€rder som ska vidtas för att uppnĂ„ det önskade resultatet som förutsĂ€gs av modellen.
– I modellimplementerings- och driftsfasen visas anvĂ€ndarna faktorer som drift, partiskhet och affĂ€rspĂ„verkan, automatiskt utan extra arbete.

Datorbias Àr ett problem med alla typer av AI, finns det nÄgra kontroller pÄ plats för att förhindra att bias kryper upp i resultat?

Ja, detta Àr verkligen oerhört viktigt för etisk datavetenskap. Styrningsfunktionerna som nÀmnts tidigare sÀkerstÀller att anvÀndarna alltid kan se exakt vilken data som har anvÀnts för modellbyggande, hur den transformerades och om det finns en partiskhet i dataurvalet. Dessutom Àr vÄra funktioner för driftdetektering ett annat kraftfullt verktyg för att upptÀcka bias. Om en modell i produktion visar mycket drift i indata, kan detta vara ett tecken pÄ att vÀrlden har förÀndrats dramatiskt. Det kan dock ocksÄ vara en indikator pÄ att det fanns en allvarlig bias i trÀningsdata. I framtiden övervÀger vi att gÄ Ànnu ett steg lÀngre och bygga maskininlÀrningsmodeller som kan anvÀndas för att upptÀcka bias i andra modeller.

Kan du diskutera RapidMiner AI Cloud och hur det skiljer sig frÄn konkurrerande produkter?

Kraven för ett datavetenskapsprojekt kan vara stora, komplexa och berÀkningsintensiva, vilket Àr det som har gjort anvÀndningen av molnteknik till en sÄ attraktiv strategi för datavetare. TyvÀrr binder de olika inbyggda molnbaserade datavetenskapliga plattformarna dig till molntjÀnster och datalagringserbjudanden frÄn just den molnleverantören.

RapidMiner AI Cloud Ă€r helt enkelt vĂ„r molntjĂ€nstleverans av RapidMiner-plattformen. Erbjudandet kan skrĂ€ddarsys för alla kunders miljö, oavsett deras molnstrategi. Detta Ă€r viktigt nuförtiden eftersom de flesta företags syn pĂ„ molndatahantering utvecklas mycket snabbt i det nuvarande klimatet. Flexibilitet Ă€r verkligen det som skiljer RapidMiner AI Cloud Ă„t. Den kan köras i vilken molntjĂ€nst som helst, privat molnstack eller i en hybriduppstĂ€llning. Vi Ă€r molnportabla, molnagnostiska, multimoln – vad du Ă€n föredrar att kalla det.

RapidMiner AI Cloud Àr ocksÄ mycket krÄngligt, eftersom vi naturligtvis erbjuder möjligheten att hantera hela eller delar av implementeringen för kunder sÄ att de kan fokusera pÄ att driva sin verksamhet med AI, inte tvÀrtom. Det finns till och med ett on-demand-alternativ, som lÄter dig skapa en miljö efter behov för korta projekt.

RapidMiner Radoop eliminerar en del av komplexiteten bakom datavetenskap, kan du berĂ€tta för oss hur Radoop gynnar utvecklare?  

Radoop Àr frÀmst till för icke-utvecklare som vill utnyttja potentialen hos big data. RapidMiner Radoop kör RapidMiner-arbetsflöden direkt inuti Hadoop pÄ ett kodfritt sÀtt. Vi kan ocksÄ bÀdda in RapidMiner-exekveringsmotorn i Spark sÄ att det Àr enkelt att driva in kompletta arbetsflöden i Spark utan komplexiteten som kommer frÄn kodcentrerade tillvÀgagÄngssÀtt.

Skulle en statlig enhet kunna anvĂ€nda RapidMiner för att analysera data för att förutsĂ€ga potentiella pandemier, liknande hur BlueDot fungerar?

Som en allmĂ€n plattform för datavetenskap och maskininlĂ€rning Ă€r RapidMiner avsedd att effektivisera och förbĂ€ttra modellskapandet och hanteringsprocessen, oavsett vilket Ă€mne eller vilken domĂ€n som Ă€r i centrum för problemet med datavetenskap/maskininlĂ€rning. Även om vĂ„rt fokus inte Ă€r pĂ„ att förutsĂ€ga pandemier, med rĂ€tt data kan en Ă€mnesexpert (som en virolog eller epidemiolog, i det hĂ€r fallet) anvĂ€nda plattformen för att skapa en modell som exakt kan förutsĂ€ga pandemier. Faktum Ă€r att mĂ„nga forskare anvĂ€nder RapidMiner – och vĂ„r plattform Ă€r gratis för akademiska Ă€ndamĂ„l.

Finns det nÄgot mer du skulle vilja dela med dig av om RapidMiner?

Ge det ett försök! Du kanske blir förvÄnad över hur lÀtt datavetenskap kan vara och hur mycket en bra plattform kan förbÀttra dig och ditt teams produktivitet.

Tack för denna fantastiska intervjuare, lÀsare som vill veta mer bör besöka RapidMiner.

Antoine Àr en visionÀr ledare och grundande partner till Unite.AI, driven av en orubblig passion för att forma och frÀmja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhÀllet som elektricitet, och fÄngas ofta pÄ att tjata om potentialen hos störande teknologier och AGI.

Som en futurist, Àr han dedikerad till att utforska hur dessa innovationer kommer att forma vÄr vÀrld. Dessutom Àr han grundare av Securities.io, en plattform fokuserad pÄ att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.