Kunstig intelligens
Ingo Mierswa, grundlægger & præsident i RapidMiner, Inc – Interviewserie

Ingo Mierswa er grundlægger & præsident i RapidMiner, Inc. RapidMiner bringer kunstig intelligens til virksomhederne gennem en åben og udvidbar datavidenskabsplatform. Bygget til analyticateams, samler RapidMiner hele datavidenskabslivscyklussen fra dataforberedelse til maskinlæring til prædictive modeludvikling. Over 625.000 analyticsprofessionelle bruger RapidMiner-produkter til at drive omsætning, reducere omkostninger og undgå risici.
Hvad var din inspiration bag lanceringen af RapidMiner?
Jeg havde arbejdet i datavidenskabskonsulentbranchen i mange år og så et behov for en platform, der var mere intuitiv og tilgængelig for personer uden en formel uddannelse i datavidenskab. Mange af de eksisterende løsninger på det tidspunkt afhængige af kodning og scripting, og de var simpelthen ikke brugervenlige. Desuden gjorde det data svært at håndtere og vedligeholde løsningerne, der var udviklet inden for disse platforme. Grundlæggende indså jeg, at disse projekter ikke behøvede at være så svære, så vi startede med at skabe RapidMiner-platformen for at tillade alle at være en stor datavidenskabsmand.
Kan du diskutere den fulde gennemsigtighed i styre, der i øjeblikket anvendes af RapidMiner?
Når du ikke kan forklare en model, er det ret svært at justere, stole på og oversætte. Meget af datavidenskabsarbejdet er kommunikationen af resultaterne til andre, så ledere kan forstå, hvordan de kan forbedre processer. Dette kræver tillid og dyb forståelse. Desuden kan problemer med tillid og oversættelse gøre det meget svært at overvinde virksomhedens krav til at få en model i produktion. Vi kæmper denne kamp på flere måder:
Som en visuel datavidenskabsplatform, har RapidMiner indbygget en forklaring for alle datapipelines og modeller i et højt konsumerbart format, der kan forstås af datavidenskabsfolk eller ikke-datavidenskabsfolk. Det gør modellerne gennemsigtige og hjælper brugerne med at forstå modeladfærd og evaluere modellernes styrker og svagheder og opdage potentielle fordomme.
Derudover kommer alle modeller, der er oprettet i platformen, med omfattende visualiseringer for brugeren – typisk den bruger, der opretter modellen – for at få modelindsigt, forstå modeladfærd og evaluere modelforbud.
RapidMiner giver også modelforklaringer – selv når modellen er i produktion: For hver prædiktion, der er oprettet af en model, genererer RapidMiner og tilføjer påvirkningsfaktorerne, der har ført til eller påvirket beslutningerne, der er truffet af modellen i produktion.
Til sidst – og dette er meget vigtigt for mig personligt, da jeg drev dette med vores ingeniørteams for nogle år siden – giver RapidMiner også en ekstremt kraftfuld modelsimuleringsfunktion, der tillader brugere at simulere og observere modeladfærden på baggrund af inputdata, der er leveret af brugeren. Inputdata kan indstilles og ændres meget let, hvilket giver brugeren mulighed for at forstå den prædiktive adfærd af modellerne i forskellige hypotetiske eller virkelige tilfælde. Simulatoren viser også faktorer, der påvirker modellens beslutning. Brugeren – i dette tilfælde selv en forretningsbruger eller domæneekspert – kan forstå modeladfærd, validere modellens beslutning mod virkelige resultater eller domæneviden og identificere problemer. Simulatoren giver mulighed for at simulere den virkelige verden og kigge ind i fremtiden – ind i din egen fremtid, faktisk.
Hvordan bruger RapidMiner dyb læring?
RapidMiners brug af dyb læring er noget, vi er meget stolt af. Dyb læring kan være meget svært at anvende, og ikke-datavidenskabsfolk kæmper ofte med at konfigurere disse netværk uden ekspertstøtte. RapidMiner gør denne proces så enkel som muligt for brugere af alle typer. Dyb læring er f.eks. en del af vores Auto maskinlæringsprodukt (ML) kaldet RapidMiner Go. Her behøver brugeren ikke at vide noget om dyb læring for at anvende disse avancerede modeller. Derudover kan power-brugere gå dybere og bruge populære dyb læringsbiblioteker som Tensorflow, Keras eller DeepLearning4J direkte fra de visuelle workflows, de bygger med RapidMiner. Dette er som at lege med byggeklodser og simplificerer oplevelsen for brugere med færre datavidenskabsfærdigheder. Gennem denne tilgang kan vores brugere bygge fleksible netværksarkitekturer med forskellige aktiveringsfunktioner og brugerdefineret antal lag og noder, flere lag med forskellige antal noder og vælge mellem forskellige træningsmetoder.
Hvilken anden type maskinlæring bruges?
Alle! Vi tilbyder hundredvis af forskellige læringsalgoritmer som en del af RapidMiner-platformen – alt, hvad du kan anvende i de almindeligt brugte datavidenskabsprogrammeringssprog Python og R. Blandt andet tilbyder RapidMiner metoder til Naive Bayes, regression såsom Generalized Linear Models, clustering såsom k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning og Gradient Boosted Trees. Disse og mange flere er en del af modellbiblioteket i RapidMiner og kan bruges med ét klik.
Kan du diskutere, hvordan Auto Model kender de optimale værdier, der skal bruges?
RapidMiner AutoModel bruger intelligent automation til at accelerere alt, hvad brugere gør, og sikre, at præcise og solide modeller bygges. Dette inkluderer instansselektion og automatisk fjernelse af outliers, funktionsteknisk ingeniørarbejde for komplekse data typer såsom datoer eller tekster og fuld multi-objekt automatisk funktionsteknisk ingeniørarbejde til at vælge de optimale funktioner og konstruere nye. Auto Model inkluderer også andre datarengøringsmetoder til at fikse almindelige problemer i data såsom manglende værdier, dataprofilering ved at vurdere kvaliteten og værdien af datakolonner, datanormalisering og forskellige andre transformationer.
Auto Model udtrækker også datakvalitetsmetadata – f.eks. hvordan en kolonne opfører sig som en ID eller om der er mange manglende værdier. Denne metadata bruges sammen med den grundlæggende metadata til at automatisere og hjælpe brugere med at “bruge de optimale værdier” og håndtere datakvalitetsproblemer.
Til mere detaljer har vi kortlagt det hele i vores Auto Model Blueprint. (Billede nedenfor til ekstra kontekst)
Der er fire grundlæggende faser, hvor automationen anvendes:
– Dataforberedelse: Automatisk analyse af data for at identificere almindelige kvalitetsproblemer såsom korrelationer, manglende værdier og stabilitet.
– Automatisk modelselektion og optimering, herunder fuld validering og performancesammenligning, der foreslår de bedste maskinlæringsmetoder for givet data og bestemmer de optimale parametre.
– Model simulering til at bestemme de specifikke (præscriptive) handlinger, der skal tages for at opnå det ønskede resultat, der er forudset af modellen.
– I modelfasen for udrulning og drift vises brugere faktorer som drift, bias og forretningsimpact, automatisk uden ekstra arbejde.

Computerforudsigelser er et problem med enhver type AI, er der nogen kontroller i gang for at forhindre forudsigelser i at snige sig ind i resultaterne?
Ja, dette er virkelig ekstremt vigtigt for etisk datavidenskab. Styre-funktionerne, der er nævnt tidligere, sikrer, at brugere altid kan se nøjagtigt, hvilke data, der er brugt til modelbygning, hvordan de er blevet transformeret, og om der er forudsigelser i dataudvælgelsen. Desuden er vores funktioner til drifthældning en anden kraftfuld værktøj til at opdage forudsigelser. Hvis en model i produktion viser en masse drifthældning i inputdata, kan dette være et tegn på, at verden er ændret dramatisk. Men det kan også være et tegn på, at der var alvorlig forudsigelse i træningsdata. I fremtiden overvejer vi at gå endnu et skridt videre og bygge maskinlæringsmodeller, der kan bruges til at opdage forudsigelser i andre modeller.
Kan du diskutere RapidMiner AI Cloud og hvordan den adskiller sig fra konkurrerende produkter?
Kravene til et datavidenskabsprojekt kan være store, komplekse og krævende, hvilket har gjort brugen af cloud-teknologi til en så attraktiv strategi for datavidenskabsfolk. Desværre binder de forskellige native cloud-baserede datavidenskabsplatforme dig til cloud-tjenester og dataopbevaringstilbud fra den pågældende cloud-leverandør.
RapidMiner AI Cloud er blot vores cloud-tjenesteudgave af RapidMiner-platformen. Tilbuddet kan tilpasses til enhver kundes miljø, uanset deres cloud-strategi. Dette er vigtigt i disse dage, da de fleste virksomheders tilgang til cloud-datastyring udvikler sig meget hurtigt i den nuværende klima. Fleksibilitet er virkelig, hvad der adskiller RapidMiner AI Cloud. Den kan køre i enhver cloud-tjeneste, privat cloud-stack eller i en hybrid-opstilling. Vi er cloud-portable, cloud-agnostisk, multi-cloud – hvad du ønsker at kalde det.
RapidMiner AI Cloud er også meget lidt besvær, da vi selvfølgelig tilbyder muligheden for at styre hele eller delvis af udrulningen for kunder, så de kan fokusere på at køre deres forretning med AI, ikke omvendt. Der er endda en on-demand-mulighed, der giver mulighed for at starte en miljø, når som helst for korte projekter.
RapidMiner Radoop eliminerer nogle af kompleksiteten bag datavidenskab, kan du fortælle os, hvordan Radoop forbedrer udviklerne?
Radoop er primært til ikke-udviklere, der ønsker at udnytte potentialet i big data. RapidMiner Radoop udfører RapidMiner-workflows direkte inden i Hadoop på en kodefri måde. Vi kan også indbygge RapidMiner-executionsmotoren i Spark, så det er let at skubbe komplette workflows ind i Spark uden den kompleksitet, der kommer fra kode-centreret tilgang.
Kunne en regeringsenhed bruge RapidMiner til at analysere data for at forudsige potentielle pandemier, ligesom BlueDot fungerer?
Som en generel datavidenskabs- og maskinlæringsplatform er RapidMiner designet til at strømline og forbedre modeloprettelses- og styreprocessen, uanset hvilket emne eller domæne, der er i centrum for datavidenskabs-/maskinlæringsproblemet. Selvom vores fokus ikke er på at forudsige pandemier, kan en sagkyndig (som en virolog eller epidemiolog i dette tilfælde) med det rette data bruge platformen til at oprette en model, der kan nøjagtigt forudsige pandemier. I virkeligheden bruger mange forskere RapidMiner – og vores platform er gratis til akademiske formål.
Er der noget andet, du gerne vil dele om RapidMiner?
Prøv det! Du kan være overrasket over, hvor let datavidenskab kan være, og hvor meget en god platform kan forbedre dig og dit holds produktivitet.
Tak for dette store interview, læsere, der ønsker at lære mere, skal besøge RapidMiner.












