Liity verkostomme!

Haastattelut

Ingo Mierswa, RapidMiner, Inc:n perustaja ja toimitusjohtaja – Haastattelusarja

mm

Ingo Mierswa on RapidMiner, Inc:n perustaja ja toimitusjohtaja. RapidMiner tuo tekoälyä yritykseen avoimen ja laajennettavan datatieteen alustan kautta. Analytiikkatiimeille suunniteltu RapidMiner yhdistää koko datatieteen elinkaaren tietojen valmistelusta koneoppimiseen. ennustavan mallin käyttöönotto. Yli 625,000 XNUMX analytiikkaammattilaista käyttää RapidMiner-tuotteita tuottojen kasvattamiseen, kustannusten vähentämiseen ja riskien välttämiseen.

Mikä oli inspiraatiosi RapidMinerin lanseerauksen takana?

Olin työskennellyt datatieteen konsulttiliiketoiminnassa useita vuosia ja näin tarpeen intuitiivisemmalle ja helposti lähestyttävälle alustalle, jolla ei ole muodollista datatieteen koulutusta. Monet tuolloin olemassa olevista ratkaisuista luottivat koodaukseen ja komentosarjaan, eivätkä ne yksinkertaisesti olleet käyttäjäystävällisiä. Lisäksi se vaikeutti tietojen hallintaa ja ylläpitoa näillä alustoilla kehitettyjen ratkaisujen kanssa. Pohjimmiltaan ymmärsin, että näiden projektien ei tarvinnut olla niin vaikeita, joten aloimme luoda RapidMiner-alustaa, jotta kuka tahansa voi olla suuri datatieteilijä.

Voitko keskustella täydellisestä läpinäkyvyyden hallinnasta, jota RapidMiner tällä hetkellä käyttää?

Kun mallia ei voi selittää, on melko vaikeaa virittää, luottaa ja kääntää. Suuri osa datatieteen työstä on tulosten välittämistä muille, jotta sidosryhmät ymmärtävät, miten prosesseja voidaan parantaa. Tämä vaatii luottamusta ja syvää ymmärrystä. Myös luottamus- ja käännösongelmat voivat vaikeuttaa yritysten vaatimusten täyttämistä mallin tuomiseksi tuotantoon. Taistelemme tätä taistelua muutamalla eri tavalla:

Visuaalisen datatieteen alustana RapidMiner luo luonnostaan ​​selityksen kaikille dataputkille ja malleille erittäin kulutettavassa muodossa, jonka datatieteilijät tai muut kuin datatieteilijät voivat ymmärtää. Se tekee malleista läpinäkyviä ja auttaa käyttäjiä ymmärtämään mallien käyttäytymistä ja arvioimaan sen vahvuuksia ja heikkouksia sekä havaitsemaan mahdollisia harhoja.

Lisäksi kaikissa alustassa luoduissa malleissa on laajat visualisoinnit käyttäjälle – tyypillisesti mallin luovalle käyttäjälle – saadakseen mallin oivalluksia, ymmärtää mallien käyttäytymistä ja arvioida mallien harhaa.

RapidMiner tarjoaa myös malliselityksiä – jopa tuotannossa: RapidMiner luo ja lisää jokaiselle mallin luomalle ennusteelle vaikutustekijät, jotka ovat johtaneet kyseisen mallin tuotantopäätöksiin tai vaikuttaneet niihin.

Lopuksi – ja tämä on minulle henkilökohtaisesti erittäin tärkeää, kun ajoin tätä suunnittelutiimimme kanssa pari vuotta sitten – RapidMiner tarjoaa myös erittäin tehokkaan mallisimulaattoriominaisuuden, jonka avulla käyttäjät voivat simuloida ja tarkkailla mallin käyttäytymistä toimitettujen syöttötietojen perusteella. käyttäjän toimesta. Syöttötietoja voidaan asettaa ja muuttaa erittäin helposti, jolloin käyttäjä voi ymmärtää mallien ennakoivan käyttäytymisen erilaisissa hypoteettisissa tai todellisissa tapauksissa. Simulaattori näyttää myös tekijät, jotka vaikuttavat mallin päätökseen. Käyttäjä – tässä tapauksessa jopa yrityskäyttäjä tai toimialueen asiantuntija – voi ymmärtää mallin käyttäytymistä, validoida mallin päätöksen todellisia tuloksia tai toimialueen tietämystä vastaan ​​ja tunnistaa ongelmat. Simulaattorin avulla voit simuloida todellista maailmaa ja katsoa tulevaisuuteen – itse asiassa tulevaisuuteen.

Miten RapidMiner käyttää syväoppimista?

Olemme erittäin ylpeitä siitä, että RapidMiner käyttää syvällistä oppimista. Syväoppiminen voi olla hyvin vaikeaa soveltaa, ja ei-datatutkijat kamppailevat usein näiden verkostojen perustamisessa ilman asiantuntijatukea. RapidMiner tekee tästä prosessista mahdollisimman yksinkertaisen kaikentyyppisille käyttäjille. Syväoppiminen on esimerkiksi osa RapidMiner Go -nimistä Auto Machine learning (ML) -tuotettamme. Tässä käyttäjän ei tarvitse tietää mitään syvästä oppimisesta voidakseen hyödyntää tämän tyyppisiä kehittyneitä malleja. Lisäksi tehokäyttäjät voivat mennä syvemmälle ja käyttää suosittuja syväoppimiskirjastoja, kuten Tensorflow, Keras tai DeepLearning4J, suoraan visuaalisista työnkulkuista, joita he rakentavat RapidMinerin avulla. Tämä on kuin leikkiisi rakennuspalikoilla ja yksinkertaistaa kokemusta käyttäjille, joilla on vähemmän datatieteen taitoja. Tämän lähestymistavan avulla käyttäjämme voivat rakentaa joustavia verkkoarkkitehtuureja erilaisilla aktivointitoiminnoilla ja käyttäjän määrittelemällä määrällä kerroksia ja solmuja, useita kerroksia eri määrällä solmuja ja valita eri koulutustekniikoista.

Mitä muuta koneoppimista käytetään?

Ne kaikki! Tarjoamme satoja erilaisia ​​​​oppimisalgoritmeja osana RapidMiner-alustaa – kaikkea, mitä voit soveltaa laajalti käytetyissä datatieteen ohjelmointikielissä Python ja R. RapidMiner tarjoaa muun muassa menetelmiä Naive Bayesille, regressiolle, kuten yleistetyille lineaarisille malleille, klusterointiin mm. kuten k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning ja Gradient Boosted Trees. Nämä ja monet muut ovat kaikki osa RapidMinerin mallinnuskirjastoa, ja niitä voidaan käyttää yhdellä napsautuksella.

Voitko keskustella siitä, kuinka automaattinen malli tietää käytettävät optimaaliset arvot?

RapidMiner AutoModel käyttää älykästä automaatiota nopeuttaakseen kaikkea käyttäjien tekemistä ja varmistaakseen tarkkojen, äänimallien rakentamisen. Tämä sisältää ilmentymien valinnan ja automaattisen poikkeamien poistamisen, monimutkaisten tietotyyppien, kuten päivämäärien tai tekstien, ominaisuussuunnittelun sekä täydellisen usean tavoitteen automatisoidun ominaisuussuunnittelun optimaalisten ominaisuuksien valitsemiseksi ja uusien luomiseksi. Auto Model sisältää myös muita tietojen puhdistusmenetelmiä tiedoissa olevien yleisten ongelmien korjaamiseksi, kuten puuttuvat arvot, datan profilointi arvioimalla tietosarakkeiden laatua ja arvoa, tietojen normalisointi ja monet muut muunnokset.

Automaattinen malli poimii myös tietojen laadun metadataa – esimerkiksi kuinka paljon sarake käyttäytyy tunnuksena tai onko siitä paljon puuttuvia arvoja. Tätä metatietoa käytetään perusmetatietojen lisäksi automatisoimaan ja auttamaan käyttäjiä "optimaalisten arvojen käytössä" ja tietojen laatuongelmien käsittelyssä.

Tarkempia tietoja varten olemme kartoittaneet sen Auto Model Blueprint -suunnitelmassamme. (Alla oleva kuva lisäkontekstia varten)

Automaatiossa on neljä perusvaihetta:

– Tietojen valmistelu: Automaattinen tietojen analysointi yleisten laatuongelmien, kuten korrelaatioiden, puuttuvien arvojen ja vakauden, tunnistamiseksi.
– Automaattinen mallin valinta ja optimointi, mukaan lukien täydellinen validointi ja suorituskyvyn vertailu, joka ehdottaa parhaita koneoppimistekniikoita annetuille tiedoille ja määrittää optimaaliset parametrit.
– Mallisimulaatio, joka auttaa määrittämään tietyt (ohjelmoivat) toimet, jotka on suoritettava mallin ennustaman toivotun tuloksen saavuttamiseksi.
– Mallin käyttöönotto- ja käyttövaiheessa käyttäjille näytetään automaattisesti ilman ylimääräistä työtä.

Tietokoneen harha on ongelma minkä tahansa tyyppisissä tekoälyissä. Onko olemassa säätöjä, joilla estetään harhaa hiipimästä tuloksiin?

Kyllä, tämä on todellakin erittäin tärkeää eettiselle datatieteelle. Edellä mainitut hallintaominaisuudet varmistavat, että käyttäjät näkevät aina tarkalleen mitä dataa on käytetty mallin rakentamiseen, miten se on muunnettu ja onko tiedon valinnassa harhaa. Lisäksi poikkeaman havaitsemistoimintomme ovat toinen tehokas työkalu harhan havaitsemiseen. Jos tuotannossa oleva malli osoittaa paljon ajautumista syöttötiedoissa, tämä voi olla merkki siitä, että maailma on muuttunut dramaattisesti. Se voi kuitenkin myös olla osoitus siitä, että harjoitustiedoissa oli vakava harha. Tulevaisuudessa harkitsemme siirtymistä vielä pidemmälle ja koneoppimismallien rakentamista, joiden avulla voidaan havaita harhaa muissa malleissa.

Voitko keskustella RapidMiner AI Cloudista ja siitä, miten se erottuu kilpailevista tuotteista?

Datatiedeprojektin vaatimukset voivat olla suuria, monimutkaisia ​​ja laskentaintensiivisiä, mikä on tehnyt pilviteknologian käytöstä niin houkuttelevan strategian datatieteilijöille. Valitettavasti erilaiset alkuperäiset pilvipohjaiset datatieteen alustat sitovat sinut kyseisen pilvitoimittajan pilvipalveluihin ja tiedontallennustarjontaan.

RapidMiner AI Cloud on yksinkertaisesti RapidMiner-alustan pilvipalvelumme. Tarjonta voidaan räätälöidä minkä tahansa asiakkaan ympäristöön pilvistrategiasta riippumatta. Tämä on tärkeää nykyään, sillä useimpien yritysten lähestymistapa pilvitietojen hallintaan kehittyy erittäin nopeasti nykyisessä tilanteessa. Joustavuus erottaa RapidMiner AI Cloudin muista. Se voi toimia missä tahansa pilvipalvelussa, yksityisessä pilvipinossa tai hybridiasennuksessa. Olemme kannettavia pilvipalveluja, pilvitagnostikkoja, monipilvipalveluita – miksi haluat sitä kutsua.

RapidMiner AI Cloud on myös erittäin vaivaton, sillä tarjoamme asiakkaille mahdollisuuden hallita koko käyttöönottoa tai osaa siitä, jotta he voivat keskittyä liiketoimintansa hoitamiseen tekoälyn avulla, ei päinvastoin. Siellä on jopa on-demand-vaihtoehto, jonka avulla voit kehittää ympäristöä tarpeen mukaan lyhyitä projekteja varten.

RapidMiner Radoop eliminoi osan datatieteen monimutkaisuudesta. Voitko kertoa meille, kuinka Radoop hyödyttää kehittäjiä?  

Radoop on tarkoitettu pääasiassa muille kuin kehittäjille, jotka haluavat hyödyntää big datan potentiaalia. RapidMiner Radoop suorittaa RapidMiner-työnkulkuja suoraan Hadoopin sisällä koodittomalla tavalla. Voimme myös upottaa RapidMiner-suoritusmoottorin Sparkiin, jotta kokonaisia ​​työnkulkuja on helppo työntää Sparkiin ilman koodikeskeisten lähestymistapojen aiheuttamaa monimutkaisuutta.

Pystyisikö viranomainen käyttämään RapidMineria analysoimaan tietoja mahdollisten pandemioiden ennustamiseksi, samalla tavalla kuin miten? BlueDot toimii?

Yleisenä datatieteen ja koneoppimisen alustana RapidMiner on tarkoitettu virtaviivaistamaan ja tehostamaan mallin luonti- ja hallintaprosessia riippumatta siitä, mikä aihe tai toimialue on datatieteen/koneoppimisongelman keskipisteessä. Vaikka emme keskity pandemioiden ennustamiseen, oikeilla tiedoilla aiheen asiantuntija (kuten virologi tai epidemiologi tässä tapauksessa) voisi käyttää alustaa luodakseen mallin, joka voi ennustaa tarkasti pandemioita. Itse asiassa monet tutkijat käyttävät RapidMineria – ja alustamme on ilmainen akateemisiin tarkoituksiin.

Onko jotain muuta, mitä haluaisit jakaa RapidMineristä?

Kokeile! Saatat yllättyä kuinka helppoa datatiede voi olla ja kuinka paljon hyvä alusta voi parantaa sinua ja tiimisi tuottavuutta.

Kiitos tästä upeasta haastattelijasta, lukijoiden, jotka haluavat tietää lisää, tulisi käydä RapidMiner.

Antoine on Unite.AI:n visionäärinen johtaja ja perustajakumppani, jota ohjaa horjumaton intohimo tekoälyn ja robotiikan tulevaisuuden muotoiluun ja edistämiseen. Sarjayrittäjänä hän uskoo, että tekoäly on yhtä tuhoisa yhteiskunnalle kuin sähkö, ja hänet jää usein raivoamaan häiritsevien teknologioiden ja AGI:n mahdollisuuksista.

Kuten futurist, hän on omistautunut tutkimaan, kuinka nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on perustaja Securities.io, foorumi, joka keskittyy investoimaan huipputeknologiaan, joka määrittelee uudelleen tulevaisuuden ja muokkaa kokonaisia ​​toimialoja.