Spojte se s námi

rozhovory

Ingo Mierswa, zakladatel a prezident společnosti RapidMiner, Inc – série rozhovorů

mm

Ingo Mierswa je zakladatelem a prezidentem společnosti RapidMiner, Inc. RapidMiner přináší umělou inteligenci do podniku prostřednictvím otevřené a rozšiřitelné platformy pro vědu o datech. RapidMiner, vytvořený pro analytické týmy, sjednocuje celý životní cyklus datové vědy od přípravy dat po strojové učení prediktivní nasazení modelu. Více než 625,000 XNUMX analytiků používá produkty RapidMiner ke zvýšení příjmů, snížení nákladů a předcházení rizikům.

Co bylo vaší inspirací při spuštění RapidMiner?

Mnoho let jsem pracoval v oblasti poradenství v oblasti datové vědy a viděl jsem potřebu platformy, která by byla intuitivnější a přístupnější pro lidi bez formálního vzdělání v oblasti datové vědy. Mnoho existujících řešení v té době spoléhalo na kódování a skriptování a jednoduše nebyly uživatelsky přívětivé. Navíc to znesnadnilo správu dat a údržbu řešení, která byla na těchto platformách vyvinuta. V podstatě jsem si uvědomil, že tyto projekty nemusí být tak obtížné, a tak jsme začali vytvářet platformu RapidMiner, která umožní každému být skvělým datovým vědcem.

Můžete diskutovat o úplném řízení transparentnosti, které v současnosti využívá RapidMiner?

Když neumíte vysvětlit model, je docela těžké ho vyladit, věřit a přeložit. Mnoho práce v oblasti datové vědy spočívá ve sdělování výsledků ostatním, aby zúčastněné strany pochopily, jak zlepšit procesy. To vyžaduje důvěru a hluboké porozumění. Také problémy s důvěrou a překladem mohou velmi ztížit překonání firemních požadavků na uvedení modelu do výroby. Tuto bitvu vedeme několika různými způsoby:

Jako platforma pro vědu o vizuálních datech RapidMiner neodmyslitelně mapuje vysvětlení pro všechny datové kanály a modely ve formátu s vysokou spotřebou, kterému mohou porozumět datoví vědci i nedatoví vědci. Činí modely transparentními a pomáhá uživatelům porozumět chování modelu a vyhodnotit jeho silné a slabé stránky a odhalit potenciální zkreslení.

Kromě toho všechny modely vytvořené na platformě přicházejí s rozsáhlými vizualizacemi pro uživatele – obvykle uživatele vytvářejícího model –, aby získali přehled o modelu, porozuměli chování modelu a vyhodnotili zkreslení modelu.

RapidMiner také poskytuje vysvětlení modelu – i když je ve výrobě: Pro každou předpověď vytvořenou modelem RapidMiner generuje a přidává ovlivňující faktory, které vedly nebo ovlivnily rozhodnutí učiněná daným modelem ve výrobě.

Konečně – a to je pro mě osobně velmi důležité, protože jsem to před několika lety řídil s našimi inženýrskými týmy – RapidMiner také poskytuje extrémně výkonnou funkci simulátoru modelu, která uživatelům umožňuje simulovat a pozorovat chování modelu na základě poskytnutých vstupních dat. uživatelem. Vstupní data lze velmi snadno nastavovat a měnit, což umožňuje uživateli porozumět prediktivnímu chování modelů na různých hypotetických nebo reálných případech. Simulátor také zobrazuje faktory, které ovlivňují rozhodování modelu. Uživatel – v tomto případě dokonce podnikový uživatel nebo odborník na doménu – může porozumět chování modelu, ověřit rozhodnutí modelu oproti skutečným výsledkům nebo znalostem domény a identifikovat problémy. Simulátor vám umožňuje simulovat skutečný svět a nahlédnout do budoucnosti – ve skutečnosti do vaší budoucnosti.

Jak RapidMiner využívá hluboké učení?

Jsme velmi hrdí na to, že RapidMiner využívá hloubkové učení. Hluboké učení může být velmi obtížné a odborníci, kteří nejsou datovými vědci, často bojují s nastavením těchto sítí bez odborné podpory. RapidMiner tento proces maximálně zjednodušuje pro uživatele všech typů. Hluboké učení je například součástí našeho produktu Auto machine learning (ML) s názvem RapidMiner Go. Zde uživatel nemusí vědět nic o hlubokém učení, aby mohl používat tyto typy sofistikovaných modelů. Pokročilí uživatelé mohou navíc jít hlouběji a používat oblíbené knihovny hlubokého učení jako Tensorflow, Keras nebo DeepLearning4J přímo z vizuálních pracovních postupů, které vytvářejí pomocí RapidMiner. Je to jako hrát si se stavebními bloky a zjednodušuje to uživatelům s menšími znalostmi datové vědy. Prostřednictvím tohoto přístupu mohou naši uživatelé budovat flexibilní síťové architektury s různými aktivačními funkcemi a uživatelem definovaným počtem vrstev a uzlů, více vrstev s různým počtem uzlů a vybrat si z různých školicích technik.

Jaký další typ strojového učení se používá?

Všichni! Nabízíme stovky různých výukových algoritmů jako součást platformy RapidMiner – vše, co můžete použít v široce používaných programovacích jazycích pro datovou vědu Python a R. RapidMiner nabízí mimo jiné metody pro Naive Bayes, regresi jako Generalized Linear Models, clustering jako např. jako k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning a Gradient Boosted Trees. Tyto a mnohé další jsou součástí modelovací knihovny RapidMiner a lze je použít jediným kliknutím.

Můžete probrat, jak Auto Model zná optimální hodnoty, které mají být použity?

RapidMiner AutoModel využívá inteligentní automatizaci k urychlení všeho, co uživatelé dělají, a zajišťuje vytvoření přesných a zvukových modelů. To zahrnuje výběr instancí a automatické odstranění odlehlých hodnot, inženýrství funkcí pro komplexní datové typy, jako jsou data nebo texty, a plně vícecílové automatizované inženýrství funkcí pro výběr optimálních funkcí a vytvoření nových. Auto Model také zahrnuje další metody čištění dat k opravě běžných problémů v datech, jako jsou chybějící hodnoty, profilování dat posouzením kvality a hodnoty datových sloupců, normalizace dat a různé další transformace.

Auto Model také extrahuje metadata kvality dat – například, jak moc se sloupec chová jako ID nebo zda v něm chybí spousta hodnot. Tato metadata se používají jako doplněk k základním metadatům při automatizaci a pomoci uživatelům při „používání optimálních hodnot“ a při řešení problémů s kvalitou dat.

Pro více podrobností jsme to všechno zmapovali v našem plánu automodelů. (Obrázek níže pro další kontext)

Existují čtyři základní fáze, ve kterých se automatizace uplatňuje:

– Příprava dat: Automatická analýza dat k identifikaci běžných problémů s kvalitou, jako jsou korelace, chybějící hodnoty a stabilita.
– Automatizovaný výběr a optimalizace modelu, včetně úplného ověření a porovnání výkonu, který navrhne nejlepší techniky strojového učení pro daná data a určí optimální parametry.
– Simulace modelu, která pomůže určit konkrétní (předpisující) akce, které je třeba provést, aby bylo dosaženo požadovaného výsledku předpokládaného modelem.
– Ve fázi nasazení modelu a provozu se uživatelům automaticky zobrazují faktory, jako je posun, zaujatost a obchodní dopad, a to bez nutnosti další práce.

Počítačová zaujatost je problém s jakýmkoliv typem umělé inteligence, existují nějaké kontroly, které zabraňují zkreslení výsledků?

Ano, to je skutečně nesmírně důležité pro vědu o etických datech. Výše zmíněné funkce řízení zajišťují, že uživatelé mohou vždy přesně vidět, jaká data byla použita pro tvorbu modelu, jak byla transformována a zda je výběr dat zkreslený. Kromě toho jsou naše funkce pro detekci driftu dalším mocným nástrojem pro detekci zkreslení. Pokud model ve výrobě vykazuje velký posun ve vstupních datech, může to být známkou toho, že se svět dramaticky změnil. Může to však být také indikátorem toho, že v trénovacích datech došlo k vážnému zkreslení. V budoucnu zvažujeme jít ještě o krok dále a vytvořit modely strojového učení, které lze použít k detekci zkreslení v jiných modelech.

Můžete probrat RapidMiner AI Cloud a jak se odlišuje od konkurenčních produktů?

Požadavky na projekt datové vědy mohou být velké, složité a náročné na výpočetní techniku, a proto je použití cloudové technologie pro datové vědce tak atraktivní strategií. Bohužel různé nativní cloudové platformy pro vědu o datech vás spojují s cloudovými službami a nabídkami úložiště dat konkrétního dodavatele cloudu.

RapidMiner AI Cloud je jednoduše naše cloudová služba na platformě RapidMiner. Nabídku lze přizpůsobit jakémukoli prostředí zákazníka bez ohledu na jeho cloudovou strategii. To je v dnešní době důležité, protože přístup většiny firem ke cloudové správě dat se v současném klimatu velmi rychle vyvíjí. Flexibilita je skutečně to, co odlišuje RapidMiner AI Cloud od ostatních. Může běžet v jakékoli cloudové službě, privátním cloudovém zásobníku nebo v hybridním nastavení. Jsme cloudově přenosní, cloudově agnostičtí, multi-cloud – jak tomu chcete říkat.

RapidMiner AI Cloud je také velmi nenáročný, protože klientům samozřejmě nabízíme možnost spravovat celé nasazení nebo jeho část, aby se mohli soustředit na provozování svého podnikání s AI, nikoli naopak. K dispozici je dokonce možnost na vyžádání, která vám umožní vytvořit prostředí podle potřeby pro krátké projekty.

RapidMiner Radoop odstraňuje část složitosti datové vědy, můžete nám říci, jak Radoop prospívá vývojářům?  

Radoop je hlavně pro nevývojáře, kteří chtějí využít potenciál velkých dat. RapidMiner Radoop provádí pracovní postupy RapidMiner přímo uvnitř Hadoop způsobem bez kódu. Do Sparku můžeme také zabudovat prováděcí engine RapidMiner, takže je snadné vložit do Sparku kompletní pracovní postupy bez složitosti, která pochází z přístupů zaměřených na kód.

Byl by vládní subjekt schopen použít RapidMiner k analýze dat k předpovídání potenciálních pandemií, podobně jako? BlueDot funguje?

Jako všeobecná platforma pro datovou vědu a strojové učení má RapidMiner zefektivnit a zlepšit proces tvorby a správy modelů bez ohledu na to, jaký předmět nebo doména je středem problému datové vědy/strojového učení. I když se nezaměřujeme na předpovídání pandemií, se správnými údaji by odborník na dané téma (jako je v tomto případě virolog nebo epidemiolog) mohl použít platformu k vytvoření modelu, který by dokázal přesně předpovídat pandemie. Ve skutečnosti mnoho výzkumníků používá RapidMiner – a naše platforma je pro akademické účely zdarma.

Je ještě něco, co byste chtěli o RapidMineru sdílet?

Pokusit se! Možná budete překvapeni, jak jednoduchá může být datová věda a jak moc může dobrá platforma zlepšit produktivitu vás i vašeho týmu.

Děkuji za tohoto skvělého tazatele, čtenáři, kteří se chtějí dozvědět více, by měli navštívit RapidMiner.

Antoine je vizionářský vůdce a zakládající partner Unite.AI, poháněný neochvějnou vášní pro utváření a prosazování budoucnosti umělé inteligence a robotiky. Je sériovým podnikatelem a věří, že umělá inteligence bude pro společnost stejně rušivá jako elektřina, a často je přistižen při blouznění o potenciálu převratných technologií a AGI.

Jako futurista, věnuje se zkoumání toho, jak tyto inovace utvářejí náš svět. Kromě toho je zakladatelem Cenné papíry.io, platforma zaměřená na investice do špičkových technologií, které nově definují budoucnost a přetvářejí celé sektory.