Wywiady

Ingo Mierswa, założyciel i prezes RapidMiner, Inc – seria wywiadów

Zaktualizowano on 9 grudnia 2022 r.

Ingo Mierswa jest założycielem i prezesem RapidMiner, Inc. RapidMiner wprowadza sztuczną inteligencję do przedsiębiorstwa poprzez otwartą i rozszerzalną platformę do nauki danych. Zbudowany dla zespołów analitycznych, RapidMiner ujednolica cały cykl życia nauki o danych, od przygotowania danych po uczenie maszynowe proroczy wdrożenie modelu. Ponad 625,000 XNUMX specjalistów ds. analityki korzysta z produktów RapidMiner w celu zwiększania przychodów, obniżania kosztów i unikania ryzyka.

Jaka była Twoja inspiracja przy uruchomieniu RapidMiner?

Przez wiele lat pracowałem w branży konsultingowej w zakresie analityki danych i dostrzegłem zapotrzebowanie na platformę, która byłaby bardziej intuicyjna i przystępna dla osób bez formalnego wykształcenia w zakresie analityki danych. Wiele istniejących wówczas rozwiązań opierało się na kodowaniu i skryptach i po prostu nie były przyjazne dla użytkownika. Ponadto utrudniało to zarządzanie danymi i utrzymywanie rozwiązań opracowanych w ramach tych platform. W zasadzie zdałem sobie sprawę, że te projekty nie muszą być takie trudne, więc zaczęliśmy tworzyć platformę RapidMiner, aby każdy mógł zostać świetnym analitykiem danych.

Czy możesz omówić zarządzanie pełną przejrzystością, które jest obecnie stosowane przez RapidMiner?

Jeśli nie potrafisz wyjaśnić modelu, dość trudno jest go dostroić, zaufać i przetłumaczyć. Duża część pracy związanej z analityką danych polega na przekazywaniu wyników innym osobom, aby zainteresowane strony mogły zrozumieć, jak ulepszyć procesy. Wymaga to zaufania i głębokiego zrozumienia. Ponadto problemy z zaufaniem i tłumaczeniem mogą bardzo utrudniać spełnienie wymagań korporacyjnych dotyczących wprowadzenia modelu do produkcji. Walczymy w tej bitwie na kilka różnych sposobów:

Jako platforma do wizualnej nauki o danych, RapidMiner z natury tworzy wyjaśnienia dla wszystkich potoków i modeli danych w formacie łatwo przyswajalnym, zrozumiałym zarówno dla analityków danych, jak i osób nie zajmujących się danymi. Sprawia, że modele są przejrzyste i pomaga użytkownikom zrozumieć zachowanie modelu, ocenić jego mocne i słabe strony oraz wykryć potencjalne błędy.

Ponadto wszystkie modele utworzone na platformie zawierają rozbudowane wizualizacje dla użytkownika – zazwyczaj użytkownika tworzącego model – umożliwiające uzyskanie wglądu w model, zrozumienie zachowania modelu i ocenę odchyleń modelu.

RapidMiner zapewnia również wyjaśnienia modelu – nawet w fazie produkcyjnej: Dla każdej prognozy utworzonej przez model RapidMiner generuje i dodaje czynniki wpływu, które doprowadziły do decyzji podjętych przez ten model w produkcji lub na które wpłynęły.

Wreszcie – i jest to dla mnie osobiście bardzo ważne, ponieważ kilka lat temu zajmowałem się tym z naszymi zespołami inżynieryjnymi – RapidMiner zapewnia również niezwykle zaawansowane możliwości symulatora modelu, które pozwalają użytkownikom symulować i obserwować zachowanie modelu w oparciu o dostarczone dane wejściowe przez użytkownika. Dane wejściowe można bardzo łatwo ustawiać i zmieniać, co pozwala użytkownikowi zrozumieć zachowanie predykcyjne modeli w różnych hipotetycznych lub rzeczywistych przypadkach. Symulator wyświetla także czynniki mające wpływ na decyzję modelu. Użytkownik – w tym przypadku nawet użytkownik biznesowy lub ekspert dziedzinowy – może zrozumieć zachowanie modelu, zweryfikować decyzję modelu w oparciu o rzeczywiste wyniki lub wiedzę dziedzinową oraz zidentyfikować problemy. Symulator pozwala symulować świat rzeczywisty i zajrzeć w przyszłość – a właściwie w swoją przyszłość.

W jaki sposób RapidMiner wykorzystuje głębokie uczenie się?

Jesteśmy bardzo dumni z wykorzystania głębokiego uczenia się przez firmę RapidMiner. Zastosowanie głębokiego uczenia się może być bardzo trudne, a osoby niebędące naukowcami zajmującymi się danymi często mają trudności z utworzeniem takich sieci bez wsparcia ekspertów. RapidMiner sprawia, że proces ten jest tak prosty, jak to tylko możliwe dla użytkowników wszystkich typów. Głębokie uczenie się jest na przykład częścią naszego produktu automatycznego uczenia maszynowego (ML) o nazwie RapidMiner Go. Tutaj użytkownik nie musi nic wiedzieć o głębokim uczeniu się, aby korzystać z tego typu wyrafinowanych modeli. Ponadto zaawansowani użytkownicy mogą zejść głębiej i korzystać z popularnych bibliotek głębokiego uczenia się, takich jak Tensorflow, Keras lub DeepLearning4J, bezpośrednio z wizualnych przepływów pracy, które budują za pomocą RapidMiner. Przypomina to zabawę z elementami konstrukcyjnymi i upraszcza obsługę użytkowników z mniejszymi umiejętnościami w zakresie analityki danych. Dzięki takiemu podejściu nasi użytkownicy mogą budować elastyczne architektury sieciowe z różnymi funkcjami aktywacji i zdefiniowaną przez użytkownika liczbą warstw i węzłów, wiele warstw z różną liczbą węzłów oraz wybierać spośród różnych technik szkoleniowych.

Jaki inny rodzaj uczenia maszynowego jest stosowany?

Wszyscy! W ramach platformy RapidMiner oferujemy setki różnych algorytmów uczenia się – wszystko, co można zastosować w powszechnie używanych językach programowania data science Python i R. RapidMiner oferuje między innymi metody Naive Bayes, regresję, takie jak Generalized Linear Models, grupowanie np. jak k-średnie, wzrost FP, drzewa decyzyjne, lasy losowe, równoległe uczenie głębokie i drzewa wzmocnione gradientem. Te i wiele innych są częścią biblioteki modelowania RapidMiner i można z nich korzystać jednym kliknięciem.

Czy możesz omówić, w jaki sposób model automatyczny zna optymalne wartości, które należy zastosować?

RapidMiner AutoModel wykorzystuje inteligentną automatyzację, aby przyspieszyć wszystko, co robią użytkownicy i zapewnić zbudowanie dokładnych, solidnych modeli. Obejmuje to wybór instancji i automatyczne usuwanie wartości odstających, inżynierię funkcji dla złożonych typów danych, takich jak daty lub teksty, a także w pełni zautomatyzowaną inżynierię funkcji, obejmującą wiele celów, w celu wybrania optymalnych funkcji i skonstruowania nowych. Auto Model obejmuje również inne metody czyszczenia danych, aby naprawić typowe problemy z danymi, takie jak brakujące wartości, profilowanie danych poprzez ocenę jakości i wartości kolumn danych, normalizację danych i różne inne transformacje.

Auto Model wyodrębnia także metadane dotyczące jakości danych – na przykład, w jakim stopniu kolumna zachowuje się jak identyfikator lub czy występuje dużo brakujących wartości. Te metadane są wykorzystywane jako dodatek do podstawowych metadanych w automatyzacji i pomaganiu użytkownikom w „korzystaniu z optymalnych wartości” oraz rozwiązywaniu problemów z jakością danych.

Aby uzyskać więcej szczegółów, zmapowaliśmy to wszystko w naszym planie modelu samochodu. (Obraz poniżej dla dodatkowego kontekstu)

Istnieją cztery podstawowe fazy, w których stosowana jest automatyzacja:

– Przygotowanie danych: automatyczna analiza danych w celu zidentyfikowania typowych problemów z jakością, takich jak korelacje, brakujące wartości i stabilność.
– Zautomatyzowany wybór i optymalizacja modelu, obejmująca pełną walidację i porównanie wydajności, która sugeruje najlepsze techniki uczenia maszynowego dla danych danych i określa optymalne parametry.
– Symulacja modelu pomagająca określić konkretne (normowe) działania, które należy podjąć, aby osiągnąć pożądany wynik przewidywany przez model.
– Na etapie wdrażania i eksploatacji modelu użytkownikom automatycznie wyświetlają się takie czynniki, jak dryf, stronniczość i wpływ na działalność biznesową, bez konieczności wykonywania dodatkowej pracy.

Stronniczość komputerów jest problemem w przypadku każdego rodzaju sztucznej inteligencji. Czy istnieją jakieś mechanizmy kontrolne zapobiegające wzrostowi stronniczości w wynikach?

Tak, jest to rzeczywiście niezwykle ważne dla etycznej nauki o danych. Wspomniane wcześniej funkcje zarządzania zapewniają, że użytkownicy zawsze mogą dokładnie zobaczyć, jakie dane zostały wykorzystane do budowy modelu, w jaki sposób zostały przekształcone i czy w wyborze danych wystąpiła stronniczość. Ponadto nasze funkcje wykrywania dryfu to kolejne potężne narzędzie do wykrywania stronniczości. Jeśli model w fazie produkcyjnej wykazuje duże odchylenia w danych wejściowych, może to oznaczać, że świat zmienił się radykalnie. Może to jednak również wskazywać, że dane szkoleniowe zawierały poważne błędy systematyczne. W przyszłości rozważamy pójście o krok dalej i zbudowanie modeli uczenia maszynowego, które można wykorzystać do wykrywania błędów w innych modelach.

Czy możesz omówić RapidMiner AI Cloud i to, w jaki sposób różni się ona od konkurencyjnych produktów?

Wymagania dotyczące projektu związanego z analizą danych mogą być duże, złożone i wymagające dużej mocy obliczeniowej, dlatego wykorzystanie technologii chmury jest tak atrakcyjną strategią dla analityków danych. Niestety, różne natywne platformy do nauki danych oparte na chmurze wiążą Cię z usługami w chmurze i ofertami przechowywania danych tego konkretnego dostawcy usług w chmurze.

RapidMiner AI Cloud to po prostu nasza usługa w chmurze dostępna na platformie RapidMiner. Ofertę można dostosować do środowiska dowolnego klienta, niezależnie od jego strategii chmurowej. Jest to ważne obecnie, ponieważ w obecnym klimacie podejście większości firm do zarządzania danymi w chmurze ewoluuje bardzo szybko. Elastyczność jest tym, co wyróżnia RapidMiner AI Cloud. Może działać w dowolnej usłudze chmurowej, stosie chmury prywatnej lub w konfiguracji hybrydowej. Jesteśmy przenośni w chmurze, niezależni od chmury, obsługujący wiele chmur – jakkolwiek wolisz to nazwać.

RapidMiner AI Cloud jest również bardzo mało kłopotliwy, ponieważ oczywiście oferujemy możliwość zarządzania całością lub częścią wdrożenia dla klientów, aby mogli skupić się na prowadzeniu swojej firmy za pomocą sztucznej inteligencji, a nie na odwrót. Dostępna jest nawet opcja na żądanie, która umożliwia dostosowanie środowiska do potrzeb w przypadku krótkich projektów.

RapidMiner Radoop eliminuje część złożoności związanej z analizą danych. Czy możesz nam powiedzieć, w jaki sposób Radoop przynosi korzyści programistom?

Radoop jest przeznaczony głównie dla osób niebędących programistami, które chcą wykorzystać potencjał big data. RapidMiner Radoop wykonuje przepływy pracy RapidMiner bezpośrednio w Hadoop w sposób wolny od kodu. Możemy również osadzić silnik wykonawczy RapidMiner w platformie Spark, dzięki czemu można łatwo przesyłać kompletne przepływy pracy do platformy Spark bez złożoności wynikającej z podejścia skoncentrowanego na kodzie.

Czy podmiot rządowy byłby w stanie wykorzystać RapidMiner do analizy danych w celu przewidywania potencjalnych pandemii, podobnie jak to robi BlueDot działa?

Jako ogólna platforma do nauki o danych i uczenia maszynowego, RapidMiner ma na celu usprawnienie i usprawnienie procesu tworzenia modeli i zarządzania nimi, niezależnie od przedmiotu lub dziedziny, która leży w centrum problemu nauki o danych/uczenia maszynowego. Chociaż nie koncentrujemy się na przewidywaniu pandemii, mając odpowiednie dane, ekspert merytoryczny (w tym przypadku wirusolog lub epidemiolog) mógłby wykorzystać platformę do stworzenia modelu, który mógłby dokładnie przewidywać pandemie. W rzeczywistości wielu badaczy korzysta z RapidMiner – a nasza platforma jest bezpłatna do celów akademickich.

Czy jest coś jeszcze, czym chciałbyś się podzielić na temat RapidMiner?

Spróbuj! Możesz być zaskoczony, jak łatwa może być analiza danych i jak bardzo dobra platforma może poprawić produktywność Ciebie i Twojego zespołu.

Dziękuję za ten wspaniały wywiad. Czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić to miejsce RapidMiner.

W przyszłym

Przyszłość punktacji przemówień – liderzy myśli

Nie przegap

Naukowcy opracowują metodę komunikacji sztucznych sieci neuronowych z sieciami biologicznymi

Antoniego Tardif

Partner-założyciel unite.AI i członek Rada Technologiczna Forbesa, Antoine jest futurysta który jest pasjonatem przyszłości sztucznej inteligencji i robotyki.

Jest także Założycielem Securities.io, witryna internetowa skupiająca się na inwestowaniu w przełomowe technologie.