Sztuczna inteligencja
Ingo Mierswa, Założyciel & Prezes w RapidMiner, Inc – Seria Wywiadów

Ingo Mierswa jest Założycielem & Prezesem w RapidMiner, Inc. RapidMiner przynosi sztuczną inteligencję do przedsiębiorstw poprzez otwartą i rozszerzalną platformę data science. Zbudowaną dla zespołów analitycznych, RapidMiner ujednolica cały cykl życia data science od przygotowania danych do uczenia maszynowego i wdrożenia modeli predykcyjnych. Ponad 625 000 profesjonalistów z dziedziny analityki korzysta z produktów RapidMiner, aby zwiększyć przychody, zmniejszyć koszty i uniknąć ryzyka.
Jaka była Twoja inspiracja założenia RapidMiner?
Pracowałem w branży konsultingowej data science przez wiele lat i zobaczyłem potrzebę platformy, która byłaby bardziej intuicyjna i dostępna dla ludzi bez formalnego wykształcenia w dziedzinie data science. Wiele istniejących wówczas rozwiązań opierało się na kodowaniu i skryptach, które po prostu nie były przyjazne dla użytkownika. Ponadto, utrudniało to zarządzanie danymi i utrzymanie rozwiązań opracowanych w ramach tych platform. Podstawowo, zrozumiałem, że te projekty nie muszą być tak trudne, więc zaczęliśmy tworzyć platformę RapidMiner, aby umożliwić każdemu być wielkim naukowcem danych.
Czy możesz omówić pełną transparentność zarządzania, która jest obecnie wykorzystywana przez RapidMiner?
Gdy nie możesz wyjaśnić modelu, jest to dość trudne do dostosowania, zaufania i przekładu. Dużo pracy związanej z data science to komunikacja wyników do innych, aby stakeholderzy mogli zrozumieć, jak poprawić procesy. To wymaga zaufania i głębokiego zrozumienia. Również problemy z zaufaniem i przekładem mogą sprawić, że bardzo trudno jest pokonać wymagania korporacyjne, aby wprowadzić model do produkcji. Walczymy z tym na kilka sposobów:
Jako wizualna platforma data science, RapidMiner niejawnie mapuje wyjaśnienie dla wszystkich potoków danych i modeli w wysoko konsumowalnym formacie, który może być zrozumiany przez naukowców danych lub nie-naukowców. To sprawia, że modele są przejrzyste i pomaga użytkownikom w zrozumieniu zachowania modelu i ocenie jego siły i słabości oraz wykryciu potencjalnych stronniczości.
Ponadto, wszystkie modele utworzone na platformie są wyposażone w obszerną wizualizację dla użytkownika – zwykle użytkownika tworzącego model – w celu uzyskania wglądu w model, zrozumienia zachowania modelu i oceny stronniczości modelu.
RapidMiner również zapewnia wyjaśnienia modelu – nawet w produkcji: Dla każdej predykcji utworzonej przez model, RapidMiner generuje i dodaje czynniki wpływające, które doprowadziły do lub wpłynęły na decyzje podjęte przez ten model w produkcji.
Wreszcie – i to jest bardzo ważne dla mnie osobiście, ponieważ kierowałem tym z naszymi zespołami inżynierskimi kilka lat temu – RapidMiner zapewnia również niezwykle potężną możliwość symulacji modelu, która pozwala użytkownikom symulować i obserwować zachowanie modelu na podstawie danych wejściowych dostarczonych przez użytkownika. Dane wejściowe mogą być ustawione i zmienione bardzo łatwo, co pozwala użytkownikowi zrozumieć przewidywane zachowanie modelu w różnych hipotetycznych lub rzeczywistych przypadkach. Symulator wyświetla również czynniki, które wpływają na decyzję modelu. Użytkownik – w tym przypadku nawet użytkownik biznesowy lub ekspert domeny – może zrozumieć zachowanie modelu, zwalidować decyzję modelu w stosunku do rzeczywistych wyników lub wiedzy domenowej i zidentyfikować problemy. Symulator pozwala symulować świat rzeczywisty i spojrzeć w przyszłość – w Twoją przyszłość, tak naprawdę.
Jak RapidMiner wykorzystuje głębokie uczenie?
Użycie głębokiego uczenia przez RapidMiner jest czymś, z czego jesteśmy bardzo dumni. Głębokie uczenie może być bardzo trudne do zastosowania, a nie-naukowcy często mają trudności z ustaleniem tych sieci bez wsparcia ekspertów. RapidMiner sprawia, że proces ten jest tak prosty, jak to możliwe dla użytkowników wszystkich typów. Głębokie uczenie jest, na przykład, częścią naszego produktu Auto machine learning (ML) o nazwie RapidMiner Go. Tutaj użytkownik nie musi wiedzieć nic o głębokim uczeniu, aby skorzystać z tych zaawansowanych modeli. Ponadto, użytkownicy o większych umiejętnościach mogą zagłębić się i używać popularnych bibliotek głębokiego uczenia, takich jak Tensorflow, Keras lub DeepLearning4J, bezpośrednio z wizualnych workflow, które budują z RapidMiner. To jest jak zabawa z klockami i upraszcza doświadczenie dla użytkowników z mniejszymi umiejętnościami data science. Dzięki temu podejściu nasi użytkownicy mogą tworzyć elastyczne architektury sieci z różnymi funkcjami aktywacji i określoną liczbą warstw i węzłów, wiele warstw z różną liczbą węzłów i wybierać spośród różnych technik treningu.
Jaki inny typ uczenia maszynowego jest używany?
Wszystkie! Oferujemy setki różnych algorytmów uczenia, które są częścią platformy RapidMiner – wszystko, co można zastosować w popularnych językach programowania data science, takich jak Python i R. Wśród innych, RapidMiner oferuje metody, takie jak Naive Bayes, regresja, takie jak uogólnione liniowe modele, klastry, takie jak k-Means, FP-Growth, drzewa decyzyjne, losowe lasy, równolegle głębokie uczenie i drzewa zwiększające gradient. Te i wiele innych są częścią biblioteki modeli RapidMiner i mogą być używane z jednym kliknięciem.
Czy możesz omówić, jak Auto Model wie, jakie są optymalne wartości do użycia?
RapidMiner AutoModel wykorzystuje inteligentną automatyzację, aby przyspieszyć wszystko, co użytkownicy robią, i zapewnić, że dokładne i poprawne modele są tworzone. To obejmuje wybór instancji i automatyczne usuwanie odstających wartości, inżynierię cech dla złożonych typów danych, takich jak daty lub teksty, oraz pełną wieloaspektową automatyczną inżynierię cech w celu wyboru optymalnych cech i konstruowania nowych. Auto Model obejmuje również inne metody czyszczenia danych, aby naprawić typowe problemy w danych, takie jak brakujące wartości, normalizację danych i różne inne transformacje.
Auto Model również wyodrębnia metadane jakości danych – na przykład, jak bardzo kolumna zachowuje się jak ID lub czy istnieje wiele brakujących wartości. Te metadane są używane wraz z podstawowymi metadanymi w celu automatyzacji i asystowania użytkownikom w “użyciu optymalnych wartości” i rozwiązywaniu problemów z jakością danych.
Dla większych szczegółów, wszystko to zostało wyjaśnione w naszym Auto Model Blueprint. (Obraz poniżej, aby zapewnić dodatkowy kontekst)
Istnieją cztery podstawowe fazy, w których jest stosowana automatyzacja:
– Przygotowanie danych: Automatyczna analiza danych w celu identyfikacji typowych problemów jakości, takich jak korelacje, brakujące wartości i stabilność.
– Automatyczny wybór modelu i optymalizacja, w tym pełna walidacja i porównanie wyników, które sugerują najlepsze techniki uczenia maszynowego dla danych i określają optymalne parametry.
– Symulacja modelu, aby pomóc określić konkretną (preskryptywną) akcję, którą należy podjąć, aby osiągnąć pożądany wynik przewidziany przez model.
– W fazie wdrożenia i eksploatacji modelu, użytkownicy są pokazywani czynniki, takie jak dryf, stronniczość i wpływ biznesowy, automatycznie bez dodatkowej pracy.

Sztuczna inteligencja jest problemem w każdym rodzaju sztucznej inteligencji, czy istnieją jakieś kontrolki, które zapobiegają stronniczości w wynikach?
Tak, to jest naprawdę bardzo ważne dla etycznego data science. Funkcje zarządzania, o których wspomnieliśmy wcześniej, zapewniają, że użytkownicy mogą zawsze zobaczyć dokładnie, jakie dane zostały użyte do budowy modelu, jak zostały one przekształcone i czy istnieje stronniczość w wyborze danych. Ponadto, nasze funkcje wykrywania dryfu są innym potężnym narzędziem do wykrywania stronniczości. Jeśli model w produkcji wykazuje wiele dryfu w danych wejściowych, to może być oznaką, że świat zmienił się dramatycznie. Może to być również wskaźnikiem, że istniała poważna stronniczość w danych szkoleniowych. W przyszłości rozważamy możliwość przejścia o krok dalej i budowy modeli uczenia maszynowego, które mogą być używane do wykrywania stronniczości w innych modelach.
Czy możesz omówić RapidMiner AI Cloud i jak różni się od konkurencyjnych produktów?
Wymagania dla projektu data science mogą być duże, złożone i wymagające obliczeniowo, co sprawiło, że użycie technologii chmury jest tak atrakcyjną strategią dla naukowców danych. Niestety, różne rodzime platformy data science oparte na chmurze wiążą Cię z usługami chmury i ofertami magazynowania danych tego konkretnego dostawcy chmury.
RapidMiner AI Cloud to po prostu nasza usługa chmury dostarczająca platformę RapidMiner. Oferta może być dostosowana do środowiska każdego klienta, niezależnie od ich strategii chmury. To jest bardzo ważne w dzisiejszych czasach, ponieważ podejście większości firm do zarządzania danymi w chmurze ewoluuje bardzo szybko. Elastyczność to jest to, co wyróżnia RapidMiner AI Cloud. Może działać w dowolnej usłudze chmury, prywatnym stosie chmury lub w hybrydowym ustawieniu. Jesteśmy przenośni w chmurze, agnostycy chmury, wielochmura – jakkolwiek wolisz to nazwać.
RapidMiner AI Cloud jest również bardzo niskim kłopotem, ponieważ oczywiście oferujemy możliwość zarządzania całością lub częścią wdrożenia dla klientów, aby mogli się skoncentrować na prowadzeniu swojego biznesu z AI, a nie odwrotnie. Istnieje nawet opcja na żądanie, która pozwala uruchomić środowisko w razie potrzeby dla krótkich projektów.
RapidMiner Radoop eliminuje niektórzy z złożoności za data science, czy możesz powiedzieć, jak Radoop korzysta deweloperom?
Radoop jest głównie dla nie-deweloperów, którzy chcą wykorzystać potencjał dużych danych. RapidMiner Radoop wykonywać potoki RapidMiner bezpośrednio w Hadoop w sposób wolny od kodu. Możemy również osadzić silnik wykonywania RapidMiner w Spark, aby było łatwo wypchnąć całe potoki do Spark bez złożoności, która pochodzi z podejścia opartego na kodzie.
Czy jednostka rządowa mogłaby użyć RapidMiner, aby przeanalizować dane w celu przewidzenia potencjalnych pandemii, podobnie jak to robi BlueDot?
Jako ogólna platforma data science i machine learning, RapidMiner jest przeznaczony do usprawnienia i poprawy procesu tworzenia i zarządzania modelami, niezależnie od tego, jaki temat lub dziedzina jest w centrum problemu data science/machine learning. Chociaż nasz focus nie jest na przewidywaniu pandemii, z odpowiednimi danymi, ekspert ds. przedmiotu (taki jak wirusolog lub epidemiolog) mógłby użyć platformy do stworzenia modelu, który mógłby dokładnie przewidzieć pandemie. W rzeczywistości, wielu badaczy używa RapidMiner – i nasza platforma jest darmowa dla celów akademickich.
Czy jest coś jeszcze, co chciałbyś podzielić się na temat RapidMiner?
Spróbuj! Możesz być zaskoczony, jak łatwo może być data science i jak wiele dobra platforma może poprawić Twoją i Twojego zespołu produktywność.
Dziękuję za ten wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić RapidMiner.












