Интервјуа

Инго Миерсва, основач и претседател на RapidMiner, Inc – серија на интервјуа

Ажурирани on Декември 9, 2022

Инго Миерсва е основач и претседател на RapidMiner, Inc. RapidMiner носи вештачка интелигенција во претпријатието преку отворена и проширлива платформа за наука за податоци. Создаден за аналитички тимови, RapidMiner го обединува целиот животен циклус на науката за податоци од подготовка за податоци до машинско учење до предвидливо распоредување на моделот. Повеќе од 625,000 професионалци за аналитика користат производи на RapidMiner за да ги поттикнат приходите, да ги намалат трошоците и да ги избегнат ризиците.

Која беше вашата инспирација зад лансирањето на RapidMiner?

Работев во консултантски бизнис за наука за податоци долги години и видов потреба од платформа која е поинтуитивна и попристапна за луѓето без формално образование во науката за податоци. Многу од постоечките решенија во тоа време се потпираа на кодирање и скриптирање и тие едноставно не беа кориснички. Понатаму, го отежна управувањето со податоците и одржувањето на решенијата што беа развиени во рамките на тие платформи. Во основа, сфатив дека овие проекти не треба да бидат толку тешки, па почнавме да ја создаваме платформата RapidMiner за да му дозволиме на секој да биде одличен научник за податоци.

Можете ли да разговарате за целосното управување со транспарентност што моментално го користи RapidMiner?

Кога не можете да објасните модел, многу е тешко да се намести, да се верува и да се преведе. Голем дел од работата на науката за податоци е комуникацијата на резултатите со другите за да можат засегнатите страни да разберат како да ги подобрат процесите. Ова бара доверба и длабоко разбирање. Исто така, проблемите со довербата и преводот може да го отежнат надминувањето на корпоративните барања за да се добие модел во производство. Оваа битка ја водиме на неколку различни начини:

Како платформа за наука за визуелни податоци, RapidMiner инхерентно мапира објаснување за сите цевководи и модели на податоци во формат кој е многу потрошен што може да го разберат научниците за податоци или научниците кои не се поврзани со податоци. Ги прави моделите транспарентни и им помага на корисниците да го разберат однесувањето на моделот и да ги проценат неговите силни и слаби страни и да ги детектираат потенцијалните предрасуди.

Дополнително, сите модели креирани во платформата доаѓаат со обемни визуелизации за корисникот - обично корисникот што го создава моделот - за да се здобијат со увид во моделот, да го разберат однесувањето на моделот и да ги проценат предрасудите на моделот.

RapidMiner дава и објаснувања за моделот – дури и кога е во производство: за секое предвидување создадено од модел, RapidMiner ги генерира и додава факторите на влијание кои доведоа или влијаеја на одлуките донесени од тој модел во производството.

Конечно - и ова е многу важно за мене лично, бидејќи го возев ова со нашите инженерски тимови пред неколку години - RapidMiner исто така обезбедува исклучително моќна способност за симулатор за модели, што им овозможува на корисниците да симулираат и да го набљудуваат однесувањето на моделот врз основа на дадените влезни податоци од страна на корисникот. Влезните податоци може да се постават и менуваат многу лесно, овозможувајќи му на корисникот да го разбере предвидливото однесување на моделите во различни хипотетички или реални случаи. Симулаторот исто така прикажува фактори кои влијаат на одлуката на моделот. Корисникот - во овој случај дури и деловен корисник или експерт за домен - може да го разбере однесувањето на моделот, да ја потврди одлуката на моделот во однос на реалните резултати или знаењето на доменот и да ги идентификува проблемите. Симулаторот ви овозможува да го симулирате реалниот свет и да погледнете во иднината - всушност во вашата иднина.

Како RapidMiner користи длабоко учење?

Употребата на RapidMiner за длабоко учење нешто на што сме многу горди. Длабокото учење може да биде многу тешко да се примени и научниците кои не се занимаваат со податоци честопати се борат со поставување на тие мрежи без стручна поддршка. RapidMiner го прави овој процес што е можно поедноставен за корисниците од сите видови. Длабокото учење е, на пример, дел од нашиот производ за автоматско машинско учење (ML) наречен RapidMiner Go. Овде корисникот не треба да знае ништо за длабоко учење за да ги користи тие типови на софистицирани модели. Покрај тоа, моќните корисници можат да одат подлабоко и да користат популарни библиотеки за длабоко учење како Tensorflow, Keras или DeepLearning4J директно од визуелните работни текови што ги градат со RapidMiner. Ова е како играње со градежни блокови и го поедноставува искуството за корисниците со помалку вештини за наука за податоци. Преку овој пристап нашите корисници можат да градат флексибилни мрежни архитектури со различни функции за активирање и кориснички дефиниран број на слоеви и јазли, повеќе слоеви со различен број на јазли и да избираат од различни техники за обука.

Каков друг вид на машинско учење се користи?

Сите тие! Нудиме стотици различни алгоритми за учење како дел од платформата RapidMiner – сè што можете да примените на широко користените програмски јазици за наука за податоци Python и R. Меѓу другите, RapidMiner нуди методи за Naive Bayes, регресија како генерализирани линеарни модели, групирање на такви како k-Means, FP-Growth, Decision Dres, Random Forests, Parallelized Deep Learning и Gradient Boosted Trees. Овие и многу други се дел од библиотеката за моделирање на RapidMiner и може да се користат со еден клик.

Можете ли да разговарате за тоа како Автомоделот ги знае оптималните вредности што треба да се користат?

RapidMiner AutoModel користи интелигентна автоматизација за да забрза сè што прават корисниците и да обезбеди создавање точни, звучни модели. Ова вклучува избор на примери и автоматско отстранување на оддалеченост, инженерство на карактеристики за сложени типови на податоци, како што се датуми или текстови, и целосно мултицел автоматизирано инженерство на карактеристики за да се изберат оптимални карактеристики и да се конструираат нови. Автоматскиот модел вклучува и други методи за чистење податоци за да се поправат вообичаените проблеми во податоците како што се вредностите што недостасуваат, профилирањето на податоците преку проценка на квалитетот и вредноста на колоните со податоци, нормализацијата на податоците и разни други трансформации.

Автоматскиот модел исто така извлекува мета-податоци за квалитетот на податоците - на пример, колку колоната се однесува како ID или дали има многу вредности што недостасуваат. Овие мета податоци се користат како додаток на основните мета податоци за автоматизирање и помагање на корисниците во „користење на оптималните вредности“ и справување со проблеми со квалитетот на податоците.

За повеќе детали, сето тоа го мапиравме во нашиот план за автомодел. (Сликата подолу за дополнителен контекст)

Постојат четири основни фази каде што се применува автоматизацијата:

– Подготовка на податоци: Автоматска анализа на податоците за да се идентификуваат вообичаените проблеми со квалитетот како што се корелации, вредности што недостасуваат и стабилност.
– Автоматизиран избор и оптимизација на модели, вклучувајќи целосна валидација и споредба на перформансите, што ги сугерира најдобрите техники за машинско учење за дадени податоци и ги одредува оптималните параметри.
– Модел симулација за да помогне да се одредат конкретните (прописни) активности што треба да се преземат за да се постигне посакуваниот исход предвиден од моделот.
– Во фазата на распоредување на моделот и работењето, на корисниците им се прикажуваат фактори како што се нанос, пристрасност и деловно влијание, автоматски без потреба од дополнителна работа.

Компјутерската пристрасност е проблем со кој било тип на вештачка интелигенција, дали има некакви контроли за да се спречи пристрасноста да се зголемува во резултатите?

Да, ова е навистина исклучително важно за науката за етички податоци. Карактеристиките на управување споменати претходно гарантираат дека корисниците секогаш можат да видат точно кои податоци се користени за градење модел, како тие се трансформирале и дали има пристрасност во изборот на податоци. Дополнително, нашите карактеристики за откривање на нанос се уште една моќна алатка за откривање на пристрасност. Ако моделот во производството демонстрира многу поместување во влезните податоци, тоа може да биде знак дека светот драматично се променил. Сепак, тоа може да биде и показател дека имало сериозна пристрасност во податоците за обуката. Во иднина, размислуваме да одиме дури и еден чекор понатаму и да изградиме модели за машинско учење кои може да се користат за откривање на пристрасност во други модели.

Можете ли да разговарате за RapidMiner AI Cloud и како тој се разликува од конкурентските производи?

Барањата за проект за наука за податоци може да бидат големи, сложени и интензивни за пресметување, што ја направи употребата на облак технологијата толку атрактивна стратегија за научниците за податоци. За жал, различните природни платформи за наука за податоци базирани на облак ве поврзуваат со облак услугите и понудите за складирање податоци на тој конкретен продавач на облак.

RapidMiner AI Cloud е едноставно нашата облак услуга за испорака на платформата RapidMiner. Понудата може да се прилагоди на опкружувањето на секој клиент, без оглед на нивната стратегија за облак. Ова е важно деновиве бидејќи пристапот на повеќето бизниси за управување со податоци во облак се развива многу брзо во сегашната клима. Флексибилноста е навистина она што го издвојува RapidMiner AI Cloud. Може да работи во која било облак услуга, приватен облак или во хибридно поставување. Ние сме преносливи во облак, агностици во облак, мулти-облак - како и да сакате да го нарекувате.

RapidMiner AI Cloud е исто така многу мала мака, бидејќи, се разбира, нудиме можност за управување со целото или дел од распоредувањето за клиентите за да можат да се фокусираат на водење на нивниот бизнис со вештачка интелигенција, а не обратно. Има дури и опција на барање, која ви овозможува да ја свртите околината колку што е потребно за кратки проекти.

RapidMiner Radoop елиминира дел од сложеноста зад науката за податоци, можете ли да ни кажете како Radoop им користи на програмерите?

Radoop е главно за непрограмери кои сакаат да го искористат потенцијалот на големите податоци. RapidMiner Radoop ги извршува работните текови на RapidMiner директно во Hadoop на начин без код. Можеме и да го вградиме моторот за извршување RapidMiner во Spark, така што е лесно да се придвижат целосните работни текови во Spark без сложеноста што доаѓа од пристапите насочени кон кодот.

Дали владиниот субјект би можел да користи RapidMiner за да ги анализира податоците за да предвиди потенцијални пандемии, слично како BlueDot работи?

Како општа наука за податоци и платформа за машинско учење, RapidMiner треба да го насочи и подобри процесот на креирање и управување со модели, без разлика кој предмет или домен е во центарот на проблемот со науката за податоци/машинско учење. Иако нашиот фокус не е на предвидување пандемии, со вистинските податоци експерт за предметна тема (како вирусолог или епидемиолог, во овој случај) би можел да ја искористи платформата за да создаде модел кој може точно да предвиди пандемии. Всушност, многу истражувачи користат RapidMiner - и нашата платформа е бесплатна за академски цели.

Дали има нешто друго што би сакале да го споделите за RapidMiner?

Пробајте го! Можеби ќе бидете изненадени колку може да биде лесна науката за податоци и колку добрата платформа може да ја подобри вас и продуктивноста на вашиот тим.

Ви благодариме за овој одличен интервјуер, читателите кои сакаат да дознаат повеќе треба да го посетат RapidMiner.

Поврзани теми:анализатор компјутерска пристрасност наука за податоци брз минометар

Следно

Иднината на говорното бодување – лидери на мислите

Не ја пропуштајте

Истражувачите развија метод за вештачки невронски мрежи за комуникација со биолошки

Антоан Тардиф

Основачки партнер на unite.AI и член на Технолошкиот совет на Форбс, Антоан е а футуристички кој е страстен за иднината на вештачката интелигенција и роботиката.

Тој е и основач на Хартии од вредност.io, веб-страница која се фокусира на инвестирање во непушачка технологија.