Интервјуи

Инго Миерсва, оснивач и председник компаније РапидМинер, Инц – серија интервјуа

Ажурирано on Декабрь 9, 2022

Инго Миерсва је оснивач и председник компаније РапидМинер, Инц. РапидМинер доноси вештачку интелигенцију у предузеће кроз отворену и прошириву платформу за науку о подацима. Направљен за аналитичке тимове, РапидМинер обједињује цео животни циклус науке о подацима од припреме података до машинског учења до интуитивни распоређивање модела. Више од 625,000 професионалаца из аналитике користи РапидМинер производе за повећање прихода, смањење трошкова и избегавање ризика.

Шта је била ваша инспирација за покретање РапидМинер-а?

Радио сам у консултантском послу у области науке о подацима дуги низ година и видео сам потребу за платформом која је интуитивнија и приступачнија за људе без формалног образовања из науке о подацима. Многа од постојећих решења у то време ослањала су се на кодирање и скриптовање и једноставно нису била лака за коришћење. Штавише, то је отежавало управљање подацима и одржавање решења која су развијена у оквиру тих платформи. У суштини, схватио сам да ови пројекти не морају бити тако тешки, па смо почели да креирамо РапидМинер платформу како бисмо свима омогућили да буду велики научници података.

Можете ли да разговарате о потпуном управљању транспарентношћу које тренутно користи РапидМинер?

Када не можете да објасните модел, прилично га је тешко подесити, веровати и превести. Велики део рада на науци о подацима је комуникација о резултатима другима како би заинтересоване стране могле да разумеју како да побољшају процесе. Ово захтева поверење и дубоко разумевање. Такође, проблеми са поверењем и преводом могу веома отежати превазилажење корпоративних захтева да се модел пусти у производњу. Ову битку водимо на неколико различитих начина:

Као платформа за визуелну науку о подацима, РапидМинер инхерентно мапира објашњење за све цевоводе података и моделе у веома потрошном формату који могу да разумеју научници података или научници који нису подаци о подацима. Он чини моделе транспарентним и помаже корисницима у разумевању понашања модела и процени његових снага и слабости и откривању потенцијалних предрасуда.

Поред тога, сви модели креирани на платформи долазе са опсежним визуализацијама за корисника – обично корисника који креира модел – да би стекао увид у модел, разумео понашање модела и проценио пристрасности модела.

РапидМинер такође пружа објашњења модела – чак и када је у производњи: За свако предвиђање креирано од стране модела, РапидМинер генерише и додаје факторе утицаја који су довели или утицали на одлуке које је тај модел донео у производњи.

Коначно – а ово је мени лично веома важно пошто сам ово водио са нашим инжењерским тимовима пре неколико година – РапидМинер такође пружа изузетно моћну могућност симулатора модела, која омогућава корисницима да симулирају и посматрају понашање модела на основу добијених улазних података од стране корисника. Улазни подаци се могу врло лако поставити и променити, омогућавајући кориснику да разуме предиктивно понашање модела у различитим хипотетичким или стварним случајевима. Симулатор такође приказује факторе који утичу на одлуку модела. Корисник – у овом случају чак и пословни корисник или стручњак за домен – може разумети понашање модела, потврдити одлуку модела у односу на стварне резултате или знање о домену и идентификовати проблеме. Симулатор вам омогућава да симулирате стварни свет и да погледате у будућност – у своју будућност, у ствари.

Како РапидМинер користи дубоко учење?

РапидМинер-ова употреба дубоког учења је нешто на шта смо веома поносни. Дубоко учење може бити веома тешко применити и они који се не баве подацима често се боре са постављањем тих мрежа без стручне подршке. РапидМинер чини овај процес што једноставнијим за кориснике свих врста. Дубоко учење је, на пример, део нашег производа за аутоматско машинско учење (МЛ) под називом РапидМинер Го. Овде корисник не мора да зна ништа о дубоком учењу да би користио те врсте софистицираних модела. Поред тога, напредни корисници могу да иду дубље и користе популарне библиотеке дубоког учења као што су Тенсорфлов, Керас или ДеепЛеарнинг4Ј директно из визуелних токова посла које граде са РапидМинер-ом. Ово је као играње са грађевинским блоковима и поједностављује искуство за кориснике са мање вештина науке о подацима. Кроз овај приступ наши корисници могу да изграде флексибилне мрежне архитектуре са различитим функцијама активације и кориснички дефинисаним бројем слојева и чворова, више слојева са различитим бројем чворова и бирају између различитих техника обуке.

Која друга врста машинског учења се користи?

Сви они! Нудимо стотине различитих алгоритама за учење као део РапидМинер платформе – све што можете да примените у широко коришћеним програмским језицима Питхон и Р. Између осталог, РапидМинер нуди методе за Наиве Баиес, регресију као што су генерализовани линеарни модели, груписање као што су као к-средње вредности, ФП-раст, стабла одлучивања, насумичне шуме, паралелно дубоко учење и стабла са појачаним градијентом. Ово и још много тога су део библиотеке моделирања РапидМинер-а и могу се користити једним кликом.

Можете ли разговарати о томе како Ауто модел зна оптималне вредности које треба користити?

РапидМинер АутоМодел користи интелигентну аутоматизацију како би убрзао све што корисници раде и осигурао израду тачних, звучних модела. Ово укључује избор инстанце и аутоматско уклањање одступања, инжењеринг карактеристика за сложене типове података као што су датуми или текстови, и потпуно вишециљно аутоматизовано инжењерство карактеристика за одабир оптималних карактеристика и конструисање нових. Аутоматски модел такође укључује друге методе чишћења података за решавање уобичајених проблема у подацима као што су вредности које недостају, профилисање података проценом квалитета и вредности колона података, нормализација података и разне друге трансформације.

Аутоматски модел такође извлачи мета податке о квалитету података – на пример, колико се колона понаша као ИД или да ли постоји много вредности које недостају. Ови мета подаци се користе као додатак основним метаподацима за аутоматизацију и помоћ корисницима у „коришћењу оптималних вредности“ и решавању проблема квалитета података.

За више детаља, све смо то мапирали у нашем нацрту модела аутомобила. (Слика испод за додатни контекст)

Постоје четири основне фазе у којима се примењује аутоматизација:

– Припрема података: аутоматска анализа података да би се идентификовали уобичајени проблеми квалитета као што су корелације, вредности које недостају и стабилност.
– Аутоматски избор и оптимизација модела, укључујући потпуну валидацију и поређење перформанси, који сугерише најбоље технике машинског учења за дате податке и одређује оптималне параметре.
– Симулација модела која помаже у одређивању специфичних (прескриптивних) радњи које треба предузети да би се постигао жељени исход предвиђен моделом.
– У фази имплементације и рада модела, корисницима се аутоматски приказују фактори попут одступања, пристрасности и утицаја на пословање, без додатног рада.

Рачунарска пристрасност је проблем са било којом врстом АИ, да ли постоје икакве контроле које спречавају да се пристрасност увуче у резултате?

Да, ово је заиста изузетно важно за етичку науку о подацима. Функције управљања које су поменуте раније осигуравају да корисници увек могу да виде који су тачно подаци коришћени за изградњу модела, како су трансформисани и да ли постоји пристрасност у избору података. Поред тога, наше функције за детекцију одступања су још један моћан алат за откривање пристрасности. Ако модел у производњи показује доста одступања у улазним подацима, то може бити знак да се свет драматично променио. Међутим, то такође може бити показатељ да је у подацима о обуци постојала велика пристрасност. У будућности, размишљамо да одемо још корак даље и изградимо моделе машинског учења који се могу користити за откривање пристрасности у другим моделима.

Можете ли да разговарате о РапидМинер АИ Цлоуд-у и како се он разликује од конкурентских производа?

Захтеви за пројекат науке о подацима могу бити велики, сложени и рачунарски интензивни, што је учинило коришћење технологије облака тако атрактивном стратегијом за научнике података. Нажалост, различите изворне платформе за науку о подацима засноване на облаку повезују вас са услугама у облаку и понудама за складиштење података тог одређеног добављача у облаку.

РапидМинер АИ Цлоуд је једноставно наша испорука услуге у облаку РапидМинер платформе. Понуда се може прилагодити окружењу било ког клијента, без обзира на њихову стратегију у облаку. Ово је важно ових дана јер се приступ већине предузећа управљању подацима у облаку веома брзо развија у тренутној клими. Флексибилност је заиста оно што РапидМинер АИ Цлоуд издваја. Може да ради у било којој услузи у облаку, приватном облаку или у хибридном подешавању. Ми смо преносиви у облаку, агностички за облак, мулти-цлоуд – како год то желите да назовете.

РапидМинер АИ Цлоуд такође представља веома мало проблема, јер, наравно, нудимо могућност управљања целокупним или делом имплементације за клијенте како би се могли фокусирати на вођење свог пословања са АИ, а не обрнуто. Постоји чак и опција на захтев, која вам омогућава да унапредите окружење по потреби за кратке пројекте.

РапидМинер Радооп елиминише део сложености иза науке о подацима, можете ли нам рећи како Радооп користи програмерима?

Радооп је углавном за оне који нису програмери који желе да искористе потенцијал великих података. РапидМинер Радооп извршава РапидМинер радне токове директно унутар Хадооп-а на начин без кода. Такође можемо да уградимо механизам за извршавање РапидМинер-а у Спарк тако да је лако гурнути комплетне токове посла у Спарк без сложености која долази од приступа усредсређеног на код.

Да ли би државни орган могао да користи РапидМинер за анализу података како би предвидео потенцијалне пандемије, слично БлуеДот ради?

Као општа платформа за науку о подацима и машинско учење, РапидМинер треба да поједностави и побољша процес креирања модела и управљања, без обзира на то која тема или домен је у центру проблема науке о подацима/машинског учења. Иако наш фокус није на предвиђању пандемија, са правим подацима стручњак за предмет (попут виролога или епидемиолога, у овом случају) могао би да користи платформу за креирање модела који би могао прецизно предвидети пандемије. У ствари, многи истраживачи користе РапидМинер – а наша платформа је бесплатна за академске сврхе.

Постоји ли још нешто што бисте желели да поделите о РапидМинер-у?

Покушати! Можда ћете бити изненађени колико наука о подацима може бити лака и колико добра платформа може побољшати вас и продуктивност вашег тима.

Хвала вам на овом сјајном интервјуеру, читаоци који желе да сазнају више треба да посете РапидМинер.

Уп Нект

Будућност бодовања говора – вође мисли

Не пропустите

Истраживачи развијају метод за вештачке неуронске мреже за комуникацију са биолошким

Антоан Тардиф

Оснивачки партнер уните.АИ и члан Форбсов технолошки савет, Антоан је а футуристички који је страствен за будућност вештачке интелигенције и роботике.

Такође је оснивач Сецуритиес.ио, веб локација која се фокусира на улагање у дисруптивну технологију.