Հարցազրույցներ

Ինգո Միերսվա, RapidMiner, Inc-ի հիմնադիր և նախագահ – Հարցազրույցների շարք

Թարմացվել է on Դեկտեմբերի 9, 2022

Ինգո Միերսվան RapidMiner, Inc.-ի հիմնադիր և նախագահն է: RapidMiner արհեստական ինտելեկտը ձեռնարկություն է բերում բաց և ընդարձակելի տվյալների գիտության հարթակի միջոցով: Ստեղծված վերլուծական թիմերի համար՝ RapidMiner-ը միավորում է տվյալների գիտության ողջ ցիկլը՝ տվյալների նախապատրաստումից մինչև մեքենայական ուսուցում. կանխատեսող մոդելի տեղակայում: Ավելի քան 625,000 վերլուծական մասնագետներ օգտագործում են RapidMiner արտադրանքները՝ եկամուտ ապահովելու, ծախսերը նվազեցնելու և ռիսկերից խուսափելու համար:

Ո՞րն էր ձեր ոգեշնչումը RapidMiner-ի գործարկման հետևում:

Ես երկար տարիներ աշխատել էի տվյալների գիտության խորհրդատվական բիզնեսում և տեսա այնպիսի հարթակի անհրաժեշտություն, որն ավելի ինտուիտիվ և մատչելի կլինի տվյալների գիտության ոլորտում պաշտոնական կրթություն չունեցող մարդկանց համար: Այն ժամանակ գոյություն ունեցող լուծումներից շատերը հիմնված էին կոդավորման և սցենարների վրա, և դրանք պարզապես հարմար չէին օգտագործողի համար: Ավելին, դա դժվարացրեց տվյալների կառավարումն ու պահպանումը այդ հարթակներում մշակված լուծումները: Հիմնականում ես հասկացա, որ այս նախագծերը պետք չէ այդքան դժվար լինել, ուստի մենք սկսեցինք ստեղծել RapidMiner պլատֆորմը, որը թույլ կտա ցանկացածին լինել տվյալների մեծ գիտնական:

Կարո՞ղ եք քննարկել ամբողջական թափանցիկության կառավարումը, որն այժմ օգտագործվում է RapidMiner-ի կողմից:

Երբ չես կարողանում բացատրել մոդելը, բավականին դժվար է կարգավորել, վստահել և թարգմանել: Տվյալների գիտության շատ աշխատանք արդյունքների փոխանցումն է ուրիշներին, որպեսզի շահագրգիռ կողմերը կարողանան հասկանալ, թե ինչպես բարելավել գործընթացները: Սա վստահություն և խորը ըմբռնում է պահանջում։ Նաև վստահության և թարգմանության հետ կապված խնդիրները կարող են շատ դժվարացնել մոդելի արտադրության մեջ մտցնելու կորպորատիվ պահանջների հաղթահարումը: Մենք այս ճակատամարտը տանում ենք մի քանի տարբեր ձևերով.

Որպես տեսողական տվյալների գիտության հարթակ, RapidMiner-ը ներհատուկ կերպով նկարագրում է տվյալների բոլոր խողովակաշարերի և մոդելների բացատրությունը խիստ սպառվող ձևաչափով, որը կարող է հասկանալի տվյալների գիտնականների կամ ոչ տվյալների գիտնականների համար: Այն մոդելները դարձնում է թափանցիկ և օգնում օգտատերերին հասկանալու մոդելի վարքագիծը և գնահատելու դրա ուժեղ և թույլ կողմերը և հայտնաբերելու հնարավոր կողմնակալությունները:

Բացի այդ, հարթակում ստեղծված բոլոր մոդելներն ունեն լայնածավալ վիզուալիզացիաներ օգտագործողի համար, սովորաբար մոդելը ստեղծող օգտատերը, մոդելի պատկերացումներ ձեռք բերելու, մոդելի վարքագիծը հասկանալու և մոդելի կողմնակալությունը գնահատելու համար:

RapidMiner-ը նաև տրամադրում է մոդելի բացատրություններ, նույնիսկ երբ արտադրվում է. մոդելի կողմից ստեղծված յուրաքանչյուր կանխատեսման համար RapidMiner-ը ստեղծում և ավելացնում է ազդեցության գործոնները, որոնք հանգեցրել կամ ազդել են արտադրության մեջ այդ մոդելի կողմից կայացված որոշումների վրա:

Վերջապես, և դա շատ կարևոր է անձամբ ինձ համար, քանի որ ես դա վարում էի մեր ինժեներական թիմերի հետ մի քանի տարի առաջ, RapidMiner-ը նաև տրամադրում է մոդելի չափազանց հզոր սիմուլյատորի հնարավորություն, որը թույլ է տալիս օգտվողներին մոդելավորել և դիտարկել մոդելի վարքագիծը՝ հիմնված տրամադրված մուտքային տվյալների վրա: օգտագործողի կողմից։ Մուտքային տվյալները կարող են տեղադրվել և փոփոխվել շատ հեշտությամբ՝ թույլ տալով օգտվողին հասկանալ մոդելների կանխատեսող վարքագիծը տարբեր հիպոթետիկ կամ իրական աշխարհի դեպքերի վերաբերյալ: Սիմուլյատորը նաև ցուցադրում է գործոններ, որոնք ազդում են մոդելի որոշման վրա: Օգտագործողը, այս դեպքում նույնիսկ բիզնես օգտագործողը կամ տիրույթի փորձագետը, կարող է հասկանալ մոդելի վարքագիծը, վավերացնել մոդելի որոշումը իրական արդյունքների կամ տիրույթի գիտելիքների համեմատ և բացահայտել խնդիրները: Սիմուլյատորը թույլ է տալիս մոդելավորել իրական աշխարհը և հայացք գցել ապագային՝ իրականում ձեր ապագային:

Ինչպե՞ս է RapidMiner-ն օգտագործում խորը ուսուցումը:

RapidMiner-ի կողմից խորը ուսուցման օգտագործումը, ինչով մենք շատ հպարտ ենք: Խորը ուսուցումը կարող է շատ դժվար լինել կիրառելը, և ոչ տվյալների գիտնականները հաճախ պայքարում են առանց փորձագիտական աջակցության այդ ցանցերը ստեղծելու համար: RapidMiner-ը այս գործընթացը հնարավորինս պարզ է դարձնում բոլոր տեսակի օգտատերերի համար: Խորը ուսուցումը, օրինակ, մեր Ավտոմեքենայի ուսուցման (ML) արտադրանքի մի մասն է, որը կոչվում է RapidMiner Go: Այստեղ օգտատերը կարիք չունի որևէ բան իմանալու խորը ուսուցման մասին՝ այդ տեսակի բարդ մոդելներից օգտվելու համար: Բացի այդ, հզոր օգտվողները կարող են ավելի խորանալ և օգտագործել հանրաճանաչ խորը ուսուցման գրադարաններ, ինչպիսիք են Tensorflow-ը, Keras-ը կամ DeepLearning4J-ն անմիջապես RapidMiner-ի հետ կառուցվող տեսողական աշխատանքային հոսքերից: Սա նման է շինարարական բլոկների հետ խաղալուն և հեշտացնում է փորձը տվյալների գիտության ավելի քիչ հմտություններ ունեցող օգտատերերի համար: Այս մոտեցման միջոցով մեր օգտվողները կարող են կառուցել ճկուն ցանցային ճարտարապետություններ տարբեր ակտիվացման գործառույթներով և օգտագործողի կողմից սահմանված թվով շերտերի ու հանգույցների, բազմաթիվ շերտեր տարբեր թվով հանգույցներով և ընտրել տարբեր ուսուցման տեխնիկայից:

Ինչ այլ տեսակի մեքենայական ուսուցում է օգտագործվում:

Բոլոր նրանց! Մենք առաջարկում ենք հարյուրավոր տարբեր ուսուցման ալգորիթմներ՝ որպես RapidMiner պլատֆորմի մաս. այն ամենը, ինչ կարող եք կիրառել տվյալների գիտության լայնորեն օգտագործվող Python և R ծրագրավորման լեզուներում: Ի թիվս այլոց, RapidMiner-ն առաջարկում է մեթոդներ Naive Bayes-ի համար, ռեգրեսիա, ինչպիսիք են ընդհանրացված գծային մոդելները, կլաստերավորումը: որպես k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning և Gradient Boosted Trees: Սրանք և շատ ավելին RapidMiner-ի մոդելավորման գրադարանի մի մասն են և կարող են օգտագործվել մեկ սեղմումով:

Կարո՞ղ եք քննարկել, թե ինչպես է Auto Model-ը գիտի օգտագործվող օպտիմալ արժեքները:

RapidMiner AutoModel-ը օգտագործում է խելացի ավտոմատացում՝ արագացնելու այն ամենը, ինչ անում են օգտվողները և ապահովելու ճշգրիտ, ձայնային մոդելների կառուցումը: Սա ներառում է օրինակների ընտրություն և արտանետումների ավտոմատ հեռացում, առանձնահատկությունների ինժեներական բարդ տվյալների տեսակների համար, ինչպիսիք են ամսաթվերը կամ տեքստերը, և ամբողջական բազմաբնույթ ավտոմատացված առանձնահատկությունների ճարտարագիտությունը՝ օպտիմալ հատկանիշներ ընտրելու և նորերը կառուցելու համար: Ավտոմոդելը ներառում է նաև տվյալների մաքրման այլ մեթոդներ՝ տվյալների ընդհանուր խնդիրները շտկելու համար, ինչպիսիք են բացակայող արժեքները, տվյալների պրոֆիլավորումը՝ գնահատելով տվյալների սյունակների որակն ու արժեքը, տվյալների նորմալացումը և տարբեր այլ փոխակերպումներ:

Auto Model-ը նաև արդյունահանում է տվյալների որակի մետա-տվյալներ, օրինակ՝ որքանով է սյունակն իրեն ID-ի նման պահում, կամ արդյոք կան բազմաթիվ բացակայող արժեքներ: Այս մետա տվյալներն օգտագործվում են ի լրումն հիմնական մետա տվյալների՝ ավտոմատացնելու և օգտատերերին օգնելու «օպտիմալ արժեքներն օգտագործելու» և տվյալների որակի հետ կապված խնդիրներ լուծելու համար:

Լրացուցիչ մանրամասների համար մենք այդ ամենը քարտեզագրել ենք մեր Ավտոմոդելի նախագծում: (Լրացուցիչ համատեքստի համար ստորև ներկայացված պատկերը)

Ավտոմատացման կիրառման չորս հիմնական փուլ կա.

– Տվյալների պատրաստում. տվյալների ավտոմատ վերլուծություն՝ որակի ընդհանուր խնդիրները բացահայտելու համար, ինչպիսիք են հարաբերակցությունը, բացակայող արժեքները և կայունությունը:
– Ավտոմատացված մոդելի ընտրություն և օպտիմիզացում, ներառյալ ամբողջական վավերացումն ու կատարողականի համեմատությունը, որն առաջարկում է մեքենայական ուսուցման լավագույն մեթոդները տվյալ տվյալների համար և որոշում օպտիմալ պարամետրերը:
– Մոդելի սիմուլյացիա՝ օգնելու որոշել մոդելի կողմից կանխատեսված ցանկալի արդյունքին հասնելու համար ձեռնարկվելիք հատուկ (նախատեսող) գործողությունները:
– Մոդելի տեղակայման և գործառնությունների փուլում օգտատերերին ցուցադրվում են այնպիսի գործոններ, ինչպիսիք են դրեյֆը, կողմնակալությունը և բիզնեսի ազդեցությունը, ավտոմատ կերպով՝ առանց լրացուցիչ աշխատանքի պահանջի:

Համակարգչային կողմնակալությունը ցանկացած տեսակի AI-ի հետ կապված խնդիր է, կա՞ն արդյոք որևէ հսկողություն՝ կանխելու համար կողմնակալության սողացող արդյունքները:

Այո, սա իսկապես չափազանց կարևոր է էթիկական տվյալների գիտության համար: Նախկինում նշված կառավարման առանձնահատկությունները երաշխավորում են, որ օգտվողները միշտ կարող են տեսնել, թե կոնկրետ ինչ տվյալներ են օգտագործվել մոդելի կառուցման համար, ինչպես են դրանք փոխակերպվել և արդյոք տվյալների ընտրության մեջ կա կողմնակալություն: Բացի այդ, դրեյֆի հայտնաբերման մեր հնարավորությունները կողմնակալության հայտնաբերման ևս մեկ հզոր գործիք են: Եթե արտադրության մոդելը ցույց է տալիս մուտքային տվյալների մեծ շեղումներ, դա կարող է նշան լինել, որ աշխարհը կտրուկ փոխվել է: Այնուամենայնիվ, դա կարող է նաև ցուցիչ լինել, որ վերապատրաստման տվյալների մեջ եղել է խիստ կողմնակալություն: Ապագայում մենք մտածում ենք նույնիսկ մեկ քայլ առաջ գնալու և մեքենայական ուսուցման մոդելներ ստեղծելու մասին, որոնք կարող են օգտագործվել այլ մոդելներում կողմնակալություն հայտնաբերելու համար:

Կարո՞ղ եք քննարկել RapidMiner AI Cloud-ը և ինչպես է այն տարբերվում մրցակից արտադրանքներից:

Տվյալների գիտության նախագծի պահանջները կարող են լինել մեծ, բարդ և ինտենսիվ հաշվարկներով, ինչն էլ դարձրել է ամպային տեխնոլոգիայի օգտագործումը տվյալների գիտնականների համար գրավիչ ռազմավարություն: Ցավոք սրտի, ամպի վրա հիմնված տվյալների գիտության տարբեր պլատֆորմները ձեզ կապում են տվյալ ամպային վաճառողի ամպային ծառայությունների և տվյալների պահպանման առաջարկների հետ:

RapidMiner AI Cloud-ը պարզապես RapidMiner հարթակի մեր ամպային ծառայության առաքումն է: Առաջարկը կարող է հարմարեցվել ցանկացած հաճախորդի միջավայրին՝ անկախ նրանց ամպային ռազմավարությունից: Սա կարևոր է այս օրերին, քանի որ բիզնեսների մեծամասնության մոտեցումը ամպային տվյալների կառավարման նկատմամբ շատ արագ զարգանում է ներկայիս կլիմայական պայմաններում: Ճկունությունն իսկապես առանձնացնում է RapidMiner AI Cloud-ը: Այն կարող է աշխատել ցանկացած ամպային ծառայության, մասնավոր ամպի կույտում կամ հիբրիդային կարգավորումներում: Մենք ամպային շարժական ենք, ամպային ագնոստիկ, բազմաֆունկցիոնալ, ինչպես էլ որ նախընտրում եք դա անվանել:

RapidMiner AI Cloud-ը նույնպես շատ քիչ դժվարություն է ներկայացնում, քանի որ, իհարկե, մենք առաջարկում ենք հաճախորդների տեղակայման ամբողջ կամ մասի կառավարումը, որպեսզի նրանք կարողանան կենտրոնանալ իրենց բիզնեսը AI-ով վարելու վրա, այլ ոչ թե հակառակը: Կա նույնիսկ ըստ պահանջի տարբերակ, որը թույլ է տալիս կարճ նախագծերի համար անհրաժեշտ միջավայր ստեղծել:

RapidMiner Radoop-ը վերացնում է տվյալների գիտության որոշ բարդություն, կարո՞ղ եք ասել մեզ, թե ինչպես է Radoop-ն օգուտ տալիս մշակողներին:

Radoop-ը հիմնականում նախատեսված է ոչ ծրագրավորողների համար, ովքեր ցանկանում են օգտագործել մեծ տվյալների ներուժը: RapidMiner Radoop-ն իրականացնում է RapidMiner-ի աշխատանքային հոսքերը անմիջապես Hadoop-ի ներսում՝ առանց կոդերի: Մենք կարող ենք նաև տեղադրել RapidMiner կատարողական շարժիչը Spark-ում, որպեսզի հեշտ լինի ամբողջական աշխատանքային հոսքերը մղել Spark-ի մեջ՝ առանց այն բարդության, որը բխում է կոդակենտրոն մոտեցումներից:

Արդյո՞ք պետական մարմինը կկարողանա օգտագործել RapidMiner-ը տվյալների վերլուծության համար՝ կանխատեսելու հնարավոր համաճարակները, ինչպես BlueDot գործում է?

Որպես տվյալների գիտության և մեքենայական ուսուցման ընդհանուր հարթակ՝ RapidMiner-ը կոչված է պարզեցնել և բարելավել մոդելի ստեղծման և կառավարման գործընթացը՝ անկախ նրանից, թե որ առարկան կամ տիրույթն է գտնվում տվյալների գիտության/մեքենայական ուսուցման խնդրի կենտրոնում: Թեև մեր ուշադրությունը համաճարակների կանխատեսման վրա չէ, ճիշտ տվյալների դեպքում թեմայի փորձագետը (օրինակ՝ վիրուսաբան կամ համաճարակաբան, այս դեպքում) կարող է օգտագործել հարթակը՝ ստեղծելու մոդել, որը կարող է ճշգրիտ կանխատեսել համաճարակները: Փաստորեն, շատ հետազոտողներ օգտագործում են RapidMiner-ը, և մեր հարթակն անվճար է ակադեմիական նպատակների համար:

Կա՞ որևէ այլ բան, որը կցանկանայիք կիսվել RapidMiner-ի մասին:

Փորձե՛ք։ Դուք կարող եք զարմանալ, թե որքան հեշտ կարող է լինել տվյալների գիտությունը, և որքան լավ հարթակը կարող է բարելավել ձեզ և ձեր թիմի արտադրողականությունը:

Շնորհակալություն այս հիանալի հարցազրույցի համար, այն ընթերցողները, ովքեր ցանկանում են ավելին իմանալ, պետք է այցելեն RapidMiner.