քոթուկ Ի՞նչ է անսամբլային ուսուցումը: - Միացեք.AI
Միացեք մեզ
AI Masterclass.

AI 101 թ

Ի՞նչ է անսամբլային ուսուցումը:

mm
Թարմացվել է on

Մեքենայի ուսուցման ամենահզոր մեթոդներից մեկը անսամբլային ուսուցումն է: միասին ուսուցման մեքենայական ուսուցման բազմաթիվ մոդելների օգտագործումն է՝ կանխատեսումների հուսալիությունն ու ճշգրտությունը բարելավելու համար: Այնուամենայնիվ, ինչպե՞ս է մեքենայական ուսուցման բազմաթիվ մոդելների օգտագործումը հանգեցնում ավելի ճշգրիտ կանխատեսումների: Ինչպիսի՞ մեթոդներ են օգտագործվում անսամբլային ուսուցման մոդելներ ստեղծելու համար: Մենք կուսումնասիրենք այս հարցերի պատասխանները՝ նայելով անսամբլային մոդելների օգտագործման հիմնավորմանը և անսամբլային մոդելների ստեղծման հիմնական ուղիներին:

Ի՞նչ է անսամբլային ուսուցումը:

Պարզ ասած, անսամբլային ուսուցումը մեքենայական ուսուցման բազմաթիվ մոդելների վերապատրաստման և դրանց արդյունքները միասին համատեղելու գործընթաց է: Տարբեր մոդելները օգտագործվում են որպես հիմք մեկ օպտիմալ կանխատեսող մոդել ստեղծելու համար: Անհատական ​​մեքենայական ուսուցման մոդելների բազմազան հավաքածուի համադրումը կարող է բարելավել ընդհանուր մոդելի կայունությունը՝ հանգեցնելով ավելի ճշգրիտ կանխատեսումների: Անսամբլային ուսուցման մոդելները հաճախ ավելի հուսալի են, քան առանձին մոդելները, և արդյունքում նրանք հաճախ առաջինն են զբաղեցնում մեքենայական ուսուցման բազմաթիվ մրցույթներում:

Կան տարբեր տեխնիկաներ, որոնք ինժեները կարող է օգտագործել անսամբլային ուսուցման մոդել ստեղծելու համար: Համույթի ուսուցման պարզ տեխնիկան ներառում է այնպիսի բաներ, ինչպիսիք են տարբեր մոդելների արդյունքների միջինացումը, մինչդեռ կան նաև ավելի բարդ մեթոդներ և ալգորիթմներ, որոնք մշակվել են հատկապես բազմաթիվ հիմնական սովորողների/մոդելների կանխատեսումները միասին համատեղելու համար:

Ինչու՞ օգտագործել անսամբլի վերապատրաստման մեթոդները:

Մեքենայի ուսուցման մոդելները կարող են տարբերվել միմյանցից տարբեր պատճառներով: Մեքենայական ուսուցման տարբեր մոդելներ կարող են գործել պոպուլյացիայի տվյալների տարբեր նմուշների վրա, կարող են օգտագործվել տարբեր մոդելավորման մեթոդներ և կարող են օգտագործվել տարբեր վարկածներ:

Պատկերացրեք, որ դուք մանրուք եք խաղում մարդկանց մեծ խմբի հետ: Եթե ​​դուք ինքներդ թիմում եք, անպայման կլինեն որոշ թեմաներ, որոնց մասին դուք գիտելիք ունեք, և շատ թեմաներ, որոնց մասին չգիտեք: Հիմա ենթադրեք, որ դուք խաղում եք թիմում այլ մարդկանց հետ: Ճիշտ այնպես, ինչպես դուք, նրանք կունենան որոշակի գիտելիքներ իրենց մասնագիտությունների վերաբերյալ և ոչ մի իմացություն այլ թեմաների վերաբերյալ: Այնուամենայնիվ, երբ ձեր գիտելիքները համակցված են, դուք ավելի ճշգրիտ կռահումներ եք ունենում ավելի շատ ոլորտների համար, և այն թեմաների թիվը, որոնց մասին ձեր թիմը չի տիրապետում գիտելիքների, նվազում է: Սա նույն սկզբունքն է, որի հիմքում ընկած է անսամբլային ուսուցումը, որը միավորում է թիմի տարբեր անդամների կանխատեսումները (առանձին մոդելներ)՝ բարելավելու ճշգրտությունը և նվազագույնի հասցնելու սխալները:

Վիճակագիրներն ապացուցել են որ երբ մարդկանց ամբոխին խնդրում են գուշակել տրված հարցի ճիշտ պատասխանը մի շարք հնարավոր պատասխաններով, նրանց բոլոր պատասխանները կազմում են հավանականության բաշխում: Մարդիկ, ովքեր իսկապես գիտեն ճիշտ պատասխանը, վստահորեն կընտրեն ճիշտ պատասխանը, մինչդեռ սխալ պատասխանները ընտրող մարդիկ կբաշխեն իրենց գուշակությունները հնարավոր սխալ պատասխանների միջակայքում: Վերադառնալով մանրուքների խաղի օրինակին, եթե դուք և ձեր երկու ընկերները գիտեք, որ ճիշտ պատասխանը A է, դուք երեքն էլ կքվեարկեք A-ին, մինչդեռ ձեր թիմի մյուս երեք մարդիկ, ովքեր չգիտեն պատասխանը, ամենայն հավանականությամբ, սխալ են: գուշակեք B, C, D կամ E: Արդյունքն այն է, որ A-ն ունի երեք ձայն, իսկ մյուս պատասխանները, հավանաբար, կունենան առավելագույնը մեկ կամ երկու ձայն:

Բոլոր մոդելներն ունեն որոշակի քանակությամբ սխալներ: Մի մոդելի սխալները կտարբերվեն մեկ այլ մոդելի կողմից արտադրված սխալներից, քանի որ մոդելներն իրենք տարբերվում են վերը նկարագրված պատճառներով: Երբ բոլոր սխալները ուսումնասիրվեն, դրանք չեն հավաքվի այս կամ այն ​​պատասխանի շուրջ, ավելի շուտ կցրվեն շուրջը: Սխալ ենթադրությունները, ըստ էության, տարածվում են բոլոր հնարավոր սխալ պատասխանների վրա՝ չեղյալ համարելով միմյանց: Մինչդեռ տարբեր մոդելներից ճիշտ գուշակությունները կհավաքվեն ճշմարիտ, ճիշտ պատասխանի շուրջ: Երբ օգտագործվում են անսամբլային վերապատրաստման մեթոդներ, ճիշտ պատասխանը կարելի է գտնել ավելի մեծ վստահությամբ.

Համույթի ուսուցման պարզ մեթոդներ

Համույթի ուսուցման պարզ մեթոդները սովորաբար ներառում են միայն կիրառումը վիճակագրական ամփոփման տեխնիկաs, ինչպիսիք են կանխատեսումների մի շարքի ռեժիմը, միջինը կամ կշռված միջինը որոշելը:

Ռեժիմը վերաբերում է թվերի հավաքածուի մեջ ամենահաճախ հանդիպող տարրին: Ռեժիմը ստանալու համար անհատական ​​ուսուցման մոդելները վերադարձնում են իրենց կանխատեսումները, և այդ կանխատեսումները համարվում են վերջնական կանխատեսման ձայներ: Կանխատեսումների միջինը որոշելը կատարվում է պարզապես կանխատեսումների միջին թվաբանականը հաշվարկելով՝ կլորացված մինչև մոտակա ամբողջ թիվը։ Վերջապես, կշռված միջինը կարող է հաշվարկվել՝ տարբեր կշիռներ վերագրելով կանխատեսումներ ստեղծելու համար օգտագործվող մոդելներին, որոնց կշիռները ներկայացնում են այդ մոդելի ընկալվող կարևորությունը: Դասի կանխատեսման թվային ներկայացումը բազմապատկվում է կշռի կողքին 0-ից մինչև 1.0, առանձին կշռված կանխատեսումները այնուհետև գումարվում են միասին, և արդյունքը կլորացվում է մինչև մոտակա ամբողջ թիվը:

Անսամբլի վերապատրաստման առաջադեմ մեթոդներ

Գոյություն ունեն անսամբլների ուսուցման երեք առաջնային առաջադեմ տեխնիկա, որոնցից յուրաքանչյուրը նախատեսված է մեքենայական ուսուցման որոշակի տեսակի խնդիրների լուծման համար: «Փաթեթավորման» տեխնիկա օգտագործվում են մոդելի կանխատեսումների շեղումը նվազեցնելու համար, ընդ որում շեղումը վերաբերում է նրան, թե որքանով է տարբերվում կանխատեսումների արդյունքը, երբ հիմնված է նույն դիտարկման վրա: «Խթանման» տեխնիկա օգտագործվում են մոդելների կողմնակալության դեմ պայքարելու համար: Վերջապես, «դասավորում» օգտագործվում է ընդհանուր առմամբ կանխատեսումները բարելավելու համար:

Անսամբլային ուսուցման մեթոդներն իրենք ընդհանուր առմամբ կարելի է բաժանել երկու տարբեր խմբերից մեկի՝ հաջորդական մեթոդների և զուգահեռ անսամբլի մեթոդների:

Հերթական անսամբլի մեթոդները ստանում են «հաջորդական» անվանումը, քանի որ հիմնական սովորողները/մոդելները ստեղծվում են հաջորդաբար: Հաջորդական մեթոդների դեպքում էական գաղափարն այն է, որ բազային սովորողների միջև կախվածությունն օգտագործվում է ավելի ճշգրիտ կանխատեսումներ ստանալու համար: Սխալ պիտակավորված օրինակների կշիռները ճշգրտվում են, մինչդեռ պատշաճ պիտակավորված օրինակները պահպանում են նույն կշիռները: Ամեն անգամ, երբ նոր սովորող է ստեղծվում, կշիռները փոխվում են և ճշգրտությունը (հուսով եմ) բարելավվում է:

Ի տարբերություն հաջորդական անսամբլի մոդելների, զուգահեռ անսամբլի մեթոդները զուգահեռաբար ստեղծում են բազային սովորողներ: Զուգահեռ անսամբլային ուսուցում իրականացնելիս գաղափարն այն է, որ օգտագործվի բազային սովորողների անկախության փաստը, քանի որ ընդհանուր սխալի մակարդակը կարող է կրճատվել՝ միջինացնելով առանձին սովորողների կանխատեսումները:

Համույթի ուսուցման մեթոդները կարող են լինել միատարր կամ տարասեռ բնույթով: Համույթի ուսուցման մեթոդների մեծ մասը միատարր են, ինչը նշանակում է, որ դրանք օգտագործում են բազային ուսուցման մոդելի/ալգորիթմի մեկ տեսակ: Ի հակադրություն, տարասեռ անսամբլները օգտագործում են տարբեր ուսուցման ալգորիթմներ՝ դիվերսիֆիկացնելով և տարբերելով սովորողներին՝ ապահովելու, որ ճշգրտությունը հնարավորինս բարձր է:

Անսամբլային ուսուցման ալգորիթմների օրինակներ

Անսամբլի խթանման վիզուալիզացիա: Լուսանկարը՝ Սիրակորնը Wikimedia Commons-ի միջոցով, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Հերթական անսամբլի մեթոդների օրինակները ներառում են AdaBoost, XGBoost, եւ Գրադիենտ ծառի ուժեղացում. Սրանք բոլորը խթանող մոդելներ են: Այս խթանող մոդելների համար նպատակն է թույլ, անբավարար սովորողներին ավելի հզոր սովորողների վերածել: AdaBoost-ի և XGBoost-ի նման մոդելները սկսում են շատ թույլ սովորողներով, որոնք մի փոքր ավելի լավ են աշխատում, քան պատահական գուշակելը: Երբ վերապատրաստումը շարունակվում է, կշիռները կիրառվում են տվյալների վրա և ճշգրտվում: Ավելի մեծ կշիռ է տրվում այն ​​դեպքերին, որոնք սովորողների կողմից սխալ դասակարգվել են վերապատրաստման ավելի վաղ փուլերում: Այն բանից հետո, երբ այս գործընթացը կրկնվում է ցանկալի քանակի վերապատրաստման փուլերի համար, կանխատեսումները միավորվում են կամ կշռված գումարի (հետընթաց առաջադրանքների համար) և կշռված ձայնի (դասակարգման առաջադրանքների համար) միջոցով:

Պարկերի ուսուցման գործընթացը. Լուսանկարը՝ SeattleDataGuy Wikimedia Commons-ի միջոցով, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Զուգահեռ անսամբլի մոդելի օրինակ է ա Պատահական անտառ դասակարգիչ, և Random Forests-ը նաև պարկերի տեխնիկայի օրինակ է: «Bagging» տերմինը գալիս է «bootstrap agregation»-ից: Նմուշները վերցվում են ընդհանուր տվյալների հավաքածուից՝ օգտագործելով նմուշառման տեխնիկան, որը հայտնի է որպես «bootstrap sampling», որն օգտագործվում է հիմնական սովորողների կողմից կանխատեսումներ անելու համար: Դասակարգման առաջադրանքների համար բազային մոդելների արդյունքները հավաքվում են քվեարկության միջոցով, մինչդեռ դրանք միջինացվում են միասին ռեգրեսիայի առաջադրանքների համար: Random Forests-ը օգտագործում է առանձին որոշումների ծառեր՝ որպես իրենց բազային սովորողներ, և անսամբլի յուրաքանչյուր ծառ կառուցվում է՝ օգտագործելով տվյալների հավաքածուից տարբեր նմուշներ: Ծառը ստեղծելու համար օգտագործվում է նաև հատկանիշների պատահական ենթաբազմություն: Առաջնորդում է խիստ պատահականացված անհատական ​​որոշումների ծառերի, որոնք բոլորը համակցված են՝ հուսալի կանխատեսումներ ապահովելու համար:

Անսամբլների կուտակման պատկերացում: Լուսանկարը՝ Supun Setunga Wikimedia Commons-ի միջոցով, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Անսամբլի շարման տեխնիկայի առումով բազմակի ռեգրեսիայի կամ դասակարգման մոդելները միավորվում են միասին ավելի բարձր մակարդակի՝ մետա-մոդելի միջոցով: Ստորին մակարդակի, բազային մոդելները վերապատրաստվում են՝ սնուցելով ամբողջ տվյալների բազան: Հիմնական մոդելների ելքերը այնուհետև օգտագործվում են որպես մետա-մոդելը պատրաստելու առանձնահատկություններ: Stacking անսամբլների մոդելները հաճախ տարասեռ բնույթ են կրում:

Բլոգեր և ծրագրավորող մասնագիտություններով Machine Learning և Խորը ուսուցում թեմաներ. Դանիելը հույս ունի օգնել ուրիշներին օգտագործել AI-ի ուժը սոցիալական բարօրության համար: