stub Ansemble Learning гэж юу вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

Ansemble Learning гэж юу вэ?

mm
шинэчлэгдсэн on

Машин сургалтын хамгийн хүчирхэг аргуудын нэг бол ансамблийн сургалт юм. Чуулга сургалтын Энэ нь таамаглалын найдвартай байдал, үнэн зөв байдлыг сайжруулахын тулд машин сургалтын олон загварыг ашиглах явдал юм. Гэсэн хэдий ч олон тооны машин сургалтын загварыг ашиглах нь илүү үнэн зөв таамаглалд хэрхэн хүргэдэг вэ? Чуулганы сургалтын загварыг бий болгоход ямар төрлийн техник ашигладаг вэ? Бид эдгээр асуултын хариултыг судалж, чуулгын загваруудыг ашиглах үндэслэл болон чуулгын загвар бүтээх үндсэн аргуудыг авч үзэх болно.

Ансемблийн сургалт гэж юу вэ?

Энгийнээр хэлбэл, ансамбль сургалт гэдэг нь олон тооны машин сургалтын загваруудыг сургах, тэдгээрийн үр дүнг нэгтгэх үйл явц юм. Төрөл бүрийн загваруудыг нэг оновчтой таамаглах загварыг бий болгох үндэс болгон ашигладаг. Машин сургалтын олон янзын загваруудыг хослуулах нь ерөнхий загварын тогтвортой байдлыг сайжруулж, илүү үнэн зөв таамаглахад хүргэдэг. Чуулганы сургалтын загварууд нь бие даасан загваруудаас илүү найдвартай байдаг ба үүний үр дүнд тэд машин сургалтын олон тэмцээнд тэргүүн байр эзэлдэг.

Чуулганы сургалтын загварыг бий болгохын тулд инженер ашиглаж болох өөр өөр арга техникүүд байдаг. Энгийн сургалтын арга техникт янз бүрийн загваруудын гаралтыг дундажлах гэх мэт зүйлс багтдаг бол олон үндсэн суралцагч/загваруудын таамаглалыг нэгтгэх зорилгоор тусгайлан боловсруулсан илүү төвөгтэй арга, алгоритмууд байдаг.

Яагаад чуулгын сургалтын аргуудыг ашигладаг вэ?

Машин сургалтын загварууд нь янз бүрийн шалтгааны улмаас бие биенээсээ ялгаатай байж болно. Төрөл бүрийн машин сургалтын загварууд нь популяцийн өгөгдлийн өөр өөр түүвэр дээр ажиллаж, өөр өөр загварчлалын техникийг ашиглаж, өөр таамаглалыг ашиглаж болно.

Та олон тооны хүмүүстэй жижиг тоглоом тоглож байна гэж төсөөлөөд үз дээ. Хэрэв та ганцаараа нэг багт байгаа бол таны мэддэг, мэдэхгүй олон сэдвүүд байх нь гарцаагүй. Одоо та бусад хүмүүстэй нэг багт тоглож байна гэж бодъё. Яг чам шиг тэд өөрсдийн мэргэжлийнхээ талаар бага зэрэг мэдлэгтэй, бусад сэдвүүдийн талаар ямар ч мэдлэггүй байх болно. Гэсэн хэдий ч таны мэдлэгийг нэгтгэх үед та илүү олон салбаруудын талаар илүү нарийвчлалтай таамаглаж, танай багийн мэдлэггүй сэдвүүдийн тоо багасдаг. Энэ нь нарийвчлалыг сайжруулж, алдааг багасгахын тулд янз бүрийн багийн гишүүдийн (бие даасан загвар) таамаглалыг нэгтгэж, чуулгын сургалтын үндэс суурь болдог ижил зарчим юм.

Статистикчид нотолсон Олон хүмүүсээс өгөгдсөн асуултын хариултыг хэд хэдэн боломжит хариулттайгаар таахыг хүсэхэд тэдний бүх хариулт нь магадлалын хуваарилалтыг бүрдүүлдэг. Зөв хариултыг үнэхээр мэддэг хүмүүс итгэлтэйгээр зөв хариултыг сонгох бол буруу хариулт сонгосон хүмүүс таамаглалыг буруу хариултын хүрээнд хуваарилах болно. Өчүүхэн тоглоомын жишээ рүү буцвал, хэрэв та болон таны хоёр найз зөв хариултыг А гэж мэдвэл гурвуулаа А гэж санал өгөх ба таны багийн хариултыг мэдэхгүй бусад гурван хүн буруу өгөх магадлалтай. B, C, D эсвэл E гэж таамаглаж байна. Үр дүн нь А нь гурван саналтай, бусад хариултууд хамгийн ихдээ нэг эсвэл хоёр саналтай байх магадлалтай.

Бүх загварууд тодорхой хэмжээний алдаатай байдаг. Дээр дурдсан шалтгааны улмаас загварууд нь өөр өөр байдаг тул нэг загварын алдаа нь өөр загвараас гарсан алдаанаас өөр байх болно. Бүх алдааг шалгаж үзэхэд тэдгээр нь нэг эсвэл өөр хариултын эргэн тойронд бөөгнөрөхгүй, харин эргэн тойронд нь тараагдах болно. Буруу таамаглал нь үндсэндээ бүх боломжит буруу хариултуудад тархаж, бие биенээ үгүйсгэдэг. Үүний зэрэгцээ өөр өөр загваруудын зөв таамаглалууд нь үнэн зөв хариултын эргэн тойронд хуваагдана. Чуулганы сургалтын аргыг ашиглах үед, зөв хариултыг илүү найдвартай олох боломжтой.

Чуулганы сургалтын энгийн аргууд

Энгийн чуулгын сургалтын аргууд нь ихэвчлэн хэрэглэхэд л ордог статистикийн хураангуй техниктаамаглалын багцын горим, дундаж эсвэл жигнэсэн дундажийг тодорхойлох гэх мэт.

Горим нь тоонуудын дотор хамгийн их тохиолддог элементийг хэлнэ. Горимыг авахын тулд бие даасан сургалтын загварууд өөрсдийн таамаглалыг буцаадаг бөгөөд эдгээр таамаглал нь эцсийн таамаглалд санал өгсөн гэж тооцогддог. Урьдчилан таамаглалын дундаж утгыг тодорхойлох нь таамаглалын арифметик дундажийг хамгийн ойрын бүхэл тоо хүртэл бөөрөнхийлөх замаар л хийдэг. Эцэст нь, жигнэсэн дундажийг таамаглалыг бий болгоход ашигласан загваруудад өөр өөр жин оноож, жин нь тухайн загварын ач холбогдлыг илтгэх замаар тооцоолж болно. Ангиудын таамаглалын тоон дүрслэлийг 0-ээс 1.0 хүртэлх жингийн хамт үржүүлж, бие даасан жигнэсэн таамаглалыг нэгтгэж, үр дүнг хамгийн ойрын бүхэл тоо хүртэл дугуйруулна.

Чуулганы сургалтын дэвшилтэт аргууд

Гурван анхан шатны дэвшилтэт чуулгын сургалтын арга техник байдаг бөгөөд тус бүр нь тодорхой төрлийн машин сургалтын асуудлыг шийдвэрлэхэд зориулагдсан байдаг. "Уутлах" техник Загварын таамаглалын дисперсийг багасгахад ашигладаг ба дисперс нь ижил ажиглалт дээр үндэслэсэн таамаглалын үр дүн хэр их ялгаатай болохыг хэлнэ. "Өсгөх" техникүүд загваруудын хазайлттай тэмцэхэд ашигладаг. Эцэст нь, "овоолох" ерөнхийд нь таамаглалыг сайжруулахад ашигладаг.

Чуулганы сургалтын аргуудыг ерөнхийд нь дараалсан аргууд ба зэрэгцээ чуулгын аргууд гэж хоёр өөр бүлгийн аль нэгэнд хувааж болно.

Суурь суралцагчид/загваруудыг дараалан үүсгэсэн тул дараалсан чуулгын аргууд нь "дараалсан" гэсэн нэрийг авдаг. Дараалсан аргуудын хувьд илүү үнэн зөв таамаглал гаргахын тулд үндсэн суралцагчдын хоорондын хамаарлыг ашиглах нь чухал санаа юм. Буруу шошготой жишээнүүдийн жинг тохируулсан байдаг бол зөв шошготой жишээнүүдийн жин ижил хэвээр байна. Шинэ суралцагч бий болох бүрт жин нь өөрчлөгдөж, нарийвчлал (найдвар) сайжирна.

Дараалсан чуулгын загваруудаас ялгаатай нь зэрэгцээ чуулгын аргууд нь үндсэн суралцагчдыг зэрэгцээ байдлаар үүсгэдэг. Зэрэгцээ ансамбль сургалтыг явуулахдаа үндсэн суралцагчид бие даасан байдгийг ашиглах нь зүйтэй, учир нь суралцагчдын таамаглалыг дундажлах замаар ерөнхий алдааны түвшинг бууруулж болно.

Чуулганы сургалтын аргууд нь нэг төрлийн эсвэл нэг төрлийн шинж чанартай байж болно. Ихэнх сургалтын аргууд нь нэгэн төрлийн байдаг бөгөөд энэ нь сургалтын нэг төрлийн үндсэн загвар/алгоритмыг ашигладаг гэсэн үг юм. Үүний эсрэгээр, нэг төрлийн бус чуулга нь нарийвчлалыг аль болох өндөр байлгахын тулд өөр өөр сургалтын алгоритмуудыг ашиглаж, суралцагчдыг төрөлжүүлж, өөрчилдөг.

Ансамблийн сургалтын алгоритмуудын жишээ

Чуулганы өргөлтийн дүрслэл. Фото: Sirakorn Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Дараалсан чуулга аргын жишээнд орно AdaBoost, XGBoostБолон Градиент модыг нэмэгдүүлэх. Эдгээр нь бүгд өсөлтийн загварууд юм. Эдгээр өсөлтийн загваруудын хувьд сул, дутуу суралцагчдыг илүү хүчирхэг суралцагч болгон хувиргах зорилготой юм. AdaBoost болон XGBoost зэрэг загварууд нь санамсаргүй байдлаар таамаглахаас арай илүү гүйцэтгэлтэй олон сул суралцагчдаас эхэлдэг. Сургалт үргэлжилж байгаа тул өгөгдөлд жин тавьж, тохируулна. Сургалтын өмнөх шатанд суралцагчид буруу ангилсан тохиолдлуудад илүү их ач холбогдол өгдөг. Энэ үйл явц нь хүссэн тооны сургалтын тойрогт давтагдсаны дараа таамаглалыг жигнэсэн нийлбэр (регрессийн даалгаварт) болон жигнэсэн санал хураалтаар (ангилах даалгаврын хувьд) нэгтгэнэ.

Цутгах сурах үйл явц. Зураг: SeattleDataGuy Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Зэрэгцээ чуулгын загварын жишээ нь a Санамсаргүй ой ангилагч, Санамсаргүй ой нь мөн уутлах аргын жишээ юм. "Баглах" гэсэн нэр томъёо нь "bootstrap aggregation" гэсэн үгнээс гаралтай. Нийт өгөгдлийн багцаас дээжийг үндсэн суралцагчид таамаглахад ашигладаг "bootstrap sampling" гэж нэрлэгддэг түүвэрлэлтийн аргыг ашиглан авдаг. Ангиллын даалгаврын хувьд үндсэн загваруудын үр дүнг санал хураалтаар нэгтгэж, харин регрессийн даалгаврын хувьд дунджийг нь хамтад нь гаргадаг. Random Forests нь бие даасан шийдвэрийн модыг үндсэн суралцагч болгон ашигладаг бөгөөд чуулга дахь мод бүрийг өгөгдлийн багцаас өөр түүвэр ашиглан бүтээдэг. Модыг үүсгэхийн тулд функцүүдийн санамсаргүй дэд багцыг бас ашигладаг. Найдвартай таамаглал гаргахын тулд бүгдийг нь нэгтгэсэн өндөр санамсаргүй байдлаар бие даасан шийдвэрийн модыг бий болгоход хүргэдэг.

Чуулганы овоолох дүрслэл. Зураг: Wikimedia Commons-ээр дамжуулан Supun Setunga, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Стеклэх чуулга техникийн хувьд олон регресс эсвэл ангиллын загваруудыг дээд түвшний мета загвараар дамжуулан нэгтгэдэг. Доод түвшний суурь загварууд нь бүх өгөгдлийн багцаар тэжээгддэг. Үндсэн загваруудын гаралтыг дараа нь мета-загварыг сургах функц болгон ашигладаг. Овоолсон чуулгын загварууд нь ихэвчлэн нэг төрлийн шинж чанартай байдаг.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.