stub Шугаман регресс гэж юу вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

Шугаман регресс гэж юу вэ?

mm
шинэчлэгдсэн on

Шугаман регресс гэж юу вэ?

Шугаман регресс нь урьдчилан таамаглах эсвэл дүрслэн харуулахад ашигладаг алгоритм юм хоёр өөр онцлог/хувьсагчийн хоорондын хамаарал. Шугаман регрессийн даалгаварт хоёр төрлийн хувьсагчийг шалгадаг: the хамааралтай хувьсагч ба бие даасан хувьсагч. Бие даасан хувьсагч нь бусад хувьсагчийн нөлөөнд автдаггүй, өөрөө зогсдог хувьсагч юм. Бие даасан хувьсагчийг тохируулахын хэрээр хамааралтай хувьсагчийн түвшин өөрчлөгдөнө. Хараат хувьсагч нь судалж буй хувьсагч бөгөөд үүнийг регрессийн загвар шийддэг/урьдчилан таамаглахыг оролддог. Шугаман регрессийн даалгаврын хувьд ажиглалт/нөхцөл бүр нь хамааралтай хувьсагчийн утга ба бие даасан хувьсагчийн утгаас бүрддэг.

Энэ бол шугаман регрессийн тухай товч тайлбар байсан ч жишээн дээр нь харж, түүний ашигладаг томьёог судалснаар шугаман регрессийн талаар илүү сайн ойлголттой болцгооё.

Шугаман регрессийн тухай ойлголт

Бидэнд хатуу дискний хэмжээ болон тэдгээр хатуу дискний өртөгийг багтаасан мэдээллийн багц байгаа гэж бодъё.

Бидэнд байгаа өгөгдлийн багц нь санах ойн хэмжээ, зардал гэсэн хоёр өөр шинж чанараас бүрддэг гэж бодъё. Бид компьютерт илүү их санах ой худалдаж авах тусам худалдан авалтын өртөг нэмэгддэг. Хэрэв бид бие даасан өгөгдлийн цэгүүдийг тараасан график дээр зурсан бол бид иймэрхүү харагдах графикийг авч болно:

Санах ой, зардлын яг харьцаа нь хатуу дискний үйлдвэрлэгч болон загвараас хамаарч өөр өөр байж болох ч ерөнхийдөө өгөгдлийн чиг хандлага нь зүүн доод хэсгээс эхэлж (хатуу дискүүд хямд, багтаамж багатай байдаг) чиг хандлагатай байдаг. баруун дээд талд (хөтөчүүд илүү үнэтэй, өндөр хүчин чадалтай).

Хэрэв бид X тэнхлэгт санах ойн хэмжээ, Y тэнхлэгт өртөгтэй байсан бол X ба Y хувьсагчдын хоорондын хамаарлыг харуулсан шугам зүүн доод булангаас эхэлж баруун дээд талд гүйх болно.

Регрессийн загварын функц нь хоёр хувьсагчийн хоорондын хамаарлыг хамгийн сайн тодорхойлсон X ба Y хувьсагчдын хоорондох шугаман функцийг тодорхойлох явдал юм. Шугаман регрессийн хувьд Y-ийг оролтын хувьсагчдын зарим хослолоор тооцоолж болно гэж үздэг. Оролтын хувьсагчид (X) болон зорилтот хувьсагчид (Y) хоорондын хамаарлыг график дахь цэгүүдээр шугам татах замаар дүрсэлж болно. Мөр нь X ба Y хоорондын хамаарлыг хамгийн сайн дүрсэлсэн функцийг илэрхийлдэг (жишээлбэл, X 3-аар нэмэгдэх тусам Y нь 2-оор нэмэгддэг). Зорилго нь оновчтой "регрессийн шугам" буюу өгөгдөлд хамгийн сайн тохирох шугам/функцийг олох явдал юм.

Шугамуудыг ихэвчлэн тэгшитгэлээр илэрхийлдэг: Y = m*X + b. X нь хамааралтай хувьсагчийг хэлдэг бол Y нь бие даасан хувьсагч юм. Үүний зэрэгцээ, m нь "гүйлт" дээрх "өсөлт" -ээр тодорхойлогддог шугамын налуу юм. Машины сургалтын мэргэжилтнүүд алдартай налуу шугамын тэгшитгэлийг арай өөрөөр төлөөлж, оронд нь энэ тэгшитгэлийг ашигладаг:

y(x) = w0 + w1 * x

Дээрх тэгшитгэлд y нь зорилтот хувьсагч бөгөөд “w” нь загварын параметрүүд, оролт нь “x” юм. Тиймээс тэгшитгэлийг дараах байдлаар уншина: "X-ээс хамаарч Y-г өгөх функц нь загварын параметрүүдийг шинж чанараар үржүүлсэнтэй тэнцүү байна." Загварын параметрүүдийг сургалтын явцад хамгийн сайн тохирох регрессийн шугамыг авахын тулд тохируулдаг.

Олон шугаман регресс

Фото: Cbaf Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Дээр тайлбарласан процесс нь энгийн шугаман регресс буюу зөвхөн нэг онцлог/бие даасан хувьсагчтай өгөгдлийн багц дээрх регрессэд хамаарна. Гэсэн хэдий ч регрессийг олон функцээр хийж болно. Тохиолдолд "олон шугаман регресс”, тэгшитгэл нь өгөгдлийн багцаас олдсон хувьсагчийн тоогоор нэмэгддэг. Өөрөөр хэлбэл, ердийн шугаман регрессийн тэгшитгэл нь y(x) = w0 + w1 * x байхад олон шугаман регрессийн тэгшитгэл нь y(x) = w0 + w1x1 дээр төрөл бүрийн шинж чанаруудын жин ба оролтыг нэмнэ. Хэрэв бид жин ба шинж чанаруудын нийт тоог w(n)x(n) хэлбэрээр илэрхийлбэл дараах томъёог илэрхийлж болно.

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Шугаман регрессийн томъёог тогтоосны дараа машин сургалтын загвар нь жингийн хувьд өөр өөр утгыг ашиглаж, өөр өөр шугам татах болно. Зорилго нь жингийн боломжит хослолуудын аль нь өгөгдөлд хамгийн сайн тохирохыг тодорхойлохын тулд өгөгдөлд хамгийн сайн тохирох мөрийг олох явдал гэдгийг санаарай.

Тодорхой жингийн утгыг өгөх үед таамагласан Y утгууд нь бодит Y утгатай хэр ойрхон байгааг хэмжихэд зардлын функцийг ашигладаг. Зардлын функц шугаман регрессийн хувьд өгөгдлийн багц дахь янз бүрийн өгөгдлийн цэгүүдийн таамагласан утга ба үнэн утгын хоорондох дундаж (квадрат) алдааг л авдаг дундаж квадрат алдаа юм. Зардлын функцийг урьдчилан тооцоолсон зорилтот үнэ цэнэ болон бодит зорилтот үнэ цэнийн хоорондох зөрүүг тооцдог зардлыг тооцоолоход ашигладаг. Хэрэв тохирох шугам нь өгөгдлийн цэгүүдээс хол байвал зардал өндөр байх ба хувьсагчдын хоорондох үнэн харилцааг тогтооход ойртох тусам зардал багасна. Дараа нь загварын жинг хамгийн бага алдаа гаргадаг жингийн тохиргоог олох хүртэл тохируулна.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.