stub Өгөгдлийн шинжлэх ухааны салбар дахь энгийн шугаман регресс - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Өгөгдлийн шинжлэх ухааны салбар дахь энгийн шугаман регресс

mm
шинэчлэгдсэн on

Өгөгдлийн шинжлэх ухаан бол өдөр ирэх тусам хөгжиж буй өргөн уудам салбар юм. Өнөөдөр шилдэг компаниуд энэ салбар болон түүнтэй холбоотой ойлголтуудын талаар хүчтэй мэдлэгтэй мэргэжлийн өгөгдөл судлаачдыг хайж байна. Энэ салбарт сайн ажиллахын тулд мэдээллийн шинжлэх ухааны бүх алгоритмын талаар сайн мэдлэгтэй байх нь чухал юм. Өгөгдлийн шинжлэх ухааны хамгийн үндсэн алгоритмуудын нэг бол энгийн шугаман регресс юм. Дата судлаач бүр энэ алгоритмыг асуудлыг шийдэж, үр дүнтэй үр дүнд хүрэхийн тулд хэрхэн ашиглахаа мэддэг байх ёстой.

Энгийн шугаман регресс нь оролт ба гаралтын хувьсагчдын хоорондын хамаарлыг тодорхойлох арга зүй юм. Оролтын хувьсагчдыг бие даасан хувьсагч эсвэл таамаглагч гэж үздэг ба гаралтын хувьсагчийг хамааралтай хувьсагч эсвэл хариулт гэж үзнэ. Энгийн шугаман регрессийн хувьд зөвхөн нэг оролтын хувьсагчийг авч үздэг.

Энгийн шугаман регрессийн бодит цагийн жишээ

Ажилласан цаг, гүйцэтгэсэн ажлын хэмжээ гэсэн хоёр параметрээс бүрдэх өгөгдлийн багцыг авч үзье. Энгийн шугаман регресс нь ажлын цагийг өгсөн тохиолдолд гүйцэтгэсэн ажлын хэмжээг таах зорилготой. Регрессийн шугамыг зурсан бөгөөд энэ нь хамгийн бага алдаа үүсгэдэг. Шугаман тэгшитгэлийг бас бий болгож, дараа нь бараг бүх өгөгдлийн багцад ашиглаж болно.

Энгийн шугаман регрессийн зорилгыг дүрсэлсэн зарчмууд: 

Энгийн шугаман регрессийг өгөгдлийн багц дахь хувьсагчдын хоорондын хамаарлыг урьдчилан таамаглах, утга учиртай дүгнэлт гаргахад ашигладаг. Энгийн шугаман регрессийг голчлон хувьсагчдын хоорондын статистик хамаарлыг гаргахад ашигладаг бөгөөд энэ нь хангалттай үнэн зөв биш юм. Дөрвөн үндсэн зарчим нь энгийн шугаман регрессийн хэрэглээг дүрсэлдэг. Эдгээр зарчмуудыг доор жагсаав.

  1. Хоёр хувьсагчийн хоорондын хамаарлыг шугаман ба нэмэлт гэж үзнэ. Хамааралтай ба бие даасан хувьсагч бүрийн хувьд шулуун шугамын функцийг тогтооно. Энэ шугамын налуу нь өгөгдлийн багцад байгаа хувьсагчдын утгуудаас өөр байна. Хараат хэмжигдэхүүн нь бие даасан хувьсагчийн утгуудад нэмэлт нөлөө үзүүлдэг.
  2. Алдаа нь статистикийн хувьд бие даасан байна: Цаг хугацаа, цуваатай холбоотой мэдээллийг агуулсан өгөгдлийн багцын хувьд энэ зарчмыг авч үзэж болно. Ийм өгөгдлийн багцын дараалсан алдаа нь харилцан хамааралгүй бөгөөд статистикийн хувьд бие даасан байдаг.
  3. Алдаа нь тогтмол хэлбэлзэлтэй байдаг (гомоскедастик):  Алдааны ижил төстэй байдлыг янз бүрийн параметрүүд дээр үндэслэн авч үзэж болно. Эдгээр параметрүүд нь цаг хугацаа, бусад урьдчилсан мэдээ болон бусад хувьсагчдыг агуулдаг.
  4. Алдааны тархалтын хэвийн байдал:  Энэ нь дээр дурдсан бусад гурвыг дэмждэг тул чухал зарчим юм. Хэрэв өгөгдлийн багц дахь хувьсагчдын хоорондын хамаарлыг тогтоох боломжгүй эсвэл дээрх зарчмуудын аль нэг нь тогтоогдоогүй бол загвараас гаргасан бүх таамаглал, дүгнэлт буруу байна. Буруу, төөрөгдүүлсэн мэдээлэл ашиглавал бодит үр дүн гарахгүй тул эдгээр дүгнэлтийг цаашид төсөлд ашиглах боломжгүй.

Энгийн шугаман регрессийн давуу тал

  • Энэхүү аргачлалыг хэрэглэхэд тун хялбар бөгөөд үр дүнг хялбархан олж авах боломжтой.
  • Энэ арга нь өгөгдлийн шинжлэх ухааны бусад алгоритмуудтай харьцуулахад маш бага төвөгтэй, ялангуяа хамааралтай болон бие даасан хувьсагчдын хоорондын хамаарлыг мэддэг бол.
  • Хэт таарах нь энэ аргачлал нь утгагүй мэдээлэл авах үед тохиолддог нийтлэг нөхцөл юм. Энэ асуудлыг шийдвэрлэхийн тулд нарийн төвөгтэй байдлыг багасгах замаар хэт тохируулга хийх асуудлыг багасгадаг зохицуулалтын техникийг ашиглах боломжтой.

Энгийн шугаман регрессийн сул тал

  • Хэт тохируулгатай холбоотой асуудлыг арилгах боломжтой ч үүнийг үл тоомсорлож болохгүй. Энэ арга нь утгагүй өгөгдлийг харгалзан үзэхээс гадна ач холбогдолтой мэдээллийг арилгах боломжтой. Ийм тохиолдолд бүх таамаглал нь тодорхой өгөгдлийн багцын талаархи дүгнэлт бөгөөд буруу байх бөгөөд үр дүнтэй үр дүн гарах боломжгүй болно.
  • Өгөгдлийн хэтийн асуудал бас маш түгээмэл байдаг. Хэт их утгууд нь яг өгөгдөлтэй таарахгүй буруу утгууд гэж тооцогддог. Ийм утгыг харгалзан үзвэл бүх загвар нь ямар ч ашиггүй төөрөгдүүлсэн үр дүнг гаргах болно.
  • Энгийн шугаман регрессийн хувьд гарт байгаа өгөгдөл нь бие даасан өгөгдөлтэй гэж тооцогддог. Хувьсагчдын хооронд зарим нэг хамаарал байж болох тул энэ таамаг буруу байна.

Энгийн шугаман регресс нь өгөгдлийн багц дахь янз бүрийн оролт, гаралтын хувьсагчдын хамаарлыг тодорхойлох ашигтай арга юм. Энгийн шугаман регрессийн бодит цагийн хэд хэдэн програмууд байдаг. Энэ алгоритм нь өндөр тооцооллын хүч шаарддаггүй бөгөөд үүнийг хялбархан хэрэгжүүлэх боломжтой. Гаргасан тэгшитгэлүүд болон дүгнэлтүүд нь цааш нь бүтээж болох бөгөөд ойлгоход маш энгийн. Гэсэн хэдий ч зарим мэргэжилтнүүд энгийн шугаман регрессийг янз бүрийн хэрэглээнд ашиглахад тохиромжтой арга зүй биш гэж үздэг тул маш олон таамаглал байдаг. Эдгээр таамаглал нь бас буруу байж магадгүй юм. Тиймээс энэ аргыг зөв хэрэглэж болох газар бүрт хэрэглэх шаардлагатай.

Мэдээллийн технологийн салбарт 8-аас дээш жил ажилласан туршлагатай Data Scient-ийн ажилтнууд. Өгөгдлийн шинжлэх ухаан, дижитал маркетингийн чиглэлээр мэргэшсэн. Мэргэжлийн чиглэлээр судлагдсан техникийн агуулгын чиглэлээр мэргэшсэн.