Хиймэл оюун

Уян хатан байдал > Нарийвчлал: Яагаад "загварын уян хатан байдал" нь загваруудыг ажиллуулах жинхэнэ хэмжигдэхүүн байх ёстой вэ?

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Инго Миерсва, Үүсгэн байгуулагч, Ерөнхийлөгч, Мэдээлэл хариуцсан ахлах мэргэжилтэн RapidMiner.

Өгөгдлийн шинжлэх ухаан сүүлийн хоёр жилд ихээхэн ахиц дэвшил гаргасан бөгөөд олон байгууллага үйл явцын талаар илүү гүнзгий ойлголттой болох, зарим тохиолдолд ирээдүйн үр дүнг урьдчилан таамаглахын тулд дэвшилтэт дүн шинжилгээ эсвэл машин сургалтын загваруудыг ашиглаж байна. Бусад "шинжлэх ухаан" -ын хувьд төсөл амжилттай болох эсэх нь ихэвчлэн тодорхойгүй байдаг бөгөөд ийм мэдээлэл байдаг. өгөгдлийн шинжлэх ухааны төслүүдийн 87% нь хэзээ ч үйлдвэрлэлд ордоггүй. Хэдийгээр 100% амжилтыг хүлээж чадахгүй ч өгөгдлийн шинжлэх ухааны төслүүдэд зарим загвар байдаг бөгөөд энэ салбарт хүлээн зөвшөөрөгдөх хэмжээнээс өндөр амжилтыг бий болгодог. Эдгээр асуудалтай хэв маяг нь ямар нэгэн тодорхой салбар эсвэл хэрэглээний тохиолдлуудаас үл хамааран оршин тогтнож байгаа мэт санагддаг бөгөөд энэ нь мэдээллийн шинжлэх ухаанд шийдвэрлэх ёстой бүх нийтийн асуудал байгааг харуулж байна.

Машин сургалтын амжилтыг хэмжих

Машин сургалтын (ML) загварыг бүтээдэг өгөгдөл судлаачид эдгээр загварууд хэр сайн ажиллаж байгааг хэмжихийн тулд сайн тодорхойлсон математикийн шалгуурт тулгуурладаг. Эдгээр шалгууруудын алийг нь хэрэглэх нь тухайн загварын төрлөөс хамаарна. Загвар нь шинэ нөхцөл байдалд анги, ангиллыг урьдчилан таамаглах ёстой гэж үзье - жишээлбэл, үйлчлүүлэгч гацах эсэх. Ийм нөхцөлд өгөгдөл судлаачид нарийвчлал (загвар хэр олон удаа зөв байдаг) эсвэл нарийвчлал (хэрэв бид алдагдлыг урьдчилан таамаглаж байгаа бол үйлчлүүлэгчид хэр олон удаа эргэлддэг) гэх мэт хэмжилтийг ашигладаг.

Өгөгдөл судлаачдад үүнтэй адил бодитой шалгуурууд хэрэгтэй байдаг, учир нь тэдний ажлын нэг хэсэг нь хамгийн сайн загвар гаргахын тулд үнэлгээний шалгуурыг оновчтой болгох явдал юм. Үнэн хэрэгтээ загварчлалд бэлэн болгохын тулд өгөгдлийг бэлтгэхийн хажуугаар тэдгээр загварыг бий болгох, тохируулах ажил байдаг өгөгдөл судлаачид ихэнх цагаа хаана зарцуулдаг.

Үүний сул тал нь өгөгдөл судлаачид эдгээр загваруудыг үйлдвэрлэлд нэвтрүүлэхэд төдийлөн анхаарал хандуулдаггүй нь нэгээс олон шалтгааны улмаас асуудал юм. Юуны өмнө амжилттай үр дүнд хүрээгүй загваруудыг ашиглаж буй байгууллагуудад бизнесийн үр нөлөөг бий болгоход ашиглах боломжгүй юм. Хоёрдугаарт, эдгээр байгууллагууд "бодит ертөнцийн" өгөгдөлтэй харьцахдаа үр дүнд хүрээгүй загваруудыг боловсруулах, сургах, ажиллуулахад цаг хугацаа, мөнгөө зарцуулсан тул ML болон бусад мэдээллийн шинжлэх ухааны хэрэгслийг өөрсдийн байгууллагад ашиггүй гэж үзэхгүй байх магадлалтай. өгөгдлийн шинжлэх ухааны ирээдүйн санаачлагыг урагшлуулахаас татгалзаж байна.

Үнэн бол өгөгдөл судлаачид загвараа өөрчлөхөд таатай байдаг бөгөөд үүнд маш их цаг зарцуулдаг. Гэвч бизнесийн нөлөөлөлгүйгээр энэ цагийг ухаалгаар зарцуулдаггүй бөгөөд энэ нь өнөөгийн ертөнцөд өгөгдлийн эрдэмтдийн нөөц хомс байгааг харгалзан үзэхэд маш их эмзэглэж байна.

Netflix шагнал болон үйлдвэрлэлийн бүтэлгүйтэл

Загвар бүтээхэд хэт их хөрөнгө оруулалт хийдэг болохоос загварыг ашиглалтад оруулахад хэт их хөрөнгө зарцуулдаг энэ үзэгдэл сүүлийн жилүүдэд гарч байгааг бид харсан. The Netflix шагнал киноны хэрэглэгчийн үнэлгээг урьдчилан таамаглах шилдэг хамтарсан шүүлтүүрийн алгоритмын нээлттэй тэмцээн байсан. Хэрэв та шинэ кинонд өндөр үнэлгээ өгөх гэж байгаа бол энэ кино танд таалагдсан байх магадлалтай - тиймээс энэ үнэлгээний системийг ашигласнаар Netflix танд тодорхой гарчгийг санал болгох бөгөөд хэрэв танд санал болгож буй контент таалагдвал та Netflix-ийн үйлчлүүлэгчийн хувиар удаан байх болно. Гран-при нь Netflix-ийн өөрийн алгоритмыг дор хаяж 1%-иар сайжруулж чадсан багт 10 сая долларын нийлбэр байсан.

Энэхүү сорилт нь 2006 онд эхэлсэн ба дараагийн гурван жилийн хугацаанд дэлхийн хэмжээнд 40,000 гаруй мэдээллийн шинжлэх ухааны багийн оруулсан хувь нэмэр нь цолны зөвлөмжийн амжилтыг 10% -иар гайхалтай сайжруулахад хүргэсэн. Гэсэн хэдий ч түрүүлсэн багийн загвар өмсөгчид хэзээ ч ашиглалтад ороогүй. Netflix "нарийвчлалын өсөлт нь эдгээр загваруудыг үйлдвэрлэлд нэвтрүүлэхэд шаардагдах хүчин чармайлтыг зөвтгөсөнгүй" гэж мэдэгдэв.

Яагаад оновчтой гэдэг нь үргэлж оновчтой байдаггүй

Загварын нарийвчлал болон бусад өгөгдлийн шинжлэх ухааны шалгууруудыг тухайн загварыг үйлдвэрлэлд оруулахаас өмнө загварын амжилтыг хэмжих хэмжүүр болгон удаан хугацаагаар ашиглаж ирсэн. Бидний харж байгаагаар олон загвар өмсөгчид хэзээ ч энэ шатанд хүрч чаддаггүй бөгөөд энэ нь эрчим хүч, зарцуулсан цаг хугацааны хувьд нөөцийг дэмий үрдэг.

Гэхдээ загварыг өөрчлөхөд хэт их хөрөнгө оруулалт хийх соёлд илүү олон асуудал бий. Эхнийх нь туршилтын өгөгдөлд санамсаргүйгээр хэт нийцсэн загварууд бөгөөд энэ нь менежерийн өгөгдөл судлаачийн хувьд сайн харагддаг боловч үйлдвэрлэлд нэг удаа дутуу ажилладаг, заримдаа бүр хор хөнөөл учруулдаг. Энэ нь хоёр шалтгааны улмаас тохиолддог:

Туршилтын алдаа болон үйлдвэрлэлд харагдах хоёрын хооронд сайн мэдэгдэж буй зөрүү байдаг
Бизнесийн нөлөөлөл ба өгөгдлийн шинжлэх ухааны гүйцэтгэлийн шалгуур нь ихэвчлэн харилцан уялдаатай байдаг ч "оновчтой" загварууд нь үргэлж хамгийн их нөлөө үзүүлдэггүй.

Дээрх эхний цэгийг мөн " гэж нэрлэдэг.туршилтын багцад хэт нийцэх.” Энэ нь ялангуяа өгөгдлийн шинжлэх ухааны уралдаанд оролцогчдын дунд алдартай үзэгдэл юм Могой. Эдгээр тэмцээний хувьд та энэ үзэгдлийн илүү хүчтэй хувилбарыг олон нийтийн болон хувийн тэргүүлэгчдийн хооронд аль хэдийн харж болно. Үнэн хэрэгтээ, оролцогч ямар ч боломжгүй Kaggle тэмцээнд олон нийтийн тэргүүлэгчдийн самбарт түрүүлж болно бүр өгөгдлийг уншдаг. Үүний нэгэн адил хувийн тэргүүлэгчдийн самбар болон нийт өрсөлдөөний ялагч нь үнэлэгдсэнээс өөр ямар ч өгөгдлийн багц дээр гүйцэтгэлээ хадгалж чадах загвар гаргаж чадаагүй байж магадгүй юм.

Нарийвчлал нь бизнест нөлөөлдөггүй

Хэт удаан хугацааны туршид бид энэ туршлагыг хүлээн зөвшөөрсөн бөгөөд энэ нь өгөгдлийн багцыг туршихад загваруудыг удаан дасан зохицоход хүргэдэг. Үүний үр дүнд хамгийн сайн загвар нь хамгийн сайндаа дунд зэргийн юм шиг харагдаж байна:

Урьдчилан таамаглах нарийвчлал гэх мэт хэмжилтүүд нь ихэвчлэн бизнесийн нөлөөллийг адилтгадаггүй
Нарийвчлалыг 1% сайжруулах нь бизнесийн үр дүнг 1% болгон хувиргах боломжгүй юм
Бизнесийн нөлөөллийн хувьд бага гүйцэтгэлтэй загвар нь бусдаас илүү гарах тохиолдол байдаг
Засвар үйлчилгээ, онооны хурд эсвэл цаг хугацааны өөрчлөлтийн эсрэг бат бөх байдал ("уян хатан чанар" гэж нэрлэдэг) зэрэг бусад хүчин зүйлсийг мөн харгалзан үзэх ёстой.

Энэ сүүлчийн цэг нь ялангуяа чухал юм. Шилдэг загвар өмсөгчид зөвхөн тэмцээнд түрүүлэх эсвэл мэдээллийн шинжлэх ухааны лабораторид сайхан харагдахаас гадна үйлдвэрлэлд тогтвортой байж, олон төрлийн туршилтын багц дээр сайн ажиллах болно. Эдгээр загваруудыг бид уян хатан загвар гэж нэрлэдэг.

Дрифт ба уян хатан байдлын ач холбогдол

Бүх загварууд цаг хугацааны явцад мууддаг. Ганц асуулт бол энэ нь хэр хурдан болж, өөрчлөгдсөн нөхцөлд загвар нь хэр сайн ажиллаж байгаа юм. Ингэж доройтож буй шалтгаан нь дэлхий тогтворгүй байдагтай холбоотой. Тиймээс тухайн загварт хамаарах өгөгдөл нь цаг хугацааны явцад өөрчлөгддөг. Хэрэв эдгээр өөрчлөлтүүд аажмаар явагдах юм бол бид үүнийг "концепцийн шилжилт" гэж нэрлэдэг. Хэрэв өөрчлөлтүүд гэнэт тохиолдвол бид үүнийг "үзэл баримтлалын өөрчлөлт" гэж нэрлэдэг. Жишээлбэл, хэрэглэгчид чиг хандлага ба/эсвэл маркетингийн нөлөөгөөр хэрэглээнийхээ зан үйлийг аажмаар өөрчилж болно. Пропенситийн загварууд тодорхой цэг дээр ажиллахаа больсон байж магадгүй. Эдгээр өөрчлөлтүүд нь тодорхой нөхцөл байдалд эрс хурдасч болно. Жишээлбэл, COVID-19 нь ариун цэврийн цаас, ариутгагч бодис зэрэг бүтээгдэхүүний борлуулалтыг өдөөсөн нь ийм загварыг бүрмөсөн орхиж чадах тодорхой бүтээгдэхүүний гэнэтийн огцом өсөлт юм.

Уян хатан загвар нь нарийвчлал, нарийвчлал гэх мэт хэмжүүр дээр суурилсан хамгийн сайн загвар биш байж болох ч илүү өргөн хүрээний өгөгдлийн багц дээр сайн ажиллах болно. Энэ шалтгааны улмаас энэ нь удаан хугацааны туршид илүү сайн ажиллах бөгөөд ингэснээр бизнесийн тогтвортой үр нөлөөг илүү сайн хүргэх боломжтой болно.

Шугаман болон бусад төрлийн энгийн загварууд нь ихэвчлэн илүү уян хатан байдаг, учир нь тэдгээрийг тодорхой туршилтын багц эсвэл цаг хугацаанд нь тохируулах нь илүү хэцүү байдаг. Илүү хүчирхэг загваруудыг илүү энгийн загварт "соригч" болгон ашиглаж болох бөгөөд энэ нь өгөгдөл судлаачдад цаг хугацааны явцад дааж чадах эсэхийг мэдэх боломжийг олгодог. Гэхдээ үүнийг загварчлалын эхлэл биш харин төгсгөлийн цэг дээр ашиглах ёстой.

Өгөгдлийн шинжлэх ухааны салбарт уян хатан чанарыг хэмжих албан ёсны KPI хараахан нэвтрээгүй байгаа ч өгөгдөл судлаачид өөрсдийн загвараа хэр тэсвэртэй болохыг үнэлэх хэд хэдэн арга байдаг:

Хөндлөн баталгаажуулалтын ажлын бага стандарт хазайлт нь загварын гүйцэтгэл нь янз бүрийн туршилтын багцын онцлогоос бага хамааралтай гэсэн үг юм.
Мэдээллийн эрдэмтэд бүрэн хөндлөн баталгаажуулалт хийхгүй байсан ч туршилт, баталгаажуулалтад хоёр өөр өгөгдлийн багц ашиглаж болно. Туршилт болон баталгаажуулалтын өгөгдлийн багцын алдааны түвшин хоорондын зөрүү бага байгаа нь уян хатан чанарыг илтгэнэ
Хэрэв загвар нь үйлдвэрлэлд зохих ёсоор хянагддаг бол цаг хугацааны явцад алдааны хувь хэмжээг харж болно. Цаг хугацаа өнгөрөхөд алдааны түвшин тогтмол байх нь загварын уян хатан байдлын сайн шинж тэмдэг юм.
Хэрэв загварын хяналтын сонголт нь зөрөлтийг тооцдог бол өгөгдөл судлаачид тухайн оролтын шилжилт нь загварт хэр сайн нөлөөлж байгааг анхаарч үзэх хэрэгтэй.

Өгөгдлийн шинжлэх ухааны соёлыг өөрчлөх нь

Загварыг ашиглалтын шатанд оруулсны дараа загварын нарийвчлалд аюул заналхийлсээр байна. Загварын уян хатан байдлын талаархи дээрх сүүлийн хоёр зүйл нь үйлдвэрлэлд байгаа загваруудыг зохих ёсоор хянах шаардлагатай. Өгөгдлийн шинжлэх ухааны соёлыг өөрчлөх эхлэлийн цэг болгон загваруудыг зөв хянахад хөрөнгө оруулалт хийж, загваруудыг үйлдвэрлэлд нэвтрүүлсний дараа гүйцэтгэл муутай байгаа мэдээлэл судлаачдад хариуцлага тооцож эхлэхийг компаниудад зөвлөж байна. Энэ нь өгөгдлийн шинжлэх ухааны салбарт загвар бүтээх соёлоос үнэ цэнийг бий болгох, тогтвортой байлгах соёл руу нэн даруй өөрчлөгдөх болно.

Сүүлийн үеийн дэлхийн үйл явдлууд бидэнд харуулсанчлан дэлхий хурдан өөрчлөгдөж байна. Одоо бид цаг хугацааны явцад бизнесийн ач холбогдолтой үр нөлөөг олж авахын тулд зөвхөн үнэн зөв төдийгүй уян хатан загваруудыг бүтээх хэрэгтэй байна. Жишээлбэл, Kaggle нь дэлхий даяар COVID-19-ийн эсрэг тэмцэхэд ашиглах загвар шийдлүүдийг бий болгоход туслах зорилгоор дэлхийн өнцөг булан бүрээс мэдээлэл судлаачдыг цайруулах сорилтыг зохион байгуулж байна. Энэхүү сорилын үр дүнд үйлдвэрлэсэн хамгийн амжилттай загварууд нь хамгийн найдвартай биш харин хамгийн уян хатан байх болно гэж би таамаглаж байна, учир нь бид COVID-19-ийн өгөгдөл нэг өдрийн дотор хэрхэн хурдан өөрчлөгдөж болохыг харсан.

Өгөгдлийн шинжлэх ухаан нь "хамгийн сайн" загварыг гаргах бус үнэнийг олоход чиглэгдэх ёстой. Мэдээллийн эрдэмтэд нарийвчлалаас илүү өндөр стандартыг баримталснаар манай байгууллагуудад бизнест илүү их нөлөө үзүүлж, ирээдүйг эерэгээр тодорхойлоход туслах болно.

Холбогдох сэдвүүд:өгөгдлийн шинжлэх ухаан хурдан уурхайчин

Дараа хүртэл

Орчлон ертөнцийн 3D газрын зургийг бүтээхэд ашигладаг мэдрэлийн сүлжээ

Бүү саад бол

Судлаач уургийн хувирлыг ойлгохын тулд байгалийн хэлээр боловсруулах алгоритмыг ашигладаг

Инго Миерсва, доктор

Инго Миерсва бол хөгжиж эхэлснээсээ хойш салбарын туршлагатай өгөгдөл судлаач юм RapidMiner Германы TU Дортмундын их сургуулийн хиймэл оюун ухааны хэлтэст. Эрдэмтэн Миерсва урьдчилан таамаглах аналитик болон том өгөгдлийн талаар олон шагнал хүртсэн нийтлэл бичсэн. Миерсва, бизнес эрхлэгч нь RapidMiner-ийн үүсгэн байгуулагч юм. Тэрээр стратегийн инновацийг хариуцдаг бөгөөд RapidMiner-ийн технологийн эргэн тойрон дахь бүх том дүр төрхтэй холбоотой асуултуудыг шийддэг. Түүний удирдлаган дор RapidMiner эхний долоон жилийн хугацаанд жил бүр 300% хүртэл өсчээ. 2012 онд тэрээр АНУ, Их Британи, Унгарт оффисуудаа нээснээр олон улсын стратегийг удирдан чиглүүлсэн. Хоёр үе шатны хөрөнгө босгож, Radoop-ийг худалдан авч, Gartner, Forrester зэрэг тэргүүлэгч аналитик фирмүүдэд RapidMiner-ийн байр суурийг дэмжсэний дараа Инго дэлхийн шилдэг багийг RapidMiner-д авчирсандаа маш их бахархаж байна.