stub Машины сургалтанд хүний ​​өгөгдлийг бэлтгэх нь нөөц их шаарддаг: Эдгээр хоёр арга нь зардлыг бууруулахад чухал ач холбогдолтой юм - Unite.AI
бидэнтэй хамт холбоно

Бодлын удирдагчид

Машины сургалтанд хүний ​​өгөгдлийг бэлтгэх нь нөөц их шаарддаг: Эдгээр хоёр арга нь зардлыг бууруулахад чухал ач холбогдолтой юм.

mm

Нийтэлсэн

 on

Зохиогч: Даттараж Рао, Мэдээлэл хариуцсан ахлах мэргэжилтэн, Тогтвортой системүүд

Өгөгдлийн оролтоос хамаардаг аливаа системийн нэгэн адил Machine Learning (ML) нь "хог доторх хог хаягдал гаргах" аксиомд захирагддаг. Цэвэр, үнэн зөв хаяглагдсан өгөгдөл нь аливаа ML загварыг бий болгох үндэс суурь юм. ML сургалтын алгоритм нь үндсэн үнэн өгөгдлөөс хэв маягийг ойлгож, тэндээс үл үзэгдэх өгөгдлүүдийг нэгтгэн дүгнэх арга замд суралцдаг. Хэрэв таны сургалтын өгөгдлийн чанар муу байвал ML алгоритмыг тасралтгүй сурч, экстраполяци хийхэд маш хэцүү байх болно.

Гэрийн тэжээмэл нохойг сургах талаар бодоод үзээрэй. Хэрэв та нохойг зан үйлийн үндсэн командуудаар (оролт) зохих ёсоор сургаж чадахгүй эсвэл буруу/буруу хийвэл нохойг ажиглалтаар суралцаж, илүү нарийн төвөгтэй эерэг зан үйлд шилжинэ гэж хэзээ ч хүлээх боломжгүй, учир нь үндсэн орцууд нь байхгүй эсвэл алдаатай байсан. хамт. Хэрэв та мэргэжилтэн авчрах юм бол зохих сургалт нь цаг хугацаа их шаарддаг, тэр ч байтугай зардал ихтэй байдаг, гэхдээ та үүнийг эхнээс нь зөв хийвэл үр дүн нь маш сайн байх болно.

ML загварыг сургахдаа чанартай өгөгдөл үүсгэхийн тулд домэйн мэргэжилтэн өгөгдлийг тайлбар хийхэд цаг зарцуулах шаардлагатай болдог. Үүнд зураг дээрх хүссэн объект бүхий цонхыг сонгох эсвэл текстийн оруулга эсвэл мэдээллийн сангийн бүртгэлд шошго өгөх зэрэг орно. Ялангуяа зураг, видео, текст гэх мэт бүтэцгүй өгөгдлийн хувьд тэмдэглэгээний чанар нь загварын чанарыг тодорхойлоход чухал үүрэг гүйцэтгэдэг. Ихэвчлэн түүхий зураг, текст зэрэг шошгогүй өгөгдөл элбэг байдаг ч шошго нь хүчин чармайлтыг оновчтой болгох шаардлагатай байдаг. Энэ бол ML-ийн амьдралын мөчлөгийн хүнтэй холбоотой хэсэг бөгөөд ихэвчлэн аливаа ML төслийн хамгийн үнэтэй бөгөөд хөдөлмөр их шаардсан хэсэг юм.

Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS, DataRobot хүн-in-the-loop зэрэг өгөгдлийн тэмдэглэгээний хэрэгслүүд нь чанарыг байнга сайжруулж, домайны мэргэжилтнүүдэд ойлгомжтой интерфэйсээр хангадаг. Гэсэн хэдий ч домэйн мэргэжилтнүүдийн өгөгдөлд тайлбар оруулахад шаардагдах хугацааг багасгах нь өнөөдөр аж ахуйн нэгжүүдийн хувьд чухал сорилт хэвээр байна, ялангуяа мэдээллийн шинжлэх ухааны авъяас чадвар хязгаарлагдмал боловч эрэлт ихтэй орчинд. Эндээс өгөгдөл бэлтгэх хоёр шинэ хандлага гарч ирдэг.

Идэвхтэй сурах

Идэвхтэй суралцах нь ML загвар нь домэйн мэргэжилтэнээс тодорхой тэмдэглэгээг идэвхтэй асуудаг арга юм. Энд гол анхаарал нь шошгогүй өгөгдлийн талаар бүрэн тайлбар авах биш, харин зүгээр л зөв өгөгдлийн цэгүүдийг тэмдэглэснээр загвар нь илүү сайн суралцах болно. Эмнэлгийн эмч нарт өвчтөний тусламж үйлчилгээний талаар мэдээлэлд тулгуурласан шийдвэр гаргахад нь туслах зорилгоор хорт хавдрыг эрт илрүүлэх чиглэлээр мэргэшсэн оношилгооны компани болох эрүүл мэнд, амьдралын шинжлэх ухааныг жишээ болгон авч үзье. Оношилгооны үйл явцын нэг хэсэг болгон тэд онцлох шаардлагатай хавдар бүхий CT сканнерийн зургийг тэмдэглэх хэрэгтэй.

ML загвар нь хавдрын блокуудыг тэмдэглэсэн, идэвхтэй суралцсан цөөн хэдэн зургаас суралцсаны дараа загвар нь зөвхөн хавдар байгаа эсэхэд эргэлзэж байгаа зургуудыг тэмдэглэхийг хэрэглэгчдээс хүсэх болно. Эдгээр нь зааглах цэгүүд байх бөгөөд тайлбар хийх үед загварт итгэх итгэлийг нэмэгдүүлэх болно. Загвар нь тодорхой босгыг давсан гэдэгт итгэлтэй байвал хэрэглэгчээс тайлбар хийхийг хүсэхээс илүүтэйгээр өөрөө тайлбар хийх болно. Идэвхтэй суралцах нь өгөгдөлд тайлбар оруулахад шаардагдах цаг хугацаа, хүчин чармайлтыг багасгахын зэрэгцээ үнэн зөв загвар гаргахад ингэж тусалдаг. ModAL гэх мэт хүрээнүүд нь хамгийн мэдээлэл сайтай тохиолдлуудыг шошголохын тулд домэйн мэргэжилтнүүдээс ухаалгаар асууж ангиллын гүйцэтгэлийг нэмэгдүүлэхэд тусална.

Сул хяналт

Сул хяналт гэдэг нь шуугиантай, тодорхой бус өгөгдөл эсвэл хийсвэр ойлголтыг ашиглан хяналтгүй их хэмжээний өгөгдлийг шошголох заалтыг өгөх арга юм. Энэ арга нь ихэвчлэн сул шошгологчдыг ашигладаг бөгөөд эдгээрийг нэгтгэн чанарын тайлбартай өгөгдлийг бий болгохыг оролддог. Хүчин чармайлт нь домэйн мэдлэгийг автомат шошгоны үйл ажиллагаанд оруулахыг оролдох явдал юм.

Жишээлбэл, Интернетийн үйлчилгээ үзүүлэгч (ISP) нь имэйлийн өгөгдлийн багцыг спам эсвэл спам биш гэж тэмдэглэх систем шаардлагатай бол бид "санал", "баяр хүргэе", "үнэгүй" гэх мэт хэллэгүүдийг шалгах гэх мэт сул дүрмийг бичиж болно. Эдгээр нь ихэвчлэн спам имэйлтэй холбоотой байдаг. Бусад дүрэм нь ердийн хэллэгээр хайх боломжтой эх хаягийн тодорхой загвараас ирсэн имэйлүүд байж болно. Дараа нь эдгээр сул функцуудыг Snorkel, Skweak зэрэг хяналтын сул тогтолцоотой нэгтгэж, сургалтын чанарыг сайжруулж болно.

ML нь үндсэндээ компаниудад гар аргаар хүрэхийн тулд бие махбодийн хувьд боломжгүй арга замаар үйл явцыг экспоненциал хэмжээгээр нэмэгдүүлэхэд тусалдаг. Гэсэн хэдий ч, ML нь ид шид биш бөгөөд a) загваруудыг эхнээс нь зөв тохируулж, сургах, б) шаардлагатай үед хөндлөнгөөс оролцох, үр дүн нь ашиггүй болсон тохиолдолд загварыг гажуудуулахгүй байхыг баталгаажуулдаг. сөрөг эсвэл сөрөг байж болно.

Зорилго нь зах зээлд гарах хугацаа, үр дүнг нэмэгдүүлэхийн тулд хүний ​​​​оролцооны хэсгүүдийг оновчтой болгох, автоматжуулахад туслах арга замыг олох явдал юм. Чанартай тайлбартай өгөгдөл авах нь ML төслийн хамгийн үнэтэй боловч маш чухал хэсэг гэдгийг дэлхий нийтээр хүлээн зөвшөөрдөг. Энэ бол хөгжиж буй орон зай бөгөөд домайн мэргэжилтнүүдийн зарцуулсан цагийг багасгах, өгөгдлийн тэмдэглэгээний чанарыг сайжруулахын тулд маш их хүчин чармайлт гаргаж байна. Идэвхтэй суралцах, сул хяналтыг судлах, ашиглах нь олон салбар, хэрэглээний тохиолдлуудад үүнийг хэрэгжүүлэх хатуу стратеги юм.

Даттараж Рао, Мэдээлэл хариуцсан ахлах мэргэжилтэн Тогтвортой системүүд, "Keras to Kubernetes: The Journey of a Machine Learning Model to production" номын зохиогч юм. Persistent Systems-д Даттараж нь компьютерийн хараа, байгалийн хэлний ойлголт, магадлалын програмчлал, бэхжүүлэх сургалт, тайлбарлах боломжтой хиймэл оюун ухаан гэх мэт хамгийн сүүлийн үеийн алгоритмуудыг судалдаг хиймэл оюун ухааны судалгааны лабораторийг удирдаж, эрүүл мэнд, банк санхүү, аж үйлдвэрийн салбарт хэрэглэгдэх боломжтойг харуулдаг. Даттараж нь Machine Learning болон Computer Vision чиглэлээр 11 патенттай.