cung Përgatitja e të dhënave njerëzore për mësimin e makinerisë kërkon burime intensive: këto dy qasje janë kritike për reduktimin e kostove - Unite.AI
Lidhu me ne

Udhëheqësit e mendimit

Përgatitja e të dhënave njerëzore për mësimin e makinerisë kërkon burime intensive: Këto dy qasje janë kritike për reduktimin e kostove

mm

Publikuar

 on

Nga: Dattaraj Rao, Shefi i të Dhënave Scientist, Sistemet e vazhdueshme

Ashtu si me çdo sistem që varet nga inputet e të dhënave, Mësimi i Makinerisë (ML) i nënshtrohet aksiomës së "mbeturinave-në-mbeturina-jashtë". Të dhënat e pastra dhe të etiketuara me saktësi janë themeli për ndërtimin e çdo modeli ML. Një algoritëm trajnimi ML kupton modelet nga të dhënat e së vërtetës bazë dhe prej andej, mëson mënyra për të përgjithësuar të dhënat e padukshme. Nëse cilësia e të dhënave tuaja të trajnimit është e ulët, atëherë do të jetë shumë e vështirë për algoritmin ML që të mësojë dhe ekstrapolojë vazhdimisht.

Mendoni për këtë në drejtim të trajnimit të një qeni të përkëdhelur. Nëse nuk arrini të stërvitni siç duhet qenin me komandat themelore të sjelljes (inputet) ose e bëni atë në mënyrë të gabuar/të pasaktë, nuk mund të prisni kurrë që qeni të mësojë dhe të zgjerohet përmes vëzhgimit në sjellje pozitive më komplekse, sepse inputet themelore mungonin ose kishin të meta, për të filluar. me. Trajnimi i duhur kërkon kohë dhe madje i kushtueshëm nëse sillni një ekspert, por fitimi është i madh nëse e bëni atë që në fillim.

Kur trajnoni një model ML, krijimi i të dhënave cilësore kërkon që një ekspert domeni të shpenzojë kohë duke shënuar të dhënat. Kjo mund të përfshijë zgjedhjen e një dritareje me objektin e dëshiruar në një imazh ose caktimin e një etikete për një hyrje teksti ose një regjistrim të bazës së të dhënave. Veçanërisht për të dhënat e pastrukturuara si imazhet, videot dhe teksti, cilësia e shënimeve luan një rol të madh në përcaktimin e cilësisë së modelit. Zakonisht, të dhënat e paetiketuara si imazhet dhe teksti i papërpunuar janë të bollshme – por etiketimi është vendi ku përpjekjet duhet të optimizohen. Kjo është pjesa njerëzore në ciklin e ciklit jetësor të ML dhe zakonisht është pjesa më e shtrenjtë dhe më intensive e punës së çdo projekti ML.

Mjetet e shënimit të të dhënave si Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS dhe DataRobot human-in-the-loop po përmirësohen vazhdimisht në cilësi dhe po ofrojnë ndërfaqe intuitive për ekspertët e domenit. Megjithatë, minimizimi i kohës së nevojshme nga ekspertët e domenit për të shënuar të dhënat është ende një sfidë e rëndësishme për ndërmarrjet sot – veçanërisht në një mjedis ku talenti i shkencës së të dhënave është i kufizuar, por me kërkesë të lartë. Këtu hyjnë në lojë dy qasje të reja për përgatitjen e të dhënave.

Të mësuarit aktiv

Të mësuarit aktiv është një metodë ku një model ML kërkon në mënyrë aktive një ekspert domeni për shënime specifike. Këtu, fokusi nuk është në marrjen e një shënimi të plotë për të dhënat e paetiketuara, por thjesht marrjen e shënimeve të pikave të duhura të të dhënave në mënyrë që modeli të mësojë më mirë. Merrni për shembull kujdesin shëndetësor dhe shkencat e jetës, një kompani diagnostikuese që është e specializuar në zbulimin e hershëm të kancerit për të ndihmuar mjekët të marrin vendime të informuara të bazuara në të dhëna për kujdesin ndaj pacientit. Si pjesë e procesit të tyre të diagnostikimit, ata duhet të shënojnë imazhet e skanimit CT me tumoret që duhet të theksohen.

Pasi modeli ML të mësojë nga disa imazhe me blloqe tumori të shënuara, me mësim aktiv, modeli më pas do t'u kërkojë përdoruesve të shënojnë imazhe aty ku nuk është i sigurt për praninë e një tumori. Këto do të jenë pika kufitare, të cilat kur shënohen do të rrisin besimin e modelit. Kur modeli është i sigurt mbi një prag të caktuar, ai do të bëjë një vetë-shënim në vend që t'i kërkojë përdoruesit të bëjë shënim. Kjo është mënyra se si mësimi aktiv përpiqet të ndihmojë në ndërtimin e modeleve të sakta duke reduktuar kohën dhe përpjekjen e nevojshme për shënimin e të dhënave. Kornizat si modAL mund të ndihmojnë në rritjen e performancës së klasifikimit duke pyetur në mënyrë inteligjente ekspertët e domenit për të etiketuar rastet më informuese.

Mbikëqyrja e dobët

Mbikëqyrja e dobët është një qasje ku mund të përdoren të dhëna të zhurmshme dhe të pasakta ose koncepte abstrakte për të ofruar indikacione për etiketimin e një sasie të madhe të dhënash të pambikëqyrura. Kjo qasje zakonisht përdor etiketues të dobët dhe përpiqet t'i kombinojë këto në një qasje ansambli për të ndërtuar të dhëna cilësore të shënimeve. Përpjekja është të përpiqemi të përfshijmë njohuritë e domenit në një aktivitet të automatizuar etiketimi.

Për shembull, nëse një Ofruesi i Shërbimeve të Internetit (ISP) kishte nevojë për një sistem për të shënuar grupet e të dhënave të postës elektronike si të padëshiruara ose jo të padëshiruara, ne mund të shkruajmë rregulla të dobëta, të tilla si kontrollimi i frazave si "ofertë", "urime", "falas", etj., të cilat kryesisht janë të lidhura me emailet e padëshiruara. Rregulla të tjera mund të jenë emailet nga modele specifike të adresave burimore që mund të kërkohen me shprehje të rregullta. Këto funksione të dobëta më pas mund të kombinohen nga një kornizë e dobët mbikëqyrjeje si Snorkel dhe Skweak për të ndërtuar të dhëna trajnimi me cilësi të përmirësuar.

ML në thelbin e tij ka të bëjë me ndihmën e kompanive të shkallëzojnë proceset në mënyrë eksponenciale në mënyra që fizikisht janë të pamundura për t'u arritur me dorë. Megjithatë, ML nuk është magjike dhe ende mbështetet te njerëzit për të a) vendosur dhe trajnuar modelet siç duhet që në fillim dhe b) për të ndërhyrë kur është e nevojshme për t'u siguruar që modeli të mos bëhet aq i anuar atje ku rezultatet nuk janë më të dobishme dhe mund të jetë kundërproduktive ose negative.

Qëllimi është gjetja e mënyrave që ndihmojnë në thjeshtimin dhe automatizimin e pjesëve të përfshirjes njerëzore për të rritur kohën për në treg dhe rezultatet, por duke qëndruar në parmakët e saktësisë optimale. Është e pranuar botërisht se marrja e të dhënave cilësore të shënimeve është pjesa më e shtrenjtë, por jashtëzakonisht e rëndësishme e një projekti ML. Kjo është një hapësirë ​​në zhvillim dhe po bëhen shumë përpjekje për të reduktuar kohën e shpenzuar nga ekspertët e domenit dhe për të përmirësuar cilësinë e shënimeve të të dhënave. Eksplorimi dhe shfrytëzimi i të nxënit aktiv dhe mbikëqyrja e dobët është një strategji solide për ta arritur këtë në shumë industri dhe raste përdorimi.

Dattaraj Rao, Shefi i të Dhënave Scientist në Sistemet e vazhdueshme, është autori i librit "Keras to Kubernetes: The Journey of a Machine Learning Model to Production". Në Persistent Systems, Dattaraj drejton Laboratorin e Kërkimeve të AI që eksploron algoritme më të fundit në Vizionin Kompjuterik, Kuptimi i Gjuhës Natyrore, Programimi Probabilistik, Mësimi i Përforcimit, AI i shpjegueshëm, etj. dhe demonstron zbatueshmëri në fushën e Kujdesit Shëndetësor, Bankar dhe Industrial. Dattaraj ka 11 patenta në Machine Learning dhe Computer Vision.