stub It-Tħejjija tad-Dejta Umana għat-Tagħlim tal-Magni hija Intensiva fir-Riżorsi: Dawn iż-Żewġ Approċċi huma Kritiċi għat-Tnaqqis tal-Ispejjeż - Unite.AI
Kuntatt magħna

Mexxejja tal-Ħsieb

It-Tħejjija tad-Dejta Umana għat-Tagħlim tal-Magni hija Intensiva fir-Riżorsi: Dawn iż-Żewġ Approċċi huma Kritiċi għat-Tnaqqis tal-Ispejjeż

mm

ippubblikat

 on

Minn: Dattaraj Rao, Xjentist Ewlieni tad-Data, Sistemi Persistenti

Bħal kull sistema li tiddependi fuq l-inputs tad-dejta, it-Tagħlim tal-Machine (ML) huwa suġġett għall-axioma ta '"żibel fil-żibel-out." Data nadifa u ttikkettjata b'mod preċiż hija l-pedament għall-bini ta 'kwalunkwe mudell ML. Algoritmu ta 'taħriġ ML jifhem mudelli mid-dejta tal-verità tal-art u minn hemm, jitgħallem modi kif jiġġeneralizza fuq dejta li ma tidhirx. Jekk il-kwalità tad-dejta tat-taħriġ tiegħek hija baxxa, allura jkun diffiċli ħafna għall-algoritmu ML biex jitgħallem u jestrapola kontinwament.

Aħseb dwarha f'termini ta 'taħriġ ta' kelb domestiċi. Jekk tonqos milli tħarreġ il-kelb b'mod xieraq b'kmandi (inputs) fundamentali tal-imġieba jew tagħmel dan b'mod żbaljat/b'mod mhux preċiż, qatt ma tista' tistenna li l-kelb jitgħallem u jespandi permezz tal-osservazzjoni f'imgieba pożittivi aktar kumplessi minħabba li l-inputs sottostanti kienu assenti jew difettużi, biex tibda. ma. Taħriġ xieraq jieħu ħafna ħin u saħansitra jiswa ħafna flus jekk iġġib espert, iżda l-ħlas huwa kbir jekk tagħmel dan mill-bidu nett.

Meta tħarreġ mudell ML, il-ħolqien ta 'dejta ta' kwalità jeħtieġ li espert tad-dominju jqatta 'ħin jannota d-dejta. Dan jista' jinkludi l-għażla ta' tieqa bl-oġġett mixtieq f'immaġni jew l-assenjazzjoni ta' tikketta għal dħul ta' test jew rekord ta' database. Partikolarment għal dejta mhux strutturata bħal immaġini, vidjows u test, il-kwalità tal-annotazzjoni għandha rwol ewlieni fid-determinazzjoni tal-kwalità tal-mudell. Normalment, dejta mhux tikkettata bħal stampi u test mhux ipproċessati hija abbundanti - iżda l-ittikkettar huwa fejn jeħtieġ li jiġi ottimizzat l-isforz. Din hija l-parti tal-bniedem fil-linja taċ-ċiklu tal-ħajja tal-ML u ġeneralment hija l-aktar parti għalja u li tagħmel ħafna xogħol ta' kwalunkwe proġett ML.

Għodod ta’ annotazzjoni tad-dejta bħal Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS, u DataRobot human-in-the-loop qed jitjiebu kontinwament fil-kwalità u jipprovdu interfaces intuwittivi għall-esperti tad-dominju. Madankollu, il-minimizzazzjoni tal-ħin meħtieġ mill-esperti tad-dominju biex jannotaw id-dejta għadha sfida sinifikanti għall-intrapriżi llum - speċjalment f'ambjent fejn it-talent fix-xjenza tad-dejta huwa limitat iżda fid-domanda kbira. Dan huwa fejn jidħlu żewġ approċċi ġodda għall-preparazzjoni tad-dejta.

Tagħlim Attiv

It-tagħlim attiv huwa metodu fejn mudell ML jistaqsi b'mod attiv espert tad-dominju għal annotazzjonijiet speċifiċi. Hawnhekk, l-enfasi mhix fuq il-ksib ta' annotazzjoni kompluta fuq dejta mhux ittikkettata, iżda biss li tikseb il-punti tad-dejta t-tajbin annotati sabiex dak il-mudell ikun jista' jitgħallem aħjar. Ħu pereżempju x-xjenzi tas-saħħa u tal-ħajja, kumpanija dijanjostika li tispeċjalizza fl-iskoperta bikrija tal-kanċer biex tgħin lill-kliniċisti jieħdu deċiżjonijiet infurmati mmexxija mid-dejta dwar il-kura tal-pazjent. Bħala parti mill-proċess ta 'dijanjosi tagħhom, jeħtieġ li jannotaw immaġini ta' skan CT b'tumuri li jeħtieġ li jiġu enfasizzati.

Wara li l-mudell ML jitgħallem minn ftit immaġini bi blokki tat-tumur immarkati, b'tagħlim attiv, il-mudell imbagħad jitlob lill-utenti biss biex jannotaw immaġini fejn ma jkunx ċert mill-preżenza ta 'tumur. Dawn se jkunu punti tal-konfini, li meta jiġu annotati se jżidu l-kunfidenza tal-mudell. Fejn il-mudell ikun kunfidenti 'l fuq minn limitu partikolari, se jagħmel awtonotazzjoni aktar milli jitlob lill-utent biex jannota. Dan huwa kif it-tagħlim attiv jipprova jgħin fil-bini ta’ mudelli preċiżi filwaqt li jnaqqas il-ħin u l-isforz meħtieġ biex tiġi annotata d-dejta. Oqfsa bħal modAL jistgħu jgħinu biex iżidu l-prestazzjoni tal-klassifikazzjoni billi jagħmlu mistoqsijiet intelliġenti lill-esperti tad-dominju biex jittikkettaw l-aktar każijiet informattivi.

Superviżjoni dgħajfa

Superviżjoni dgħajfa hija approċċ fejn data storbjuża u impreċiża jew kunċetti astratti jistgħu jintużaw biex jipprovdu indikazzjonijiet għat-tikkettar ta' ammont kbir ta' data mhux sorveljata. Dan l-approċċ normalment jagħmel użu minn labelers dgħajfa u jipprova jgħaqqad dawn f'approċċ ta 'ensemble biex jibni dejta annotata ta' kwalità. L-isforz huwa li tipprova tinkorpora l-għarfien tad-dominju f'attività ta' tikkettar awtomatizzata.

Pereżempju, jekk Fornitur tas-Servizzi tal-Internet (ISP) kellu bżonn sistema biex jimmarka settijiet tad-dejta tal-email bħala spam jew mhux spam, nistgħu niktbu regoli dgħajfa bħall-iċċekkjar għal frażijiet bħal "offerta", "prosit", "b'xejn", eċċ., li l-aktar huma assoċjati ma 'emails spam. Regoli oħra jistgħu jkunu emails minn mudelli speċifiċi ta 'indirizzi tas-sors li jistgħu jiġu mfittxija permezz ta' espressjonijiet regolari. Dawn il-funzjonijiet dgħajfa jistgħu mbagħad jiġu kkombinati minn qafas ta 'superviżjoni dgħajjef bħal Snorkel u Skweak biex tinbena data ta' taħriġ ta 'kwalità mtejba.

L-ML fil-qalba tiegħu huwa li jgħin lill-kumpaniji jkabbru l-proċessi b'mod esponenzjali b'modi li huma fiżikament impossibbli li jinkisbu manwalment. Madankollu, ML mhuwiex maġiku u għadu jiddependi fuq il-bnedmin biex a) iwaqqfu u jħarrġu l-mudelli kif suppost mill-bidu u b) jintervjenu meta jkun meħtieġ biex jiġi żgurat li l-mudell ma jsirx s'issa mxekkel fejn ir-riżultati ma jibqgħux utli u jistgħu jkunu kontroproduttivi jew negattivi.

L-għan huwa li jinstabu modi li jgħinu biex jiġu ssimplifikati u awtomatizzati partijiet tal-involviment tal-bniedem biex iżidu l-ħin tas-suq u r-riżultati iżda filwaqt li jibqgħu fil-guardrails tal-aħjar preċiżjoni. Huwa universalment aċċettat li l-kisba ta' dejta annotata ta' kwalità hija l-aktar parti għalja iżda estremament importanti ta' proġett ML. Dan huwa spazju li qed jevolvi, u għaddej ħafna sforz biex jitnaqqas il-ħin imqatta' mill-esperti tad-dominju u tittejjeb il-kwalità tal-annotazzjonijiet tad-dejta. L-esplorazzjoni u l-ingranaġġ tat-tagħlim attiv u s-superviżjoni dgħajfa hija strateġija soda biex jinkiseb dan f’diversi industriji u każijiet ta’ użu.

Dattaraj Rao, Xjentist Ewlieni tad-Data fi Sistemi Persistenti, huwa l-awtur tal-ktieb "Keras to Kubernetes: The Journey of a Machine Learning Model to Production." F'Sistemi Persistenti, Dattaraj imexxi l-Laboratorju ta 'Riċerka AI li jesplora algoritmi avvanzati fil-Viżjoni tal-Kompjuter, Fehim tal-Lingwa Naturali, Programmazzjoni Probabilistika, Tagħlim ta' Rinfurzar, AI Spjegabbli, eċċ. u juri applikabilità fl-oqsma tal-Kura tas-Saħħa, Bankarji u Industrijali. Dattaraj għandu 11-il privattiva fit-Tagħlim tal-Magni u l-Viżjoni tal-Kompjuter.