peň Príprava ľudských údajov na strojové učenie je náročná na zdroje: Tieto dva prístupy sú rozhodujúce pre znižovanie nákladov – Unite.AI
Spojte sa s nami

Myšlienkoví vodcovia

Príprava ľudských údajov na strojové učenie je náročná na zdroje: Tieto dva prístupy sú rozhodujúce pre znižovanie nákladov

mm

uverejnené

 on

Autor: Dattaraj Rao, hlavný dátový vedec, Perzistentné systémy

Ako každý systém, ktorý závisí od vstupov údajov, aj strojové učenie (ML) podlieha axióme „odpadu do odpadu“. Čisté a presne označené údaje sú základom pre zostavenie akéhokoľvek modelu ML. Tréningový algoritmus ML rozumie vzorcom z údajov o základnej pravde a odtiaľ sa učí spôsoby, ako zovšeobecniť neviditeľné údaje. Ak je kvalita vašich tréningových údajov nízka, potom bude pre algoritmus ML veľmi ťažké neustále sa učiť a extrapolovať.

Myslite na to z hľadiska výcviku domáceho psa. Ak sa vám nepodarí správne vycvičiť psa pomocou základných behaviorálnych príkazov (vstupov) alebo to urobíte nesprávne/nepresne, nikdy nemôžete očakávať, že sa pes naučí a rozšíri pozorovaním do zložitejších pozitívnych správaní, pretože základné vstupy chýbali alebo boli chybné. s Správny tréning je časovo náročný a dokonca aj nákladný, ak si prizvete odborníka, ale odmena je veľká, ak to urobíte hneď od začiatku.

Pri trénovaní modelu ML si vytváranie kvalitných údajov vyžaduje, aby odborník na doménu venoval čas anotovaniu údajov. Môže to zahŕňať výber okna s požadovaným objektom na obrázku alebo priradenie štítka k textovému vstupu alebo záznamu v databáze. Najmä v prípade neštruktúrovaných údajov, ako sú obrázky, videá a text, hrá kvalita anotácií hlavnú úlohu pri určovaní kvality modelu. Zvyčajne je veľa neoznačených údajov, ako sú nespracované obrázky a text, ale označovanie je miesto, kde je potrebné optimalizovať úsilie. Toto je časť životného cyklu ML, ktorá je súčasťou ľudského cyklu a zvyčajne je najdrahšou a najnáročnejšou časťou akéhokoľvek projektu ML.

Nástroje na anotáciu údajov ako Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS a DataRobot human-in-the-loop sa neustále zlepšujú a poskytujú intuitívne rozhrania pre doménových expertov. Minimalizácia času, ktorý potrebujú doménoví experti na anotáciu údajov, je však aj dnes pre podniky veľkou výzvou – najmä v prostredí, kde sú talenty v oblasti údajovej vedy obmedzené, no napriek tomu je po nich vysoký dopyt. Tu prichádzajú do úvahy dva nové prístupy k príprave dát.

Aktívne učenie

Aktívne učenie je metóda, pri ktorej model ML aktívne žiada doménového experta o špecifické anotácie. Tu sa nezameriava na získanie úplnej anotácie neoznačených údajov, ale len na anotáciu správnych údajových bodov, aby sa model mohol lepšie učiť. Vezmime si napríklad zdravotníctvo a biologické vedy, diagnostickú spoločnosť, ktorá sa špecializuje na včasnú detekciu rakoviny, aby pomohla lekárom prijímať informované rozhodnutia o starostlivosti o pacientov na základe údajov. V rámci procesu diagnostiky potrebujú anotovať snímky CT s nádormi, ktoré je potrebné zvýrazniť.

Potom, čo sa model ML naučí z niekoľkých obrázkov s označenými blokmi nádoru, s aktívnym učením, model potom požiada používateľov, aby anotovali obrázky, kde si nie je istý prítomnosťou nádoru. Pôjde o hraničné body, ktoré pri anotácii zvýšia spoľahlivosť modelu. Ak je model istý nad konkrétnym prahom, vykoná si vlastnú anotáciu namiesto toho, aby požiadal používateľa o anotáciu. Takto sa aktívne učenie snaží pomôcť vytvoriť presné modely a zároveň znížiť čas a úsilie potrebné na anotáciu údajov. Rámce ako modAL môžu pomôcť zvýšiť výkon klasifikácie inteligentným dopytovaním expertov na domény, aby označili najinformatívnejšie inštancie.

Slabý dozor

Slabý dohľad je prístup, pri ktorom sa dajú použiť hlučné a nepresné údaje alebo abstraktné pojmy na poskytnutie indikácie na označenie veľkého množstva údajov bez dozoru. Tento prístup zvyčajne využíva slabé štítkovače a snaží sa ich skombinovať v súbornom prístupe na vytvorenie kvalitných anotovaných údajov. Snahou je pokúsiť sa začleniť doménové znalosti do činnosti automatizovaného označovania.

Napríklad, ak poskytovateľ internetových služieb (ISP) potreboval systém na označenie e-mailových dátových súborov ako spam alebo nie, mohli by sme napísať slabé pravidlá, ako je kontrola fráz ako „ponuka“, „gratulujem“, „zadarmo“ atď. ktoré sú väčšinou spojené so spamovými e-mailami. Ďalšími pravidlami môžu byť e-maily zo špecifických vzorov zdrojových adries, ktoré možno vyhľadávať podľa regulárnych výrazov. Tieto slabé funkcie by sa potom mohli skombinovať so slabým rámcom dohľadu, ako je Snorkel a Skweak, aby sa vytvorili kvalitnejšie tréningové údaje.

ML je vo svojom jadre o pomoci spoločnostiam exponenciálne škálovať procesy spôsobmi, ktoré je fyzicky nemožné dosiahnuť manuálne. ML však nie je mágia a stále sa spolieha na ľudí, že a) správne nastavia a vycvičia modely od začiatku ab) zasiahnu, keď je to potrebné, aby sa zabezpečilo, že model nebude skreslený tak ďaleko, že výsledky už nie sú užitočné a môže byť kontraproduktívne alebo negatívne.

Cieľom je nájsť spôsoby, ktoré pomôžu zefektívniť a zautomatizovať časti ľudského zapojenia s cieľom zvýšiť čas uvedenia na trh a zvýšiť výsledky, ale zároveň zostať v mantineloch optimálnej presnosti. Všeobecne sa uznáva, že získanie kvalitných anotovaných údajov je najdrahšou, ale mimoriadne dôležitou súčasťou projektu ML. Toto je vyvíjajúci sa priestor a vynakladá sa veľa úsilia na skrátenie času stráveného odborníkmi na domény a zlepšenie kvality anotácií údajov. Skúmanie a využitie aktívneho učenia a slabého dohľadu je solídnou stratégiou na dosiahnutie tohto cieľa vo viacerých odvetviach a prípadoch použitia.

Dattaraj Rao, hlavný dátový vedec v Perzistentné systémy, je autorom knihy „Keras to Kubernetes: Cesta modelu strojového učenia do výroby“. V Persistent Systems vedie Dattaraj výskumné laboratórium AI, ktoré skúma najmodernejšie algoritmy v oblasti počítačového videnia, porozumenia prirodzeného jazyka, pravdepodobnostného programovania, posilňovacieho vzdelávania, vysvetliteľnej AI atď. a demonštruje použiteľnosť v oblastiach zdravotníctva, bankovníctva a priemyslu. Dattaraj má 11 patentov v oblasti strojového učenia a počítačového videnia.