AI 101

Běžné vs vlastní modely strojového učení?

Zveřejněno

Před 3 let

Července 23, 2021

Kdy je lepší stavět než kupovat hotové řešení?

Společnosti se mohou zapojit do různých přístupů k vývoji modelů. Od plně spravovaných služeb ML až po vlastní modely. V závislosti na obchodních požadavcích, dostupných odborných znalostech a plánovacích omezeních si musí vybrat: měli by vyvíjet vlastní řešení od nuly? Nebo by měli zvolit běžnou službu?

Pro všechny fáze zátěže ML musí být přijato rozhodnutí o tom, jak do sebe budou různé dílky skládačky zapadat. Od sběru dat, přípravy a vizualizace až po inženýrství funkcí, školení modelů a hodnocení si inženýři strojového učení opakovaně kladou stejnou otázku: Bude to řešení implementované na míru, napsané a vyvinuté od začátku? Nebo to bude běžná služba?

Kdy je ale stavět lepší než kupovat hotové řešení? Hlavní rozlišující faktory mezi těmito dvěma přístupy: úsilí o předběžné zpracování, rychlost vývoje a požadovaná odbornost.

Co je třeba zvážit při rozhodování o použití standardních nebo vlastních modelů strojového učení?

Úsilí o předběžné zpracování

Projekty ML čelí nejrůznějším výzvám, ale možná největším problémem je dostupnost školicích dat. Nedostatek trénovacích dat může zastavit projekt dříve, než vůbec začne. Ještě než projekt vůbec začne, může čelit značným nákladům na předběžné zpracování při shromažďování dat, označování dat, čištění a předzpracování. Toto je dobře známá past, ve které mnoho projektů ML selhává: předběžné zpracování nakonec vezme 80 % přidělených zdrojů, zatímco na samotné školení a vyhodnocení modelu zbývá jen málo zdrojů.

Běžná řešení zmírňují námahu a bolesti spojené s předzpracováním. Jsou navrženy tak, aby prováděly nejběžnější operace s minimální potřebou konfigurace. Nejlepší na nich je: existují standardní řešení pro všechny fáze úloh ML.

Na druhou stranu implementace na zakázku obvykle vyžadují více úsilí na předzpracování. To neznamená, že je třeba je úplně zavrhnout: stále se od nich vyžaduje, aby doladili určitou fázi ML podle specifik řešeného problému. Zvláště špinavá datová sada může vyžadovat nějaký zvláštní druh pravidel čištění. Současně může konkrétní sada funkcí vyžadovat inženýrství vlastních funkcí, stejně jako neuronové architektury mohou vyžadovat mírné úpravy. V tomto případě zákaznická řešení vytvořená od nuly pravděpodobně pokrývají všechny potřeby.

Rychlost vývoje

Hotová řešení se zaměřují spíše na konfiguraci než na implementaci. Místo přidělování zdrojů na zjišťování co by mělo být hotovo, týmy ML se zaměří na jak různé dílky skládačky do sebe zapadnou. Tento přístup umožňuje společnostem, výzkumníkům a inženýrům rychle implementovat prototypy a důkazy konceptu. Namísto znovuobjevování kola umožňují standardní řešení využít stávající znalosti, čímž šetří čas na vývoj.

Zakázková řešení implementovaná od nuly jsou známá tím, že jsou mnohem pomalejší než rychlost vývoje. Je to kvůli jejich zvýšeným nárokům na údržbu: inženýři musí přijít na obojí co a jak řešení. Stejně tak platí, že čím je řešení složitější, tím více časových prostředků je zapotřebí k zajištění jeho škálovatelnosti a dostupnosti během výroby. Z tohoto pohledu jsou zakázková řešení a časová náročnost přímo úměrná: čím složitější řešení, tím více času bude vyžadovat.

Obvykle je však pravda někde uprostřed: existující kódová základna bude refaktorována a přizpůsobena potřebám aktuálního projektu. To je případ známého transferového učení k modelovému tréninku.

Odbornost

Stejně jako existuje několik vrstev, na kterých se strojové učení provádí, existuje několik úrovní odbornosti, na kterých lze vyvíjet modely ML, od rozhraní bez kódu až po vytváření modelů od začátku.

Existují standardní řešení, pro která je potřeba jen velmi málo odborných znalostí o strojovém učení. Využitím intuitivních rozhraní a dokonce i drag and drop přístupů se pro každého (od obchodních analytiků po softwarové inženýry) stalo extrémně jednoduché sestavit a nasadit nějaký model strojového učení. I když tento jednoduchý přístup k vývoji modelu může fungovat pro účely prototypování, je nepravděpodobné, že by splnil požadavky produkčních systémů.

Pro správnou konfiguraci, nastavení a údržbu standardních řešení ve výrobě jsou stále zapotřebí odborné znalosti. Zástupná řešení, opravy kódu, připojení k různým rozhraním API a řešení problémů s nasazením jsou běžné úkoly potřebné k zajištění výkonu modelů v produkčním prostředí.

Zakázková řešení jsou obvykle implementována na úrovni infrastruktury a nelze to nijak obejít: odbornost je rozhodně nutná. V závislosti na velikosti společnosti a cílech projektu mohou být pro údržbu výrobních systémů vyžadovány multidisciplinární týmy. Datoví vědci, inženýři ML a obchodní analytici se spojili, aby pochopili výsledky odvození a udržovali produkční modely.

Co byste měli použít: an standardní nebo vlastní model strojového učení?

Řešení ML bude postaveno z mnoha jednotlivých komponent a služeb, které se musí spojit jako soudržné řešení. Nikdy to není o 100% zakázkovém nebo 100% prodeji, protože různé obchodní problémy vyžadují různá řešení. Řešení založená na ML jsou častěji tvořena kombinací těchto dvou: standardních služeb pro získání obecných poznatků v kombinaci s vlastními modely pro vyšší přesnost a modelování znalostí specifických pro doménu.

Trik je vědět, kdy implementovat vlastní řešení od nuly a které části projektu mohou využít výhod hotových služeb. To značně závisí na typu řešeného problému, obchodních požadavcích, dostupných datech a celkových omezeních vývojového prostředí.

Více o AI a technologických trendech viz Josh Miramant, generální ředitel datově řízených řešení Blue Orange Digital pro Dodavatelský řetězec, Automatizace dokumentů ve zdravotnictví, a více.

Také by se vám mohlo líbit:

Použijte NLP ke klasifikaci komentářů na sociálních sítích

Jak se vylepšuje zpracování jazyka prostřednictvím modelu BERT společnosti Google s otevřeným zdrojovým kódem

Související témata:

Nahoru Další

Co je to Data Fabric?

Nenechte si ujít

Co je to učení se několika výstřely?

Josh Miramant

Josh Miramant je generální ředitel a zakladatel společnosti Modrá Oranžová Digitální, špičková agentura pro datovou vědu a strojové učení s pobočkami v New Yorku a Washingtonu DC. Miramant je populární řečník, futurista a strategický obchodní a technologický poradce pro podnikové společnosti a startupy. Pomáhá organizacím optimalizovat a automatizovat jejich podnikání, implementovat analytické techniky založené na datech a porozumět důsledkům nových technologií, jako je umělá inteligence, velká data a internet věcí.

Unite.AI

Běžné vs vlastní modely strojového učení?

AI 101

Běžné vs vlastní modely strojového učení?

Obsah

Kdy je lepší stavět než kupovat hotové řešení?

Co je třeba zvážit při rozhodování o použití standardních nebo vlastních modelů strojového učení?

Úsilí o předběžné zpracování

Rychlost vývoje

Odbornost

Co byste měli použít: an standardní nebo vlastní model strojového učení?

Unite.AI

Běžné vs vlastní modely strojového učení?

Obsah

Kdy je lepší stavět než kupovat hotové řešení?

Co je třeba zvážit při rozhodování o použití standardních nebo vlastních modelů strojového učení?

Úsilí o předběžné zpracování

Rychlost vývoje

Odbornost

Co byste měli použít: an standardní nebo vlastní model strojového učení?

Můžete se vám líbit