Connect with us

Erik Gfesser, Principal Architect for the Data Practice of SPR – Interview Series

Umělá inteligence

Erik Gfesser, Principal Architect for the Data Practice of SPR – Interview Series

mm

Erik vstoupil do datové praxe Emerging Technology Group společnosti SPR jako Principal Architect v roce 2018. Erik se specializuje na data, open source vývoj pomocí Javy a praktickou podnikovou architekturu, včetně budování PoC, prototypů a MVP. Co vás最初 přitáhlo k strojovému učení? Jejich schopnost umožnit aplikacím neustále se učit. Začal jsem svou kariéru jako senior datový analytik pomocí SPSS ve společnosti, která se stala globální tržní výzkumnou firmou, a později jsem začlenil použití business rules engine called Drools do aplikací, které jsem postavil pro klienty, ale výstup z této práce byl esenciálně statický. Později jsem prošel školením na procesní zlepšení, během kterého instruktoři demonstrovali podrobně, jak byli schopni zlepšit, pomocí statistiky a dalších metod, obchodní procesy používané jejich klienty, ale opět byl výstup většinou zaměřen na body v čase. Má zkušenost s prací na zlepšení zdravotnického produktu, který můj kolega a já postavili během stejného období, ukázala, proč je kontinuální učení nezbytné pro takové úsilí, ale zdroje, které jsou nyní k dispozici, neexistovaly v té době. Zajímavě, má přitažlivost ke strojovému učení se vrátila zpět, protože můj poradce v postgraduálním studiu mě varoval před specializací na to, co se tehdy nazývalo umělou inteligencí, kvůli AI zimě v té době. Vybral jsem si místo toho použít termíny, jako je ML, protože tyto mají méně konotací a protože dokonce i AWS uznává, že jeho AI služby jsou ve skutečnosti pouze vyšší úroveň abstrakce postavené na jeho ML službách. Zatímco některé z ML hype je nereálné, poskytuje powerful funkce z perspektivy vývojářů, pokud tito praktici uznávají fakt, že hodnota, kterou ML poskytuje, je pouze tak dobrá, jako data zpracovaná jím.   Jste obrovský obhájce open source, můžete diskutovat o tom, proč je open source tak důležitý? Jedním aspektem o open source, který jsem musel vysvětlit výkonným ředitelům v průběhu let, je, že primární výhodou open source je nejen to, že použití takového softwaru je dostupné bez finančních nákladů, ale že zdrojový kód je dostupný zdarma. Kromě toho mohou vývojáři, kteří používají tento zdrojový kód, modifikovat jej pro své vlastní použití a pokud jsou navrhované změny schváleny, mohou tyto změny zpřístupnit ostatním vývojářům, kteří jej používají. Ve skutečnosti se hnutí za open source software začalo kvůli tomu, že vývojáři čekali dlouhou dobu, než komerční firmy provedly změny produktů, které licencovaly, takže vývojáři se rozhodli napsat software se stejnou funkcionalitou a otevřít jej ostatním vývojářům, aby jej mohli vylepšit. Komerční open source využívá těchto výhod, skutečností být, že mnoho moderních produktů používá open source pod pokličkou, i když komerční varianty takového softwaru obvykle poskytují další komponenty, které nejsou dostupné jako součást dané open source verze, poskytující diferenciátory a podporu, pokud je tato potřeba. Má první zkušenost s open source se událala, zatímco jsem budil zdravotnický produkt, který jsem zmínil dříve, používaje nástroje, jako je Apache Ant, používaný k sestavení softwaru, a raný DevOps produkt v té době nazvaný Hudson (kódová základna, která se později stala Jenkins). Primárním důvodem za našimi rozhodnutími použít tyto open source produkty byla skutečnost, že tyto produkty poskytují lepší řešení než komerční alternativy nebo inovativní řešení, která nebyla nabízena komerčními entitami, aniž bychom zmínili, že komerční licencování některých produktů, které jsme používali, bylo příliš restriktivní, vedoucí k nadměrnému byrokratickému procesu, když přišlo čas potřebovat více licencí, kvůli nákladům spojeným s tím.   Můžete sdílet svou cestu za některé z těchto produktů? Jako jsem vysvětlil v jednom z řídících principů, které jsem představil nedávnému klientovi, build-outy pro datovou platformu, kterou jsme postavili pro ně, by měly být pokračovány iterativně, jak je potřeba, v průběhu času. Komponenty, které byly postaveny pro tuto platformu, by neměly být očekávány, že zůstanou statické, protože potřeby se mění a nové komponenty a funkce komponent budou zpřístupněny v průběhu času. Když budu stavět platformovou funkčnost, vždy začněte s tím, co je minimálně životaschopné, než přidáte zbytečné zvony a píšťalky, které ve některých případech zahrnují i konfiguraci. Začněte s tím, co je funkční, ujistěte se, že rozumíte tomu, a pak jej vyviněte. Neztrácejte čas a peníze budováním toho, co má nízkou pravděpodobnost použití, ale snažte se dostat před budoucí potřeby. MVP, který jsme postavili pro tento produkt, musel být postaven tak, aby další použití případů mohly být postaveny na něm, i když byl dodán s implementací jediného použití případu, pro detekci anomálií výdajů. Na rozdíl od tohoto klienta, dřívější produkt, který jsem postavil, měl nějakou historii předtím, než jsem přišel. V tomto případě měli stakeholdeři debatovali tři roky (!), jak by se měli 접ít k produktu, který chtěli postavit. Klientův výkonný ředitel mi vysvětlil, že jedním z důvodů, proč mě přivedl, bylo pomoci firmě dostat se přes některé z těchto interních debat, zejména protože produkt, který chtěl postavit, potřeboval uspokojit hierarchii organizací zapojených.   Zatímco recenze knihy ‘Machine Learning at Enterprise Scale’ jste uvedl, že ‘použití open source produktů, rámců a jazyků spolu s agilní architekturou složenou z mixu open source a komerčních komponent poskytuje pružnost, kterou mnoho firem potřebuje, ale ne hned uvědomují na začátku’. Můžete se dostat do některých detailů o tom, proč věříte, že firmy, které používají open source, jsou více pružné? Mnoho komerčních datových produktů používá klíčové open source komponenty pod pokličkou a umožňuje vývojářům používat populární programovací jazyky, jako je Python. Firmy, které staví tyto produkty, vědí, že open source komponenty, které si zvolily, jim poskytují skokový start, když jsou tyto již široce používány komunitou. Open source komponenty se silnými komunitami jsou snazší prodat, kvůli familiaritě, kterou tyto přinášejí na stůl. Komerčně dostupné produkty, které se skládají主要ně z uzavřeného zdrojového kódu, nebo dokonce open source, který je většinou používán pouze komerčními produkty, často vyžadují buď školení od těchto dodavatelů, nebo licence, aby mohly použít software. Kromě toho je dokumentace pro tyto komponenty většinou nepřístupná, nutí vývojáře, aby se spoléhali na tyto firmy. Když jsou široce akceptované open source komponenty, jako je Apache Spark, centrálním zaměřením, jako je Databricks Unified Analytics Platform, mnoho z těchto položek je již dostupných v komunitě, minimalizujících části, na kterých vývojářské týmy potřebují záviset na komerčních entitách, aby mohli dělat svou práci. Kromě toho, protože komponenty, jako je Apache Spark, jsou široce akceptovány jako de facto průmyslové standardní nástroje, kód lze také snáze migrovat napříč komerčními implementacemi takových produktů. Firmy budou vždy nakloněny k začlenění toho, co považují za konkurenční diferenciátory, ale mnoho vývojářů nechce používat produkty, které jsou zcela nové, protože to dokazuje být výzvou, aby se přesunuli mezi firmami, a má tendenci řezat jejich vazby se silnými komunitami, které očekávají. Z osobní zkušenosti jsem pracoval s takovými produkty v minulosti a může být náročné získat kompetentní podporu. A to je ironické, vzhledem k tomu, že tyto firmy prodávají své produkty s očekáváním zákazníků, že podpora bude poskytnuta včas. Měl jsem zkušenost s odesláním pull requestu do open source projektu, s opravou, která byla začleněna do buildu téhož dne, ale nemůžu říci totéž o komerčním projektu, se kterým jsem pracoval.   Je něco jiného, co věříte o open source, že to vede k ‘přístupu k silným vývojářským komunitám’. Jak velké jsou některé z těchto komunit a co je činí tak efektivními? Vývojářské komunity kolem daného open source produktu mohou dosáhnout stovek tisíc. Přijímací sazby neukazují nutně na sílu komunity, ale jsou dobrým ukazatelem toho, že se jedná o zdravý cyklus. Považuji komunity za silné, když produkují zdravé diskuze a efektivní dokumentaci a když je aktivní vývoj na místě. Když architekt nebo senior vývojář prochází procesem výběru, které produkty začlenit do toho, co staví, mnoho faktorů typicky přichází do hry, nejen o produktu samotném a o tom, jak vypadá komunita, ale o vývojářských týmech, kteří budou přijímat tyto produkty, zda jsou tyto produkty dobrým fitem pro ekosystém, který se vyvíjí, co vypadá roadmapa a v některých případech, zda lze najít komerční podporu, pokud je tato potřeba.   Můžete doporučit tři knihy, které byste mohli našim čtenářům? Tyto dny čtu velmi málo programovacích knih, a zatímco existují výjimky, realita je, že tyto knihy jsou obvykle zastaralé velmi rychle a vývojářská komunita obvykle poskytuje lepší alternativy prostřednictvím diskuzních fór a dokumentace. Mnoho knih, které teď čtu, jsou mi dostupné zdarma, buď prostřednictvím technologických newsletterů, na které se přihlašuji, autorů a publicistů, kteří se mě obrací, nebo těch, které mi Amazon pošle. Například Amazon mi poslal před-publicační nepřečtenou verzi “The Lean Startup” pro mou recenzi v roce 2011, představující mi koncept MVP a nedávno mi poslal kopii “Julia for Beginners”. (1) Jedna kniha z O’Reilly, kterou jsem doporučil, je “In Search of Database Nirvana”. Autor pokrývá podrobně výzvy pro datový dotazovací stroj, aby podporoval zátěže sahající od OLTP na jedné straně až po analytiku na druhé straně, s provozními a obchodními inteligentními zátěží uprostřed. Tato kniha může být použita jako průvodce pro posouzení databázového stroje nebo kombinace dotazovacího a úložného stroje, zaměřeného na splnění požadavků zátěže, zda se jedná o transakční, analytické nebo kombinaci těchto dvou. Kromě toho autorova pokrytí “kyvadla databáze” v posledních letech je zvláště dobře provedené. (2) Zatímco se mnoho změnilo v datovém prostoru za poslední roky, protože nové datové analytické produkty jsou neustále zaváděny, “Disruptive Analytics” představuje přístupný, krátký přehled posledních 50 let inovací v analytice, který jsem neviděl jinde a diskutuje o dvou typech narušení: narušující inovace v analytickém hodnotovém řetězci a průmyslové narušení inovacemi v analytice. Z perspektivy startupů a analytických praktiků je úspěch umožněn narušením jejich odvětví, protože použití analytiky k diferenciaci produktu je způsobem, jak vytvořit narušující obchodní model nebo vytvořit nové trhy. Z perspektivy investic do analytické technologie pro jejich organizace může být strategie “počkejme a uvidíme” smysluplná, protože technologie, které jsou ohroženy narušením, jsou rizikovými investicemi kvůli zkrácenému užitečnému životu. (3) Jedna z nejlepších technologických obchodních textů, které jsem četl, je “The Limits of Strategy”, od spoluzakladatele Research Board (získané Gartnerem), mezinárodní think tank, který zkoumá vývoj v počítačovém světě a jak by se korporace měly přizpůsobit. Autor představuje velmi podrobné poznámky z mnoha svých rozhovorů s obchodními lídry, poskytujícími hlubokou analýzu po celou dobu o jeho zkušenostech s budováním (se svou manželkou) skupiny klientů, hlavních firem, které potřebovaly sladit své strategie s explodujícím světem počítačů. Jako jsem komentoval v mé recenzi, co odlišuje tuto knihu od ostatních souvisejících snah jsou dvě zdánlivě protichůdné charakteristiky: průmyslová šíře a intimita, která je dostupná pouze prostřednictvím face-to-face interakce.   Jste Principal Architect pro datovou praxi SPR. Můžete popsat, co SPR dělá? SPR je digitální technologická konzultace se sídlem v Chicagu, dodávající technologické projekty pro řadu klientů, od firem Fortune 1000 po lokální startupy. Budujeme koncové digitální zkušenosti pomocí řady technologických schopností, od vlastního softwarového vývoje, uživatelského rozhraní, dat a cloudové infrastruktury až po DevOps koučování, softwarové testování a projektové řízení.   Jsou některé z vašich odpovědností se SPR? Jako principal architekt, má mou hlavní odpovědností vést dodávku řešení pro klienty, vést architekturu a vývoj projektů a to často znamená nosit jiné klobouky, jako je produktový vlastník, protože být schopen vztahovat se k tomu, jak produkty jsou postaveny z praktické perspektivy, váží se silně v ohledu na to, jak by se mělo práce prioritizovat, zejména při budování od začátku. Také jsem zapojen do diskusí s potenciálními klienty, když je moje odbornost potřebná a společnost nedávno požádala, abych zahájil pokračující sérii sezení se svými kolegy architekty v datové praxi, abychom diskutovali o projektech klientů, vedlejších projektech a o tom, co moji kolegové dělají, aby zůstali v obraze technologických trendů, podobně jako to, co jsem měl pro předchozí konzultaci, ačkoli interní setkání pro tuto jinou firmu zahrnovala jejich celou technologickou praxi, nikoli specificky datové práce. Pro většinu své kariéry jsem se specializoval na open source vývoj pomocí Javy, prováděje stále více datové práce po cestě. Kromě těchto dvou specializací také dělám to, co moji kolegové a já nazýváme “praktickou” nebo “pragmatickou” podnikovou architekturu, což znamená provádění architektonických úkolů v kontextu toho, co se má postavit a skutečně stavět, spíše než jen mluvit o tom nebo kreslit diagramy o tom, uvědomuje si samozřejmě, že tyto ostatní úkoly jsou také důležité. V mém názoru se tyto tři specializace překrývají navzájem a nejsou vzájemně se vylučující. Vysvětlil jsem výkonným ředitelům v posledních letech, že linie, která byla tradičně tažena technologickým odvětvím mezi softwarovým vývojem a datovou prací, již není jasně definovaná, částečně protože nástroje mezi těmito dvěma prostory se sloučily a částečně protože, jako důsledek této konvergence, datová práce se sama stala softwarovým vývojovým úsilím. Nicméně, protože tradiční datoví praktici obvykle nemají softwarové vývojářské zázemí a naopak, pomáhám vyplnit tuto mezeru.   Je nějaký zajímavý projekt, na kterém aktuálně pracujete se SPR? Právě nedávno jsem publikoval první příspěvek v multi-partitní případové studii o datové platformě, kterou můj tým a já implementovali v AWS od začátku minulý rok pro CIO Chicagské globální konzultace. Tato platforma se skládá z datových potrubí, datového jezera, kanonických datových modelů, visualizací a strojových učících modelů, které budou použity korporátními odděleními, praktikami a koncovými uživateli klienta. Jako u mnoha zavedených firem byl použití Microsoft Excel běžné, s tabulkami běžně distribuovanými uvnitř a napříč organizacemi, stejně jako mezi firmou a externími klienty. Kromě toho se obchodní jednotky a poradenské praxe staly izolovanými, každá z nich používala rozdílné procesy a nástroje. Takže kromě centralizace datových aktiv a datové analýzy byl dalším cílem implementovat koncept datového vlastnictví a umožnit sdílení dat napříč organizacemi zabezpečeným a konzistentním způsobem.   Je něco jiného, co byste rádi sdíleli o open source, SPR nebo jiném projektu, na kterém pracujete? Další projekt (přečtěte si o něm zde a zde), který jsem nedávno vedl, zahrnoval úspěšnou implementaci Databricks Unified Analytics Platform a migraci spuštění strojových učících modelů na něj z Azure HDInsight, Hadoop distribuce, pro ředitele datové technologie velké pojišťovny. Všechny tyto migrované modely byly určeny k předpovědi úrovně spotřebitelského přijetí, které lze očekávat pro různé pojišťovací produkty, některé z nich byly migrovány z SAS před několika lety, kdy společnost přešla na použití HDInsight. Největší výzvou byla špatná kvalita dat, ale další výzvy zahrnovaly nedostatečnou komplexní verzi, kmenové znalosti a neúplnou dokumentaci a nezralou Databricks dokumentaci a podporu ve vztahu k použití R v době (Azure implementace Databricks byla obecně dostupná pouze několik měsíců před tímto projektem). Abychom řešili tyto klíčové výzvy, jako následovníka naší implementační práce, jsem učinil doporučení ohledně automatizace, konfigurace a verze, oddělení datových problémů, dokumentace a potřebné výšky napříč jejich daty, platformou a modelovacími týmy. Naše práce přesvědčila původně velmi skeptického hlavního datového vědce, že Databricks je cestou, kterou je třeba jít, s jasným cílem po našem odchodu migrace zbývajících modelů na Databricks co nejdříve. Tato fascinující interview se dotkla mnoha témat, cítím, že jsem se mnoho naučil o open source. Čtenáři, kteří by mohli chtít se dozvědět více, mohou navštívit SPR firemní webové stránky nebo Erik Gfesser’s webové stránky.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.