Rozhovory
Wilson Pang, Spoluautor knihy Real World AI – Interview Series

Wilson Pang se připojil k Appen v listopadu 2018 jako CTO a je zodpovědný za produkty a technologii společnosti. Wilson má více než devatenáct let zkušeností v oblasti softwarového inženýrství a datové vědy. Předtím, než se připojil k Appen, byl Wilson chief data officer společnosti Ctrip v Číně, druhé největší online cestovní agentury na světě, kde vedl datové inženýry, analytiky, manažery datových produktů a vědce, aby zlepšili uživatelské zkušenosti a zvýšili provozní efektivitu, což vedlo k růstu podnikání. Předtím byl senior director of engineering v eBay v Kalifornii a poskytoval vedení v různých oblastech, včetně datové služby a řešení, search science, marketingové technologie a fakturačních systémů. Pracoval jako architekt v IBM předtím, než nastoupil do eBay, a budovat technologická řešení pro různé klienty. Wilson získal magisterský a bakalářský titul v oboru elektrotechniky na Zhejiang University v Číně.
Diskutujeme o jeho nové knize: Real World AI: Praktický průvodce pro odpovědné strojové učení
Vy vysvětluje, jak jste, když jste vedl týmy search science v eBay, jednou z vašich prvních lekcí s strojovým učením bylo pochopení důležitosti znalosti toho, která metrika měřit. Příkladem je, jak metrika „nákupy za relaci“ nezohledňovala peněžní hodnotu položky. Jak mohou společnosti nejlépe pochopit, které metriky je třeba měřit, aby se vyhnuly podobným problémům?
Začněte s cíli, které váš tým přisuzuje modelu AI – v našem případě jsme chtěli zvýšit výnosy pomocí strojového učení. Když připojíte metriky k cílům, přemýšlejte o tom, jaké mechanismy tyto metriky budou produkovat, jednou jste model uvolnili a lidé začali s ním interagovat, ale také si uvědomte své předpoklady. V našem případě jsme předpokládali, že model bude optimalizovat pro výnosy, ale počet nákupů za relaci se nezměnil na to, protože model optimalizoval pro vysoké číslo nízko-hodnotných prodejů, a na konci dne jsme nevydělali více peněz. Jakmile jsme si to uvědomili, byli jsme schopni změnit metriky a nasměrovat model správným směrem. Takže stanovení podrobných metrik, stejně jako poznámky o předpokladech, jsou kritické pro úspěch projektu.
Co jste osobně naučil z výzkumu a psaní této knihy?
Máme spoustu různých problémů, které lze vyřešit pomocí AI z různých společností a různých odvětví. Případy použití mohou být velmi odlišné, AI řešení může být odlišné, data pro výcvik tohoto AI řešení mohou být odlišná. Nicméně, bez ohledu na všechny tyto rozdíly, chyby, které lidé dělají během své AI cesty, jsou quite podobné. Tyto chyby se opakují znovu a znovu ve všech typech společností z různých odvětví.
Sdílíme některé společné nejlepší postupy při implementaci AI projektů s nadějí, že pomůžeme více lidem a společnostem vyhnout se těmto chybám a získat jim důvěru k nasazení odpovědného AI.
Jaké jsou některé z nejdůležitějších lekcí, které doufáte, že lidé vezmou z čtení této knihy?
Pečlivě věříme, že uvážené, odpovědné a etické použití technologie strojového učení může učinit svět spravedlivějším, férovějším a inkluzivnějším místem. Technologie strojového učení slibuje změnit vše v obchodním světě, ale nemusí to být těžké. Existují vyzkoušené a ověřené metody a procesy, které týmy mohou následovat a získat důvěru k nasazení do produkce.
Další klíčová lekce je, že vlastníci line-of-business (jako produktoví manažeři) a členové týmu na více technické straně (jako inženýři a datoví vědci) potřebují mluvit společným jazykem. Aby se úspěšně nasadilo AI, lídři musí překlenout propast mezi týmy, poskytovat obchodním specialistům a C-level dostatečnou kontext, aby mohli efektivně komunikovat s technickými implementátory.
Mnoho lidí si první myslí kód, když si myslí o AI. Jedna z klíčových lekcí v knize je, že data jsou kritická pro úspěch modelu AI. Existuje mnoho věcí, které se týkají dat od sběru po označování, úložiště a každý krok ovlivní úspěch modelu. Nejúspěšnější nasazení AI jsou ta, která kladou velký důraz na data a usilují o kontinuální zlepšování tohoto aspektu svého modelu ML.
Všechny reálné AI vyžadují cross-funkční tým a inovativní ducha.
Diskutuje se o stanovení, kdy je přesnost modelu AI dostatečně vysoká pro použití AI. Jaký je nejjednodušší způsob, jak posoudit typ přesnosti, který je potřebný?
Závisí to na vašich případech použití a toleranci k riziku. Týmy, které vyvíjí AI, by vždy měly mít testovací fázi, ve které určují úrovně přesnosti a přijatelné prahové hodnoty pro své organizace a stakeholdery. Pro životně důležité případy použití – kde existuje potenciální újma, pokud AI selže, jako je případ softwaru pro trestání, samořiditelná auta, medicínské případy, je laťka velmi, velmi vysoká – a týmy musí zavést záruky v případě, že modely jsou špatné. Pro více chybově tolerantní případy použití – kde je很多 subjektivita – jako obsah, vyhledávání nebo reklamy, týmy mohou spoléhat na zpětnou vazbu uživatelů, aby pokračovaly v úpravě svých modelů, i když jsou ve výrobě. Samozřejmě, existují některé vysoce rizikové případy použití zde, kde může být nezákonný nebo nemorální materiál zobrazen uživatelům, takže záruky a mechanismy zpětné vazby musí být na místě.
Můžete definovat důležitost definice úspěchu projektu na začátku?
Je stejně důležité začít s obchodním problémem, jako je definice úspěchu na začátku, protože tyto dvě věci jdou ruku v ruce. Následuje příklad v knize o automobilovém dealérovi, který používá AI k označení obrazů, oni neurčili, co znamená úspěch, protože neměli definovaný obchodní problém, který chtěli vyřešit. Úspěch pro ně mohl být mnoha různých věcí, což činí obtížné vyřešit problém, i pro týmy lidí, natož pro model strojového učení s pevným rozsahem. Pokud by určili, co znamená úspěch, jako například označit 80 % všech vozidel s otěrem, aby vytvořili seznam vozidel, která potřebují opravu, a když by přesně označili 85 %, tým by nazval to úspěchem. Ale pokud tento úspěch není spojen s obchodním problémem a s přímým obchodním dopadem, je obtížné vyhodnotit projekt mimo zaměřenou definici označení přesnosti v tomto příkladu. Zde byl obchodní problém složitější, a označení otěrů je pouze součástí toho. V jejich případě by mohli být lépe tím, že by určili úspěch jako úsporu času / peněz na procesu nároků nebo optimalizaci procesu oprav o X % a poté přeložit dopad označení do skutečných obchodních výsledků.
Jak důležité je zajištění, aby příklady trénovacích dat pokrývaly všechny případy použití, které se vyskytnou v produkční nasazení?
Je extrémně důležité, aby model byl trénován na všech případech použití, aby se zabránilo zkreslení. Ale je také důležité poznamenat, že, zatímco je nemožné pokrýt absolutně všechny případy použití v produkci, týmy, které staví AI, potřebují pochopit své produkční data, stejně jako svá trénovací data, aby trénovaly AI pro to, co bude potkávat v produkci. Přístup k trénovacím datům, která pocházejí z velkých a rozmanitých skupin s různými případy použití, bude kritický pro úspěch modelu. Například model, který je trénován k rozpoznání lidí na nahrávaném obrázku, musí být trénován na všech typech lidí; psy, kočky, ptáky, malé savce, plazy, atd. Pokud je model trénován pouze na psy, kočky a ptáky, pak když někdo nahraje obrázek se svým morčatem, model nebude schopen jej identifikovat. Zatímco je to velmi jednoduchý příklad, ukazuje, jak trénování na co nejvíce pravděpodobných případech použití je kritické pro úspěch modelu.
Diskutuje se v knize o potřebě vyvinout dobré návyky datové hygieny shora dolů, jaké jsou některé první kroky k pěstování tohoto návyku?
Dobré návyky datové hygieny zvýší využitelnost interních dat a připraví je pro případy použití ML. Celá společnost musí být dobrá v organizování a sledování svých datových sad. Jeden jistý způsob, jak toho dosáhnout, je učinit to obchodním požadavkem a sledovat implementaci, aby byly velmi málo zpráv, které skončí jako custom jobs, a týmy pracují více a více s datovými potrubími směřujícími do centrálního úložiště, s jasnou ontologií. Další dobrá praxe je uchovávat záznam o tom, kdy a kde byla data sbírána a co se s nimi stalo, než byla umístěna do databáze, a také zavedení procesů pro čištění nepoužívaných nebo zastaralých dat pravidelně.
Děkuji za skvělý rozhovor, pro čtenáře, kteří mají zájem se dozvědět více, doporučuji, aby si přečetli knihu Real World AI: Praktický průvodce pro odpovědné strojové učení.












