Rozhovory
Steven Hillion, SVP of Data and AI at Astronomer – Interview Series

Steven Hillion je Senior Vice President of Data and AI at Astronomer, kde využívá své rozsáhlé akademické zázemí v oblasti výzkumu matematiky a více než 15 let zkušeností s vývojem platformy pro strojové učení v Silicon Valley. V Astronomer vede création funkcí Apache Airflow speciálně navržených pro týmy ML a AI a dohlíží na interní tým datové vědy. Pod jeho vedením Astronomer pokročil ve svém moderním datové orchestraci platform, významně zlepšila své datové potrubí schopnosti podporovat širokou škálu zdrojů dat a úkolů prostřednictvím machine learning.
Můžete sdílet一些 informace o své cestě v datové vědě a AI, a jak to formovalo váš přístup k vedení inženýrských a analytických týmů?
Měl jsem zázemí v oblasti výzkumu matematiky na Berkeley, než jsem se přestěhoval na druhou stranu zálivu do Silicon Valley a pracoval jako inženýr v řadě úspěšných startupů. Byl jsem rád, že jsem opustil politiku a byrokracii akademické obce, ale brzy jsem zjistil, že mi chybí matematika. Takže jsem se zaměřil na vývoj platforem pro strojové učení a analytiku, a to je vlastně to, co jsem dělal od té doby.
Mé školení v oblasti čisté matematiky mi dalo přednost k tomu, co datoví vědci nazývají “parsimony” — pravý nástroj pro práci, a nic víc. Protože matematici mají tendenci upřednostňovat elegantní řešení před složitými mechanismy, snažím se vždy zdůrazňovat jednoduchost při aplikaci strojového učení na obchodní problémy. Hluboké učení je skvělé pro některé aplikace — velké jazykové modely jsou brilantní pro souhrn dokumentů, například — ale někdy je jednoduchý regresní model vhodnější a snazší vysvětlit.
Bylo fascinující sledovat měnící se roli datového vědce a softwarového inženýra v posledních dvaceti letech, kdy se strojové učení stalo široce rozšířené. Protože jsem nosil obě čepice, jsem si velmi vědom důležitosti softwarového vývojového cyklu (zejména automatizace a testování) při aplikaci na projekty strojového učení.
Jaké jsou největší výzvy při přesunu, zpracování a analýze nestrukturovaných dat pro AI a velké jazykové modely (LLM)?
Ve světě Generative AI je vaše data největším aktivem. Modely jsou stále více komoditizovány, takže vaše odlišení je vše, co jste získali díky tvrdé institucionální znalosti zachycené ve vašich proprietárních a kurátorovaných datech.
Dodání správných dat ve správný čas klade vysoké nároky na vaše datové potrubí — a to platí pro nestrukturovaná data stejně jako pro strukturovaná data, nebo možná ještě více. Často přijímáte data z mnoha různých zdrojů, ve mnoha různých formátech. Potřebujete přístup k různým metodám, aby jste mohli rozbalit data a připravit je pro použití v modelu inference nebo modelu školení. Potřebujete také pochopit původ dat a kam nakonec skončí, aby jste mohli “ukázat svou práci”.
Pokud to děláte pouze občas pro školení modelu, je to v pořádku. Není nutné to operationalizovat. Pokud však používáte model denně, aby jste pochopili zákaznickou spokojenost z online fór, nebo aby jste souhrn a směrovali faktury, začíná to vypadat jako jakýkoli jiný operační datový potrubí, což znamená, že musíte myslet na spolehlivost a reprodukovatelnost. Nebo pokud pravidelně jemně ladíte model, musíte se obávat monitorování přesnosti a nákladů.
Dobrou zprávou je, že datové inženýři vyvinuli skvělou platformu, Airflow, pro správu datových potrubí, která již byla úspěšně použita pro správu nasazení modelu a monitorování některými z nejsofistikovanějších ML týmů na světě. Takže modely mohou být nové, ale orchestrace není.
Můžete vysvětlit použití syntetických dat pro jemné ladění menších modelů pro přesnost? Jak se to srovnává s trénováním větších modelů?
Je to mocný technik. Můžete si představit nejlepší velké jazykové modely jako nějakým způsobem zahrnuté, co se naučily o světě, a mohou to předat menším modelům generováním syntetických dat. LLM zahrnují obrovské množství znalostí, které se naučily z rozsáhlého tréninku na rozmanitých datech. Tyto modely mohou generovat syntetická data, která zachycují vzory, struktury a informace, které se naučily. Tato syntetická data lze pak použít pro trénink menších modelů, efektivní transfer některých znalostí z větších modelů do menších. Tento proces se často nazývá “knowledge distillation” a pomáhá při vytváření efektivních, menších modelů, které stále dobře fungují na konkrétní úkoly. A se syntetickými daty můžete také vyhnout problémům s ochranou soukromí a vyplnit mezery ve tréninkových datech, která jsou malá nebo neúplná.
To může být užitečné pro trénink více doménově specifického generativního AI modelu a může být dokonce účinnější než trénink “většího” modelu, s větší kontrolou.
Datoví vědci generují syntetická data již nějakou dobu a imputace existuje tak dlouho, jak existují špinavá data. Ale vždy jste museli být velmi opatrní, abyste nezaváděli zkreslení nebo nedělali nesprávné předpoklady o distribuci dat. Nyní, když je generování dat tak snadné a mocné, musíte být ještě více opatrní. Chyby mohou být zveličeny.
Nedostatek rozmanitosti v generovaných datech může vést k “model collapse”. Model si myslí, že funguje dobře, ale to je protože neviděl celý obraz. A obecněji, nedostatek rozmanitosti ve tréninkových datech je něco, na co by se datové týmy měly vždy zaměřit.
Na základní úrovni, ať už používáte syntetická data nebo organická data, původ a kvalita jsou zásadní pro trénink nebo jemné ladění jakéhokoli modelu. Jak víme, modely jsou pouze tak dobré, jako jsou data, na kterých byly trénovány. Zatímco syntetická data mohou být skvělým nástrojem pro reprezentaci citlivých dat bez jejich odhalení nebo pro vyplnění mezer, které mohou být vynechány v reprezentativních datech, musíte mít papírovou stopu, která ukazuje, odkud data pocházejí, a musíte být schopni prokázat jejich úroveň kvality.
Jaké jsou některé inovativní techniky, které váš tým v Astronomer implementuje pro zlepšení efektivity a spolehlivosti datových potrubí?
Tak mnoho! Astro’s fully-managed Airflow infrastruktura a Astro Hypervisor podporuje dynamické škálování a proaktivní monitorování prostřednictvím pokročilých zdravotních metrik. To zajišťuje, že zdroje jsou používány efektivně a že systémy jsou spolehlivé v jakémkoli měřítku. Astro poskytuje robustní data-centric alerting s přizpůsobitelnými oznámeními, která mohou být odeslána prostřednictvím různých kanálů, jako je Slack a PagerDuty. To zajišťuje včasnou intervenci, než se problémy zhorší.
Testy datové validace, jednotkové testy a kontroly datové kvality hrají vitální roli při zajišťování spolehlivosti, přesnosti a efektivity datových potrubí a nakonec dat, která pohání váš business. Tyto kontroly zajišťují, že zatímco rychle stavíte datové potrubí, aby jste splnili své termíny, aktivně chytají chyby, zlepšují dobu vývoje a snižují neočekávané chyby na pozadí. V Astronomer jsme vytvořili nástroje, jako je Astro CLI, aby pomohly bezproblémově kontrolovat funkčnost kódu nebo identifikovat integrační problémy ve vašem datovém potrubí.
Jak vidíte vývoj řízení generativního AI, a jaké opatření by měly být přijata pro podporu vytváření dalších nástrojů?
Řízení je imperativní, pokud mají být aplikace Generative AI úspěšné. Je to vše o transparentnosti a reprodukovatelnosti. Víte, jak jste získali tento výsledek, a odkud, a kým? Airflow sám o sobě již poskytuje způsob, jak vidět, co jednotlivá datová potrubí dělají. Jeho uživatelské rozhraní bylo jedním z důvodů jeho rychlé adopce na počátku, a v Astronomer jsme to doplnili o viditelnost napříč týmy a nasazeními. Také poskytujeme našim zákazníkům Reporting Dashboards, které nabízejí komplexní přehled o využití platformy, výkonu a nákladové atribuci pro informovaná rozhodnutí. Kromě toho Astro API umožňuje týmům programově nasazovat, automatizovat a spravovat své Airflow potrubí, čímž se snižují rizika spojená s manuálními procesy a zajišťuje se bezproblémový provoz ve velkém měřítku při správě více Airflow prostředí. Schopnosti původů jsou integrovány do platformy.
Tyto jsou všechny kroky směrem k pomoci při správě datové governance, a věřím, že společnosti všech velikostí rozpoznávají důležitost datové governance pro zajištění důvěry v AI aplikacích. Toto rozpoznání a povědomí budou ve velké míře pohánět poptávku po nástrojích datové governance, a předpokládám, že bude vytvořeno více těchto nástrojů, aby urychlily, jak se generativní AI rozšíří. Ale musí být součástí větší orchestrace stacku, což je důvod, proč jej považujeme za základní pro způsob, jakým stavíme нашу platformu.
Můžete poskytnout příklady toho, jak řešení Astronomer zlepšila provozní efektivitu a produktivitu pro klienty?
Procesy Generative AI zahrnují komplexní a náročné úkoly, které je třeba pečlivě optimalizovat a opakovaně spouštět. Astro, Astronomerova spravovaná Apache Airflow platforma, poskytuje rámec ve středu vznikajícího AI app stacku, aby pomohla zjednodušit tyto úkoly a zlepšit schopnost inovovat rychle.
Průmysly mohou zajistit, aby byly výpočetní zdroje používány efektivně a pracovní postupy byly optimalizovány a upravovány v reálném čase. To je özellikle důležité v prostředích, kde je třeba generativní modely často aktualizovat nebo přeškolit na základě nových dat.
Pomocí Airflowova workflow managementu a Astronomerových nasazení a škálovacích schopností mohou týmy strávit méně času správou infrastruktury a zaměřit se na transformaci dat a vývoj modelů, což urychluje nasazení Generative AI aplikací a zlepšuje výkon.
Tímto způsobem Astronomerova Astro platforma pomáhala zákazníkům zlepšit provozní efektivitu generativního AI napříč širokou škálou použití. Abyste jmenovali několik, použití zahrnují e-commerce produkt objev, zákaznickou churn riziko analýzu, podporu automatizaci, právní dokument klasifikaci a souhrn, získání produktů přehledů z zákaznických recenzí a dynamické cluster poskytování pro produkt obraz generace.
Jakou roli hraje Astronomer při zlepšování výkonu a škálovatelnosti AI a ML aplikací?
Škálovatelnost je velkou výzvou pro podniky, které využívají generativní AI v roce 2024. Když se pohybujete z prototypu do produkce, uživatelé očekávají, že jejich generativní AI aplikace budou spolehlivé a výkonné, a že výstupy, které produkují, budou důvěryhodné. To musí být provedeno nákladově efektivně a podniky všech velikostí musí být schopny využít jeho potenciál. S tímto na mysli, pomocí Astronomer, úkoly lze škálovat horizontálně, aby se dynamicky zpracovávaly velké množství zdrojů dat. Astro může elasticky škálovat nasazení a cluster, na kterých jsou hostovány, a frontový úkol provádění s vyhrazenými stroji poskytuje větší spolehlivost a efektivní využití výpočetních zdrojů. Pro pomoc s nákladově efektivní částí puzzle, Astro nabízí škálovat na nulu a hibernaci funkce, které pomáhají kontrolovat spirálovité náklady a snižovat cloudové výdaje. Také poskytujeme kompletní transparentnost kolem nákladů na platformu. Můj vlastní datový tým generuje zprávy o spotřebě, které jsme každý den zpřístupní našim zákazníkům.
Jaké jsou některé budoucí trendy v AI a datové vědě, které vás zajímají, a jak se Astronomer připravuje na ně?
Vysvětlitelné AI je obrovsky důležité a fascinující oblast vývoje. Být schopen nahlédnout do vnitřních mechanismů velmi velkých modelů je téměř znepokojivé. A jsem také zvědav, jak komunita zápasí s environmentálním dopadem modelového tréninku a ladění. V Astronomer pokračujeme v aktualizaci našeho Registru s veškerými nejnovějšími integracemi, aby datové a ML týmy mohly připojit se k nejlepšímu modelovému službám a nejefektivnějším výpočetním platformám bez jakýchkoli těžkých zvedání.
Jak si představujete integraci pokročilých AI nástrojů, jako jsou LLM, s tradičními systémy správy dat v průběhu následujících několika let?
Sledujeme, jak Databricks a Snowflake oznámily, jak začleňují použití a vývoj LLM do svých platforem. Další DBMS a ML platformy budou dělat totéž. Je skvělé vidět, že datové inženýři mají tak snadný přístup k tak mocným metodám, přímo z příkazového řádku nebo SQL promptu.
Jsem zvláště zvědav, jak relační databáze začleňují strojové učení. Já vždy čekám, až budou ML metody začleněny do SQL standardu, ale nějakým způsobem se tyto dvě disciplíny nikdy opravdu nesetkaly. Možná tentokrát bude jinak.
Jsem velmi nadšený z budoucnosti velkých jazykových modelů, aby pomohly práci datového inženýra. Začínají být zvláště úspěšné s generováním kódu, ačkoli první úsilí o zásobování datových vědců s AI-drivenými návrhy bylo smíšené: Hex je skvělé, například, zatímco Snowflake je nezajímavé zatím. Ale existuje obrovský potenciál změnit povahu práce pro datové týmy, mnohem více než pro vývojáře. Proč? Pro softwarové inženýry je prompt funkcí název nebo dokumentace, ale pro datové inženýry je tam také data. Existuje tolik kontextu, se kterým mohou modely pracovat, aby poskytly užitečné a přesné návrhy.
Jakou radu byste dal aspirujícím datovým vědcům a AI inženýrům, kteří chtějí mít dopad v průmyslu?
Učte se dělat. Je to tak neuvěřitelně snadné postavit aplikace dnes a rozšířit je o umělou inteligenci. Tak postavte něco cool, a pošlete to kamarádovi kamaráda, který pracuje v společnosti, kterou obdivujete. Nebo pošlete to mně, a slibuji, že se na to podívám!
Trikem je najít něco, co vás zajímá, a najít dobrý zdroj souvisejících dat. Kamarád můj provedl fascinující analýzu anomálních baseballových sezon, sahající až do 19. století, a odhalil některé příběhy, které si zaslouží, aby o nich byl natočen film. A někteří z Astronomerových inženýrů nedávno strávili víkend stavbou platformy pro self-healing datové potrubí. Nemohu si představit, že bych to zkoušel udělat před několika lety, ale s pouhými několika dny úsilí jsme vyhráli Cohere’s hackathon a postavili základnu nové funkce v naší platformě.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit Astronomer.












