Connect with us

Steven Hillion, SVP för Data och AI på Astronomer – Intervjuserie

Intervjuer

Steven Hillion, SVP för Data och AI på Astronomer – Intervjuserie

mm

Steven Hillion är Senior Vice President för Data och AI på Astronomer, där han utnyttjar sin omfattande akademiska bakgrund inom forskningsmatematik och över 15 års erfarenhet av utveckling av maskinlärningsplattformar i Silicon Valley. På Astronomer leder han skapandet av Apache Airflow-funktioner som är specifikt utformade för ML- och AI-team och övervakar det interna datavetenskapsteamet. Under hans ledning har Astronomer utvecklat sin moderna dataorkestreringsplattform, vilket har förbättrat dess datapipelinkapacitet avsevärt för att stödja en mångfald av datakällor och uppgifter genom maskinlärning.

Kan du dela någon information om din resa inom datavetenskap och AI, och hur den har format din approach till att leda ingenjörs- och analytikerlag?

Jag hade en bakgrund inom forskningsmatematik på Berkeley innan jag flyttade över bukten till Silicon Valley och arbetade som ingenjör i en serie framgångsrika start-ups. Jag var glad att lämna akademins politik och byråkrati, men jag upptäckte inom några år att jag saknade matematiken. Så jag skiftade till att utveckla plattformar för maskinlärning och analyser, och det är vad jag har gjort sedan.

Min utbildning i ren matematik har resulterat i en preferens för vad datavetare kallar “parsimonie” – rätt verktyg för jobbet, och ingenting mer. Eftersom matematiker tenderar att föredra eleganta lösningar över komplex maskinvara, har jag alltid försökt betona enkelhet när jag tillämpar maskinlärning på affärsproblem. Djupinlärning är bra för vissa tillämpningar – stora språkmodeller är briljanta för att sammanfatta dokument, till exempel – men ibland är en enkel regressionsmodell mer lämplig och lättare att förklara.

Det har varit fascinerande att se den skiftande rollen för datavetare och programvaruutvecklare under de senaste tjugo åren sedan maskinlärning blev allmänt. Eftersom jag har burit båda hattarna är jag mycket medveten om vikten av programvaruutvecklingslivscykeln (särskilt automatisering och testning) som tillämpas på maskinlärningsprojekt.

Vilka är de största utmaningarna i att flytta, bearbeta och analysera ostrukturerad data för AI och stora språkmodeller (LLM)?

I världen av generativ AI är din data din mest värdefulla tillgång. Modellerna är alltmer kommersialiserade, så din differentiering är all den hårda vunna institutionella kunskapen som fångas i dina proprietära och kuraterade datamängder.

Att leverera rätt data vid rätt tidpunkt ställer höga krav på dina datapipeliner – och detta gäller för ostrukturerad data lika mycket som för strukturerad data, eller kanske mer. Ofta ingår du data från många olika källor, i många olika format. Du behöver tillgång till en mängd olika metoder för att packa upp data och göra dem redo för användning i modellinferens eller modellträning. Du behöver också förstå dataursprunget och var det hamnar för att “visa ditt arbete”.

Om du bara gör detta en gång i taget för att träna en modell, är det okej. Du behöver inte nödvändigtvis operationalisera det. Om du använder modellen dagligen för att förstå kundsentiment från onlineforum, eller för att sammanfatta och dirigera fakturor, då börjar det se ut som vilken annan operativ datapipeline som helst, vilket innebär att du behöver tänka på tillförlitlighet och reproducerbarhet. Eller om du finjusterar modellen regelbundet, då behöver du oroa dig för övervakning av noggrannhet och kostnad.

Det goda nyheten är att dataingenjörer har utvecklat en utmärkt plattform, Airflow, för att hantera datapipeliner, som redan har tillämpats framgångsrikt på modelldistribution och övervakning av vissa av världens mest sofistikerade ML-team. Så modellerna kan vara nya, men orkestreringen är inte det.

Kan du förklara användningen av syntetisk data för att finjustera mindre modeller för noggrannhet? Hur jämför det med att träna större modeller?

Det är en kraftfull teknik. Du kan tänka på de bästa stora språkmodellerna som på något sätt inkapslar vad de har lärt sig om världen, och de kan förmedla det till mindre modeller genom att generera syntetisk data. LLM inkapslar enorma mängder kunskap som har lärt sig från omfattande träning på olika datamängder. Dessa modeller kan generera syntetisk data som fångar mönster, strukturer och information som de har lärt sig. Denna syntetiska data kan sedan användas för att träna mindre modeller, vilket effektivt överför kunskap från de större modellerna till de mindre. Detta kallas ofta “kunskapsdestillation” och hjälper till att skapa effektiva, mindre modeller som fortfarande presterar bra på specifika uppgifter. Och med syntetisk data kan du undvika sekretessproblem och fylla i luckor i träningsdata som är små eller ofullständiga.

Detta kan vara användbart för att träna en mer domänspecifik generativ AI-modell, och kan till och med vara mer effektivt än att träna en “större” modell, med en högre grad av kontroll.

Datavetare har genererat syntetisk data under en längre tid och imputation har funnits så länge som det funnits oordnade datamängder. Men du har alltid varit tvungen att vara mycket försiktig så att du inte introducerade fördomar eller gjorde felaktiga antaganden om datafördelningen. Nu när syntetisk data är så mycket enklare och kraftfullare, måste du vara ännu mer försiktig. Fel kan förstärkas.

En brist på diversitet i genererad data kan leda till “modellkollaps”. Modellen tror att den fungerar bra, men det är för att den inte har sett hela bilden. Och, mer allmänt, en brist på diversitet i träningsdata är något som datateam bör alltid leta efter.

På en grundläggande nivå, oavsett om du använder syntetisk data eller organisk data, är härstamning och kvalitet av yttersta vikt för att träna eller finjustera någon modell. Som vi vet är modeller bara så bra som de data de tränas på. Medan syntetisk data kan vara ett användbart verktyg för att representera en känslig datamängd utan att avslöja den eller för att fylla i luckor som kan ha lämnats i en representativ datamängd, måste du ha en pappersspår som visar var data kom från och kunna bevisa dess kvalitetsnivå.

Vilka innovativa tekniker implementerar ditt team på Astronomer för att förbättra effektiviteten och tillförlitligheten i datapipeliner?

Så många! Astros fullständigt hanterade Airflow-infrastruktur och Astro Hypervisor stöder dynamisk skalning och proaktiv övervakning genom avancerade hälsomätningar. Detta säkerställer att resurser används effektivt och att system är tillförlitliga i vilken skala som helst. Astro tillhandahåller robusta datacentrerade varningar med anpassningsbara meddelanden som kan skickas via olika kanaler som Slack och PagerDuty. Detta säkerställer att ingripande sker i tid innan problem förvärras.

Datavalideringstester, enhetstester och datakvalitetskontroller spelar en avgörande roll för att säkerställa tillförlitlighet, noggrannhet och effektivitet i datapipeliner och slutligen den data som driver ditt företag. Dessa kontroller säkerställer att medan du bygger datapipeliner snabbt för att möta dina deadline, de aktivt fångar fel, förbättrar utvecklingstider och minskar oförutsedda fel i bakgrunden. På Astronomer har vi byggt verktyg som Astro CLI för att hjälpa till att smidigt kontrollera kodfunktionalitet eller identifiera integrationsproblem inom din datapipeline.

Hur ser du på utvecklingen av generativ AI-styrning, och vilka åtgärder bör vidtas för att stödja skapandet av fler verktyg?

Styrning är avgörande om tillämpningarna av generativ AI ska vara framgångsrika. Det handlar allt om transparens och reproducerbarhet. Vet du hur du fick det här resultatet, och varifrån, och av vem? Airflow i sig ger dig redan ett sätt att se vad enskilda datapipeliner gör. Dess användargränssnitt var en av anledningarna till dess snabba antagande tidigt, och på Astronomer har vi kompletterat det med synlighet över team och distributioner. Vi tillhandahåller också våra kunder med rapporteringsinstrumentpaneler som erbjuder omfattande insikter i plattformsanvändning, prestanda och kostnadsattribuering för informerat beslutsfattande. Dessutom möjliggör Astro API att team kan distribuera, automatisera och hantera sina Airflow-pipeliner programmatiskt, vilket minskar risker förknippade med manuella processer och säkerställer smidiga operationer i stor skala när du hanterar flera Airflow-miljöer. Härstamningsfunktioner är inbyggda i plattformen.

Dessa är alla steg mot att hjälpa till att hantera datastyrning, och jag tror att företag av alla storlekar erkänner vikten av datastyrning för att säkerställa förtroende för AI-tillämpningar. Detta erkännande och medvetenhet kommer i stor utsträckning att driva efterfrågan på datastyrningsverktyg, och jag förväntar mig att skapandet av fler av dessa verktyg kommer att accelerera när generativ AI sprids. Men de måste vara en del av den större orkestreringsstacken, vilket är varför vi ser det som grundläggande för hur vi bygger vår plattform.

Kan du ge exempel på hur Astronomers lösningar har förbättrat operativ effektivitet och produktivitet för kunder?

Generativa AI-processer innefattar komplexa och resurskrävande uppgifter som måste hanteras och upprepas noggrant. Astro, Astronomers hanterade Apache Airflow-plattform, tillhandahåller en ram i centrum för den framväxande AI-appstacken för att hjälpa till att förenkla dessa uppgifter och förbättra förmågan att innovativt snabbt.

Genom att orkestrera generativa AI-uppgifter kan företag säkerställa att beräkningsresurser används effektivt och att arbetsflöden optimeras och justeras i realtid. Detta är särskilt viktigt i miljöer där generativa modeller måste uppdateras eller omtränas ofta baserat på ny data.

Genom att utnyttja Airflows arbetsflödeshantering och Astronomers distributions- och skalningsförmåga kan team spendera mindre tid på att hantera infrastruktur och fokusera sin uppmärksamhet på datatransformation och modellutveckling, vilket accelererar distributionen av generativa AI-applikationer och förbättrar prestanda.

På detta sätt har Astronomers Astro-plattform hjälpt kunder att förbättra den operativa effektiviteten för generativ AI i en mängd olika användningsfall. För att nämna några, användningsfall inkluderar e-handelsproduktupptäckt, kundavhoppningsriskanalys, supportautomatisering, juridisk dokumentklassificering och sammanfattning, insikter om produkter från kundrecensioner och dynamisk klusterprovisionering för produktbildgenerering.

Vilken roll spelar Astronomer i att förbättra prestanda och skalbarhet för AI- och ML-applikationer?

Skalbarhet är en stor utmaning för företag som använder generativ AI 2024. När man flyttar från prototyp till produktion förväntar sig användare att deras generativa AI-applikationer ska vara tillförlitliga och presterande, och att utdata de producerar ska vara trovärdiga. Detta måste göras på ett kostnadseffektivt sätt och företag av alla storlekar måste kunna utnyttja dess potential. Med detta i åtanke, genom att använda Astronomer, kan uppgifter skalas horisontellt för att dynamiskt bearbeta stora mängder datakällor. Astro kan elastiskt skalera distributioner och de kluster de distribueras på, och köbaserad uppgiftsutförande med dedikerade maskintyper ger större tillförlitlighet och effektiv användning av beräkningsresurser. För att hjälpa till med kostnadseffektivitetsbiten av pusslet erbjuder Astro funktioner för skalning till noll och vinterdvala, som hjälper till att kontrollera skenande kostnader och minska molnutgifter. Vi tillhandahåller också fullständig transparens kring plattformskostnaden. Mitt eget datateam genererar rapporter om konsumtion som vi gör tillgängliga dagligen för våra kunder.

Vilka framtida trender inom AI och datavetenskap är du entusiastisk över, och hur förbereder sig Astronomer för dem?

Förklarlig AI är ett oerhört viktigt och fascinerande utvecklingsområde. Att kunna titta in i de inre mekanismerna i mycket stora modeller är nästan kusligt. Och jag är också intresserad av att se hur samhället hanterar den miljömässiga påverkan av modellträning och finjustering. På Astronomer fortsätter vi att uppdatera vår Registry med alla de senaste integrationerna, så att data- och ML-team kan ansluta till de bästa modelltjänsterna och de mest effektiva beräkningsplattformarna utan någon tung lyftning.

Hur ser du på integrationen av avancerade AI-verktyg som LLM med traditionella datahanteringssystem under de kommande åren?

Vi har sett både Databricks och Snowflake meddela att de inkorporerar både användning och utveckling av LLM inom sina respektive plattformar. Andra DBMS och ML-plattformar kommer att göra detsamma. Det är fantastiskt att se att dataingenjörer har så lätt tillgång till så kraftfulla metoder, direkt från kommandoraden eller SQL-prompten.

Jag är särskilt intresserad av hur relationsdatabaser inkorporerar maskinlärning. Jag väntar alltid på att ML-metoder ska inkorporeras i SQL-standarden, men av någon anledning har de två disciplinerna aldrig riktigt fungerat ihop. Kanske kommer det att bli annorlunda den här gången.

Jag är mycket entusiastisk över framtiden för stora språkmodeller för att hjälpa dataingenjörernas arbete. Till att börja med har LLM redan varit särskilt framgångsrika med kodgenerering, även om tidiga försök att förse datavetare med AI-drivna förslag har varit blandade: Hex är bra, till exempel, medan Snowflake är oinspirerande hittills. Men det finns ett enormt potential att förändra naturen av arbetet för datateam, mycket mer än för utvecklare. Varför? För programvaruutvecklare är prompten en funktionsnamn eller dokumentationen, men för dataingenjörer finns det också data. Det finns så mycket sammanhang som modellerna kan arbeta med för att ge användbara och precisa förslag.

Vilken råd skulle du ge till blivande datavetare och AI-ingenjörer som vill göra en inverkan inom branschen?

Lär genom att göra. Det är så otroligt lätt att bygga applikationer idag, och att komplettera dem med artificiell intelligens. Så bygg något coolt, och skicka det till en vän till en vän som arbetar på ett företag du beundrar. Eller skicka det till mig, och jag lovar att jag kommer att ta en titt!

Knepet är att hitta något du är passionerad om och hitta en bra källa till relaterad data. En vän till mig gjorde en fascinerande analys av ovanliga basebollsäsonger ända tillbaka till 1800-talet och avslöjade några berättelser som förtjänar att ha en film gjord om dem. Och några av Astronomers ingenjörer träffades en helg för att bygga en plattform för självläkande datapipeliner. Jag kan inte föreställa mig att försöka göra något liknande för några år sedan, men med bara några dagars ansträngning vann vi Cohere’s hackathon och byggde grunden för en stor ny funktion i vår plattform.

Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka Astronomer.

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.