Interviews
Steven Hillion, SVP for Data og AI hos Astronomer – Intervju-serie

Steven Hillion er Senior Vice President for Data og AI hos Astronomer, hvor han udnytter sin omfattende akademiske baggrund i forskningsmatematik og mere end 15 års erfaring i udviklingen af maskinlæringsplatforme i Silicon Valley. Hos Astronomer står han i spidsen for udviklingen af Apache Airflow-funktioner, der specifikt er designed til ML- og AI-hold, og overvåger det interne datavidenskabshold. Under hans ledelse har Astronomer udviklet sin moderne data-orchestreringsplatform, hvilket betydeligt har forbedret dens data-pipelineringsfunktioner til at understøtte en bred vifte af datakilder og opgaver gennem maskinlæring.
Kan du dele nogle oplysninger om din rejse i datavidenskab og AI, og hvordan det har formet din tilgang til at lede ingeniør- og analytikhold?
Jeg havde en baggrund i forskningsmatematik på Berkeley, før jeg flyttede over til Silicon Valley og arbejdede som ingeniør i en række succesfulde start-ups. Jeg var glad for at forlade akademias politik og bureaukrati, men jeg fandt ud af, at jeg savnede matematikken efter nogle år. Så jeg skiftede til udvikling af platforme til maskinlæring og analytics, og det er næsten det, jeg har gjort siden.
Min uddannelse i ren matematik har resulteret i en præference for, hvad datavidenskabsfolk kalder ‘parsimonie’ – det rigtige værktøj til jobbet, og intet mere. Fordi matematikere tenderer til at foretrække elegante løsninger over komplekse maskiner, har jeg altid forsøgt at understrege enkelhed, når jeg anvender maskinlæring til forretningsproblemer. Dyb læring er fantastisk til visse anvendelser – store sprogmodeller er briliante til at sammenfatte dokumenter, for eksempel – men nogle gange er en simpel regressionsmodel mere passende og lettere at forklare.
Det har været fascinerende at se den skiftende rolle for datavidenskabsfolk og software-ingeniører i disse sidste 20 år, siden maskinlæring blev udbredt. Da jeg har haft begge roller, er jeg meget bevidst om vigtigheden af software-udviklingslivscyklusen (især automatisering og test) i forhold til maskinlæringsprojekter.
Hvad er de største udfordringer i at flytte, behandle og analysere ustruktureret data til AI og store sprogmodeller (LLM’er)?
I verden af generativ AI er dine data din mest værdifulde aktiv. Modellerne er mere og mere kommodificerede, så din differentiering er alt det hårde vundne institutionelle kendskab, der er fanget i dine proprietære og kuraterede datasets.
At levere de rigtige data på det rigtige tidspunkt stiller store krav til dine data-pipelines – og dette gælder lige så meget for ustruktureret data som for struktureret data, eller måske endda mere. Ofte indtager du data fra mange forskellige kilder, i mange forskellige formater. Du har brug for adgang til en række metoder for at pakke data ud og gøre dem klar til brug i model-inferens eller model-træning. Du har også brug for at forstå dataenes proveniens og hvor de ender, for at “vise dit arbejde”.
Hvis du kun gør dette en gang imellem for at træne en model, er det i orden. Du behøver ikke nødvendigvis at operationalisere det. Hvis du bruger modellen dagligt til at forstå kundesentiment fra online-fora eller til at sammenfatte og routere fakturaer, så begynder det at ligne en anden operationel data-pipeline, hvilket betyder, at du skal tænke på pålidelighed og reproducerbarhed. Eller hvis du finjusterer modellen regelmæssigt, så skal du bekymre dig om overvågning af nøjagtighed og omkostninger.
Det gode nyheds er, at data-ingeniører har udviklet en fantastisk platform, Airflow, til at styre data-pipelines, som allerede er blevet anvendt med succes til at styre model-udvikling og overvågning af nogle af verdens mest avancerede ML-hold. Så modellerne må være nye, men orkestrering er ikke.
Kan du uddybe brugen af synthetiske data til at finjustere mindre modeller for nøjagtighed? Hvordan sammenligner dette med træning af større modeller?
Det er en kraftfuld teknik. Du kan tænke på de bedste store sprogmodeller som på en måde, der inkapslerer, hvad de har lært om verden, og de kan videregive det til mindre modeller ved at generere synthetiske data. LLM’er inkapslerer enorme mængder af kendskab, der er lært fra omfattende træning på diverse datasets. Disse modeller kan generere synthetiske data, der fanget mønstre, strukturer og information, de har lært. Disse synthetiske data kan derefter bruges til at træne mindre modeller, hvilket effektivt overfører noget af kendskabet fra de større modeller til de mindre. Dette kaldes ofte “kendskabsdestillation” og hjælper med at skabe effektive, mindre modeller, der stadig performer godt på bestemte opgaver. Og med synthetiske data kan du undgå problemer med privatlivets fred og udfylde huller i træningsdata, der er små eller ufuldstændige.
Dette kan være nyttigt til træning af en mere domænespecifik generativ AI-model og kan endda være mere effektivt end træning af en “større” model med en højere grad af kontrol.
Datavidenskabsfolk har genereret synthetiske data i lang tid, og imputation har eksisteret, så længe der har været beskidte datasets. Men du skal altid være meget forsigtig, så du ikke introducerer fordomme eller gør forkerte antagelser om datafordelingen. Nu, hvor det er så meget lettere og kraftfuldt at generere data, skal du være endnu mere forsigtig. Fejl kan forstærkes.
Manglen på diversitet i genererede data kan føre til ‘model-kollaps’. Modellen tror, den gør det godt, men det er, fordi den ikke har set det fulde billede. Og mere generelt skal datahold altid være på udkig efter manglen på diversitet i træningsdata.
På et grundlæggende niveau, uanset om du bruger synthetiske data eller organisk data, er afstamning og kvalitet afgørende for træning eller finjustering af enhver model. Som vi ved, er modeller kun så gode som de data, de er trænet på. Mens synthetiske data kan være et fantastisk værktøj til at repræsentere et følsomt dataset uden at afsløre det eller til at udfylde huller, der måske er udeladt af et repræsentativt dataset, skal du have en papirspor, der viser, hvor data kommer fra, og være i stand til at bevise dens niveau af kvalitet.
Hvad er nogle innovative teknikker, som dit hold hos Astronomer implementerer for at forbedre effektiviteten og pålideligheden af data-pipelines?
Så mange! Astros fuldt administrerede Airflow-infrastruktur og Astro Hypervisor understøtter dynamisk skalerbarhed og proaktiv overvågning gennem avancerede sundheds-målinger. Dette sikrer, at ressourcerne bruges effektivt, og at systemerne er pålidelige på ethvert niveau. Astro tilbyder robust data-centrisk alarm med tilpasselige meddelelser, der kan sendes gennem forskellige kanaler som Slack og PagerDuty. Dette sikrer, at der indgribes rettidigt, før problemer eskalerer.
Data-valideringstests, enhedstests og datakvalitetskontroller spiller en vital rol i at sikre pålideligheden, nøjagtigheden og effektiviteten af data-pipelines og i sidste ende de data, der driver din forretning. Disse kontroller sikrer, at mens du bygger data-pipelines hurtigt for at møde dine deadline, fanger de aktivt fejl, forbedrer udviklingstiden og reducerer uventede fejl i baggrunden. Hos Astronomer har vi bygget værktøjer som Astro CLI til at hjælpe med at kontrollere kodefunktionalitet eller identificere integrationsproblemer inden for din data-pipeline.
Hvordan ser du på udviklingen af generativ AI-styring, og hvilke foranstaltninger skal tages for at understøtte skabelsen af flere værktøjer?
Styring er afgørende, hvis anvendelserne af generativ AI skal være succesfulde. Det handler alt om gennemsigtighed og reproducerbarhed. Ved du, hvordan du fik dette resultat, og fra hvem, og af hvem? Airflow giver dig allerede en måde at se, hvad enkeltdata-pipelines gør på. Dets brugergrænseflade var en af grundene til dets hurtige adoption tidligt, og hos Astronomer har vi suppleret det med synlighed på tværs af hold og installationer. Vi tilbyder også vores kunder Rapporteringsskærm med omfattende indsigt i platformens brug, ydeevne og omkostningsallokering til informerede beslutninger. Derudover giver Astro API holdene mulighed for at deployere, automatisere og administrere deres Airflow-pipelines programmeret, hvilket reducerer risici forbundet med manuelle processer og sikrer problemfri drift i stor målestok, når der håndteres multiple Airflow-miljøer. Afstamningsfunktioner er indbygget i platformen.
Disse er alle skridt mod at hjælpe med at styre datastyring, og jeg tror, at virksomheder af alle størrelser erkender vigtigheden af datastyring til at sikre tillid til AI-anvendelser. Denne erkendelse og bevidsthed vil i høj grad drive efterspørgslen efter datastyringsværktøjer, og jeg forventer, at skabelsen af flere af disse værktøjer vil accelerere, da generativ AI breder sig. Men de skal være en del af den større orkestreringsstak, hvilket er, hvorfor vi betragter det som fundamentalt for, hvordan vi bygger vores platform.
Kan du give eksempler på, hvordan Astronomers løsninger har forbedret operationel effektivitet og produktivitet for kunder?
Generative AI-processer indebærer komplekse og ressourcekrævende opgaver, der skal være omhyggeligt optimeret og gentagne. Astro, Astronomers administrerede Apache Airflow-platform, giver en ramme i centrum af den opkommende AI-app-stak til at hjælpe med at forenkle disse opgaver og forbedre evnen til at innovere hurtigt.
Ved at orkestrere generative AI-opgaver kan virksomheder sikre, at beregningsressourcerne bruges effektivt, og at arbejdsgange er optimeret og justeret i realtid. Dette er særligt vigtigt i miljøer, hvor generative modeller skal opdateres eller gen-trænes hyppigt på basis af nye data.
Ved at udnytte Airflows arbejdsgangsadministration og Astronomers installations- og skaleringsfunktioner kan hold bruge mindre tid på at administrere infrastruktur og fokusere deres opmærksomhed i stedet på data-transformation og model-udvikling, hvilket accelererer udviklingen af generative AI-anvendelser og forbedrer ydeevnen.
På denne måde har Astronomers Astro-platform hjulpet kunder med at forbedre den operationelle effektivitet af generativ AI på tværs af en bred vifte af brugsområder. For at nævne nogle, omfatter brugsområder e-handelsprodukt-opdagelse, kunde-afhoppnings-risikoanalyse, support-automatisering, juridisk dokument-klassificering og -sammenfattelse, indsigt i produkter fra kunde- anmeldelser og dynamisk kluster-udførelse til produkt-billede-generering.
Hvad rolle spiller Astronomer i at forbedre ydeevnen og skalerbarheden af AI- og ML-anvendelser?
Skalerbarhed er en stor udfordring for virksomheder, der tager del i generativ AI i 2024. Når man flytter fra prototype til produktion, forventer brugerne, at deres generative AI-apps er pålidelige og yder gode resultater, og at outputtet, de producerer, er troværdigt. Dette skal gøres på en omkostningseffektiv måde, og virksomheder af alle størrelser skal kunne udnytte dets potentiale. Med dette i mente kan opgaver med Astronomer skaleres vandret for at bearbejde store mængder af data-kilder dynamisk. Astro kan elastisk skalerer installationer og de clusters, de er installeret på, og kø-baseret opgave-kørsel med dedikeret maskintype giver større pålidelighed og effektiv brug af beregningsressourcer. For at hjælpe med omkostningsdelen af puslespillet tilbyder Astro funktioner som skaler-til-nul og dvale, som hjælper med at kontrollere stigende omkostninger og reducere sky-udgifter. Vi tilbyder også fuld gennemsigtighed omkring platformens omkostninger. Mit eget datahold genererer rapporter om forbrug, som vi gør tilgængelige dagligt for vores kunder.
Hvad er nogle fremtidige tendenser i AI og datavidenskab, som du er begejstret for, og hvordan forbereder Astronomer sig på dem?
Forklarlig AI er et enormt vigtigt og fascinerende udviklingsområde. At kunne kigge ind i de indre mekanismer af meget store modeller er næsten uhyggeligt. Og jeg er også interesseret i at se, hvordan fællesskabet kæmper med den miljømæssige impact af model-træning og -justering. Hos Astronomer fortsætter vi med at opdatere vores Registry med alle de seneste integrationer, så data- og ML-hold kan tilslutte sig de bedste model-tjenester og de mest effektive beregningsplatforme uden nogen tung løftning.
Hvordan forestiller du dig integrationen af avancerede AI-værktøjer som LLM’er med traditionelle datastyringssystemer udvikler sig over de næste få år?
Vi har set både Databricks og Snowflake annoncere, hvordan de inkorporerer både brugen og udviklingen af LLM’er inden for deres respektive platforme. Andre DBMS og ML-platforme vil gøre det samme. Det er fantastisk at se, at data-ingeniører har så let adgang til så kraftfulde metoder, lige fra kommandolinjen eller SQL-prompten.
Jeg er særligt interesseret i, hvordan relationelle databaser inkorporerer maskinlæring. Jeg venter altid på, at ML-metoder skal inkorporeres i SQL-standarderne, men af en eller anden grund har de to discipliner aldrig rigtig fungeret sammen. Måske vil denne gang være anderledes.
Jeg er meget begejstret for fremtiden for store sprogmodeller til at hjælpe data-ingeniørernes arbejde. For eksempel har LLM’er allerede været særligt succesfulde med kode-generering, selv om tidlige forsøg på at forsyne datavidenskabsfolk med AI-drevne forslag har været blandede: Hex er fantastisk, for eksempel, mens Snowflake er uinspirerende indtil videre. Men der er enormt potentiale for at ændre arbejdets natur for data-hold, langt mere end for udviklere. Hvorfor? For software-ingeniører er prompten en funktionsnavn eller dokumentationen, men for data-ingeniører er der også data. Der er så meget kontekst, som modeller kan arbejde med for at give nyttige og præcise forslag.
Hvad råd ville du give til aspirerende datavidenskabsfolk og AI-ingeniører, der ønsker at gøre en indsats i branchen?
Lær ved at gøre. Det er så utrolig let at bygge anvendelser i dag, og at supplere dem med kunstig intelligens. Så byg noget fedt, og send det til en ven af en ven, der arbejder i en virksomhed, du beundrer. Eller send det til mig, og jeg lover, at jeg vil kigge på det!
Tricket er at finde noget, du er passioneret om, og finde en god kilde til relaterede data. En ven af mig gjorde en fascinerende analyse af anomale baseball-sæsoner tilbage til det 19. århundrede og afslørede nogle historier, der fortjener at have en film lavet om dem. Og nogle af Astronomers ingeniører byggede for nylig en platform for selv-healing data-pipelines over en weekend. Jeg kan ikke forestille mig at prøve at gøre noget lignende for få år siden, men med kun få dages indsats vandt vi Cohere’s hackathon og byggede grundlaget for en stor ny funktion i vores platform.
Tak for det gode interview. Læsere, der ønsker at lære mere, skal besøge Astronomer.












