Haastattelut

Steven Hillion, Astronomer:n Data- ja AI-johtaja – Haastattelu

mm

Steven Hillion on Astronomer:n Senior Vice President of Data and AI, jossa hän hyödyntää laajaa akateemista taustaa tutkimusmatematiikassa ja yli 15 vuoden kokemusta Silicon Valley:n koneoppimisalustojen kehittämisessä. Astronomer:ssa hän johtaa Apache Airflow:n ominaisuuksien luomista, jotka on suunniteltu erityisesti ML- ja AI-tiimien tarpeisiin, ja valvoo sisäistä data science -tiimiä. Hänen johdollaan Astronomer on edennyt modernin data-orkestraatioplatformin kehittämisessä, parantamalla merkittävästi data-pipeline-ominaisuuksiaan, jotka tukevat monipuolista joukkoa data-lähteitä ja tehtäviä koneoppimisen kautta.

Voitko kertoa jotain matkastasi data science:ssa ja AI:ssa, ja miten se on muovannut lähestymistapaasi johtaa insinööri- ja analytiikkatiimejä?

Minulla on tausta tutkimusmatematiikassa Berkeleyssä ennen kuin muutin Silicon Valleyyn ja työskentelin insinöörinä useissa menestyneissä start-up-yrityksissä. Olin iloinen jättäessäni akateemisen politiikan ja byrokratian taakse, mutta löysin muutamassa vuodessa, että kaipaan matematiikkaa. Niin siirryin kehittämään alustoja koneoppimiselle ja analytiikalle, ja se on melkein kaikki, mitä olen tehnyt siitä lähtien.

Minun koulutukseni puhtaassa matematiikassa on johtanut siihen, että minulla on taipumus sille, mitä data-tieteilijät kutsuvat “parsimoniaksi” – oikea työkalu tehtävään, ja ei mitään enempää. Koska matemaatikot suosivat yleensä elegantteja ratkaisuja monimutkaisen koneiston sijaan, olen aina yrittänyt korostaa yksinkertaisuutta soveltaessani koneoppimista liiketoimintaratkaisuihin. Syväoppiminen on loistava joillekin sovelluksille – esimerkiksi suuret kielimallit ovat älykkäitä asiakirjojen tiivistämiseen – mutta toisinaan yksinkertainen regressiomalli on sovelias ja helpompi selittää.

On ollut mielenkiintoista nähdä, miten data-tieteilijän ja ohjelmistosuunnittelijan rooli on muuttunut viimeisen kahdenkymmenen vuoden aikana, kun koneoppiminen on yleistynyt. Koska olen käyttänyt molempia hattuja, olen hyvin tietoinen ohjelmistokehityksen elinkaaren (erityisesti automaation ja testaamisen) tärkeydestä, kun sovelletaan koneoppimiseen.

Mitkä ovat suurimmat haasteet siirtäessä, prosessoidessa ja analysoitaessa rakenteettomia dataja AI:lle ja suurille kielimalleille (LLM)?

Generatiivisen AI:n maailmassa data on arvokkain omaisuutesi. Mallit ovat yhä enemmän kommoditeetteja, joten erottautumisesi on kaikki se, mitä on voitettu laadukkaalla, kuratoidulla ja instituutiolle ominaisella tietojoukolla.

Toimittaa oikeat data oikeaan aikaan asettaa suuria vaatimuksia data-pipelineihin – ja tämä koskee yhtä lailla rakenteettomia kuin rakenteisia datajakin, tai ehkä enemmän. Usein otat dataa monista eri lähteistä, eri muodoissa. Tarvitset pääsyn moniin menetelmiin, jotta voit purkaa dataa ja valmistella sitä mallin Inferenssiin tai mallin koulutukseen. Tarvitset myös ymmärtää datan alkuperän ja sen, minne se päättyy, jotta voit “näyttää tekemisesi”.

Jos teet tämän vain silloin tällöin mallin kouluttamiseen, se on ok. Et välttämättä tarvitse operationalisoida sitä. Jos käytät mallia päivittäin, esimerkiksi ymmärtääksesi asiakastunteita verkkofoorumeilta tai tiivistääksesi ja ohjataksesi laskuja, se alkaa muistuttaa mitä tahansa toiminnallista data-pipelinea, joten sinun on mietittävä luotettavuutta ja toistettavuutta. Tai jos säätät mallia säännöllisesti, sinun on huolehdittava virheitä ja kustannuksia seuraamalla.

Hyviä uutisia on, että data-insinöörit ovat kehittäneet loistavan alustan, Airflow:n, data-pipelinejen hallintaan, jota on jo sovellettu menestyksekkäästi mallien käyttöönottoon ja seuraamiseen maailman johtavien ML-tiimien toimesta. Joten mallit saattavat olla uusia, mutta orkestraatio ei ole.

Voitko selittää syntetisten datajen käyttöä pienempien mallien tarkkuuden parantamiseksi? Miten tämä vertautuu suurempien mallien kouluttamiseen?

Se on voimakas tekniikka. Voit ajatella parhaat suuret kielimallit jotenkin sisäistävän, mitä he ovat oppineet maailmasta, ja he voivat välittää sen tietoa pienemmille malleille syntetisoiden dataa. Suuret kielimallit sisäistävät valtavat määrät tietoa, jonka he ovat oppineet laajojen ja monipuolisten datajoukkien koulutuksesta. Nämä mallit voivat generoida syntetistä dataa, joka sisältää rakenteita, kaavoja ja tietoa, jonka he ovat oppineet. Tätä syntetistä dataa voidaan sitten käyttää kouluttamaan pienempiä malleja, siirtämällä osan suuremman mallin tietoa pienempiin malleihin. Tämä prosessi on usein kutsuttu “tietämyksen tislaamiseksi” ja auttaa luomaan tehokkaita, pienempiä malleja, jotka suorittavat hyvin tiettyjä tehtäviä. Ja syntetisoiden data voidaan välttää yksityisyyden ongelmat ja täyttää aukot koulutusdatasta, joka on pieni tai epätäydellinen.

Tämä voi olla hyödyllistä kouluttaa enemmän alakohtaisia generatiivisia AI-malleja, ja se voi olla jopa tehokkaampaa kuin suuremman mallin kouluttaminen, jossa on suurempi valvonnan aste.

Data-tieteilijät ovat jo pitkään generoineet syntetistä dataa, ja interpolointi on ollut olemassa yhtä kauan kuin epäsiistit datajoukot. Mutta sinun on aina ollut oltava hyvin varovainen, ettei sinuun syntynyt harhaa tai virheellisiä oletuksia datan jakautumisesta. Nyt kun datan syntetisointi on niin paljon helpompaa ja voimakkaampaa, sinun on oltava vielä varovaisempi. Virheet voivat kasvaa.

Syntetisoiden datan puute voi johtaa “mallin romahdukseen”. Malli luulee, että se tekee hyvin, mutta se on vain näyttää, että se ei ole nähnyt koko kuvaa. Ja yleisemminkin, syntetisoiden datan puute on jotain, minkä data-tiimit pitäisi aina tarkkailla.

Perustasolla, olipa kyseessä sitten syntetistä dataa tai orgaanista dataa, datajen peräisinolo ja laatu ovat olennaisia kouluttaa tai hienosäätää mallia. Kuten tiedämme, mallit ovat vain yhtä hyviä kuin data, jolla ne on koulutettu. Vaikka syntetistä dataa voidaan käyttää edustamaan herkkää dataa ilman sen paljastamista tai täyttämään aukkoja, jotka saattavat jäädyttää edustavaa dataa, sinun on oltava paperi, jossa on näytetty, mistä data on peräisin, ja pystyt osoittamaan sen laadun.

Mitkä innovatiiviset tekniikat teidän tiimillänne Astronomer:ssa toteutetaan parantamaan data-pipelinejen tehokkuutta ja luotettavuutta?

Monia! Astro:n täysin hallitun Airflow-infrastruktuurin ja Astro Hypervisorin tuki dynaamiselle skaalaukselle ja proaktiiviselle seuraamiselle edistyneiden terveyden tilan mittareiden kautta. Tämä varmistaa, että resursseja käytetään tehokkaasti ja järjestelmiä on luotettava kaikissa mittakaavoissa. Astro tarjoaa vankkaa data-keskeistä hälytystä mukautuvilla ilmoituksilla, jotka voidaan lähettää eri kanavien kautta, kuten Slack ja PagerDuty. Tämä varmistaa, että ongelmiin puututaan ajoissa, ennen kuin ne eskaloituvat.

Data validointitestejä, yksikkötestejä ja data-laadun tarkastuksia on olennaisia varmistamaan data-pipelinejen ja lopulta datajen luotettavuuden, tarkkuuden ja tehokkuuden, jotka voimaavat liiketoimintaa. Nämä tarkastukset varmistavat, että kun nopeasti rakennat data-pipelineja, ne pyytävät virheitä, parantavat kehitysaikaa ja vähentävät odottamattomia virheitä taustalla. Astronomer:ssa olemme kehittäneet työkaluja, kuten Astro CLI, auttamaan tarkistamaan koodin toimivuutta tai tunnistamaan integraatio-ongelmia data-pipelineissä.

Miten näet generatiivisen AI:n hallinnan kehittyvän, ja mitkä toimenpiteet tulisi tehdä tukeakseen enemmän työkalujen luomista?

Hallinta on välttämätöntä, jos generatiivisen AI:n sovellukset ovat menestyksekkäitä. Se on kaikki avoimuuden ja toistettavuuden kannalta. Tiedätkö, miten sait tämän tuloksen, ja mistä, ja kenen toimesta? Airflow itsessään antaa jo tavan nähdä, mitä yksittäiset data-pipelinejen tekevät. Sen käyttöliittymä oli yksi syy sille, miksi se omaksuttiin nopeasti aluksi, ja Astronomer:ssa olemme täydentäneet sitä näkyvyydellä tiimien ja käyttöönottojen yli. Tarjoamme myös asiakkaillemme raportointi-kojut, jotka tarjoavat kattavat näkymät alustan käytöstä, suorituskyvystä ja kustannusarvioinnista perustellun päätöksenteon vuoksi. Lisäksi Astro API mahdollistaa tiimien käyttöönoton, automatisoinnin ja hallinnan Airflow-pipelineja ohjelmallisesti, vähentäen manuaalisten prosessien riskejä ja varmistaen sujuvan toiminnan mittakaavassa, kun hallitaan useita Airflow-ympäristöjä. Jäljityskyky on sisäänrakennettu alustaan.

Nämä ovat kaikki askelia kohti avustamista data-hallinnan hallintaan, ja uskon, että yritykset kaikissa koissa tunnistavat data-hallinnan tärkeyden varmistaakseen luottamuksen AI-sovelluksiin. Tämä tunnistaminen ja tietoisuus ajavat pääosin data-hallintatyökalujen vaatimusta, ja odotan, että näiden työkalujen luominen kiihtyy, kun generatiivinen AI yleistyy. Mutta ne tarvitsevat olla osa laajempaa orkestraatiopinoa, joten näen sen perustavana, miten rakennamme alustamme.

Voitko antaa esimerkkejä siitä, miten Astronomer:n ratkaisut ovat parantaneet asiakkaiden operatiivista tehokkuutta ja tuottavuutta?

Generatiivisen AI-prosessit sisältävät monimutkaisia ja resursseja vaativia tehtäviä, jotka on huolella optimoitava ja toistettava. Astro, Astronomer:n hallitun Apache Airflow -alusta, tarjoaa kehyksen, joka auttaa yksinkertaistamaan nämä tehtävät ja parantamaan kykyä innovoida nopeasti.

Orkestraatiomalla generatiivisia AI-tehtäviä, yritykset voivat varmistaa, että laskentaresursseja käytetään tehokkaasti ja työnkulut on optimoitu ja mukautettu reaaliajassa. Tämä on erityisen tärkeää ympäristöissä, joissa generatiivisia malleja on päivitettävä tai uudelleen koulutettava säännöllisesti uusien datojen perusteella.

Käyttämällä Airflow:n työnkulun hallintaa ja Astronomer:n käyttöönoton ja skaalauksen ominaisuuksia, tiimit voivat käyttää vähemmän aikaa infrastruktuurin hallintaan ja keskittyä data-muunnokseen ja mallin kehitykseen, mikä kiihdyttää generatiivisen AI-sovellusten käyttöönottoa ja parantaa suorituskykyä.

Tällä tavoin Astronomer:n Astro-alusta on auttanut asiakkaita parantamaan generatiivisen AI:n operatiivista tehokkuutta laajalla skaalalla sovelluksissa, kuten esimerkiksi verkkokaupan tuotehakemisto, asiakkaan churn-riskianalyysi, tukipalvelun automaatio, oikeudellisen asiakirjan luokittelu ja tiivistäminen, tuotetietojen hankkiminen asiakasarvostelujen kautta ja dynaaminen klusterin varaus tuotekuvien generoimiseksi.

Mikä on Astronomer:n rooli parantamassa AI- ja ML-sovellusten suorituskykyä ja skaalautuvuutta?

Skaalautuvuus on suuri haaste yrityksille, jotka hyödyntävät generatiivista AI:ta vuonna 2024. Kun siirrytään prototyyppiin tuotantoon, käyttäjät odottavat, että heidän generatiiviset AI-sovellukset ovat luotettavia ja suorituskykyisiä, ja että niiden tuottamat tulokset ovat luotettavia. Tämä on tehtävä kustannustehokkaasti, ja yritysten on pystyttävä hyödyntämään sen potentiaalia. Käyttämällä Astronomer:ia, tehtäviä voidaan skaalata vaakasuoraan prosessoimaan suuria määriä data-lähteitä. Astro voidaan skaalata elastisesti ja klusterit, joille ne on isännöity, ja jonopohjainen tehtäväsuoritus omistetuilla koneilla tarjoaa suuremman luotettavuuden ja tehokkaamman käytön laskentaresursseista. Kustannustehokkuuden osalta Astro tarjoaa skaalautumisominaisuudet ja talviunta, jotka auttavat hallitsemaan kiertäviä kustannuksia ja vähentämään pilvikustannuksia. Tarjoamme myös täydellisen avoimuuden alustan kustannuksista. Omani data-tiimi generoi raportteja kulutuksesta, jotka teemme asiakkaidemme saataville päivittäin.

Mitkä ovat tulevaisuuden suuntaukset AI:ssa ja data-tieteessä, joista olet innoissasi, ja miten Astronomer valmistautuu niihin?

Selitettävä AI on erittäin tärkeä ja mielenkiintoinen kehitysalue. Pystyäkseen tarkastellaan suurten mallien sisäisiä toimintoja on melkein outoa. Olen myös kiinnostunut nähdä, miten yhteisö kamppailee mallin koulutuksen ja säätämisen ympäristövaikutuksia. Astronomer:ssa jatkamme päivittämistä rekisteriämme kaikilla uusimmilla integraatioilla, jotta data- ja ML-tiimit voivat yhdistää parhaisiin mallipalveluihin ja tehokkaimpiin laskentaplatformeihin ilman raskasta työtä.

Miten näet edistyneiden AI-työkalujen, kuten LLM:ien, integroimisen perinteisiin data-hallintajärjestelmiin kehittyvän seuraavien vuosien aikana?

Olemme nähneet, miten Databricks ja Snowflake ovat ilmoittaneet yhdistävänsä LLM:ien käytön ja kehittämisen omiin alustoihinsa. Muut DBMS- ja ML-alustat tekevät samoin. On hienoa nähdä, miten data-insinöörit voivat käyttää näin voimakkaita menetelmiä suoraan komentoriviltä tai SQL-kyselyistä.

Olen erityisen kiinnostunut siitä, miten relaatiotietokannat sisällyttävät koneoppimista. Olen aina odottanut, että ML-menetelmät sisällytetään SQL-standardiin, mutta jostain syystä nämä kaksi alaa eivät ole koskaan toimineet yhdessä. Ehkä tämä kerta on erilainen.

Olen hyvin innoissani suurten kielimallien tulevaisuudesta data-insinöörien työn tueksi. Aluksi LLM:t ovat olleet erityisen menestyksekkäitä koodin generoimisessa, vaikka varhaiset yritykset tarjota data-tieteilijöille AI-vetoisia ehdotuksia ovat olleet sekoittuneita: Hex on esimerkiksi loistava, kun taas Snowflake on vastaavaa tasoista. Mutta on valtava potentiaali muuttaa data-tiimien työn luonnetta, paljon enemmän kuin kehittäjien. Miksi? Ohjelmistosuunnittelijoille prompt on funktio tai dokumentaatio, mutta data-insinööreille on myös data. On niin paljon kontekstia, jonka mallit voivat hyödyntää antaakseen hyödyllisiä ja tarkkoja ehdotuksia.

Mitkä neuvot voisit antaa aloitteleville data-tieteilijöille ja AI-insinööreille, jotka haluavat vaikuttaa alalla?

Opettele tekemällä. On niin helppo rakentaa sovelluksia nykyään, ja lisätä niihin tekoälyä. Rakenna jotain coolia, ja lähetä se ystävälle, joka työskentelee yrityksessä, jota arvostat. Tai lähetä se minulle, ja lupa, että otan sen haltuun!

Temppu on löytää jotain, mistä olet intohimoinen, ja löytää hyvä lähde siihen liittyvää dataa. Ystäväni teki mielenkiintoisen analyysin poikkeavista baseball-kausista 1800-luvulta lähtien ja paljasti tarinoita, jotka ansaitsevat elokuvan. Ja jotkut Astronomer:n insinöörit kokosivat viikonloppuna alustan itsesääteleville data-pipelineille. En voi edes kuvitella, että yritän tehdä jotain sellaista muutama vuosi sitten, mutta vain muutamassa päivässä voitimme Cohere:n hackathonin ja rakensimme perustan uudelle suurelle ominaisuudelle alustassamme.

Kiitos haastattelusta, lukijoille, jotka haluavat oppia lisää, suosittelemme vierailemaan Astronomer:ssa.

Antoine on visionäärisen johtajan ja Unite.AI:n perustajakumppani, joka on intohimoisesti omistautunut tulevaisuuden muotoiluun ja edistämiseen AI:n ja robotiikan alalla. Sarjayrittäjänä hän uskoo, että AI tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänet saa usein ylistämään disruptiivisten teknologioiden ja AGI:n potentiaalia.

Hän on futuristi, joka on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on keskittynyt sijoittamiseen ääriviivaisiin teknologioihin, jotka määrittelevät tulevaisuutta ja muokkaavat koko toimialoja.