Interviews
Alex Ratner, CEO & Co-Founder of Snorkel AI – Interview Serie

Alex Ratner er CEO & Co-Founder of Snorkel AI, et firma født ud af Stanford AI-laboratoriet.
Snorkel AI gør AI-udvikling hurtig og praktisk ved at omdanne manuelle AI-udviklingsprocesser til programmeringsløsninger. Snorkel AI ermöglicher virksomheder at udvikle AI, der fungerer for deres unikke arbejdsmængder ved hjælp af deres ejendommelige data og viden 10-100 gange hurtigere.
Hvad var det, der oprindeligt tiltrak dig til datalogi?
Der er to meget spændende aspekter af datalogi, når du er ung. For det første kan du lære så hurtigt, du vil, ved at eksperimentere og bygge, takket være den øjeblikkelige feedback, snarere end at skulle vente på en lærer. For det andet kan du bygge meget uden at skulle bede om tilladelse!
Jeg kom i gang med programmering, da jeg var en lille dreng, af disse grunde. Jeg elskede også den præcision, det krævede. Jeg nød processen med at abstrahere komplekse processer og rutiner og derefter kodificere dem på en modulær måde.
Senere, som voksen, kom jeg tilbage til datalogi professionelt via en job i rådgivning, hvor jeg blev bedt om at skrive scripts til at udføre nogle grundlæggende analyser af patentkorpusset. Jeg var fascineret af, hvor meget menneskelig viden – alt, hvad nogen nogensinde havde betragtet som patenterbart – var let tilgængeligt, men samtidig så utilgængeligt, fordi det var så svært at udføre selv de enkleste analyser over komplekse tekniske tekst og multimodale data.
Dette var, hvad der førte mig tilbage ned i kaninhullet, og til sidst tilbage til gradskole på Stanford, med fokus på NLP, som er området for at bruge ML/AI på naturlig sprog.
Du startede og ledede Snorkel open-source-projektet, mens du var på Stanford, kan du fortælle os om rejsen i disse tidlige dage?
Dengang var vi, ligesom mange i branchen, fokuseret på at udvikle nye algoritmer og – dvs. alt det “fancy” machine learning-stof, som folk i fællesskabet forskede og offentliggjorde papirer om.
Men vi var altid meget fokuseret på at forankre dette i virkelige problemer – mest med læger og videnskabsmænd på Stanford. Men hver gang, vi præsenterede en ny model eller algoritme, blev svaret “ja, vi ville prøve det, men vi ville have brug for alle disse mærkede træningsdata, som vi ikke har tid til at oprette!”
Vi så, at det store uudtalte problem var omkring processen med at mærke og kurere denne træningsdata – så vi skiftede hele vores fokus til dette, og det er, hvordan Snorkel-projektet og idéen om “data-centreret AI” startede.
Snorkel har en data-centreret AI-tilgang, kan du definere, hvad dette betyder, og hvordan det adskiller sig fra model-centreret AI-udvikling?
Data-centreret AI betyder at fokusere på at bygge bedre data for at bygge bedre modeller.
Dette står i kontrast til – men fungerer hånd i hånd med – model-centreret AI. I model-centreret AI antager datavidenskabsmænd eller forskere, at data er statisk, og de bruger deres energi på at justere modelarkitekturer og parametre for at opnå bedre resultater.
Forskere udfører stadig godt arbejde i model-centreret AI, men færdige modeller og auto ML-teknikker er blevet så meget bedre, at modelvalg er blevet kommercialiseret på produktions tid. Når det er tilfældet, er den bedste måde at forbedre disse modeller at forsyne dem med mere og bedre data.
Hvad er de centrale principper for en data-centreret AI-tilgang?
Det centrale princip for data-centreret AI er simpelt: bedre data bygger bedre modeller.
I vores akademiske arbejde har vi kaldt dette “data-programmering”. Idéen er, at hvis du giver en robust nok model nok eksempler på input og forventede output, lærer modellen, hvordan den kan duplikere disse mønstre.
Dette præsenterer en større udfordring, end du måske ville forvente. Den overvældende del af data har ingen mærker – eller i hvert fald ingen nyttige mærker til din ansøgning. At mærke disse data for hånd kræver kedelighed, tid og menneskelig indsats.
At have en mærket datasset garanterer ikke kvalitet. Menneskelig fejl sniger sig ind overalt. Hver forkert eksempel i din grundsandhed vil nedgrade modellens ydeevne. Ingen mængde af parameterjustering kan dække over denne virkelighed. Forskere har endda fundet forkert mærkede poster i grundlæggende åbne kilde-datasets.
Kan du uddybe, hvad det betyder for Data-Centric AI at være programmeringsmæssig?
At mærke data manuelt præsenterer alvorlige udfordringer. Dette kræver mange menneskelige timer, og disse menneskelige timer kan være dyre. Medicinske dokumenter, for eksempel, kan kun mærkes af læger.
Desuden resulterer manuelle mærke-sprint ofte i single-use-projekter. Mærkere mærker dataene i overensstemmelse med en rigid skema. Hvis en virksomheds behov ændrer sig og kræver en anden sæt mærker, må mærkerne starte forfra.
Programmeringsmæssige tilgange til data-centreret AI minimiserer begge disse problemer. Snorkel AI’s programmeringsmæssige mærkesystem inkorporerer diverse signaler – fra eksisterende modeller til eksisterende mærker til eksterne videnbasers – for at udvikle sandsynligheds-mærker i stor skala. Vores primære kilde til signal kommer fra fagfolk, der samarbejder med datavidenskabsmænd om at bygge mærkefunktioner. Disse kodificerer deres ekspertdom til skalerbare regler, der tillader den indsats, der investeres i én beslutning, at påvirke dusinvis eller hundredvis af datapunkter.
Dette rammeværk er også fleksibelt. I stedet for at starte forfra, når virksomhedens behov ændrer sig, tilføjer, fjerner og justerer brugerne mærkefunktioner for at anvende nye mærker på få timer i stedet for dage.
Hvordan gør denne data-centreret tilgang det muligt at skale u-mærkede data hurtigt?
Vores programmeringsmæssige tilgang til data-centreret AI gør det muligt at skale u-mærkede data hurtigt ved at forstærke virkningen af hver valg. Når fagfolk etablerer en initial, lille sæt grundsandhed, begynder de at samarbejde med datavidenskabsmænd om hurtig iteration. De definerer nogle mærkefunktioner, træner en hurtig model, analyserer virkningen af deres mærkefunktioner og tilføjer, fjerner eller justerer mærkefunktioner efter behov.
Hver cyklus forbedrer modellens ydeevne, indtil den opfylder eller overgår projektets mål. Dette kan reducere måneder af datamærkningsarbejde til bare timer. I et Snorkel-forskningsprojekt mærkede to af vores forskere 20.000 dokumenter på en enkelt dag – en mængde, der kunne have taget manuelle mærkere ti uger eller længere.
Snorkel tilbyder multiple AI-løsninger, herunder Snorkel Flow, Snorkel GenGlow og Snorkel Foundry. Hvad er forskellen på disse tilbud?
Snorkel AI-suiten ermöglicher brugerne at oprette mærkefunktioner (f.eks. søger efter nøgleord eller mønstre i dokumenter) for at programmæssigt mærke millioner af datapunkter på minutter, i stedet for at mærke en datapunkt ad gangen.
Det komprimerer den tid, der kræves for virksomheder at omdanne ejendommelige data til produktionsklare modeller og begynde at udtrække værdi fra dem. Snorkel AI ermöglicher virksomheder at skale menneske-i-løkken tilgange ved at inkorporere menneskelig dom og faglig viden effektivt.
Dette fører til mere gennemsigtig og forklarlig AI, der udstyrer virksomheder til at håndtere bias og levere ansvarlige resultater.
Når vi kommer ned til sagens kerne, ermöglicher Snorkel AI Fortune 500-virksomheder at:
- Udvikle højkvalitets-mærkede data til at træne modeller eller forbedre RAG;
- Tilpasse LLM’er med finjustering;
- Destillere LLM’er til specialiserede modeller, der er meget mindre og billigere at operere;
- Bygge domæne- og opgave-specifikke LLM’er med pre-træning.
Du har skrevet nogle banebrydende artikler, i din mening hvilken er din vigtigste artikel?
En af de nøgleartikler var den oprindelige om data-programmering (mærkning af træningsdata programmæssigt) og den om Snorkel.
Hvad er din vision for Snorkels fremtid?
Jeg ser Snorkel blive en pålidelig partner for alle store virksomheder, der er alvorlige omkring AI.
Snorkel Flow skal blive et almindeligt værktøj for datavidenskabs-hold på store virksomheder – enten de fine-tunerer brugerdefinerede store sprogmodeller til deres organisationer, bygger billedklassificeringsmodeller eller bygger simple, udgivelige logistiske regressionmodeller.
Uanset hvilken type modeller en virksomhed har brug for, skal de have højkvalitets-mærkede data til at træne det.
Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge Snorkel AI,












