Intervjuer
Alex Ratner, VD & medgrundare av Snorkel AI – Intervjuserie

Alex Ratner är VD och medgrundare av Snorkel AI, ett företag som föddes ur Stanford AI-labbet.
Snorkel AI gör AI-utveckling snabb och praktisk genom att omvandla manuella AI-utvecklingsprocesser till programmatiska lösningar. Snorkel AI möjliggör för företag att utveckla AI som fungerar för deras unika arbetsbelastningar med hjälp av deras egna data och kunskap 10-100 gånger snabbare.
Vad var det som initialt drog dig till datavetenskap?
Det finns två mycket spännande aspekter av datavetenskap när du är ung. En, du kan lära dig så fort du vill genom att experimentera och bygga, med omedelbar återkoppling, snarare än att behöva vänta på en lärare. Två, du kan bygga mycket utan att behöva be om tillstånd!
Jag började programmera när jag var en ung pojke av dessa skäl. Jag älskade också precisionen som krävdes. Jag njöt av processen att abstrahera komplexa processer och rutiner, och sedan koda dem på ett modulärt sätt.
Senare, som vuxen, gjorde jag min väg tillbaka till datavetenskap professionellt via ett jobb inom konsultverksamhet där jag fick i uppdrag att skriva skript för att göra några grundläggande analyser av patentkorpusen. Jag var fascinerad av hur mycket mänsklig kunskap – allt som någon någonsin hade ansett vara patenterbart – var lättillgängligt, men samtidigt så svårt att göra även de enklaste analyserna över komplex teknisk text och multimodal data.
Detta ledde mig tillbaka ner i kaninhålet, och så småningom tillbaka till universitetet i Stanford, med fokus på NLP, som är området för att använda ML/AI på naturligt språk.
Du startade och ledde Snorkel open-source-projektet medan du var på Stanford, kan du berätta om resan under dessa tidiga dagar?
Då var vi, som många i branschen, fokuserade på att utveckla nya algoritmer och – dvs all den “fancy” maskinlärning som folk i samhället gjorde forskning och publicerade artiklar om.
Men vi var alltid mycket engagerade i att förankra detta i verkliga problem – främst med läkare och forskare vid Stanford. Men varje gång vi presenterade en ny modell eller algoritm, blev svaret “självklart, vi skulle prova det, men vi skulle behöva all denna märkta träningsdata som vi inte har tid att skapa!”
Vi såg att det stora outtalade problemet var runt processen för märkning och kurering av den träningsdatan – så vi skiftade all vår fokus till det, vilket är hur Snorkel-projektet och idén om “data-centrerad AI” startade.
Snorkel har en data-centrerad AI-approach, kan du definiera vad detta innebär och hur det skiljer sig från modell-centrerad AI-utveckling?
Data-centrerad AI innebär att fokusera på att bygga bättre data för att bygga bättre modeller.
Detta står i kontrast till – men fungerar hand i hand med – modell-centrerad AI. I modell-centrerad AI antar dataforskare eller forskare att datan är statisk och lägger ner sin energi på att justera modellarkitekturer och parametrar för att uppnå bättre resultat.
Forskare gör fortfarande utmärkt arbete inom modell-centrerad AI, men färdiga modeller och auto ML-tekniker har förbättrats så mycket att modellvalet har blivit kommodifierat vid produktionstid. När det är fallet är den bästa vägen att förbättra dessa modeller att förse dem med mer och bättre data.
Vad är de grundläggande principerna för en data-centrerad AI-approach?
Den grundläggande principen för data-centrerad AI är enkel: bättre data bygger bättre modeller.
I vårt akademiska arbete har vi kallat detta “data-programmering”. Idén är att om du matar en robust tillräcklig modell tillräckligt många exempel på indata och förväntade utdata, lär modellen sig att duplicera dessa mönster.
Detta presenterar en större utmaning än du kanske förväntar dig. Den överväldigande majoriteten av data har inga märkningar – eller, åtminstone, inga användbara märkningar för din ansökan. Märkning av data för hand kräver tråkighet, tid och mänskligt arbete.
Att ha en märkt datamängd garanterar inte heller kvalitet. Mänskliga fel smyger sig in överallt. Varje felaktigt exempel i din grundtruth kommer att försämra prestandan för den slutliga modellen. Inga parametrar kan dölja den verkligheten. Forskare har till och med funnit felaktigt märkta poster i grundläggande öppen källkodsdatamängder.
Kan du förklara vad det innebär för Data-Centric AI att vara programmatisk?
Manuell märkning av data presenterar allvarliga utmaningar. Det kräver många mänskliga timmar, och ibland kan dessa mänskliga timmar vara dyra. Medicinska dokument, till exempel, kan endast märkas av läkare.
Dessutom kan manuell märkning ofta bli en engångsprojekt. Märkare märker datan enligt en rigid schema. Om ett företags behov förändras och kräver en annan uppsättning märkningar, måste märkarna börja om från scratch.
Programmatiska tillvägagångssätt för data-centrerad AI minimerar båda dessa problem. Snorkel AI:s programmatiska märkningsystem inkorporerar diverse signaler – från äldre modeller till befintliga märkningar till externa kunskapsbaser – för att utveckla sannolikhetsmärkningar i stor skala. Vår primära källa till signal kommer från ämnesexperter som samarbetar med dataforskare för att bygga märkningsfunktioner. Dessa kodar sin expertbedömning i skalbara regler, vilket gör att insatsen som investeras i ett beslut kan påverka dussintals eller hundratals datapunkter.
Detta ramverk är också flexibelt. Istället för att börja om från scratch när företagets behov förändras, lägger användare till, tar bort och justerar märkningsfunktioner för att applicera nya märkningar på några timmar istället för dagar.
Hur möjliggör denna data-centrerade approach en snabb skala av omärkt data?
Vår programmatiska tillvägagångssätt för data-centrerad AI möjliggör en snabb skala av omärkt data genom att förstärka effekten av varje val. När ämnesexperter etablerar en initial, liten uppsättning grundtruth, börjar de samarbeta med dataforskare för snabb iteration. De definierar några märkningsfunktioner, tränar en snabb modell, analyserar effekten av deras märkningsfunktioner och lägger sedan till, tar bort eller justerar märkningsfunktioner som behövs.
Varje cykel förbättrar modellens prestanda tills den möter eller överträffar projektets mål. Detta kan reducera månader av märkningsarbete till bara några timmar. I ett Snorkel-forskningsprojekt märkte två av våra forskare 20 000 dokument på en enda dag – en volym som kunde ha tagit manuella märkare tio veckor eller längre.
Snorkel erbjuder flera AI-lösningar, inklusive Snorkel Flow, Snorkel GenGlow och Snorkel Foundry. Vad är skillnaderna mellan dessa erbjudanden?
Snorkel AI-sviten möjliggör för användare att skapa märkningsfunktioner (t.ex. leta efter nyckelord eller mönster i dokument) för att programmatiskt märka miljontals datapunkter på några minuter, snarare än att manuellt märka en datapunkt i taget.
Det komprimerar den tid som krävs för företag att översätta proprietär data till produktionsklara modeller och börja extrahera värde från dem. Snorkel AI möjliggör för företag att skala humana-i-loopen-approach genom att effektivt inkorporera mänsklig bedömning och ämnesexpertråd.
Detta leder till mer transparent och förklarlig AI, som utrustar företag att hantera partiskhet och leverera ansvarsfulla resultat.
När vi kommer ner till detaljerna, möjliggör Snorkel AI för Fortune 500-företag att:
- Utveckla högkvalitativ märkt data för att träna modeller eller förbättra RAG;
- Anpassa LLM med finjustering;
- Destillera LLM till specialiserade modeller som är mycket mindre och billigare att driva;
- Bygga domän- och uppgiftsspecifika LLM med förträning.
Du har skrivit några banbrytande artiklar, i din åsikt, vilken är din viktigaste artikel?
En av de viktigaste artiklarna var den ursprungliga om data-programmering (märkning av träningsdata programmatiskt) och den om Snorkel.
Vad är din vision för Snorkel-framtid?
Jag ser Snorkel som en pålitlig partner för alla stora företag som är allvarliga om AI.
Snorkel Flow bör bli ett allmänt verktyg för data science-team på stora företag – oavsett om de finjusterar anpassade stora språkmodeller för sina organisationer, bygger bildklassificeringsmodeller eller bygger enkla, distribuerbara logistiska regressionsmodeller.
Oavsett vilken typ av modell ett företag behöver, behöver de högkvalitativ märkt data för att träna den.
Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka Snorkel AI,












