Interviews
Alex Ratner, CEO & Co-Founder van Snorkel AI – Interview Series

Alex Ratner is de CEO & Co-Founder van Snorkel AI, een bedrijf dat is ontstaan uit het Stanford AI-lab.
Snorkel AI maakt AI-ontwikkeling snel en praktisch door handmatige AI-ontwikkelingsprocessen om te zetten in programmatige oplossingen. Snorkel AI stelt ondernemingen in staat om AI te ontwikkelen die werkt voor hun unieke workloads met behulp van hun eigen gegevens en kennis 10-100x sneller.
Wat trok je aanvankelijk aan tot informatica?
Er zijn twee zeer spannende aspecten van informatica als je jong bent. Ten eerste kun je leren zo snel als je wilt door te knutselen en te bouwen, gezien de directe feedback, in plaats van te moeten wachten op een leraar. Ten tweede kun je veel bouwen zonder iemand om toestemming te hoeven vragen!
Ik begon met programmeren toen ik een jonge jongen was om deze redenen. Ik hield ook van de precisie die het vereiste. Ik genoot van het proces van het abstract maken van complexe processen en routines, en vervolgens het coderen ervan op een modulaire manier.
Later, als volwassene, kwam ik via een baan in consulting weer professioneel in de informatica terecht, waar ik scripts moest schrijven om enkele basisanalyses van het octrooicorpus uit te voeren. Ik was gefascineerd door hoeveel menselijke kennis – alles wat iemand ooit octrooiebaar had geacht – gemakkelijk beschikbaar was, maar toch ontoegankelijk was omdat het zo moeilijk was om zelfs de eenvoudigste analyse uit te voeren over complexe technische tekst en multimodale gegevens.
Dit is wat me terug leidde naar de rabbit hole, en uiteindelijk terug naar de graduate school van Stanford, met een focus op NLP, het gebied van het gebruik van ML/AI op natuurlijke taal.
Je begon en leidde het Snorkel open-source project toen je bij Stanford was, kun je ons door de reis van deze vroege dagen heen loodsen?
Toen waren we, net als veel mensen in de industrie, gefocust op het ontwikkelen van nieuwe algoritmes en – dat wil zeggen, alle “fancy” machine learning-dingen die mensen in de gemeenschap onderzoeken en publiceren.
Maar we waren altijd zeer toegewijd om dit te verankeren in echte wereldproblemen – meestal met artsen en wetenschappers bij Stanford. Maar elke keer dat we een nieuw model of algoritme presenteerden, werd de reactie “ja, we zouden dat proberen, maar we zouden allemaal gelabelde trainingsgegevens nodig hebben die we geen tijd hebben om te maken!”
We zagen dat het grote onuitgesproken probleem rond het proces van labelen en cureren van die trainingsgegevens was – dus we verplaatsten al onze focus naar dat, en dat is hoe het Snorkel-project en het idee van “data-centric AI” begon.
Snorkel heeft een data-centric AI-benadering, kun je definiëren wat dit betekent en hoe het verschilt van model-centric AI-ontwikkeling?
Data-centric AI betekent het focussen op het bouwen van betere gegevens om betere modellen te bouwen.
Dit staat in contrast met – maar werkt hand in hand met – model-centric AI. In model-centric AI gaan datawetenschappers of onderzoekers ervan uit dat de gegevens statisch zijn en steken hun energie in het aanpassen van modelarchitecturen en parameters om betere resultaten te behalen.
Onderzoekers doen nog steeds geweldig werk in model-centric AI, maar standaardmodellen en auto ML-technieken zijn zo ver verbeterd dat modelkeuze op productietijd geïndustrialiseerd is. Wanneer dat het geval is, is de beste manier om deze modellen te verbeteren door ze van meer en betere gegevens te voorzien.
Wat zijn de kernprincipes van een data-centric AI-benadering?
Het kernprincipe van data-centric AI is eenvoudig: beter gegevens bouwen betere modellen.
In ons academisch werk hebben we dit “data programming” genoemd. Het idee is dat als je een robuust genoeg model genoeg voorbeelden van invoer en verwachte uitvoer geeft, het model leert hoe het die patronen kan dupliceren.
Dit presenteert een grotere uitdaging dan je misschien verwacht. Het grootste deel van de gegevens heeft geen labels – of, in ieder geval, geen bruikbare labels voor je toepassing. Het labelen van die gegevens met de hand vereist saaiheid, tijd en menselijke inspanning.
Het hebben van een gelabelde gegevensset garandeert ook geen kwaliteit. Menselijke fouten sluipen overal in. Elke onjuiste voorbeeld in je grondwaarheid zal de prestaties van het eindmodel verslechteren. Geen enkele hoeveelheid parametertuning kan deze realiteit maskeren. Onderzoekers hebben zelfs onjuist gelabelde records gevonden in openbare open-source gegevenssets.
Kun je uitgebreider vertellen over wat het betekent voor Data-Centric AI om programmatic te zijn?
Handmatig labelen van gegevens stelt serieuze uitdagingen. Dit vereist veel menselijke uren, en soms kunnen die menselijke uren duur zijn. Medische documenten, bijvoorbeeld, kunnen alleen worden gelabeld door artsen.
Bovendien leiden handmatige label-sprints vaak tot eenmalige projecten. Labelers annoteren de gegevens volgens een star schema. Als de behoeften van een bedrijf veranderen en om een andere set labels vragen, moeten labelers opnieuw van scratch beginnen.
Programmatische benaderingen van data-centric AI minimaliseren beide problemen. Snorkel AI’s programmatische label-systeem incorporeert diverse signalen – van legacy-modellen tot bestaande labels tot externe kennisbases – om probabilistische labels op grote schaal te ontwikkelen. Onze primaire signaalbron komt van subject-matter-experts die samenwerken met datawetenschappers om label-functies te bouwen. Deze coderen hun expertoordeel in schaalbare regels, waardoor de inspanning die in één beslissing wordt gestoken, tientallen of honderden gegevenspunten kan beïnvloeden.
Dit kader is ook flexibel. In plaats van van scratch te beginnen wanneer de bedrijfsbehoeften veranderen, voegen gebruikers label-functies toe, verwijderen of passen ze aan om nieuwe labels toe te passen in uren in plaats van dagen.
Hoe maakt deze data-centric benadering snelle schaling van ongelabelde gegevens mogelijk?
Onze programmatische benadering van data-centric AI maakt snelle schaling van ongelabelde gegevens mogelijk door de impact van elke keuze te versterken. Zodra subject-matter-experts een initiële, kleine set grondwaarheid hebben vastgesteld, beginnen ze samen te werken met datawetenschappers voor snelle iteratie. Ze definiëren een paar label-functies, trainen een snel model, analyseren de impact van hun label-functies en voegen, verwijderen of passen ze aan zoals nodig.
Elke cyclus verbetert de modelprestaties totdat deze de projectdoelen bereikt of overtreft. Dit kan maanden van gegevenslabel-werk terugbrengen tot slechts enkele uren. In een van de onderzoeksprojecten van Snorkel labelden twee van onze onderzoekers 20.000 documenten in één dag – een volume dat handmatige labelers tien weken of langer had kunnen kosten.
Snorkel biedt meerdere AI-oplossingen, waaronder Snorkel Flow, Snorkel GenGlow en Snorkel Foundry. Wat zijn de verschillen tussen deze aanbiedingen?
De Snorkel AI-suite stelt gebruikers in staat om label-functies te maken (bijv. zoeken naar trefwoorden of patronen in documenten) om programmatisch miljoenen gegevenspunten in minuten te labelen, in plaats van handmatig één gegevenspunt per keer te labelen.
Het comprimeert de tijd die bedrijven nodig hebben om hun eigen gegevens om te zetten in productieklare modellen en om waarde uit hen te halen. Snorkel AI stelt ondernemingen in staat om mens-in-de-lus-benaderingen te schalen door menselijke oordeel en kennis van subject-matter-experts efficiënt te integreren.
Dit leidt tot meer transparante en verklarebare AI, waardoor ondernemingen in staat zijn om vooroordelen te beheren en verantwoorde resultaten te leveren.
Om naar de kern van de zaak te gaan, stelt Snorkel AI Fortune 500-ondernemingen in staat:
- Hoge kwaliteit gelabelde gegevens te ontwikkelen om modellen te trainen of RAG te verbeteren;
- LLM’s aan te passen met fine-tuning;
- LLM’s te destilleren in gespecialiseerde modellen die veel kleiner en goedkoper zijn om te exploiteren;
- Domein- en taakspecifieke LLM’s te bouwen met voorafgaande training.
Je hebt enkele baanbrekende papers geschreven, in jouw mening, welk paper is jouw meest belangrijke paper?
Een van de sleutelpapers was de originele paper over data programming (het labelen van trainingsgegevens op een programmatic manier) en over de een voor Snorkel.
Wat is jouw visie voor de toekomst van Snorkel?
Ik zie Snorkel als een vertrouwd partner voor alle grote ondernemingen die serieus zijn over AI.
Snorkel Flow moet een alomtegenwoordig hulpmiddel worden voor data science-teams bij grote ondernemingen – of ze nu aangepaste grote taalmodellen voor hun organisaties fijn afstemmen, beeldclassificatiemodellen bouwen of eenvoudige, inzetbare logistieke regressiemodellen bouwen.
Ongeacht welke soort modellen een bedrijf nodig heeft, ze zullen hoge kwaliteit gelabelde gegevens nodig hebben om het te trainen.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten Snorkel AI bezoeken,












