Interviuri
Alex Ratner, CEO & Co-Founder of Snorkel AI – Interviu Seria

Alex Ratner este CEO & Co-Founder al Snorkel AI, o companie născută din laboratorul de inteligență artificială de la Stanford.
Snorkel AI face dezvoltarea inteligenței artificiale rapidă și practică prin transformarea proceselor manuale de dezvoltare a inteligenței artificiale în soluții programatice. Snorkel AI permite întreprinderilor să dezvolte inteligență artificială care funcționează pentru sarcinile lor unice, utilizând datele și cunoștințele lor exclusive, de 10-100 de ori mai rapid.
Ce v-a atras inițial către știința calculatorului?
Există două aspecte foarte interesante ale științei calculatorului atunci când sunteți tânăr. Unul, puteți învăța cât de repede doriți, prin încercări și construire, având feedback instantaneu, fără a trebui să așteptați un profesor. Doi, puteți construi mult fără a fi nevoit să cereți permisiunea nimănui!
M-am apucat de programare când eram un copil mic din aceste motive. De asemenea, iubeam precizia pe care o cerea.
Mai târziu, ca adult, am revenit în știința calculatorului profesional prin intermediul unui loc de muncă în consultanță, unde mi s-a cerut să scriu scripturi pentru a face unele analize de bază ale corpusului de brevete. Eram fascinat de câtă cunoștință umană – orice lucru pe care cineva l-a considerat vreodată brevetabil – era disponibil, dar atât de inaccesibil, deoarece era atât de greu să faceți chiar și cele mai simple analize asupra textului tehnic complex și a datelor multimodale.
Acesta a fost motivul care m-a determinat să revin pe drumul inteligenței artificiale și, în cele din urmă, la școala de masterat de la Stanford, axându-mă pe NLP, care este domeniul utilizării inteligenței artificiale pe limbaj natural.
Ați început și condus proiectul Snorkel open-source în timp ce erați la Stanford, puteți descrie călătoria acestor zile de început?
Atunci eram, ca mulți din industrie, axați pe dezvoltarea de algoritmi noi și – adică toate “lucrurile de inteligență artificială” pe care oamenii din comunitate le făceau cercetare și publicau articole.
Cu toate acestea, am fost întotdeauna foarte dedicați să ne bazăm pe probleme din lumea reală – în principal cu medici și oameni de știință de la Stanford. Dar de fiecare dată când am prezentat un nou model sau algoritm, răspunsul a devenit “sigur, am încerca asta, dar am nevoie de toate aceste date de antrenament etichetate pe care nu le avem timp să le creăm!”
Am văzut că problema mare, nespusă, era legată de procesul de etichetare și curățare a acestor date de antrenament – așa a început proiectul Snorkel și ideea de “inteligență artificială centrată pe date”.
Snorkel are o abordare de inteligență artificială centrată pe date, puteți defini ce înseamnă acest lucru și cum se diferențiază de dezvoltarea inteligenței artificiale centrată pe modele?
Inteligența artificială centrată pe date înseamnă concentrarea pe construirea unor date mai bune pentru a construi modele mai bune.
Acest lucru se află în contrast, dar funcționează împreună cu, inteligența artificială centrată pe modele. În inteligența artificială centrată pe modele, oamenii de știință sau cercetătorii presupun că datele sunt statice și-și concentrează energia pe ajustarea arhitecturilor de modele și a parametrilor pentru a obține rezultate mai bune.
Cercetătorii încă fac un lucru minunat în inteligența artificială centrată pe modele, dar modelele standard și tehnicile de auto-ML s-au îmbunătățit atât de mult, încât alegerea modelului a devenit o marfă la momentul producției. Când este cazul, cel mai bun mod de a îmbunătăți aceste modele este de a le furniza mai multe și mai bune date.
Care sunt principiile de bază ale unei abordări de inteligență artificială centrată pe date?
Principiul de bază al inteligenței artificiale centrate pe date este simplu: datele mai bune construiesc modele mai bune.
În lucrările noastre academice, am numit acest lucru “programare de date”. Ideea este că, dacă furnizați un model robust suficiente exemple de intrări și ieșiri așteptate, modelul învață să reproducă aceste modele.
Acest lucru prezintă o provocare mai mare decât v-ați aștepta. Majoritatea datelor nu au etichete – sau, cel puțin, nu au etichete utile pentru aplicația dvs.
Puteți elabora asupra a ceea ce înseamnă ca inteligența artificială centrată pe date să fie programatică?
Etichetarea manuală a datelor prezintă provocări serioase. Acest lucru necesită multe ore de muncă umană, iar uneori aceste ore de muncă pot fi scumpe. Documentele medicale, de exemplu, pot fi etichetate doar de medici.
În plus, etichetarea manuală adesea se reduce la proiecte cu utilizare unică. Etichetatorii etichetează datele conform unei scheme rigide. Dacă nevoile unei afaceri se schimbă și necesită un alt set de etichete, etichetatorii trebuie să înceapă din nou de la zero.
Abordările programatice ale inteligenței artificiale centrate pe date minimizează ambele probleme. Sistemul de etichetare programatic Snorkel AI incorporează semnale diverse – de la modele legacy la etichete existente la baze de cunoștințe externe – pentru a dezvolta etichete probabilistice la scară largă. Sursa noastră principală de semnal provine de la experți în domeniu care colaborează cu oameni de știință pentru a construi funcții de etichetare. Acestea codifică judecata lor de expert în reguli escalabile, permițând efortului investit într-o decizie să afecteze zeci sau sute de puncte de date.
Acest cadru este, de asemenea, flexibil. În loc să începeți de la zero atunci când nevoile afacerii se schimbă, utilizatorii adaugă, elimină și ajustează funcțiile de etichetare pentru a aplica etichete noi în ore, în loc de zile.
Cum permite această abordare de inteligență artificială centrată pe date o escaladare rapidă a datelor neetichetate?
Abordarea noastră programatică de inteligență artificială centrată pe date permite o escaladare rapidă a datelor neetichetate, amplificând impactul fiecărei alegeri. Odată ce experții în domeniu stabilesc un set inițial mic de adevăruri de bază, ei încep să colaboreze cu oameni de știință pentru iterare rapidă. Ei definesc câteva funcții de etichetare, antrenează un model rapid, analizează impactul funcțiilor lor de etichetare și apoi adaugă, elimină sau ajustează funcțiile de etichetare după cum este necesar.
Fiecare ciclu îmbunătățește performanța modelului până când atinge sau depășește obiectivele proiectului. Acest lucru poate reduce luni de muncă de etichetare a datelor la doar câteva ore. Într-un proiect de cercetare Snorkel, doi dintre cercetătorii noștri au etichetat 20.000 de documente într-o singură zi – un volum care ar fi putut dura etichetatorilor manuali zece săptămâni sau mai mult.
Snorkel oferă multiple soluții de inteligență artificială, incluzând Snorkel Flow, Snorkel GenGlow și Snorkel Foundry. Care sunt diferențele dintre aceste oferte?
Suita Snorkel AI permite utilizatorilor să creeze funcții de etichetare (de exemplu, căutarea cuvintelor cheie sau a modelelor în documente) pentru a eticheta programatic milioane de puncte de date în minute, în loc de a eticheta manual un punct de date la un moment dat.
Acesta comprimă timpul necesar companiilor pentru a traduce datele exclusive în modele de producție gata de a fi utilizate și pentru a începe să extragă valoare din ele. Snorkel AI permite întreprinderilor să escaladeze abordările cu intervenție umană prin incorporarea eficientă a judecății umane și a cunoștințelor experților în domeniu.
Acest lucru conduce la o inteligență artificială mai transparentă și mai explicabilă, echipând întreprinderile să gestioneze prejudecățile și să livreze rezultate responsabile.
Veniți la esență, Snorkel AI permite companiilor din Fortune 500:
- Să dezvolte date etichetate de calitate pentru a antrena modele sau a îmbunătăți RAG;
- Să personalizeze LLM-urile prin reglare fină;
- Să distile LLM-urile în modele specializate care sunt mult mai mici și mai ieftine de operat;
- Să construiască LLM-uri specifice domeniului și sarcinii, cu pre-antrenare.
Ați scris articole deosebite, în opinia dvs., care este cel mai important articol?
Unul dintre articolele cheie a fost cel original despre programarea de date (etichetarea datelor de antrenament în mod programatic) și despre cel pentru Snorkel.
Care este viziunea dvs. pentru viitorul Snorkel?
Văd Snorkel devenind un partener de încredere pentru toate întreprinderile mari care sunt serioase în legătură cu inteligența artificială.
Snorkel Flow ar trebui să devină un instrument ubicuu pentru echipele de știință a datelor din întreprinderile mari – indiferent dacă sunt ajustate modele de limbaj mare personalizate pentru organizațiile lor, construiesc modele de clasificare a imaginilor sau construiesc simple modele de regresie logistică ușor de implementat.
Indiferent de ce tip de modele are nevoie o afacere, aceasta va avea nevoie de date etichetate de calitate pentru a le antrena.
Mulțumim pentru interviul minunat, cititorilor care doresc să afle mai multe ar trebui să viziteze Snorkel AI,












