Հարցազրույցներ

Ալեքս Ռաթներ, Snorkel AI – Հարցազրույցների շարքի գործադիր տնօրեն և համահիմնադիր

Հրատարակված է

6 ամիս առաջ

Դեկտեմբերի 1, 2023

Ալեքս Ռաթները ընկերության գործադիր տնօրենն է և համահիմնադիրը Snorkel AI, ընկերություն, որը ծնվել է Ստենֆորդի AI լաբորատորիայից:

Snorkel AI AI-ի զարգացումը դարձնում է արագ և գործնական՝ ձեռքով AI-ի մշակման գործընթացները վերածելով ծրագրային լուծումների. Snorkel AI-ն թույլ է տալիս ձեռնարկություններին զարգացնել AI, որն աշխատում է իրենց եզակի աշխատանքային ծանրաբեռնվածության համար՝ օգտագործելով իրենց սեփական տվյալները և գիտելիքները 10-100 անգամ ավելի արագ:

Ի՞նչը ձեզ սկզբում գրավեց համակարգչային գիտության մեջ:

Համակարգչային գիտության երկու շատ հետաքրքիր ասպեկտներ կան, երբ դու երիտասարդ ես: Մեկը, դուք պետք է սովորեք այնքան արագ, որքան ցանկանում եք, կռահելուց և կառուցելուց, հաշվի առնելով ակնթարթային արձագանքները, այլ ոչ թե պետք է սպասեք ուսուցչին: Երկու, դուք հասնում եք շինարարությանը շատ առանց որևէ մեկից թույլտվություն խնդրելու:

Ես սկսեցի զբաղվել ծրագրավորմամբ, երբ փոքր էի այս պատճառներով: Ինձ դուր եկավ նաև այն ճշգրտությունը, որը պահանջվում էր: Ինձ դուր եկավ բարդ գործընթացների և առօրյաների վերացականացման գործընթացը, այնուհետև դրանք մոդուլային ձևով կոդավորելը:

Ավելի ուշ, որպես չափահաս, ես դարձա իմ ճանապարհը դեպի համակարգչային գիտություն մասնագիտորեն խորհրդատվական աշխատանքի միջոցով, որտեղ ինձ հանձնարարվեց սցենարներ գրել՝ արտոնագրային կորպուսի որոշ հիմնական վերլուծություններ անելու համար: Ես հիացած էի նրանով, թե որքան մարդկային գիտելիք՝ այն ամենը, ինչ որևէ մեկը երբևէ արտոնագրված է համարել, հասանելի էր, բայց այնքան անհասանելի, որովհետև դժվար էր նույնիսկ ամենապարզ վերլուծությունը կատարել բարդ տեխնիկական տեքստի և բազմամոդալ տվյալների վրա:

Սա այն էր, ինչ ինձ ստիպեց վերադառնալ նապաստակի անցքից և, ի վերջո, վերադառնալ Սթենֆորդի բարձրագույն դպրոց՝ կենտրոնանալով NLP-ի վրա, որը բնական լեզվով ML/AI-ի օգտագործման ոլորտն է:

Դուք առաջին անգամ սկսել և ղեկավարել եք Snorkel-ի բաց կոդով նախագիծը, երբ գտնվում էիք Սթենֆորդում, կարո՞ղ եք մեզ քայլել այս վաղ օրերի ճանապարհորդության միջով:

Այն ժամանակ մենք, ինչպես և շատերն արդյունաբերության մեջ, կենտրոնացած էինք նոր ալգորիթմների և, այսինքն՝ մեքենայական ուսուցման բոլոր «շքեղ» նյութերի մշակման վրա, որոնց մասին համայնքի մարդիկ ուսումնասիրում և հրապարակում էին հոդվածներ:

Այնուամենայնիվ, մենք միշտ հավատարիմ ենք եղել դա հիմնավորելու իրական աշխարհի խնդիրների մեջ, հիմնականում՝ Սթենֆորդի բժիշկների և գիտնականների հետ: Բայց ամեն անգամ, երբ մենք նոր մոդել կամ ալգորիթմ էինք ներկայացնում, արձագանքը դառնում էր «Իհարկե, մենք կփորձեինք դա, բայց մեզ պետք են այս բոլոր պիտակավորված վերապատրաստման տվյալները, որոնք ժամանակ չունենք ստեղծելու համար»:

Մենք տեսնում էինք, որ մեծ չասված խնդիրը վերաբերում էր այդ ուսուցման տվյալների պիտակավորման և մշակման գործընթացին, ուստի մենք մեր ամբողջ ուշադրությունը տեղափոխեցինք դրա վրա, ինչից սկսվեց Snorkel նախագիծը և «տվյալակենտրոն AI» գաղափարը:

Snorkel-ն ունի տվյալների վրա հիմնված AI մոտեցում, կարո՞ղ եք սահմանել, թե դա ինչ է նշանակում և ինչպես է այն տարբերվում մոդելակենտրոն AI-ի մշակումից:

Տվյալների վրա հիմնված AI-ն նշանակում է կենտրոնանալ ավելի լավ տվյալներ ստեղծելու վրա՝ ավելի լավ մոդելներ ստեղծելու համար:

Սա հակադրվում է մոդելային կենտրոնացված AI-ին, բայց աշխատում է ձեռք ձեռքի տված: Մոդելակենտրոն AI-ում տվյալների գիտնականները կամ հետազոտողները ենթադրում են, որ տվյալները ստատիկ են և իրենց էներգիան լցնում են մոդելի ճարտարապետությունն ու պարամետրերը կարգավորելու համար՝ ավելի լավ արդյունքների հասնելու համար:

Հետազոտողները դեռևս հիանալի աշխատանք են կատարում մոդելակենտրոն AI-ի վրա, սակայն վաճառվող մոդելներն ու ավտոմատ ML տեխնիկան այնքան են բարելավվել, որ մոդելի ընտրությունը դարձել է ապրանքային արտադրության ժամանակ: Երբ դա այդպես է, այս մոդելները բարելավելու լավագույն միջոցը նրանց ավելի ու ավելի լավ տվյալներ մատակարարելն է:

Որո՞նք են տվյալների վրա հիմնված AI մոտեցման հիմնական սկզբունքները:

Տվյալների վրա հիմնված AI-ի հիմնական սկզբունքը պարզ է. ավելի լավ տվյալները ստեղծում են ավելի լավ մոդելներ:

Մեր ակադեմիական աշխատանքում մենք սա անվանել ենք «տվյալների ծրագրավորում»: Գաղափարն այն է, որ եթե դուք բավականաչափ ամուր մոդել եք տալիս մուտքերի և ակնկալվող արդյունքների բավարար օրինակներով, մոդելը կսովորի, թե ինչպես կրկնօրինակել այդ օրինաչափությունները:

Սա ավելի մեծ մարտահրավեր է, քան դուք կարող եք ակնկալել: Տվյալների ճնշող մեծամասնությունը չունի պիտակներ, կամ, համենայն դեպս, օգտակար պիտակներ չկան ձեր հավելվածի համար: Այդ տվյալների ձեռքով պիտակավորումը պահանջում է հոգնածություն, ժամանակ և մարդկային ջանք:

Պիտակավորված տվյալների հավաքածու ունենալը նույնպես չի երաշխավորում որակը: Մարդկային սխալը սողում է ամենուր. Ձեր հիմնավոր ճշմարտության յուրաքանչյուր սխալ օրինակ կնվազեցնի վերջնական մոդելի կատարումը: Պարամետրերի ոչ մի թյունինգ չի կարող մատնանշել այդ իրականությունը: Հետազոտողները նույնիսկ սխալ պիտակավորված գրառումներ են գտել հիմնարար բաց կոդով տվյալների հավաքածուներում:

Կարո՞ղ եք մանրամասնել, թե ինչ է նշանակում Data-Centric AI-ի համար ծրագրային լինելը:

Տվյալների ձեռքով պիտակավորումը լուրջ մարտահրավերներ է ներկայացնում: Դա անելու համար պահանջվում են շատ մարդկային ժամեր, և երբեմն այդ մարդկային ժամերը կարող են թանկ լինել: Բժշկական փաստաթղթերը, օրինակ, կարող են պիտակավորվել միայն բժիշկների կողմից:

Բացի այդ, ձեռքով պիտակավորման սպրինտները հաճախ կազմում են մեկանգամյա օգտագործման նախագծեր: Պիտակավորողները նշում են տվյալները կոշտ սխեմայի համաձայն: Եթե բիզնեսի կարիքները փոխվում են և պահանջում են պիտակների այլ հավաքածու, պիտակավորողները պետք է նորից սկսեն զրոյից:

Տվյալների վրա հիմնված AI-ի ծրագրային մոտեցումները նվազագույնի են հասցնում այս երկու խնդիրները: Snorkel AI-ի ծրագրային պիտակավորման համակարգը ներառում է տարբեր ազդանշաններ՝ հին մոդելներից մինչև գոյություն ունեցող պիտակներ և գիտելիքի արտաքին բազաներ՝ մասշտաբով հավանականական պիտակներ մշակելու համար: Ազդանշանի մեր հիմնական աղբյուրը գալիս է առարկայի փորձագետներից, ովքեր համագործակցում են տվյալների գիտնականների հետ՝ պիտակավորման գործառույթներ ստեղծելու համար: Սրանք կոդավորում են իրենց փորձագիտական դատողությունը մասշտաբային կանոնների մեջ՝ թույլ տալով, որ մեկ որոշման մեջ ներդրված ջանքերը ազդեն տասնյակ կամ հարյուրավոր տվյալների կետերի վրա:

Այս շրջանակը նույնպես ճկուն է: Փոխանակ զրոյից սկսելու, երբ բիզնեսի կարիքները փոխվում են, օգտատերերը ավելացնում, հեռացնում և հարմարեցնում են պիտակավորման գործառույթները՝ օրերի փոխարեն ժամերով նոր պիտակներ կիրառելու համար:

Ինչպե՞ս է այս տվյալների վրա հիմնված մոտեցումը թույլ տալիս չպիտակավորված տվյալների արագ մասշտաբավորում:

Տվյալների վրա հիմնված AI-ի նկատմամբ մեր ծրագրային մոտեցումը թույլ է տալիս արագ չափել չպիտակավորված տվյալները՝ ուժեղացնելով յուրաքանչյուր ընտրության ազդեցությունը: Երբ առարկայի փորձագետները հաստատում են սկզբնական, փոքր շարք հիմնավոր ճշմարտություն, նրանք սկսում են համագործակցել տվյալների գիտնականների հետ՝ արագ կրկնելու համար: Նրանք սահմանում են պիտակավորման մի քանի գործառույթներ, վերապատրաստում են արագ մոդել, վերլուծում են իրենց պիտակավորման գործառույթների ազդեցությունը և այնուհետև ավելացնում, հեռացնում կամ կսմթում են պիտակավորման գործառույթները՝ ըստ անհրաժեշտության:

Յուրաքանչյուր ցիկլ բարելավում է մոդելի կատարումը, քանի դեռ այն չի համապատասխանում կամ գերազանցում է նախագծի նպատակները: Սա կարող է կրճատել տվյալների պիտակավորման ամիսների աշխատանքը մինչև ընդամենը ժամ: Snorkel հետազոտական մեկ նախագծում մեր հետազոտողներից երկուսը մեկ օրում պիտակավորեցին 20,000 փաստաթուղթ, որը կարող էր տասը շաբաթ կամ ավելի երկար տևել ձեռքով պիտակավորողներին:

Snorkel-ն առաջարկում է բազմաթիվ AI լուծումներ, այդ թվում՝ Snorkel Flow, Snorkel GenGlow և Snorkel Foundry: Որո՞նք են տարբերությունները այս առաջարկների միջև:

Snorkel AI փաթեթը օգտատերերին հնարավորություն է տալիս ստեղծել պիտակավորման գործառույթներ (օրինակ՝ փաստաթղթերում հիմնաբառեր կամ նախշեր փնտրել)՝ րոպեների ընթացքում ծրագրային կերպով պիտակավորելու միլիոնավոր տվյալների կետեր, այլ ոչ թե ձեռքով նշել մեկ տվյալների կետը միաժամանակ:

Այն սեղմում է այն ժամանակը, որը պահանջվում է ընկերությունների համար՝ սեփական տվյալների արտադրության համար պատրաստ մոդելների վերածելու և դրանցից արժեք կորզելու համար: Snorkel AI-ն թույլ է տալիս ձեռնարկություններին սանդղակավորել մարդկային մոտեցումները՝ արդյունավետ կերպով ներառելով մարդկային դատողությունը և առարկայական փորձագիտական գիտելիքները:

Սա հանգեցնում է ավելի թափանցիկ և բացատրելի արհեստական ինտելեկտի՝ ձեռնարկություններին սարքավորելով կողմնակալությունը կառավարելու և պատասխանատու արդյունքներ ապահովելու համար:

Անցնելով ընկույզներին և պտուտակներին, Snorkels AI-ն հնարավորություն է տալիս Fortune 500 ձեռնարկություններին.

Մշակել բարձրորակ պիտակավորված տվյալներ՝ մոդելներին վերապատրաստելու կամ RAG-ն ընդլայնելու համար.
Անհատականացրեք LLM-ները ճշգրտման միջոցով;
LLM-ները թորել մասնագիտացված մոդելների մեջ, որոնք շատ ավելի փոքր և ավելի էժան են գործելու համար.
Կառուցեք տիրույթի և առաջադրանքների համար հատուկ LLM-ներ՝ նախնական ուսուցմամբ:

Դուք մի քանի բեկումնային հոդվածներ եք գրել, ձեր կարծիքով ո՞րն է ձեր ամենակարևոր թերթը:

Հիմնական թղթերից մեկը բնօրինակն էր տվյալների ծրագրավորում (ծրագրային կերպով պիտակավորելով վերապատրաստման տվյալները) և Snorkel-ի համար:

Ո՞րն է ձեր տեսլականը Snorkel-ի ապագայի վերաբերյալ:

Ես տեսնում եմ, որ Snorkel-ը դառնում է վստահելի գործընկեր բոլոր խոշոր ձեռնարկությունների համար, որոնք լուրջ են վերաբերվում AI-ին:

Snorkel Flow-ը պետք է դառնա համատարած գործիք խոշոր ձեռնարկություններում տվյալների գիտության թիմերի համար՝ անկախ նրանից՝ նրանք ճշգրտում են հատուկ մեծ լեզվական մոդելներ իրենց կազմակերպությունների համար, կառուցում են պատկերների դասակարգման մոդելներ կամ կառուցում են պարզ, տեղակայելի լոգիստիկ ռեգրեսիայի մոդելներ:

Անկախ նրանից, թե ինչ մոդելների կարիք ունեն բիզնեսը, նրանց կպահանջվեն բարձրորակ պիտակավորված տվյալներ՝ այն վարժեցնելու համար:

Շնորհակալություն հիանալի հարցազրույցի համար, այն ընթերցողները, ովքեր ցանկանում են ավելին իմանալ, պետք է այցելեն Snorkel AI,