Հարցազրույցներ

Ֆիլ Հոլ, LXT-ի աճի գլխավոր տնօրեն – Հարցազրույցների շարք

Թարմացվել է on Հունիսի 6, 2023

LXT-ի աճի գլխավոր տնօրեն Ֆիլ Հոլ նախկին Ապենի գործադիր է և Forbes-ի տեխնոլոգիական խորհուրդ անդամ. Appen-ում իր ղեկավարության պաշտոնում նա ղեկավարում էր 1,000+ անձնակազմից բաղկացած ստորաբաժանում և առանցքային դեր խաղաց 17 տարի անընդմեջ եկամուտների աճի հասնելու գործում՝ հետևողականորեն ուժեղ եկամտաբերությամբ: LXT-ում իր ներկայիս պաշտոնում նա աշխատում է փորձագետների ընտրված թիմի հետ՝ աճի հավակնոտ նպատակներին հասնելու համար:

LXT ինտելեկտուալ ինտելեկտի ուսուցման տվյալների զարգացող առաջատարն է համաշխարհային կազմակերպությունների, այդ թվում՝ աշխարհի խոշորագույն տեխնոլոգիական ընկերությունների համար խելացի տեխնոլոգիաների հզորացման համար: Համագործակցելով ներդրողների միջազգային ցանցի հետ՝ LXT-ը հավաքում և նշում է տվյալներ բազմաթիվ եղանակներով՝ ձեռնարկության կողմից պահանջվող արագությամբ, մասշտաբով և շարժունությամբ: Նրանք ունեն գլոբալ փորձ, որն ընդգրկում է ավելի քան 115 երկիր և 750 լեզվական տեղանք: Հիմնադրվելով 2010 թվականին, LXT-ի գլխամասային գրասենյակը գտնվում է Տորոնտոյում, Կանադա, ներկայությամբ ԱՄՆ-ում, Ավստրալիայում, Եգիպտոսում, Մեծ Բրիտանիայում և Թուրքիայում: Ընկերությունը սպասարկում է Հյուսիսային Ամերիկայի, Եվրոպայի, Ասիայի Խաղաղօվկիանոսյան և Մերձավոր Արևելքի հաճախորդներին:

Ե՞րբ ի սկզբանե հայտնաբերեցիք, որ կրքոտ էիք լեզվով:

Ինձ հետաքրքրում էր լեզուն այնքան ժամանակ, ինչ հիշում եմ, բայց լեզվի և լեզվաբանության հետ իմ անմիջական առնչության առումով ինձ համար եղել է մեկ նշանակալից շրջադարձ: Մենք շատ վաղ հասկացանք, որ մեր երեխաներից մեկը դիսլեքսիկ է, և երբ մենք խոսեցինք նրա դպրոցի հետ լրացուցիչ աջակցության մասին, նրանք ասացին, որ եթե կան ծրագրեր, որոնց նրանք կարող են օգտվել, կան նաև բաներ, որոնք ես կարող եմ անել որպես կամավոր դպրոցում՝ օգնելու մեր դուստրը և այլ երեխաներ: Լավ անցավ, և այնտեղից ես սկսեցի սովորել լեզվաբանություն և հայտնվեցի, որ դասավանդում եմ Սիդնեյի համալսարաններից երկուսում:

Դուք լեզվաբանություն էիք դասավանդում նախքան խոսքի տվյալների տարածություն տեղափոխվելը, ի՞նչը ձեզ ոգեշնչեց փոխել ձեր ուշադրությունը:

Սիդնեյում գտնվող Appen-ը պարզապես անցում էր կատարում տան պահեստային սենյակից սպառված վիրահատությունից մինչև լիարժեք կոմերցիոն գործունեություն: Ինձ ասացին, որ փնտրում են լեզվաբաններ (գուցե ավելի ճիշտ՝ լեզվաբան!) և ինձ ներկայացրին հիմնադիրներ Ջուլի և Քրիս Վոնվիլերները: Անցումն աստիճանական էր և տևեց մոտ երկու տարի: Ես չէի ցանկանում հեռանալ դասավանդումից. բարձր առաջադիմություն ունեցող ուսանողների հետ աշխատելը և՛ ոգեշնչող, և՛ շատ զվարճալի էր: Բայց հատկապես այդ պիոներական տարիներին ես դժվար խնդիրներ էի լուծում լեզվի տեխնոլոգիաների աշխարհի առաջատար մասնագետների կողքին, և հուզմունքը բարձր էր: Շատ բան, ինչ այսօր ընդունված է որպես ինքնին, այն ժամանակ շատ դժվար էր:

Դուք թոշակի եք անցել՝ միանալու LXT-ին: Ի՞նչը ձեզ դրդեց դա անել:

Դա հետաքրքիր հարց է, քանի որ ես հաստատ հաճույք էի ստանում թոշակի ժամանակ: Իրականում, մեր համահիմնադիր և գործադիր տնօրեն Մոհամմադ Օմարը մոտեցավ ինձ իր նախնական հարցմանը պատասխանելուց ամիսներ առաջ, քանի որ ես ապրում էի հանգիստ ապրելակերպով և իրականում չէի մտածում լիաժամ աշխատանքի վերադառնալու մասին: Այն բանից հետո, երբ համաձայնեցի ընդունել առաջին զանգը, որտեղ Մոն հարցրեց LXT-ին միանալու հնարավորության մասին, ես ակնկալում էի, որ պարզապես քաղաքավարի կերպով լսել և հրաժարվել:

Բայց, ի վերջո, հնարավորությունը պարզապես չափազանց լավ էր դիմադրելու համար:

Մոհամմադի և LXT թիմի մյուս անդամների հետ խոսելիս ես անմիջապես հասկացա, որ ընդհանուր կիրք կա լեզվի հանդեպ: Մուհամեդի հավաքած թիմը համալրված էր անսահման էներգիայով ստեղծագործ մտածողներով, որոնք լիովին նվիրված էին ընկերության առաքելությանը:

Երբ ես ավելին իմացա LXT-ի հնարավորության մասին, հասկացա, որ դա այն մեկն էր, որը ես չէի ուզում բաց թողնել: Ահա մի ընկերություն, որն ունի հսկայական ներուժ՝ ընդլայնվելու և զարգանալու այն ոլորտում, որով ես կրքոտ եմ: Եվ քանի որ AI-ի շուկան շարունակում է երկրաչափականորեն աճել, ավելի շատ կազմակերպությունների փորձերից դեպի արտադրություն անցնելու հնարավորությունը շատ հետաքրքիր է, որին ես շատ ուրախ եմ լինել:

Որո՞նք են ընթացիկ մարտահրավերները մասշտաբով տվյալների ձեռքբերման հետևում:

Մարտահրավերները նույնքան բազմազան են, որքան դրանք մղող հավելվածները:

Գործնական տեսանկյունից մարտահրավերները ներառում են իսկությունը, հուսալիությունը, ճշգրտությունը, անվտանգությունը և տվյալների նպատակին համապատասխանության ապահովումը, և դա առանց հաշվի առնելու տվյալների ձեռքբերմանը բնորոշ իրավական և էթիկական մարտահրավերների աճող թիվը:

Օրինակ, ինքնավար մեքենաների աջակցության տեխնոլոգիայի զարգացումը պահանջում է չափազանց մեծ ծավալի տվյալների հավաքագրում բազմաթիվ սցենարներով, որպեսզի մեքենան հասկանա, թե ինչպես արձագանքել իրական աշխարհի իրավիճակներին: Գոյություն ունեն անսահման թվով եզրային դեպքեր, որոնց կարելի է հանդիպել մեքենա վարելիս, ուստի այդ մեքենաները սնուցող ալգորիթմներին անհրաժեշտ են տվյալների հավաքածուներ, որոնք ներառում են ամեն ինչ՝ փողոցներից մինչև կանգառի նշաններից մինչև ընկնող առարկաներ: Եվ հետո, եթե դա բազմապատկեք եղանակային իրադարձությունների քանակով, որոնք կարող են տեղի ունենալ, վերապատրաստման անհրաժեշտ տվյալների քանակը երկրաչափականորեն ավելանում է: Ավտոմոբիլային ընկերությունները, որոնք ներխուժում են ինքնավար տարածք, պետք է հաստատեն տվյալների հուսալի խողովակաշար, և դա ինքնուրույն անելու համար հսկայական քանակությամբ ռեսուրսներ կպահանջվեն:

Օգտագործման մեկ այլ դեպք է առկա ձայնային AI արտադրանքի ընդլայնումը նոր շուկաներում՝ շուկայի մասնաբաժինը և նոր հաճախորդներին գրավելու համար: Սա անխուսափելիորեն պահանջում է լեզվական տվյալներ, և ճշտության հասնելու համար կարևոր է տարբեր ժողովրդագրական պրոֆիլների միջոցով մայրենի խոսողների խոսքի տվյալներ ստանալ: Տվյալները հավաքելուց հետո խոսքի ֆայլերը պետք է արտագրվեն՝ արտադրանքի NLP ալգորիթմները պատրաստելու համար: Դա անելը մի քանի լեզուներով և արդյունավետ լինելու համար անհրաժեշտ տվյալների ծավալներով չափազանց դժվար է ընկերությունների համար ինքնուրույն անել, հատկապես, եթե նրանք չունեն ներքին փորձառություն այս ոլորտում:

Սրանք ընդամենը երկու օրինակ են բազմաթիվ մարտահրավերների, որոնք առկա են AI-ի մասշտաբով տվյալների հավաքագրման հետ կապված, բայց ինչպես կարող եք պատկերացնել, տնային ավտոմատացումը, շարժական սարքերը և կենսաչափական տվյալների հավաքածուները նույնպես ունեն իրենց հատուկ մարտահրավերները:

Որո՞նք են LXT-ի տվյալների աղբյուրագրման և ծանոթագրման ներկայիս եղանակները:

LXT-ում մենք հավաքում և նշում ենք տվյալներ յուրաքանչյուր հաճախորդի համար, քանի որ մեր բոլոր առաջադրանքները հարմարեցված են մեր հաճախորդների բնութագրերին համապատասխանելու համար: Մենք աշխատում ենք տվյալների մի շարք տեսակների վրա՝ ներառյալ աուդիո, պատկեր, խոսք, տեքստ և վիդեո: Տվյալների հավաքագրման համար մենք աշխատում ենք կապալառուների գլոբալ ցանցի հետ՝ տվյալ տարբեր եղանակներով տվյալներ հավաքելու համար: Հավաքածուները կարող են տատանվել՝ տվյալների ձեռքբերումից իրական միջավայրում, ինչպիսիք են տները, գրասենյակները կամ մեքենան, մինչև ստուդիայում փորձառու ինժեներների հետ՝ որոշակի խոսքի տվյալների հավաքագրման նախագծերի դեպքում:

Տվյալների անոտացիայի մեր հնարավորությունները նույնպես ընդգրկում են բազմաթիվ եղանակներ: Մեր փորձը սկսվել է խոսքի ոլորտում և վերջին 12 տարիների ընթացքում մենք ընդլայնվել ենք ավելի քան 115 երկրներում և ավելի քան 750 լեզուներով: Սա նշանակում է, որ բոլոր չափերի ընկերությունները կարող են կախված լինել LXT-ից՝ օգնելու նրանց ներթափանցել շուկաների լայն շրջանակ և գրավել հաճախորդների նոր հատվածներ: Վերջերս մենք ընդլայնվել ենք տեքստի, պատկերի և վիդեո տվյալների մեջ, և մեր ներքին հարթակն օգտագործվում է մեր հաճախորդներին բարձրորակ տվյալներ տրամադրելու համար:

Մեզ համար աճի մեկ այլ հետաքրքիր ոլորտ եղել է մեր անվտանգ ծանոթագրության աշխատանքը: Հենց այս տարի մենք ընդլայնեցինք մեր ISO 27001 ապահով հաստատությունների հետքը երկուսից հինգ տեղանքով ամբողջ աշխարհում: Մենք այժմ մշակել ենք խաղագիրք, որը մեզ հնարավորություն է տալիս մի քանի ամիսների ընթացքում ստեղծել նոր հարմարություններ: Ծառայությունները, որոնց վրա մենք կենտրոնանում ենք այս անվտանգ հաստատություններում, ներկայումս խոսքի տվյալների անոտացիա և տառադարձում են, սակայն դրանք կարող են օգտագործվել տվյալների բազմաթիվ տեսակների անոտացիայի համար:

Ինչու՞ է այս կերպ տվյալների աղբյուրը գերազանց այլընտրանք սինթետիկ տվյալներին:

Սինթետիկ տվյալները հետաքրքիր զարգացում են AI-ի ոլորտում և լավ հարմարվում են հատուկ օգտագործման դեպքերին, հատկապես ծայրամասային դեպքերին, որոնք դժվար է գրավել իրական աշխարհում: Սինթետիկ տվյալների օգտագործումը աճում է, հատկապես AI-ի հասունության վաղ փուլերում, քանի որ ընկերությունները դեռ փորձարկման ռեժիմում են: Այնուամենայնիվ, մեր սեփական հետազոտություն ցույց է տալիս, որ քանի որ կազմակերպությունները հասունացնում են իրենց AI ռազմավարությունները և ավելի շատ մոդելներ մղում արտադրության մեջ, նրանք ավելի հավանական է, որ օգտագործեն վերահսկվող կամ կիսավերահսկվող մեքենայական ուսուցման մեթոդներ, որոնք հիմնված են մարդու կողմից ծանոթագրված տվյալների վրա:

Մարդիկ պարզապես ավելի լավ են, քան համակարգիչները՝ հասկանալու նրբությունները՝ ստեղծելու համար անհրաժեշտ տվյալներ ML մոդելներին բարձր ճշգրտությամբ աշխատելու համար, և մարդկային վերահսկողությունը նույնպես կարևոր է կանխակալությունը նվազեցնելու համար:

Ինչո՞ւ են այս տվյալներն այդքան կարևոր խոսքի և բնական լեզվի մշակման համար:

Որպեսզի խոսքի և բնական լեզվի մշակման ալգորիթմներն արդյունավետ աշխատեն իրենց նախատեսված շուկաներում, նրանք պետք է վերապատրաստվեն մեծ ծավալի տվյալների հետ, որոնք ստացվում են բնիկ խոսնակներից, ովքեր ունեն իրենց ներկայացրած վերջնական օգտագործողների մշակութային ենթատեքստը: Առանց այս տվյալների ձայնային AI-ի ընդունումը լուրջ սահմանափակումներ կունենա:

Բացի այդ, խոսքի տվյալները հավաքելիս պետք է հաշվի առնել շրջակա միջավայրը: Եթե վերապատրաստվող ձայնային AI լուծումը կօգտագործվի մեքենայում, օրինակ, կան տարբեր ճանապարհային և եղանակային պայմաններ, որոնք ազդում են խոսքի վրա և պետք է հաշվի առնել: Սրանք բարդ սցենարներ են, որտեղ փորձառու տվյալների գործընկերը կարող է օգնել:

Կա՞ որևէ այլ բան, որը կցանկանայիք կիսվել LXT-ի մասին:

Նախ, ես ուզում եմ շնորհակալություն հայտնել ձեզ մեր պատմությունը կիսելու հնարավորության համար: Ես կցանկանայի ընդգծել, որ մեր ընկերությունը հավատարիմ է օգնելու բոլոր չափերի կազմակերպություններին հաջողության հասնել իրենց AI նախաձեռնություններում: Մենք ավելի քան 12 տարի կենտրոնացած ենք AI-ի բարձր հարմարեցված տվյալների մատակարարման վրա ամբողջ աշխարհի ընկերություններին, և մենք ուրախ կլինենք կապ հաստատել յուրաքանչյուրի հետ, ով ցանկանում է ստեղծել հուսալի տվյալների խողովակաշար՝ աջակցելու իրենց AI նախագծերին:

Շնորհակալություն հիանալի հարցազրույցի համար, այն ընթերցողները, ովքեր ցանկանում են ավելին իմանալ, պետք է այցելեն LXT.