Արհեստական բանականություն

Appen Limited-ը գործարկում է տվյալների ուսուցման բազմազան հավաքածուներ NLP-ի համար

Թարմացվել է on Դեկտեմբերի 9, 2022

Appen Limited, որը բարձրորակ վերապատրաստման տվյալների առաջատար մատակարար ընկերությունների համար, ովքեր ցանկանում են ստեղծել AI համակարգեր մասշտաբով, սկսում է նոր բազմազան ուսումնական տվյալների հավաքածուներ բնական լեզվի մշակման (NLP) նախաձեռնությունների համար: Այս տվյալների հավաքածուները վերջնական օգտագործողներին հնարավորություն կտան ստանալ նույն փորձը՝ անկախ լեզվական բազմազանությունից, բարբառից, էթնոլեկտից, առոգանությունից, ռասայից կամ սեռից:

Ըստ հաշվետվություն PNAS-ի կողմից 2020 թվականի մարտին, խոսքի ավտոմատ ճանաչման (ASR) հանրաճանաչ համակարգերը, հատկապես նրանք, որոնք օգտագործվում են վիրտուալ օգնականների, փակ ենթագրերի և առանց ձեռքի հաշվարկների համար, հաճախ ցուցադրում են կատարողականության ռասայական տարբերություններ: Դրա մեծ մասը կապված է այն համակարգերի հետ, որոնք հիմնված են կողմնակալ կամ թերի տվյալների վրա, և սա է պատճառը, որ շատ կարևոր է մշակել զանազան ուսումնական հավաքածուներ:

Նոր գործարկման միջոցով Appen-ը նպատակ ունի նվազեցնել կատարողականի տարբերությունները և ստեղծել ավելի ընդգրկուն միջավայր խոսքի ճանաչման տեխնոլոգիայի համար: Նույն տեսակի մարտահրավերները առկա են լեզվի թարգմանության և NLP համակարգերում:

Մարկ Բրայանը Appen-ի գործադիր տնօրենն է:

«Վերապատրաստման տվյալների որակն ու բազմազանությունը ուղղակիորեն ազդում են AI մոդելներում առկա կատարողականության և կողմնակալության վրա», - ասաց Բրայանը: «Որպես տվյալների գործընկեր՝ մենք կարող ենք տրամադրել ուսուցման ամբողջական տվյալներ բազմաթիվ օգտագործման դեպքերի համար՝ ապահովելու AI մոդելները բոլորի համար: Չափազանց կարևոր է, որ մենք ներգրավենք անհատների բազմազան խումբ՝ տվյալների մշակման, պիտակավորման և վավերացման համար՝ ապահովելու համար, որ վերապատրաստվող մոդելը ոչ միայն արդարացի է, այլև կառուցված է պատասխանատու կերպով»:

Appen լեզվական նախագծեր

Appen-ը փորձում է ստեղծել տարբեր AI միջավայր իր տարբեր նախագծերի և գործընկերությունների միջոցով, ներառյալ.

Թարգմանիչներ առանց սահմանների (TWB) համագործակցություն. Appen-ը համագործակցել է TWB-ի, Amazon-ի, Carnegie Mellon University-ի, Facebook-ի, Google-ի, Johns Hopkins University-ի, Microsoft-ի և Translated-ի հետ: Գործընկերությունը միացել է Թարգմանչական նախաձեռնություն COVID-19-ի համար (TICO-19), որը փորձել է ընդլայնել COVID-19 տեղեկատվության հասանելիությունը՝ աջակցելով բազմաթիվ լեզուներով լեզվական տեխնոլոգիայի զարգացմանը։ Դրանք ներառում են զարգացող երկրներ, ինչպիսիք են Կոնգոյի Սուահիլիը, Տիգրինիան և նիգերիական Ֆուլֆուլդեն:
Կանադական ֆրանսերեն թարգմանչական նախագիծ: Appen-ն օգնեց Microsoft-ին ավելացնել «կանադական ֆրանսերենը» որպես լեզվի տարբերակ Microsoft Translator-ում մայրենի լեզվի խորհրդատուների հետ համակարգելուց հետո:
Ինուկտիտուտ թարգմանչական նախագիծ: Ափենը համագործակցում էր Նունավուտի կառավարության հետ, ինչը օգնեց Microsoft-ի կողմից Microsoft Translator-ին ինուկտիտուտի ավելացմանը: Կանադական Արկտիկայի տարածքում խոսում են բնիկների լեզուն:
Աֆրոամերիկյան լեզվական անգլերենի (AAVE) տվյալների հավաքածուներ. Աշխատելով AAVE խոսնակների հետ և հավաքելով տվյալներ OTS տվյալների բազայի համար՝ հիմնված տարբեր թեմաների շուրջ խոսակցությունների վրա, Appen-ը փորձում է ստեղծել նոր ուսումնական տվյալների հավաքածուներ, որոնք ներկայացնում են AAVE-ն:

Դոկտոր Ջուդիթ Բիշոփը Appen-ի AI մասնագետների ավագ տնօրենն է:

«AI-ի կողմնակալ տվյալները հանգեցնում են նախագծերի, որոնք կարող են ձախողել ակնկալվող բիզնես արդյունքները և վնասել անհատներին, որոնցից նրանք պետք է օգուտ քաղեն», - ասաց դոկտոր Բիշոփը: «AI նախագծերի մասշտաբն ու բարդությունը անհնարին են դարձնում ընկերությունների մեծամասնության համար ձեռք բերել բավարար անաչառ բարձրորակ տվյալներ՝ առանց AI տվյալների փորձագետի հետ համագործակցելու: Ապենի հանձնառությունը՝ զարգացնելու տվյալների ծանոթագրողների ամենատարբեր և փորձագիտական ամբոխը, արդյունաբերությանը տրամադրում է հստակ տարբերակված ռեսուրս՝ արդար և էթիկական AI նախագծեր կառուցելու համար»:

Appen-ին աջակցում են ավելի քան 170 երկրների տվյալների ծանոթագրողների վերապատրաստում, և լեզվական ներկայացումները ներառում են 235 եզակի լեզուներ և 395 բարբառներ: Այն նաև առաջարկում է առանց պահուստի (OTS) տվյալների հավաքածուներ, որոնք բիզնեսներին հնարավորություն են տալիս ավելի արագ ձեռք բերել բարձրորակ վերապատրաստման տվյալներ իրենց AI նախագծերի համար:

Հաջորդը

Մեքենայական ուսուցումը քաղում է հարձակման տվյալները բացահայտ սպառնալիքների հաշվետվություններից

Բաց մի թողեք

FIDO Alliance-ը նոր ստանդարտ է սահմանում IoT սարքերի համար

Ալեքս Մաքֆարլանդ

Ալեքս Մաքֆարլանդը արհեստական ինտելեկտի լրագրող և գրող է, ով ուսումնասիրում է արհեստական բանականության վերջին զարգացումները: Նա համագործակցել է արհեստական ինտելեկտի բազմաթիվ ստարտափների և հրատարակությունների հետ ամբողջ աշխարհում: