քոթուկ Appen Limited-ը գործարկում է տվյալների ուսուցման բազմազան հավաքածուներ NLP-ի համար - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Appen Limited-ը գործարկում է տվյալների ուսուցման բազմազան հավաքածուներ NLP-ի համար

Թարմացվել է on

Appen Limited, որը բարձրորակ վերապատրաստման տվյալների առաջատար մատակարար ընկերությունների համար, ովքեր ցանկանում են ստեղծել AI համակարգեր մասշտաբով, սկսում է նոր բազմազան ուսումնական տվյալների հավաքածուներ բնական լեզվի մշակման (NLP) նախաձեռնությունների համար: Այս տվյալների հավաքածուները վերջնական օգտագործողներին հնարավորություն կտան ստանալ նույն փորձը՝ անկախ լեզվական բազմազանությունից, բարբառից, էթնոլեկտից, առոգանությունից, ռասայից կամ սեռից: 

Ըստ հաշվետվություն PNAS-ի կողմից 2020 թվականի մարտին, խոսքի ավտոմատ ճանաչման (ASR) հանրաճանաչ համակարգերը, հատկապես նրանք, որոնք օգտագործվում են վիրտուալ օգնականների, փակ ենթագրերի և առանց ձեռքի հաշվարկների համար, հաճախ ցուցադրում են կատարողականության ռասայական տարբերություններ: Դրա մեծ մասը կապված է այն համակարգերի հետ, որոնք հիմնված են կողմնակալ կամ թերի տվյալների վրա, և սա է պատճառը, որ շատ կարևոր է մշակել զանազան ուսումնական հավաքածուներ: 

Նոր գործարկման միջոցով Appen-ը նպատակ ունի նվազեցնել կատարողականի տարբերությունները և ստեղծել ավելի ընդգրկուն միջավայր խոսքի ճանաչման տեխնոլոգիայի համար: Նույն տեսակի մարտահրավերները առկա են լեզվի թարգմանության և NLP համակարգերում: 

Մարկ Բրայանը Appen-ի գործադիր տնօրենն է: 

«Վերապատրաստման տվյալների որակն ու բազմազանությունը ուղղակիորեն ազդում են AI մոդելներում առկա կատարողականության և կողմնակալության վրա», - ասաց Բրայանը: «Որպես տվյալների գործընկեր՝ մենք կարող ենք տրամադրել ուսուցման ամբողջական տվյալներ բազմաթիվ օգտագործման դեպքերի համար՝ ապահովելու AI մոդելները բոլորի համար: Չափազանց կարևոր է, որ մենք ներգրավենք անհատների բազմազան խումբ՝ տվյալների մշակման, պիտակավորման և վավերացման համար՝ ապահովելու համար, որ վերապատրաստվող մոդելը ոչ միայն արդարացի է, այլև կառուցված է պատասխանատու կերպով»:

Appen լեզվական նախագծեր

Appen-ը փորձում է ստեղծել տարբեր AI միջավայր իր տարբեր նախագծերի և գործընկերությունների միջոցով, ներառյալ. 

  • Թարգմանիչներ առանց սահմանների (TWB) համագործակցություն. Appen-ը համագործակցել է TWB-ի, Amazon-ի, Carnegie Mellon University-ի, Facebook-ի, Google-ի, Johns Hopkins University-ի, Microsoft-ի և Translated-ի հետ: Գործընկերությունը միացել է Թարգմանչական նախաձեռնություն COVID-19-ի համար (TICO-19), որը փորձել է ընդլայնել COVID-19 տեղեկատվության հասանելիությունը՝ աջակցելով բազմաթիվ լեզուներով լեզվական տեխնոլոգիայի զարգացմանը։ Դրանք ներառում են զարգացող երկրներ, ինչպիսիք են Կոնգոյի Սուահիլիը, Տիգրինիան և նիգերիական Ֆուլֆուլդեն:

  • Կանադական ֆրանսերեն թարգմանչական նախագիծ: Appen-ն օգնեց Microsoft-ին ավելացնել «կանադական ֆրանսերենը» որպես լեզվի տարբերակ Microsoft Translator-ում մայրենի լեզվի խորհրդատուների հետ համակարգելուց հետո:
  • Ինուկտիտուտ թարգմանչական նախագիծ: Ափենը համագործակցում էր Նունավուտի կառավարության հետ, ինչը օգնեց Microsoft-ի կողմից Microsoft Translator-ին ինուկտիտուտի ավելացմանը: Կանադական Արկտիկայի տարածքում խոսում են բնիկների լեզուն:

  • Աֆրոամերիկյան լեզվական անգլերենի (AAVE) տվյալների հավաքածուներ. Աշխատելով AAVE խոսնակների հետ և հավաքելով տվյալներ OTS տվյալների բազայի համար՝ հիմնված տարբեր թեմաների շուրջ խոսակցությունների վրա, Appen-ը փորձում է ստեղծել նոր ուսումնական տվյալների հավաքածուներ, որոնք ներկայացնում են AAVE-ն: 

Դոկտոր Ջուդիթ Բիշոփը Appen-ի AI մասնագետների ավագ տնօրենն է:

«AI-ի կողմնակալ տվյալները հանգեցնում են նախագծերի, որոնք կարող են ձախողել ակնկալվող բիզնես արդյունքները և վնասել անհատներին, որոնցից նրանք պետք է օգուտ քաղեն», - ասաց դոկտոր Բիշոփը: «AI նախագծերի մասշտաբն ու բարդությունը անհնարին են դարձնում ընկերությունների մեծամասնության համար ձեռք բերել բավարար անաչառ բարձրորակ տվյալներ՝ առանց AI տվյալների փորձագետի հետ համագործակցելու: Ապենի հանձնառությունը՝ զարգացնելու տվյալների ծանոթագրողների ամենատարբեր և փորձագիտական ​​ամբոխը, արդյունաբերությանը տրամադրում է հստակ տարբերակված ռեսուրս՝ արդար և էթիկական AI նախագծեր կառուցելու համար»:

Appen-ին աջակցում են ավելի քան 170 երկրների տվյալների ծանոթագրողների վերապատրաստում, և լեզվական ներկայացումները ներառում են 235 եզակի լեզուներ և 395 բարբառներ: Այն նաև առաջարկում է առանց պահուստի (OTS) տվյալների հավաքածուներ, որոնք բիզնեսներին հնարավորություն են տալիս ավելի արագ ձեռք բերել բարձրորակ վերապատրաստման տվյալներ իրենց AI նախագծերի համար:

 

Ալեքս Մաքֆարլանդը արհեստական ​​ինտելեկտի լրագրող և գրող է, ով ուսումնասիրում է արհեստական ​​բանականության վերջին զարգացումները: Նա համագործակցել է արհեստական ​​ինտելեկտի բազմաթիվ ստարտափների և հրատարակությունների հետ ամբողջ աշխարհում: