škrbina Appen Limited lansira različite skupove podataka za obuku za NLP - Unite.AI
Povežite se s nama

Umjetna inteligencija

Appen Limited lansira različite skupove podataka za obuku za NLP

Ažurirano on

Appen Limited, vodeći pružatelj visokokvalitetnih podataka o obuci za tvrtke koje žele izgraditi sustave umjetne inteligencije u velikim razmjerima, pokreće nove različite skupove podataka za obuku za inicijative obrade prirodnog jezika (NLP). Ovi skupovi podataka omogućit će krajnjim korisnicima isto iskustvo bez obzira na jezičnu raznolikost, dijalekt, etnolekt, naglasak, rasu ili spol. 

Prema prijaviti PNAS-a u ožujku 2020., popularni sustavi za automatsko prepoznavanje govora (ASR), posebno oni koji se koriste za virtualne pomoćnike, zatvorene titlove i računalstvo bez ruku, često pokazuju rasne razlike u izvedbi. Velik dio toga ima veze sa sustavima koji se temelje na pristranim ili nepotpunim podacima, i to je razlog zašto je tako ključno razviti različite skupove za obuku. 

S novim lansiranjem, Appen ima za cilj smanjiti razlike u performansama i stvoriti inkluzivnije okruženje za tehnologiju prepoznavanja govora. Iste vrste izazova prisutne su u tumačenju jezika i NLP sustavima. 

Mark Brayan je izvršni direktor Appena. 

“Kvaliteta i raznolikost podataka o obuci izravno utječu na performanse i pristranost prisutne u modelima umjetne inteligencije”, rekao je Brayan. “Kao podatkovni partner, možemo dostaviti potpune podatke o obuci za mnoge slučajeve upotrebe kako bismo osigurali da AI modeli rade za sve. Od ključne je važnosti da angažiramo raznoliku skupinu pojedinaca za proizvodnju, označavanje i provjeru valjanosti podataka kako bismo osigurali da model koji se obučava nije samo pravičan, već i izgrađen odgovorno.”

Appen jezični projekti

Appen pokušava stvoriti raznoliko AI okruženje kroz svoje različite projekte i partnerstva, uključujući: 

  • Partnerstvo Prevoditelja bez granica (TWB): Appen je sklopio partnerstvo s TWB-om, Amazonom, Sveučilištem Carnegie Mellon, Facebookom, Googleom, Sveučilištem Johns Hopkins, Microsoftom i Translatedom. Partnerstvo se pridružilo Inicijativa za prevođenje za COVID-19 (TICO-19), koji je pokušao proširiti pristup informacijama o bolesti COVID-19 podržavajući razvoj jezične tehnologije na više jezika. To uključuje zemlje u razvoju kao što su kongoanski svahili, tigrinya i nigerijski Fulfulde.

  • Projekt prevođenja kanadskog francuskog jezika: Appen je pomogao Microsoftu da doda "kanadski francuski" kao jezičnu opciju u Microsoft Translator nakon koordinacije sa konzultantima za materinji jezik.
  • Projekt prevođenja inuktituta: Appen je surađivao s vladom Nunavuta što je pomoglo da Microsoft doda Inuktitut u Microsoft Translator. Domorodački jezik se govori na kanadskom Arktiku.

  • Standardni skupovi podataka afroameričkog vernakularnog engleskog (AAVE): Radeći s AAVE govornicima i prikupljajući podatke za OTS skup podataka na temelju razgovora o raznim temama, Appen pokušava napraviti nove skupove podataka za obuku koji predstavljaju AAVE. 

Dr. Judith Bishop viša je direktorica stručnjaka za umjetnu inteligenciju u Appenu.

“Pristrani podaci umjetne inteligencije dovode do projekata koji mogu iznevjeriti očekivane poslovne rezultate i naštetiti pojedincima od kojih bi trebali imati koristi”, rekao je dr. Bishop. „Opseg i složenost projekata umjetne inteligencije onemogućuje većini tvrtki da dobiju dovoljno nepristranih podataka visoke kvalitete bez partnerstva sa stručnjakom za podatke umjetne inteligencije. Appenova predanost razvoju najrazličitije i najstručnije skupine anotatora podataka daje industriji jasno diferenciran resurs za izgradnju pravednih i etičkih AI projekata.”

Appenu pomaže obuka anotatora podataka iz preko 170 zemalja, a jezični prikazi uključuju 235 jedinstvenih jezika i 395 dijalekata. Također nudi gotove (OTS) skupove podataka koji tvrtkama omogućuju brže dobivanje visokokvalitetnih podataka o obuci za njihove AI projekte.

 

Alex McFarland je AI novinar i pisac koji istražuje najnovija dostignuća u umjetnoj inteligenciji. Surađivao je s brojnim AI startupovima i publikacijama diljem svijeta.