Mesterséges Intelligencia
Az Appen Limited változatos adatképzési készleteket indít az NLP-hez
Appen Limited, a magas színvonalú képzési adatok vezető szolgáltatója a mesterséges intelligencia-rendszereket nagyarányúan építeni kívánó vállalatok számára, új, változatos képzési adatkészleteket indít a természetes nyelvi feldolgozási (NLP) kezdeményezésekhez. Ezek az adatkészletek lehetővé teszik a végfelhasználók számára, hogy ugyanazt az élményt kapják, függetlenül a nyelv változatosságától, dialektusától, etnolektusától, akcentusától, rasszától vagy nemétől.
A találmány egy jelentést A PNAS által 2020 márciusában közzétett népszerű automatizált beszédfelismerő (ASR) rendszerek, különösen a virtuális asszisztensekhez, a feliratozáshoz és a kihangosított számítástechnikához használt rendszerek, gyakran faji különbségeket mutatnak teljesítményükben. Ennek nagy része azzal függ össze, hogy a rendszerek torz vagy hiányos adatokon alapulnak, és ezért nagyon fontos a változatos képzési készletek kidolgozása.
Az új bevezetéssel az Appen célja, hogy csökkentse a teljesítménybeli különbségeket, és befogadóbb környezetet teremtsen a beszédfelismerő technológia számára. Ugyanilyen típusú kihívások vannak jelen a nyelvértelmezésben és az NLP-rendszerekben is.
Mark Brayan az Appen vezérigazgatója.
"A képzési adatok minősége és sokfélesége közvetlenül befolyásolja az AI-modellek teljesítményét és torzítását" - mondta Brayan. „Adatpartnerként számos felhasználási esethez teljes képzési adatokat tudunk szolgáltatni annak érdekében, hogy az AI-modellek mindenki számára működjenek. Nagyon fontos, hogy egyének sokféle csoportját vonjuk be az adatok előállításához, címkézéséhez és validálásához, így biztosítva, hogy a betanított modell ne csak méltányos, hanem felelősségteljesen épüljön fel.”
Appen nyelvi projektek
Az Appen különféle projektjei és partnerségei révén változatos mesterséges intelligencia-környezet létrehozására tesz kísérletet, többek között:
- Fordítók határok nélkül (TWB) partnerség: Az Appen együttműködött a TWB-vel, az Amazon-nal, a Carnegie Mellon Egyetemmel, a Facebook-kal, a Google-lal, a Johns Hopkins Egyetemmel, a Microsofttal és a Translated-el. A partnerség csatlakozott a Fordítási kezdeményezés a COVID-19-hez (TICO-19), amely megpróbálta kiterjeszteni a COVID-19-információkhoz való hozzáférést a nyelvi technológia fejlesztésének támogatásával több nyelven. Ide tartoznak a fejlődő országok, mint a kongói szuahéli, a tigrinya és a nigériai Fulfulde.
- Kanadai francia fordítási projekt: Az Appen segített a Microsoftnak, hogy anyanyelvi tanácsadókkal egyeztetve hozzáadja a „kanadai francia” nyelvi opciót a Microsoft Translatorban.
- Inuktitut fordítási projekt: Az Appen együttműködött a nunavuti kormánnyal, ami hozzájárult ahhoz, hogy a Microsoft hozzáadja az Inuktitutot a Microsoft Translatorhoz. Az őslakos nyelvet a kanadai sarkvidéken beszélik.
- Afro-amerikai népnyelvű angol (AAVE) készen kapható adatkészletek: Az AAVE-hangszórókkal való együttműködés és a különféle témákról folytatott beszélgetések alapján az OTS-adatkészlethez való adatok gyűjtése révén az Appen új képzési adatkészleteket próbál létrehozni, amelyek az AAVE-t képviselik.
Dr. Judith Bishop az Appen mesterséges intelligencia specialistáinak vezető igazgatója.
„Az elfogult mesterséges intelligencia adatok olyan projektekhez vezetnek, amelyek nem hozzák meg a várt üzleti eredményeket, és károsíthatják azokat az egyéneket, akiknek hasznot húznak” – mondta Dr. Bishop. „Az AI-projektek nagysága és összetettsége lehetetlenné teszi a legtöbb vállalat számára, hogy elegendő, elfogulatlan, jó minőségű adatot szerezzen be AI-adatszakértővel való együttműködés nélkül. Az Appen elkötelezettsége a legkülönfélébb és legszakszerűbb adatmagyarázók tömegének kifejlesztése iránt, egyértelműen differenciált erőforrást biztosít az iparágnak a tisztességes és etikus mesterségesintelligencia-projektek építéséhez.”
Az Appen-t több mint 170 országból származó adatmagyarázók képzése segíti, és a nyelvi reprezentációk 235 egyedi nyelvet és 395 dialektust tartalmaznak. Ezenkívül készenléti (OTS) adatkészleteket is kínál, amelyek lehetővé teszik a vállalkozások számára, hogy gyorsabban szerezzenek kiváló minőségű képzési adatokat AI-projektjeikhez.