Connect with us

Kunstmatige intelligentie

Appen Limited lanceert gevarieerde trainingsdatasets voor NLP

mm

Appen Limited, een toonaangevende aanbieder van hoogwaardige trainingsdata voor bedrijven die AI-systemen op grote schaal willen bouwen, lanceert nieuwe gevarieerde trainingsdatasets voor natuurlijke taalverwerking (NLP)-initiatieven. Deze datasets zullen eindgebruikers in staat stellen om ongeacht taalvariëteit, dialect, etnisch dialect, accent, ras of geslacht dezelfde ervaring te hebben.

Volgens een rapport van PNAS in maart 2020, vertonen populaire geautomatiseerde spraakherkenningsystemen (ASR), vooral die welke worden gebruikt voor virtuele assistenten, ondertiteling en handsfree computing, vaak raciale verschillen in prestaties. Veel hiervan heeft te maken met het feit dat de systemen zijn gebaseerd op bevooroordeelde of onvolledige gegevens, en dit is waarom het zo cruciaal is om gevarieerde trainingssets te ontwikkelen.

Met de nieuwe lancering beoogt Appen de prestatieverschillen te verkleinen en een meer inclusieve omgeving te creëren voor spraakherkenningsTechnologie. Dezelfde soort uitdagingen zijn aanwezig in taalinterpretatie en NLP-systemen.

Mark Brayan is de CEO van Appen.

“De kwaliteit en diversiteit van trainingsdata hebben een directe invloed op de prestaties en vooroordelen in AI-modellen”, zei Brayan. “Als datapartner kunnen we complete trainingsdata voor veel use cases leveren om ervoor te zorgen dat AI-modellen voor iedereen werken. Het is cruciaal dat we een gevarieerde groep individuen betrekken om de gegevens te produceren, te labelen en te valideren om ervoor te zorgen dat het model dat wordt getraind niet alleen eerlijk is, maar ook verantwoordelijk wordt gebouwd.”

Appen Taalprojecten

Appen probeert een gevarieerde AI-omgeving te creëren via verschillende projecten en partnerschappen, waaronder:

  • Partnerschap met Translators without Borders (TWB): Appen heeft een partnerschap met TWB, Amazon, Carnegie Mellon University, Facebook, Google, Johns Hopkins University, Microsoft en Translated. Het partnerschap heeft zich aangesloten bij de Translation Initiative for COVID-19 (TICO-19), die heeft geprobeerd om de toegang tot COVID-19-informatie uit te breiden door de ontwikkeling van taaltechnologie in meerdere talen te ondersteunen. Deze omvatten ontwikkelingslanden zoals Congolees Swahili, Tigrinya en Nigeriaans Fulfulde.

  • Canadees-Frans vertaalproject: Appen heeft geholpen om “Canadees-Frans” als taaloptie toe te voegen in Microsoft Translator na coördinatie met native taalconsultants.
  • Inuktitut vertaalproject: Appen heeft samengewerkt met de regering van Nunavut, wat heeft geleid tot het toevoegen van Inuktitut aan Microsoft Translator door Microsoft. De inheemse taal wordt gesproken in de Canadese Arctis.

  • Afro-Amerikaans dialect (AAVE) off-the-shelf datasets: Door samen te werken met AAVE-sprekers en gegevens te verzamelen voor een OTS-dataset op basis van gesprekken over verschillende onderwerpen, probeert Appen nieuwe trainingsdatasets te maken die AAVE vertegenwoordigen.

Dr. Judith Bishop is Senior Director of AI Specialists bij Appen.

“Bevooroordeelde AI-gegevens leiden tot projecten die kunnen falen in het leveren van de verwachte bedrijfsresultaten en schade kunnen toebrengen aan de personen die ze zouden moeten helpen”, zei Dr. Bishop. “De omvang en complexiteit van AI-projecten maken het onmogelijk voor de meeste bedrijven om onbevooroordeelde, hoogwaardige gegevens te verkrijgen zonder samen te werken met een AI-data-expert. De toewijding van Appen om de meest gevarieerde en deskundige crowd van data-annotators te ontwikkelen, biedt de industrie een duidelijk onderscheiden resource voor het bouwen van eerlijke en ethische AI-projecten.”

Appen wordt ondersteund door trainingsdata-annotators uit meer dan 170 landen, en de taalrepresentaties omvatten 235 unieke talen en 395 dialecten. Het biedt ook off-the-shelf (OTS)-datasets aan, die bedrijven in staat stellen om hoogwaardige trainingsdata sneller te verkrijgen voor hun AI-projecten.

Alex McFarland is een AI-journalist en schrijver die de laatste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met talloze AI-startups en publicaties wereldwijd.