Intelligence artificielle
Appen Limited lance des jeux de données de formation diversifiés pour le NLP

Appen Limited, un fournisseur leader de données de formation de haute qualité pour les entreprises qui cherchent à construire des systèmes d’IA à grande échelle, lance de nouveaux jeux de données de formation diversifiés pour les initiatives de traitement automatique du langage naturel (NLP). Ces jeux de données permettront aux utilisateurs finals de bénéficier de la même expérience, quelle que soit la variété de langues, le dialecte, l’ethnolecte, l’accent, la race ou le sexe.
Selon un rapport de PNAS en mars 2020, les systèmes de reconnaissance automatique de la parole (ASR) populaires, en particulier ceux utilisés pour les assistants virtuels, le sous-titrage et l’informatique sans main, présentent souvent des disparités raciales en termes de performance. Beaucoup de cela est dû au fait que les systèmes sont basés sur des données biaisées ou incomplètes, et c’est pourquoi il est crucial de développer des jeux de données de formation diversifiés.
Avec ce lancement, Appen vise à réduire les différences de performance et à créer un environnement plus inclusif pour la technologie de reconnaissance vocale. Les mêmes types de défis sont présents dans les systèmes d’interprétation de langage et de NLP.
Mark Brayan est le PDG d’Appen.
« La qualité et la diversité des données de formation ont un impact direct sur la performance et les biais présents dans les modèles d’IA », a déclaré Brayan. « En tant que partenaire de données, nous pouvons fournir des données de formation complètes pour de nombreux cas d’utilisation, afin de garantir que les modèles d’IA fonctionnent pour tout le monde. Il est essentiel que nous engageons un groupe diversifié d’individus pour produire, étiqueter et valider les données, afin de garantir que le modèle en formation ne soit pas seulement équitable, mais également construit de manière responsable. »
Projets de langage Appen
Appen tente de créer un environnement d’IA diversifié grâce à ses différents projets et partenariats, notamment :
- Partenariat avec Translators without Borders (TWB) : Appen a conclu un partenariat avec TWB, Amazon, Carnegie Mellon University, Facebook, Google, Johns Hopkins University, Microsoft et Translated. Le partenariat a rejoint l’Initiative de traduction pour le COVID-19 (TICO-19), qui a tenté d’élargir l’accès aux informations sur le COVID-19 en soutenant le développement de la technologie linguistique dans de multiples langues. Cela inclut le développement de langues dans des pays en développement comme le swahili du Congo, le tigrinya et le fulfulde du Nigéria.
- Projet de traduction en français canadien : Appen a aidé Microsoft à ajouter le « français canadien » en tant qu’option de langue dans Microsoft Translator après avoir coordonné avec des consultants en langues natives.
- Projet de traduction inuktitut : Appen a collaboré avec le gouvernement du Nunavut, ce qui a conduit Microsoft à ajouter l’inuktitut à Microsoft Translator. La langue autochtone est parlée dans l’Arctique canadien.
- Jeux de données prêts à l’emploi pour l’African American Vernacular English (AAVE) : En travaillant avec des locuteurs d’AAVE et en collectant des données pour un jeu de données prêt à l’emploi basé sur des conversations sur divers sujets, Appen tente de créer de nouveaux jeux de données de formation qui représentent l’AAVE.
Le Dr Judith Bishop est la directrice senior des spécialistes de l’IA chez Appen.
« Les données d’IA biaisées entraînent des projets qui peuvent ne pas parvenir à atteindre les résultats commerciaux attendus et nuire aux individus qu’ils sont censés aider », a déclaré le Dr Bishop. « L’échelle et la complexité des projets d’IA rendent impossible pour la plupart des entreprises d’acquérir des données de haute qualité non biaisées sans s’associer à un expert en données d’IA. L’engagement d’Appen à développer le groupe de données d’annotateurs les plus diversifiés et les plus experts fournit à l’industrie une ressource clairement différenciée pour la construction de projets d’IA justes et éthiques. »
Appen est assisté par des annotateurs de données de formation de plus de 170 pays, et les représentations linguistiques comprennent 235 langues uniques et 395 dialectes. Il propose également des jeux de données prêts à l’emploi (OTS), qui permettent aux entreprises d’acquérir des données de formation de haute qualité plus rapidement pour leurs projets d’IA.












