Intelligence artificielle

Nouvelles données prêtes à l’emploi (OTS) d’Appen pour accélérer le déploiement de l’IA

Publié le 25 février 2021

Mis à jour le 25 mai 2026

Par

Daniel Martin

Appen Limited (ASX:APX), le principal fournisseur de données de formation de haute qualité pour les organisations qui construisent des systèmes d’IA efficaces à grande échelle, a annoncé aujourd’hui de nouvelles données prêtes à l’emploi (OTS). Ces données sont conçues pour faciliter et accélérer l’acquisition des données de formation de haute qualité nécessaires pour accélérer les projets d’intelligence artificielle (IA) et d’apprentissage automatique (ML). Les nouvelles données OTS comprennent des mouvements du corps humain et des sons de pleurs de bébé innovants, ainsi que des discours scriptés et des images avec du texte adaptés à la reconnaissance optique de caractères (OCR) pour des langues très demandées mais difficiles à acquérir, telles que l’arabe, le croate, le grec, le hongrois, le thaï et bien d’autres. Avec l’expansion des données, l’offre totale de données OTS d’Appen comprend plus de 250 ensembles de données, comprenant plus de 11 000 heures d’audio, plus de 25 000 images et plus de 8,7 millions de mots dans 80 langues et plusieurs dialectes.

Les données OTS d’Appen sont un outil rapide et rentable pour lancer un projet d’IA ou de ML avec des données de formation de haute qualité cohérentes. Les équipes qui élargissent leurs capacités d’IA peuvent également utiliser les données OTS pour améliorer efficacement la précision, développer de nouvelles compétences de modèle et incorporer d’autres améliorations dans leurs modèles d’IA. Un ensemble de données OTS est souvent livré en une semaine, par exemple, comparé aux huit à douze semaines pour un nouveau projet de collecte et d’annotation de données – ou même plus long, selon la complexité. Toutes les données d’Appen sont développées à l’aide d’une méthodologie entièrement transparente et opt-in, de sorte que les spécialistes de l’IA peuvent être assurés que leurs données sont propres et conformes, éliminant le risque potentiel de répercussions et de dommages à la réputation.

« Les équipes d’IA du monde entier qui travaillent sur des projets avec des délais serrés et des exigences de données flexibles peuvent bénéficier de l’utilisation de données prêtes à l’emploi », a déclaré Wilson Pang, directeur technique d’Appen. « Les données OTS raccourcissent le temps nécessaire pour obtenir une valeur et offrent un accès à des données de haute qualité à un coût total inférieur à celui des méthodes traditionnelles. Chez Appen, nous prenons les mesures nécessaires pour nous assurer que toutes nos données sont sources de manière éthique et équilibrées démographiquement, permettant aux entreprises de maintenir des pratiques d’IA responsables en minimisant les biais dans leurs modèles et en garantissant un traitement équitable des annotateurs de données. Vous savez toujours la qualité précise d’un ensemble de données OTS, ce qui aide à construire une meilleure IA qui fonctionne dans le monde réel. »

MediaInterface a fourni des solutions de technologie linguistique à des institutions de soins de santé en Allemagne et dans d’autres parties de l’Europe pendant plus de 20 ans. Lorsque l’entreprise s’est étendue en France, elle avait un logiciel entièrement localisé, mais manquait de données lexicales françaises, en particulier de noms et de lieux français, qui sont souvent référencés dans les informations de santé des patients. En utilisant les données OTS d’Appen, MediaInterface a acquis environ 21 000 noms français et 14 000 noms de lieux. « Les données critiques d’Appen ont été intégrées dans notre lexique de fond pour lancer avec succès un nouveau marché, et cela nous aide à développer de nouveaux vocabulaires pour nos clients et à renforcer notre approche pour les lancements de marché futurs », a déclaré Ines Wendler, responsable de produit chez MediaInterface.

Les experts d’IA les plus expérimentés combinent les données OTS avec des projets de collecte et d’annotation de données sur demande pour répondre à leurs besoins complexes de formation de données pour les modèles d’IA. Appen est le leader dans l’offre d’un soutien continu grâce à une gamme de services de collecte de données spécifiques, tels que l’annotation de données continue et l’étiquetage intelligent, grâce à des outils alimentés par l’IA et à des flux de travail automatisés pour maximiser l’efficacité.

« Nous interagissons avec l’IA du moment où nous nous réveillons à celui où nous allons nous coucher – grâce à des assistants virtuels, des chatbots, des moteurs de recherche, des réseaux sociaux, des appareils médicaux, des voitures intelligentes et d’autres applications », a déclaré Judith Bishop, directrice senior des spécialistes d’IA d’Appen, qui dirige une équipe de 100 linguistes et experts en langues. « La langue est souvent l’interface principale pour de nombreux de ces cas d’utilisation d’IA convaincants, donc pour garantir une expérience exceptionnelle, le modèle doit être formé pour fonctionner pour tous. L’engagement d’Appen en faveur de données de haute qualité et de développement d’IA responsable et éthique permet aux entreprises qui achètent nos données prêtes à l’emploi d’accélérer leurs projets d’IA avec une confiance totale dans leurs données. »

En rejoignant les centaines de données déjà disponibles sur appen.com, la liste des nouvelles données OTS d’Appen qui sont maintenant disponibles comprend :

Discours scriptés pour l’arabe (Égypte), l’arabe (Arabie saoudite), l’arabe (Émirats arabes unis), le khmer central (Cambodge), le croate, le grec, le hongrois, le polonais, l’espagnol (Espagne) et le turc
OCR d’images pour le chinois simplifié imprimé, le thaï imprimé et le finnois imprimé – Comprend des panneaux d’affichage préenregistrés, des emballages extérieurs, des panneaux, des magazines et des menus pour former et mettre à jour les modèles d’OCR de vision par ordinateur
Mouvement du corps humain (Chine) – Comprend des vidéos annotées de personnes en mouvement, suivies au niveau du pixel, adaptées au développement de jeux, aux applications de fitness et plus encore
Sons de pleurs de bébé (Chine) – Comprend des sons de bébé préenregistrés et annotés qui peuvent être utilisés pour former des modèles d’IA à reconnaître différents sons de pleurs et alerter les parents

Pour plus d’informations et pour demander un échantillon de données OTS d’Appen, cliquez ici.

Daniel Martin

Daniel est un grand partisan de la façon dont l'IA perturbera finalement tout. Il respire la technologie et vit pour essayer de nouveaux gadgets.

Unite.AI

Nouvelles données prêtes à l’emploi (OTS) d’Appen pour accélérer le déploiement de l’IA

Découvrir plus