Intelligence artificielle
Quantum Stat Publie « Big Bad NLP Database »

Quantum Stat a publié sa « Big Bad NLP Database » dans un grand pas en avant pour le traitement automatique des langues (NLP). La base de données contient des centaines de différents jeux de données pour les développeurs de l’apprentissage automatique.
Selon l’entreprise, ils fournissent des solutions aux initiatives NLP et IA. Ils le font à travers des services tels que le prétraitement, le développement d’applications Web, une approche multifacette qui comprend l’apprentissage automatique et les réseaux de neurones profonds, la gestion des chatbots et des dialogues, ainsi que leur nouvelle base de données NLP.
L’entreprise mène également des recherches primaires et secondaires pour aider les individus à analyser les développements au sein des industries.
Hub Central de Données NLP
La décision de créer la base de données, qui est la plus grande bibliothèque de données en traitement automatique des langues, est venue de la nécessité d’un hub central pour stocker les données NLP. L’entreprise visait à la rendre plus accessible et plus facile à rechercher que l’alternative, qui oblige souvent les chercheurs à parcourir plusieurs bibliothèques tierces.
L’entreprise développe la base de données depuis plusieurs semaines ; ils ont actuellement environ 200 jeux de données. Il existe une variété de différents jeux de données, pas seulement les classiques. L’entreprise a inclus des jeux de données tels que CommonCrawl et Penn Treebank.
Avec une gamme de différentes bases de données vient différents tâches NLP. Il y a ceux qui se concentrent sur la classification et la réponse aux questions, mais il y a également des jeux de données pour le texte-à-SQL, la reconnaissance de la parole et le multimodal.
Quantum Stat veut que la base de données soit axée sur la communauté avec des contributions des utilisateurs. L’entreprise a ouvert ses portes pour que quiconque puisse envoyer un nouveau jeu de données ou suggérer des changements.
Un autre objectif est d’ajouter des jeux de données qui diversifient la langue, en s’éloignant de l’anglais strict. Leur objectif est de rendre la bibliothèque plus globale et accessible aux autres.
Lorsque vous entrez dans la « Big Bad NLP Database », vous serez confronté à une mise en page propre et organisée. Le nom du jeu de données est répertorié, suivi de la langue et d’une description détaillée. Il répertorie également les instances, le format, la tâche, l’année de création et le créateur. Chaque base de données a un lien de téléchargement à suivre.
Différentes Bases de Données
On trouvera des bases de données telles que le jeu de données des journaux historiques Daily World Time Series, contenant les contenus quotidiens des journaux aux États-Unis et au Royaume-Uni de 1836 à 1922 ; le jeu de données SciQ, contenant 13 679 questions d’examen scientifique crowdsourcées dans les domaines de la physique, de la biologie et de la chimie ; CommonCrawl, contenant les données de 25 milliards de pages Web ; et MovieLens, un jeu de données contenant 22 000 000 de notes et 580 000 de balises pour 33 000 films par 240 000 utilisateurs.
La base de données impressionnante de Quantum Stat arrive à un moment où les chercheurs nécessitent des jeux de données plus importants et plus diversifiés en raison des progrès de l’apprentissage profond. En raison de la grande quantité de données contenues dans le langage humain, chaque jeu de données unique le rend un peu plus facile à traiter. Le progrès du NLP repose sur ces bases de données, et Quantum Stat a contribué à accélérer ce progrès en rassemblant autant de jeux de données dans un seul espace.
Le NLP sera important dans de nombreux aspects de la société. Il peut aider à prédire les maladies basées sur les dossiers médicaux électroniques et le discours d’un patient, aider les entreprises à découvrir ce que les clients disent d’un produit, et identifier les fausses nouvelles dans un monde où elles prolifèrent.
La technologie avance extrêmement rapidement, et il ne faudra pas longtemps avant qu’elle soit capable de traiter ces applications complexes.












