Intelligence artificielle
Quantum Stat publie la « Big Bad NLP Database »

Quantum Stat a publié sa « Big Bad NLP Database » dans ce qui constitue un grand pas en avant pour le traitement automatique des langues (NLP). La base de données contient des centaines de différents jeux de données que les développeurs d’apprentissage automatique peuvent utiliser.
Selon l’entreprise, ils fournissent des solutions aux initiatives NLP et IA. Ils le font grâce à des services tels que le prétraitement, le développement d’applications Web, une approche multifacette qui inclut l’apprentissage automatique et les réseaux de neurones profonds, la gestion des chatbots et des dialogues, ainsi que leur nouvelle base de données NLP.
L’entreprise mène également des recherches primaires et secondaires pour aider les individus à analyser les développements au sein des industries.
Hub central des données NLP
La décision de créer la base de données, qui est la plus grande bibliothèque de données en traitement automatique des langues, est née du besoin d’un hub central pour stocker les données NLP. L’entreprise visait à la rendre plus accessible et plus facile à rechercher que l’alternative, qui oblige souvent les chercheurs à parcourir plusieurs bibliothèques tierces.
L’entreprise développe la base de données depuis plusieurs semaines ; ils disposent actuellement d’environ 200 jeux de données. Il existe une variété de différents jeux de données, pas seulement les classiques. L’entreprise a inclus ceux tels que CommonCrawl et Penn Treebank.
Avec une gamme de différentes bases de données vient différents tâches NLP. Il y a ceux qui se concentrent sur la classification et la réponse aux questions, mais il y a également des jeux de données pour le texte-à-SQL, la reconnaissance vocale et le multimodal.
Quantum Stat souhaite que la base de données soit axée sur la communauté avec des contributions des utilisateurs. L’entreprise a ouvert ses portes à quiconque pour envoyer un nouveau jeu de données ou recommander des modifications.
Un autre objectif est d’ajouter des jeux de données qui diversifient la langue, en s’éloignant de l’anglais strict. Leur objectif est de rendre la bibliothèque plus globale et accessible aux autres.
Lorsque l’on entre dans la « Big Bad NLP Database », un utilisateur sera confronté à une mise en page propre et organisée. Le nom du jeu de données est répertorié, suivi de la langue et d’une description détaillée. Il répertorie également les instances, le format, la tâche, l’année de création et le créateur. Chaque base de données comporte un lien de téléchargement à suivre.
Différentes bases de données
On trouvera des bases de données telles que Historical Newspapers Daily World Time Series dataset, contenant le contenu quotidien des journaux aux États-Unis et au Royaume-Uni de 1836 à 1922 ; SciQ Dataset, contenant 13 679 questions d’examen scientifique crowdsourcées dans les domaines de la physique, de la biologie et de la chimie ; CommonCrawl, contenant les données de 25 milliards de pages Web ; et MovieLens, un jeu de données contenant 22 000 000 de notes et 580 000 de balises pour 33 000 films par 240 000 utilisateurs.
La base de données impressionnante de Quantum Stat intervient à un moment où les chercheurs nécessitent des jeux de données plus importants et plus diversifiés en raison des progrès de l’apprentissage profond. En raison de la grande quantité de données contenues dans le langage humain, chaque jeu de données unique le rend un peu plus facile à traiter. Le progrès du NLP repose sur ces bases de données, et Quantum Stat a contribué à accélérer ce progrès en rassemblant autant de jeux de données dans un seul espace.
Le NLP sera important dans de nombreux aspects de la société. Il peut aider à prédire les maladies sur la base des dossiers médicaux électroniques et du discours d’un patient, aider les entreprises à savoir ce que les clients disent d’un produit et identifier les fausses nouvelles dans un monde où elles prolifèrent.
La technologie progresse extrêmement rapidement, et il ne faudra pas longtemps avant qu’elle soit capable de traiter ces applications complexes.










