Intelligence Artificielle
Quantum Stat publie la "Base de données Big Bad NLP"

Quantum Stat a publié son "Base de données Big Bad NLP» dans ce qui constitue un grand pas en avant pour le traitement du langage naturel (NLP). La base de données contient des centaines d’ensembles de données différents que les développeurs d’apprentissage automatique peuvent utiliser.
Selon l'entreprise, ils fournissent des solutions aux initiatives de PNL et d'IA. Pour ce faire, ils utilisent des services tels que le prétraitement du développement d'applications Web, une approche à multiples facettes qui inclut l'apprentissage automatique et les réseaux de neurones profonds, la gestion des chatbots et des dialogues, et leur nouvelle base de données NLP.
La société mène également des recherches primaires et secondaires pour aider les individus à analyser les développements au sein des industries.
Hub central de données PNL
La décision de créer la base de données, qui est la plus grande bibliothèque de données au monde dans le domaine du traitement du langage naturel, est née du besoin d'un hub central pour stocker les données NLP. L'entreprise visait à le rendre plus facilement accessible et consultable que l'alternative, qui oblige souvent les chercheurs à effectuer des recherches dans plusieurs bibliothèques tierces.
La société développe la base de données depuis plusieurs semaines ; ils ont actuellement environ 200 ensembles de données. Il existe une variété d'ensembles de données différents, pas seulement les classiques. La société a inclus ceux tels que CommonCrawl et Penn Treebank.
Outre une gamme de bases de données différentes, différentes tâches de PNL s'accompagnent. Il y a ceux qui se concentrent sur la classification et la réponse aux questions, mais il existe également des ensembles de données pour le texte en SQL, la reconnaissance vocale et le multimodal.
Quantum Stat souhaite que la base de données soit axée sur la communauté avec les contributions des utilisateurs. La société a ouvert ses portes à quiconque peut envoyer un nouvel ensemble de données ou recommander des modifications.
Un autre objectif est d'ajouter des ensembles de données qui diversifient la langue, s'éloignant de l'anglais strict. Leur objectif est de rendre la bibliothèque plus globale et accessible aux autres.
En entrant dans la «base de données Big Bad NLP», un utilisateur sera confronté à une mise en page propre et organisée. Le nom de l'ensemble de données est répertorié, suivi de la langue et d'une description détaillée. Il répertorie également les instances, le format, la tâche, l'année de création et le créateur. Chaque base de données a un lien de téléchargement à suivre.
Diverses bases de données
On rencontrera des bases de données telles que l'ensemble de données Historical Newspapers Daily World Time Series, contenant le contenu quotidien des journaux aux États-Unis et au Royaume-Uni de 1836 à 1922 ; SciQ Dataset, contenant 13,679 25 questions d'examens scientifiques en crowdsourcing dans les domaines de la physique, de la biologie et de la chimie ; CommonCrawl, contenant les données de 22,000,000 milliards de pages Web ; et MovieLens, un ensemble de données contenant 580,000 33,000 240,000 notes et XNUMX XNUMX balises pour XNUMX XNUMX films par XNUMX XNUMX utilisateurs.
L'impressionnante base de données de Quantum Stat arrive à un moment où les chercheurs ont besoin d'ensembles de données plus vastes et plus diversifiés en raison des progrès de l'apprentissage en profondeur. En raison de la quantité massive de données contenues dans le langage humain, chaque ensemble de données unique le rend un peu plus facile à traiter. L'avancement de la PNL repose sur ces bases de données, et Quantum Stat a contribué à accélérer cet avancement en rassemblant autant d'ensembles de données dans un seul espace.
La PNL sera importante dans de nombreux aspects de la société. Il peut aider à prédire les maladies sur la base des dossiers de santé électroniques et du discours d'un patient, aider les entreprises à savoir ce que les clients disent d'un produit et identifier les fausses nouvelles dans un monde où elles sévissent.
La technologie progresse extrĂŞmement rapidement et il ne faudra pas longtemps avant qu'elle soit capable de s'attaquer Ă ces applications complexes.












