Suivez nous sur

Quantum Stat publie la "Base de données Big Bad NLP"

Intelligence Artificielle

Quantum Stat publie la "Base de données Big Bad NLP"

mm

Quantum Stat a publiĂ© son "Base de donnĂ©es Big Bad NLP» dans ce qui constitue un grand pas en avant pour le traitement du langage naturel (NLP). La base de donnĂ©es contient des centaines d’ensembles de donnĂ©es diffĂ©rents que les dĂ©veloppeurs d’apprentissage automatique peuvent utiliser. 

Selon l'entreprise, ils fournissent des solutions aux initiatives de PNL et d'IA. Pour ce faire, ils utilisent des services tels que le prĂ©traitement du dĂ©veloppement d'applications Web, une approche Ă  multiples facettes qui inclut l'apprentissage automatique et les rĂ©seaux de neurones profonds, la gestion des chatbots et des dialogues, et leur nouvelle base de donnĂ©es NLP. 

La sociĂ©tĂ© mène Ă©galement des recherches primaires et secondaires pour aider les individus Ă  analyser les dĂ©veloppements au sein des industries. 

Hub central de données PNL

La dĂ©cision de crĂ©er la base de donnĂ©es, qui est la plus grande bibliothèque de donnĂ©es au monde dans le domaine du traitement du langage naturel, est nĂ©e du besoin d'un hub central pour stocker les donnĂ©es NLP. L'entreprise visait Ă  le rendre plus facilement accessible et consultable que l'alternative, qui oblige souvent les chercheurs Ă  effectuer des recherches dans plusieurs bibliothèques tierces. 

La sociĂ©tĂ© dĂ©veloppe la base de donnĂ©es depuis plusieurs semaines ; ils ont actuellement environ 200 ensembles de donnĂ©es. Il existe une variĂ©tĂ© d'ensembles de donnĂ©es diffĂ©rents, pas seulement les classiques. La sociĂ©tĂ© a inclus ceux tels que CommonCrawl et Penn Treebank. 

Outre une gamme de bases de donnĂ©es diffĂ©rentes, diffĂ©rentes tâches de PNL s'accompagnent. Il y a ceux qui se concentrent sur la classification et la rĂ©ponse aux questions, mais il existe Ă©galement des ensembles de donnĂ©es pour le texte en SQL, la reconnaissance vocale et le multimodal. 

Quantum Stat souhaite que la base de donnĂ©es soit axĂ©e sur la communautĂ© avec les contributions des utilisateurs. La sociĂ©tĂ© a ouvert ses portes Ă  quiconque peut envoyer un nouvel ensemble de donnĂ©es ou recommander des modifications. 

Un autre objectif est d'ajouter des ensembles de donnĂ©es qui diversifient la langue, s'Ă©loignant de l'anglais strict. Leur objectif est de rendre la bibliothèque plus globale et accessible aux autres. 

En entrant dans la «base de donnĂ©es Big Bad NLP», un utilisateur sera confrontĂ© Ă  une mise en page propre et organisĂ©e. Le nom de l'ensemble de donnĂ©es est rĂ©pertoriĂ©, suivi de la langue et d'une description dĂ©taillĂ©e. Il rĂ©pertorie Ă©galement les instances, le format, la tâche, l'annĂ©e de crĂ©ation et le crĂ©ateur. Chaque base de donnĂ©es a un lien de tĂ©lĂ©chargement Ă  suivre. 

Diverses bases de données

On rencontrera des bases de donnĂ©es telles que l'ensemble de donnĂ©es Historical Newspapers Daily World Time Series, contenant le contenu quotidien des journaux aux États-Unis et au Royaume-Uni de 1836 Ă  1922 ; SciQ Dataset, contenant 13,679 25 questions d'examens scientifiques en crowdsourcing dans les domaines de la physique, de la biologie et de la chimie ; CommonCrawl, contenant les donnĂ©es de 22,000,000 milliards de pages Web ; et MovieLens, un ensemble de donnĂ©es contenant 580,000 33,000 240,000 notes et XNUMX XNUMX balises pour XNUMX XNUMX films par XNUMX XNUMX utilisateurs. 

L'impressionnante base de donnĂ©es de Quantum Stat arrive Ă  un moment oĂą les chercheurs ont besoin d'ensembles de donnĂ©es plus vastes et plus diversifiĂ©s en raison des progrès de l'apprentissage en profondeur. En raison de la quantitĂ© massive de donnĂ©es contenues dans le langage humain, chaque ensemble de donnĂ©es unique le rend un peu plus facile Ă  traiter. L'avancement de la PNL repose sur ces bases de donnĂ©es, et Quantum Stat a contribuĂ© Ă  accĂ©lĂ©rer cet avancement en rassemblant autant d'ensembles de donnĂ©es dans un seul espace. 

La PNL sera importante dans de nombreux aspects de la sociĂ©tĂ©. Il peut aider Ă  prĂ©dire les maladies sur la base des dossiers de santĂ© Ă©lectroniques et du discours d'un patient, aider les entreprises Ă  savoir ce que les clients disent d'un produit et identifier les fausses nouvelles dans un monde oĂą elles sĂ©vissent. 

La technologie progresse extrĂŞmement rapidement et il ne faudra pas longtemps avant qu'elle soit capable de s'attaquer Ă  ces applications complexes. 

 

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.