talón Quantum Stat lanza "Big Bad NLP Database" - Unite.AI
Contáctanos

Inteligencia artificial

Quantum Stat lanza la "base de datos Big Bad NLP"

Actualizado on

Quantum Stat ha lanzado su “Base de datos de PNL Big Bad”en lo que supone un gran paso adelante para el procesamiento del lenguaje natural (PNL). La base de datos contiene cientos de conjuntos de datos diferentes para que los utilicen los desarrolladores de aprendizaje automático. 

Según la compañía, brindan soluciones a las iniciativas de NLP e IA. Lo hacen a través de servicios como el preprocesamiento para el desarrollo de aplicaciones web, un enfoque multifacético que incluye aprendizaje automático y redes neuronales profundas, chatbot y gestión de diálogos, y su nueva base de datos de NLP. 

La empresa también realiza investigaciones primarias y secundarias para ayudar a las personas a analizar los desarrollos dentro de las industrias. 

Hub central de datos de PNL

La decisión de crear la base de datos, que es la biblioteca de datos más grande del mundo en procesamiento de lenguaje natural, surgió de la necesidad de un centro central para almacenar datos de NLP. La empresa pretendía que fuera más fácil de acceder y buscar que la alternativa, que a menudo requiere que los investigadores busquen en múltiples bibliotecas de terceros. 

La empresa ha estado desarrollando la base de datos durante varias semanas; actualmente tienen alrededor de 200 conjuntos de datos. Hay una variedad de conjuntos de datos diferentes, no solo los clásicos. La compañía ha incluido aquellos como CommonCrawl y Penn Treebank. 

Junto con una gama de diferentes bases de datos, vienen diferentes tareas de PNL. Hay aquellos que se enfocan en clasificar y responder preguntas, pero también hay conjuntos de datos para texto a SQL, reconocimiento de voz y multimodal. 

Quantum Stat quiere que la base de datos sea impulsada por la comunidad con contribuciones de los usuarios. La empresa ha abierto sus puertas para que cualquiera pueda enviar un nuevo conjunto de datos o recomendar cambios. 

Otro enfoque es agregar conjuntos de datos que diversifiquen el idioma, alejándose de ser estrictamente inglés. Su objetivo es hacer que la biblioteca sea más global y accesible para los demás. 

Al ingresar a la "Base de datos Big Bad NLP", el usuario se enfrentará a un diseño limpio y organizado. Se enumera el nombre del conjunto de datos, seguido del idioma y una descripción detallada. También enumera las instancias, el formato, la tarea, el año de creación y el creador. Cada base de datos tiene un enlace de descarga a seguir. 

Varias bases de datos

Uno encontrará bases de datos como el conjunto de datos de la Serie de Tiempo Mundial Diario de Periódicos Históricos, que contiene contenidos diarios de periódicos en los EE. UU. y el Reino Unido desde 1836 hasta 1922; SciQ Dataset, que contiene 13,679 25 preguntas de exámenes de ciencia de colaboración colectiva en los campos de física, biología y química; CommonCrawl, que contiene los datos de 22,000,000 mil millones de páginas web; y MovieLens, un conjunto de datos que contiene 580,000 33,000 240,000 de calificaciones y XNUMX XNUMX etiquetas para XNUMX XNUMX películas de XNUMX XNUMX usuarios. 

La impresionante base de datos de Quantum Stat llega en un momento en que los investigadores requieren conjuntos de datos más grandes y diversos debido a los avances en el aprendizaje profundo. Debido a la gran cantidad de datos contenidos en el lenguaje humano, cada conjunto de datos único hace que sea un poco más fácil de procesar. El avance de la PNL se basa en estas bases de datos, y Quantum Stat ha contribuido a acelerar ese avance al reunir tantos conjuntos de datos en un solo espacio. 

La PNL será importante en muchos aspectos de la sociedad. Puede ayudar a predecir enfermedades en función de los registros de salud electrónicos y el habla de un paciente, ayudar a las empresas a descubrir lo que dicen los clientes sobre un producto e identificar noticias falsas en un mundo donde corre desenfrenado. 

La tecnología avanza extremadamente rápido y no pasará mucho tiempo antes de que sea capaz de abordar estas aplicaciones complejas. 

 

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.