taló Quantum Stat publica "Big Bad PNL base de dades" - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Quantum Stat publica "Big Bad PNL Base de dades"

actualitzat on

Quantum Stat ha publicat el seu "Big Bad Base de dades de PNL” en el que suposa un gran pas endavant per al processament del llenguatge natural (PNL). La base de dades conté centenars de conjunts de dades diferents perquè els utilitzin els desenvolupadors d'aprenentatge automàtic. 

Segons l'empresa, proporcionen solucions a iniciatives de PNL i IA. Ho fan a través de serveis com el preprocessament per al desenvolupament d'aplicacions web, un enfocament polifacètic que inclou aprenentatge automàtic i xarxes neuronals profundes, xat i gestió de diàlegs i la seva nova base de dades de PNL. 

La companyia també realitza investigacions primàries i secundàries per ajudar les persones a analitzar els desenvolupaments dins de les indústries. 

Centre central de dades de PNL

La decisió de crear la base de dades, que és la biblioteca de dades més gran del món en processament de llenguatge natural, va sorgir de la necessitat d'un centre central per contenir dades de PNL. L'objectiu de l'empresa era fer-lo més accessible i cercable que l'alternativa, que sovint requereix que els investigadors cerquin a través de diverses biblioteques de tercers. 

L'empresa ha estat desenvolupant la base de dades durant unes setmanes; actualment tenen uns 200 conjunts de dades. Hi ha una varietat de conjunts de dades diferents, no només els clàssics. La companyia ha inclòs com CommonCrawl i Penn Treebank. 

Juntament amb una varietat de bases de dades diferents, vénen diferents tasques de PNL. N'hi ha que se centren en la classificació i la resposta a preguntes, però també hi ha conjunts de dades per a text-a-SQL, reconeixement de veu i multimodal. 

Quantum Stat vol que la base de dades sigui impulsada per la comunitat amb les contribucions dels usuaris. L'empresa ha obert les seves portes perquè qualsevol pugui enviar un nou conjunt de dades o recomanar canvis. 

Un altre objectiu és afegir conjunts de dades que diversifiquin l'idioma, allunyant-se de ser estrictament anglès. El seu objectiu és fer que la biblioteca sigui més global i accessible als altres. 

En entrar a la "Big Bad NLP Database", un usuari s'enfrontarà a un disseny net i organitzat. Es mostra el nom del conjunt de dades, seguit de l'idioma i una descripció detallada. També enumera les instàncies, el format, la tasca, l'any de creació i el creador. Cada base de dades té un enllaç de descàrrega a seguir. 

Bases de dades diverses

Es trobarà bases de dades com el conjunt de dades de les sèries horàries diàries de diaris històrics de diaris, que contenen continguts diaris de diaris dels EUA i del Regne Unit des de 1836 fins a 1922; Conjunt de dades SciQ, que conté 13,679 preguntes d'examen de ciència col·lectiu en els camps de la física, la biologia i la química; CommonCrawl, que conté les dades de 25 milions de pàgines web; i MovieLens, un conjunt de dades que conté 22,000,000 de puntuacions i 580,000 etiquetes per a 33,000 pel·lícules de 240,000 usuaris. 

La impressionant base de dades de Quantum Stat arriba en un moment en què els investigadors necessiten conjunts de dades més grans i diversos a causa dels avenços en l'aprenentatge profund. A causa de la gran quantitat de dades contingudes en el llenguatge humà, cada conjunt de dades únic fa que sigui una mica més fàcil de processar. L'avenç de la PNL es basa en aquestes bases de dades i Quantum Stat ha contribuït a accelerar aquest progrés reunint tants conjunts de dades en un sol espai. 

La PNL serà important en molts aspectes de la societat. Pot ajudar a predir malalties basant-se en els registres sanitaris electrònics i en el discurs d'un pacient, ajudar les empreses a esbrinar què diuen els clients sobre un producte i identificar notícies falses en un món on es desenvolupen. 

La tecnologia avança molt ràpidament i no passarà gaire abans que sigui capaç d'abordar aquestes aplicacions complexes. 

 

Alex McFarland és un periodista i escriptor d'IA que explora els últims desenvolupaments en intel·ligència artificial. Ha col·laborat amb nombroses startups i publicacions d'IA a tot el món.