Seguici sui social

Intelligenza Artificiale

Quantum Stat pubblica il "Big Bad Database NLP"

mm

Quantum Stat ha pubblicato il loro “Big Bad Database PNL” in quello che rappresenta un grande passo avanti per l’elaborazione del linguaggio naturale (PNL). Il database contiene centinaia di set di dati diversi che gli sviluppatori di machine learning possono utilizzare. 

Secondo l'azienda, forniscono soluzioni alle iniziative di PNL e intelligenza artificiale. Lo fanno attraverso servizi come la pre-elaborazione per lo sviluppo di app Web, un approccio sfaccettato che include l'apprendimento automatico e reti neurali profonde, chatbot e gestione dei dialoghi e il loro nuovo database NLP. 

L'azienda conduce anche ricerche primarie e secondarie per aiutare le persone ad analizzare gli sviluppi all'interno delle industrie. 

Hub centrale dei dati PNL

La decisione di creare il database, che è la piĂą grande libreria di dati al mondo nell'elaborazione del linguaggio naturale, è nata dalla necessitĂ  di un hub centrale per conservare i dati NLP. L'azienda mirava a renderlo piĂą facilmente accessibile e ricercabile rispetto all'alternativa, che spesso richiede ai ricercatori di cercare in piĂą biblioteche di terze parti. 

L'azienda ha sviluppato il database per diverse settimane; attualmente hanno circa 200 set di dati. Esistono diversi set di dati, non solo i classici. La societĂ  ha incluso quelli come CommonCrawl e Penn Treebank. 

Insieme a una gamma di database diversi, arrivano diverse attivitĂ  di PNL. Ci sono quelli che si concentrano sulla classificazione e sulla risposta alle domande, ma ci sono anche set di dati per text-to-SQL, riconoscimento vocale e multimodale. 

Quantum Stat vuole che il database sia guidato dalla comunitĂ  con i contributi degli utenti. L'azienda ha aperto le sue porte a chiunque possa inviare un nuovo set di dati o raccomandare modifiche. 

Un altro obiettivo è aggiungere set di dati che diversifichino la lingua, allontanandosi dall'essere strettamente inglese. Il loro obiettivo è rendere la biblioteca piĂą globale e accessibile agli altri. 

Entrando nel "Big Bad NLP Database", un utente si troverĂ  di fronte a un layout pulito e organizzato. Viene elencato il nome del set di dati, seguito dalla lingua e da una descrizione dettagliata. Elenca anche le istanze, il formato, l'attivitĂ , l'anno di creazione e il creatore. Ogni database ha un collegamento per il download da seguire. 

Vari database

Uno incontrerĂ  database come il set di dati Historical Newspapers Daily World Time Series, contenente contenuti quotidiani di giornali negli Stati Uniti e nel Regno Unito dal 1836 al 1922; SciQ Dataset, contenente 13,679 domande d'esame di scienze in crowdsourcing nei campi della fisica, della biologia e della chimica; CommonCrawl, contenente i dati di 25 miliardi di pagine web; e MovieLens, un set di dati contenente 22,000,000 di valutazioni e 580,000 tag per 33,000 film di 240,000 utenti. 

L'impressionante database di Quantum Stat arriva in un momento in cui i ricercatori richiedono set di dati piĂą grandi e diversificati a causa dei progressi nel deep learning. A causa dell'enorme quantitĂ  di dati contenuti nel linguaggio umano, ogni set di dati unico rende un po' piĂą facile l'elaborazione. Il progresso della PNL si basa su questi database e Quantum Stat ha contribuito ad accelerare tale progresso raccogliendo così tanti set di dati in un unico spazio. 

La PNL sarĂ  importante in molti aspetti della societĂ . Può aiutare a prevedere le malattie sulla base delle cartelle cliniche elettroniche e del discorso di un paziente, aiutare le aziende a scoprire cosa dicono i clienti su un prodotto e identificare notizie false in un mondo in cui dilaga. 

La tecnologia sta avanzando molto rapidamente e non passerĂ  molto tempo prima che sia in grado di affrontare queste complesse applicazioni. 

 

Alex McFarland è un giornalista e scrittore specializzato in intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup e pubblicazioni di intelligenza artificiale in tutto il mondo.