ciot Quantum Stat lansează „Big Bad NLP Database” - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Quantum Stat lansează „Big Bad NLP Database”

Actualizat on

Quantum Stat și-a lansat „Big Bad NLP Database” în ceea ce este un mare pas înainte pentru procesarea limbajului natural (NLP). Baza de date conține sute de seturi de date diferite pe care să le utilizeze dezvoltatorii de învățare automată. 

Potrivit companiei, acestea oferă soluții pentru inițiativele NLP și AI. Ei fac acest lucru prin servicii precum preprocesarea pentru dezvoltarea de aplicații web, o abordare cu mai multe fațete care include învățarea automată și rețele neuronale profunde, chatbot și gestionarea dialogurilor și noua lor bază de date NLP. 

Compania efectuează, de asemenea, cercetări primare și secundare pentru a ajuta indivizii să analizeze evoluțiile din industrii. 

Hub central de date NLP

Decizia de a crea baza de date, care este cea mai mare bibliotecă de date din lume în procesarea limbajului natural, a venit din necesitatea unui hub central care să dețină datele NLP. Compania și-a propus să îl facă mai ușor accesibil și mai ușor de căutat decât alternativa, care necesită adesea cercetătorilor să caute prin mai multe biblioteci terțe. 

Compania a dezvoltat baza de date de câteva săptămâni; au în prezent aproximativ 200 de seturi de date. Există o varietate de seturi de date diferite, nu doar cele clasice. Compania le-a inclus pe cele precum CommonCrawl și Penn Treebank. 

Împreună cu o serie de baze de date diferite vin și sarcini diferite NLP. Există acelea care se concentrează pe clasificare și răspunsul la întrebări, dar există și seturi de date pentru text-to-SQL, recunoașterea vorbirii și multimodal. 

Quantum Stat dorește ca baza de date să fie condusă de comunitate, cu contribuții din partea utilizatorilor. Compania și-a deschis porțile pentru ca oricine să trimită un nou set de date sau să recomande modificări. 

Un alt accent este adăugarea de seturi de date care diversifică limba, îndepărtându-se de a fi strict engleză. Scopul lor este de a face biblioteca mai globală și mai accesibilă pentru ceilalți. 

La intrarea în „Big Bad NLP Database”, un utilizator se va confrunta cu un aspect curat și organizat. Este listat numele setului de date, urmat de limba și de o descriere detaliată. De asemenea, listează cazurile, formatul, sarcina, anul creat și creatorul. Fiecare bază de date are un link de descărcare de urmat. 

diverse baze de date

Se vor întâlni baze de date precum setul de date Historical Newspapers Daily World Time Series, care conține conținut zilnic al ziarelor din SUA și Marea Britanie din 1836 până în 1922; Setul de date SciQ, care conține 13,679 de întrebări de examen de știință crowdsourced în domeniile Fizică, Biologie și Chimie; CommonCrawl, care conține datele din 25 de miliarde de pagini web; și MovieLens, un set de date care conține 22,000,000 de evaluări și 580,000 de etichete pentru 33,000 de filme de la 240,000 de utilizatori. 

Baza de date impresionantă a lui Quantum Stat vine într-un moment în care cercetătorii au nevoie de seturi de date mai mari și mai diverse datorită progreselor în învățarea profundă. Datorită cantității masive de date conținute în limbajul uman, fiecare set de date unic îl face puțin mai ușor de procesat. Avansarea NLP se bazează pe aceste baze de date, iar Quantum Stat a contribuit la accelerarea acestei progrese prin adunarea atât de multe seturi de date într-un singur spațiu. 

NLP va fi important în multe aspecte ale societății. Poate ajuta la prezicerea bolilor pe baza fișelor medicale electronice și a discursului unui pacient, poate ajuta companiile să afle ce spun clienții despre un produs și să identifice știrile false într-o lume în care acestea sunt în desfășurare. 

Tehnologia avansează extrem de rapid și nu va trece mult până când va fi capabilă să abordeze aceste aplicații complexe. 

 

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.