Artificiell intelligens
Quantum Stat slÀpper "Big Bad NLP Database"

Quantum Stat har slĂ€ppt sin "Big Bad NLP Databaseâ i vad som Ă€r ett stort steg framĂ„t för naturlig sprĂ„kbehandling (NLP). Databasen innehĂ„ller hundratals olika datauppsĂ€ttningar för maskininlĂ€rningsutvecklare att anvĂ€nda.
Enligt företaget tillhandahÄller de lösningar till NLP- och AI-initiativ. De gör detta genom tjÀnster som förbearbetning till webbappsutveckling, ett mÄngfacetterat tillvÀgagÄngssÀtt som inkluderar maskininlÀrning och djupa neurala nÀtverk, chatbot och dialoghantering, och deras nya NLP-databas.
Företaget bedriver Àven primÀr och sekundÀr forskning för att hjÀlpa individer att analysera utvecklingen inom branscherna.
Centralt nav för NLP-data
Beslutet att skapa databasen, som Àr vÀrldens största databibliotek inom bearbetning av naturligt sprÄk, kom ur behovet av ett centralt nav för att hÄlla NLP-data. Företaget strÀvade efter att göra det mer lÀttillgÀngligt och sökbart Àn alternativet, vilket ofta krÀver att forskare söker igenom flera tredjepartsbibliotek.
Företaget har utvecklat databasen under ett antal veckor; de har för nÀrvarande cirka 200 dataset. Det finns en mÀngd olika datauppsÀttningar, inte bara klassikerna. Företaget har inkluderat sÄdana som CommonCrawl och Penn Treebank.
Tillsammans med en rad olika databaser kommer olika NLP-uppgifter. Det finns de som fokuserar pÄ klassificering och frÄgesvar, men det finns ocksÄ datauppsÀttningar för text-till-SQL, taligenkÀnning och multimodal.
Quantum Stat vill att databasen ska vara community-driven med bidrag frÄn anvÀndare. Företaget har öppnat sina dörrar för vem som helst att skicka en ny datauppsÀttning eller rekommendera Àndringar.
Ett annat fokus Àr att lÀgga till datauppsÀttningar som diversifierar sprÄket och gÄr bort frÄn att vara strikt engelska. Deras mÄl Àr att göra biblioteket mer globalt och tillgÀngligt för andra.
NÀr en anvÀndare gÄr in i "Big Bad NLP Database" kommer en anvÀndare att konfronteras med en ren och organiserad layout. Namnet pÄ datasetet listas, följt av sprÄket och en detaljerad beskrivning. Den listar ocksÄ instanser, format, uppgift, skapat Är och skaparen. Varje databas har en nedladdningslÀnk att följa.
Olika databaser
Man kommer att stöta pÄ databaser som Historical Newspapers Daily World Time Series dataset, som innehÄller dagligt innehÄll i tidningar i USA och Storbritannien frÄn 1836 till 1922; SciQ Dataset, som innehÄller 13,679 25 crowdsourcede vetenskapliga examensfrÄgor inom omrÄdena fysik, biologi och kemi; CommonCrawl, som innehÄller data frÄn 22,000,000 miljarder webbsidor; och MovieLens, en datauppsÀttning som innehÄller 580,000 33,000 240,000 betyg och XNUMX XNUMX taggar för XNUMX XNUMX filmer av XNUMX XNUMX anvÀndare.
Quantum Stats imponerande databas kommer vid en tidpunkt dÄ forskare krÀver större och mer varierande datamÀngder pÄ grund av framsteg inom djupinlÀrning. PÄ grund av den enorma mÀngden data som finns i mÀnskligt sprÄk, gör varje unik datauppsÀttning det lite lÀttare att bearbeta. Utvecklingen av NLP Àr beroende av dessa databaser, och Quantum Stat har bidragit till att snabba upp den utvecklingen genom att samla sÄ mÄnga datamÀngder i ett utrymme.
NLP kommer att vara viktigt i mÄnga aspekter av samhÀllet. Det kan hjÀlpa till att förutsÀga sjukdomar baserat pÄ elektroniska journaler och en patients tal, hjÀlpa företag att ta reda pÄ vad kunder sÀger om en produkt och identifiera falska nyheter i en vÀrld dÀr den frodas.
Tekniken gÄr extremt snabbt framÄt och det kommer inte att dröja lÀnge innan den kan hantera dessa komplexa tillÀmpningar.